您的位置: 首頁(yè) >科技 >

谷歌為ai生成的音頻和視頻質(zhì)量引入了新的度量標(biāo)準(zhǔn)

2022-08-24 13:46:31 編輯:熊雄靈 來(lái)源:
導(dǎo)讀 谷歌AI研究人員發(fā)表了兩項(xiàng)新的衡量深度學(xué)習(xí)網(wǎng)絡(luò)產(chǎn)生的音頻和視頻質(zhì)量的指標(biāo),即Frechet音頻距離(FAD)和Frechet視頻距離(FVD)。這些指標(biāo)...
谷歌AI研究人員發(fā)表了兩項(xiàng)新的衡量深度學(xué)習(xí)網(wǎng)絡(luò)產(chǎn)生的音頻和視頻質(zhì)量的指標(biāo),即Frechet音頻距離(FAD)和Frechet視頻距離(FVD)。這些指標(biāo)已被證明與人類(lèi)對(duì)質(zhì)量的評(píng)價(jià)有很高的相關(guān)性。

  在最近的一篇博客文章中,軟件工程師凱文·基爾古爾(Kevin Kilgour)和托馬斯·尤特西納(Thomas Unterthiner)描述了他們團(tuán)隊(duì)所做的工作,這項(xiàng)工作建立在先前測(cè)量神經(jīng)網(wǎng)絡(luò)生成的圖像質(zhì)量的研究的基礎(chǔ)上。這些團(tuán)隊(duì)分別展示了他們的新度量如何檢測(cè)添加到聲音或視頻中的噪聲,以及他們的度量如何通過(guò)人類(lèi)對(duì)聲音或視頻質(zhì)量的評(píng)估來(lái)跟蹤。通過(guò)對(duì)失真音頻樣本的排序來(lái)評(píng)估FAD,其選擇與人類(lèi)評(píng)委的相關(guān)性為0.39。通過(guò)對(duì)由深度學(xué)習(xí)模型生成的視頻對(duì)進(jìn)行排名,對(duì)FVD進(jìn)行了類(lèi)似的評(píng)估;它與60%到80%之間的人類(lèi)排名一致,這取決于所使用的生成標(biāo)準(zhǔn)。

  深度學(xué)習(xí)模型的成功在一定程度上是由Image Net等大型高質(zhì)量數(shù)據(jù)集的可用性驅(qū)動(dòng)的。這些數(shù)據(jù)集還提供了一個(gè)“基本真相”,可以據(jù)此對(duì)模型進(jìn)行評(píng)估。最近流行的深度學(xué)習(xí)生成新圖像的應(yīng)用提出了一個(gè)新的問(wèn)題:如何測(cè)量輸出的質(zhì)量?不能采用信噪比或均方誤差等通用指標(biāo),因?yàn)檫@些網(wǎng)絡(luò)生成的圖像或其他數(shù)據(jù)沒(méi)有“地面真相”答案。

  由于目標(biāo)是創(chuàng)建對(duì)人類(lèi)來(lái)說(shuō)看起來(lái)或聽(tīng)起來(lái)真實(shí)的輸出,數(shù)據(jù)可以由人類(lèi)評(píng)委打分,但這既不可伸縮,也不一定客觀。Gans的發(fā)明者提出的最初度量標(biāo)準(zhǔn)是Inception評(píng)分(IS)。該度量是通過(guò)將預(yù)先訓(xùn)練的Inception圖像分類(lèi)器應(yīng)用于圖像和計(jì)算結(jié)果統(tǒng)計(jì)來(lái)計(jì)算的。這一度量指標(biāo)“與用于訓(xùn)練生成模型的目標(biāo)密切相關(guān)”,并被證明與人類(lèi)對(duì)質(zhì)量的判斷密切相關(guān)。

  然而,Inception評(píng)分標(biāo)準(zhǔn)確實(shí)有一些缺點(diǎn);特別是,它對(duì)所使用的底層Inception模型的變化很敏感。奧地利約翰內(nèi)斯·開(kāi)普勒大學(xué)LIT人工智能實(shí)驗(yàn)室的Unterthier和其他人開(kāi)發(fā)了Frechet初始距離(FID)。而不是使用Inception模型的分類(lèi)輸出,F(xiàn)ID使用Inception模型的隱藏層來(lái)計(jì)算輸入圖像的嵌入。為一組生成的圖像和一組真實(shí)世界(或基線)圖像計(jì)算嵌入。所得到的數(shù)據(jù)集被視為由多元高斯分布生成的數(shù)據(jù),并使用Frechet距離對(duì)兩個(gè)分布進(jìn)行比較。與IS相比,F(xiàn)ID的一個(gè)優(yōu)點(diǎn)是隨著噪聲被添加到圖像中,F(xiàn)ID會(huì)增加,而IS可以保持平坦,甚至減少。

?

  谷歌的新指標(biāo)擴(kuò)展了計(jì)算生成數(shù)據(jù)的嵌入,并將統(tǒng)計(jì)數(shù)據(jù)與基線數(shù)據(jù)進(jìn)行比較的想法。對(duì)于FAD,團(tuán)隊(duì)使用VGGish來(lái)計(jì)算嵌入,對(duì)于FVD,一個(gè)充氣的3D Convnet。為了驗(yàn)證其度量的有用性,研究人員計(jì)算了通過(guò)在基線中添加噪聲而創(chuàng)建的數(shù)據(jù)集的度量值;期望是隨著噪聲的增加,分?jǐn)?shù)會(huì)增加,這確實(shí)發(fā)生了。該小組還將他們的度量結(jié)果與人類(lèi)評(píng)價(jià)進(jìn)行了比較,發(fā)現(xiàn)他們的度量與人類(lèi)判斷之間的相關(guān)性,并且他們的新度量與人類(lèi)法官的一致性比其他常用的度量更強(qiáng)。


免責(zé)聲明:本文由用戶(hù)上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。