谷歌為ai生成的音頻和視頻質量引入了新的度量標準

2022-08-24 13:46:31 編輯：熊雄靈來源：

導讀谷歌AI研究人員發(fā)表了兩項新的衡量深度學習網(wǎng)絡產(chǎn)生的音頻和視頻質量的指標，即Frechet音頻距離（FAD）和Frechet視頻距離（FVD）。這些指標...

谷歌AI研究人員發(fā)表了兩項新的衡量深度學習網(wǎng)絡產(chǎn)生的音頻和視頻質量的指標，即Frechet音頻距離（FAD）和Frechet視頻距離（FVD）。這些指標已被證明與人類對質量的評價有很高的相關性。

　　在最近的一篇博客文章中，軟件工程師凱文·基爾古爾（Kevin Kilgour）和托馬斯·尤特西納（Thomas Unterthiner）描述了他們團隊所做的工作，這項工作建立在先前測量神經(jīng)網(wǎng)絡生成的圖像質量的研究的基礎上。這些團隊分別展示了他們的新度量如何檢測添加到聲音或視頻中的噪聲，以及他們的度量如何通過人類對聲音或視頻質量的評估來跟蹤。通過對失真音頻樣本的排序來評估FAD，其選擇與人類評委的相關性為0.39。通過對由深度學習模型生成的視頻對進行排名，對FVD進行了類似的評估；它與60%到80%之間的人類排名一致，這取決于所使用的生成標準。

　　深度學習模型的成功在一定程度上是由Image Net等大型高質量數(shù)據(jù)集的可用性驅動的。這些數(shù)據(jù)集還提供了一個“基本真相”，可以據(jù)此對模型進行評估。最近流行的深度學習生成新圖像的應用提出了一個新的問題：如何測量輸出的質量？不能采用信噪比或均方誤差等通用指標，因為這些網(wǎng)絡生成的圖像或其他數(shù)據(jù)沒有“地面真相”答案。

　　由于目標是創(chuàng)建對人類來說看起來或聽起來真實的輸出，數(shù)據(jù)可以由人類評委打分，但這既不可伸縮，也不一定客觀。Gans的發(fā)明者提出的最初度量標準是Inception評分（IS）。該度量是通過將預先訓練的Inception圖像分類器應用于圖像和計算結果統(tǒng)計來計算的。這一度量指標“與用于訓練生成模型的目標密切相關”，并被證明與人類對質量的判斷密切相關。

　　然而，Inception評分標準確實有一些缺點；特別是，它對所使用的底層Inception模型的變化很敏感。奧地利約翰內(nèi)斯·開普勒大學LIT人工智能實驗室的Unterthier和其他人開發(fā)了Frechet初始距離（FID）。而不是使用Inception模型的分類輸出，F(xiàn)ID使用Inception模型的隱藏層來計算輸入圖像的嵌入。為一組生成的圖像和一組真實世界（或基線）圖像計算嵌入。所得到的數(shù)據(jù)集被視為由多元高斯分布生成的數(shù)據(jù)，并使用Frechet距離對兩個分布進行比較。與IS相比，F(xiàn)ID的一個優(yōu)點是隨著噪聲被添加到圖像中，F(xiàn)ID會增加，而IS可以保持平坦，甚至減少。

　　谷歌的新指標擴展了計算生成數(shù)據(jù)的嵌入，并將統(tǒng)計數(shù)據(jù)與基線數(shù)據(jù)進行比較的想法。對于FAD，團隊使用VGGish來計算嵌入，對于FVD，一個充氣的3D Convnet。為了驗證其度量的有用性，研究人員計算了通過在基線中添加噪聲而創(chuàng)建的數(shù)據(jù)集的度量值；期望是隨著噪聲的增加，分數(shù)會增加，這確實發(fā)生了。該小組還將他們的度量結果與人類評價進行了比較，發(fā)現(xiàn)他們的度量與人類判斷之間的相關性，并且他們的新度量與人類法官的一致性比其他常用的度量更強。

標簽：

免責聲明：本文由用戶上傳，如有侵權請聯(lián)系刪除！