微軟人工智能 VALL-E 只需 3 秒即可模仿任何人的聲音

2023-01-13 14:40:14 編輯：壽平霄來源：

導(dǎo)讀微軟展示了可以模仿任何人類聲音的人工智能。它被稱為VALL-E，就像之前的DALL-E算法一樣。如果您知道，后者會根據(jù)文本創(chuàng)建圖像。VALL-E 可

微軟展示了可以模仿任何人類聲音的人工智能。它被稱為VALL-E，就像之前的DALL-E算法一樣。如果您知道，后者會根據(jù)文本創(chuàng)建圖像。

VALL-E 可以在短短三秒鐘內(nèi)通過聆聽真人的聲音來模仿音色和說話方式。雖然聽起來有點像機器人的聲音，但效果還是很不錯的。

微軟稱其為“神經(jīng)編解碼器語言模型”。VALL-E 是在 EnCodec(一種使用機器學(xué)習(xí)技術(shù)的音頻編解碼器)的基礎(chǔ)上構(gòu)建的，該編解碼器由Meta一年前于 2022 年開發(fā)。

其他文本轉(zhuǎn)語音方法考慮了波形。但是 VALL-E 從文本和音頻中生成單獨的音頻編解碼器。實際上，它分析了一個人的聲音。然后，它通過 EnCodec 將該信息分解為單獨的部分(稱為“令牌”)。最后，它使用訓(xùn)練數(shù)據(jù)來匹配它“知道”的內(nèi)容，即如果它說出三秒樣本之外的其他短語，該聲音的發(fā)音會如何。

VALL-E 是使用特殊圖書館教授的。后者包含來自 7,000 多人的 60,000 小時英語演講。開發(fā)人員建議該方法可用于高質(zhì)量的文本到語音應(yīng)用程序。例如，您可以使用它來編輯允許更改人類單詞的語音記錄。因此，您可以創(chuàng)建音頻內(nèi)容(例如有聲讀物的畫外音)等。

當然，這樣的技術(shù)也會帶來一定的危險。遲早，“獨眼”用戶會將其變成勒索工具。比如說，他們可以使用人工智能來證明名人說過一些他們沒有說過的話。視頻格式的 deepfakes已經(jīng)有這樣的案例。

標簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！