2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號:
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)
微軟展示了可以模仿任何人類聲音的人工智能。它被稱為VALL-E,就像之前的DALL-E算法一樣。如果您知道,后者會根據(jù)文本創(chuàng)建圖像。
VALL-E 可以在短短三秒鐘內(nèi)通過聆聽真人的聲音來模仿音色和說話方式。雖然聽起來有點像機器人的聲音,但效果還是很不錯的。
微軟稱其為“神經(jīng)編解碼器語言模型”。VALL-E 是在 EnCodec(一種使用機器學(xué)習(xí)技術(shù)的音頻編解碼器)的基礎(chǔ)上構(gòu)建的,該編解碼器由Meta一年前于 2022 年開發(fā)。
其他文本轉(zhuǎn)語音方法考慮了波形。但是 VALL-E 從文本和音頻中生成單獨的音頻編解碼器。實際上,它分析了一個人的聲音。然后,它通過 EnCodec 將該信息分解為單獨的部分(稱為“令牌”)。最后,它使用訓(xùn)練數(shù)據(jù)來匹配它“知道”的內(nèi)容,即如果它說出三秒樣本之外的其他短語,該聲音的發(fā)音會如何。
VALL-E 是使用特殊圖書館教授的。后者包含來自 7,000 多人的 60,000 小時英語演講。開發(fā)人員建議該方法可用于高質(zhì)量的文本到語音應(yīng)用程序。例如,您可以使用它來編輯允許更改人類單詞的語音記錄。因此,您可以創(chuàng)建音頻內(nèi)容(例如有聲讀物的畫外音)等。
當然,這樣的技術(shù)也會帶來一定的危險。遲早,“獨眼”用戶會將其變成勒索工具。比如說,他們可以使用人工智能來證明名人說過一些他們沒有說過的話。視頻格式的 deepfakes已經(jīng)有這樣的案例。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號:
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)