您的位置: 首頁 >科技 >

谷歌利用WaveNet模型的收益 聽起來更自然

2019-06-24 17:58:57 編輯: 來源:
導讀 DeepMind的人工智能人才一直致力于消費產(chǎn)品的功能。Business Insider UK高級技術記者Sam Shead 表示,谷歌應用DeepMind開發(fā)的軟件用于

DeepMind的人工智能人才一直致力于消費產(chǎn)品的功能。Business Insider UK高級技術記者Sam Shead 表示,谷歌應用DeepMind開發(fā)的軟件用于其虛擬助手。

根據(jù)周三發(fā)布的博客文章,人工智能公司DeepMind有一個適用于美國英語和日語的WaveNet系統(tǒng)版本。他們說,“我們很自豪地宣布,WaveNet的更新版本正用于在所有平臺上為美國英語和日語生成Google Assistant語音。”

“谷歌將DeepMind的技術集成到其產(chǎn)品中的速度很慢,迄今為止只宣布了一個數(shù)據(jù)中心效率項目,盡管在全球范圍內(nèi),”Shead說。“現(xiàn)在該公司的WaveNet神經(jīng)網(wǎng)絡正被用于為美國英語和日語生成Google Assistant語音。”

Google智能助理是由谷歌開發(fā)的虛擬個人助理。

Pocket-lint將Google 智能助理稱為語音控制智能助手。“它被認為是Google Now的升級版或擴展版 - 專為個人而設計 - 同時擴展了Google現(xiàn)有的'OK Google'語音控件。”

DeepMind博客文章來自研究科學家Tom Walters的研究科學家Aäronvanden Oord和谷歌語音軟件工程師Trevor Strohman。

他們談論的更新是由DeepMind WaveNet研究和工程團隊以及Google Text-to-Speech團隊完成的。

就在一年多以前,WaveNet被提出,一個深度神經(jīng)網(wǎng)絡生成原始音頻波形并能夠產(chǎn)生語音。

它們是如何構(gòu)建的:卷積神經(jīng)網(wǎng)絡在大量語音樣本數(shù)據(jù)集上進行訓練。與現(xiàn)有技術相比,目標是更自然的演講。在他們的原始論文中,他們說“從頭開始創(chuàng)建單獨的波形,一次創(chuàng)建一個樣本,每秒16,000個樣本,并在各個聲音之間進行無縫過渡。”

正如博客作者所說,“WaveNet顯示出了希望,但不是我們可以在現(xiàn)實世界中部署的東西。” 對于消費品而言,它“計算量太大”。團隊忙于改進模型。他們表示,它現(xiàn)在可以“大規(guī)模運行,是第一款在谷歌最新的TPU云基礎設施上推出的產(chǎn)品。”

主要收益:

“新改進的WaveNet模型仍然可以生成原始波形,但速度比原始模型快1000倍,這意味著只需50毫秒即可創(chuàng)建一秒鐘的語音。”

ExtremeTech的瑞恩·惠特瓦姆(Ryan Whitwam)表示:“DeepMind很快將承諾提供一份完整的論文,詳細說明如何實現(xiàn)這一目標。”

他們在博客上寫道,根據(jù)人類聽眾的測試,結(jié)果更自然。

Whitwam上周五表示:“發(fā)布時助手使用的語音模式并不差,但谷歌剛剛推出了英語和日語的大幅改進版本。”

該博客有一些有趣的摘要,說明該技術的發(fā)展程度。

至于當前的文本到語音系統(tǒng),他們注意到拼接TTS不僅會產(chǎn)生不自然的聲音,而且很難修改這些系統(tǒng):每次有轉(zhuǎn)變時都需要記錄新的數(shù)據(jù)庫,例如新的情緒或語調(diào)。

為了克服其中一些問題,他們說有時會使用替代模型,即參數(shù)化TTS。這種方法使用關于嘴部運動和語法的規(guī)則和參數(shù)來傳遞聲音,這些聲音聽起來并不完全自然。

有WaveNet。

那么,DeepMind,下一步是什么?他們說這只是WaveNet的開始。他們表示,他們對“語音接口的強大功能現(xiàn)在可以解鎖所有世界語言”的可能性感到興奮。


免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。