您的位置: 首頁 >互聯(lián)網(wǎng) >

亞馬遜的AI使用麥克風(fēng)陣列來定位房間中的多個揚聲器

2022-07-18 11:07:21 編輯:上官菁飄 來源:
導(dǎo)讀 在預(yù)定于下個月在國際聲學(xué),語音和信號處理國際會議(ICASSP)上發(fā)表的技術(shù)論文中,一組亞馬遜研究人員提出了一種AI驅(qū)動的方法來進(jìn)行多源...

在預(yù)定于下個月在國際聲學(xué),語音和信號處理國際會議(ICASSP)上發(fā)表的技術(shù)論文中,一組亞馬遜研究人員提出了一種AI驅(qū)動的方法來進(jìn)行多源本地化,或者是估計聲音質(zhì)量的問題。使用麥克風(fēng)音頻定位。他們說,在涉及真實和模擬數(shù)據(jù)(前者來自AV16.3語料庫)和多達(dá)三個同時活動的聲源的實驗中,與最新的信號相比,該方法顯示出將近15%的改進(jìn),處理模型。

解決多源本地化問題是開發(fā)足夠強大的智能揚聲器,智能顯示器甚至視頻會議軟件的必不可少的步驟。這是因為它是波束賦形的核心,它是一種將信號(在這種情況下為聲音)聚焦到接收設(shè)備(麥克風(fēng))的技術(shù)。亞馬遜自己的Echo系列產(chǎn)品利用波束賦形來提高語音識別的準(zhǔn)確性,谷歌的Nest Hub和蘋果的HomePod也是如此。

朝向麥克風(fēng)陣列傳播的聲音將在不同的時間到達(dá)每個麥克風(fēng),這種現(xiàn)象可被用來查明聲源的位置。對于單個聲源,計算相對簡單,但是對于多個聲源,計算卻成倍地復(fù)雜。

已經(jīng)提出了針對多源本地化問題的各種AI和機器學(xué)習(xí)解決方案,但其中許多都有局限性。

當(dāng)可能的聲音數(shù)量超過模型輸出的數(shù)量時,可能會懷疑哪個聲音對應(yīng)哪個輸出。例如,如果模型學(xué)習(xí)將一組坐標(biāo)與一個說話者關(guān)聯(lián),并將另一組坐標(biāo)與兩個其他說話者關(guān)聯(lián),則不清楚當(dāng)另外兩個說話者同時講話時哪個輸出與哪個說話者關(guān)聯(lián)。一種解決方案是將麥克風(fēng)陣列周圍的空間表示為3D網(wǎng)格,從而在給定一組輸入信號的情況下,使模型能夠輸出一種聲音源自每個網(wǎng)格點的概率。但這具有主要缺點,其中主要的困難在于本地化離網(wǎng)資源,創(chuàng)建包含每個點的所有聲音組合的語料庫以及提高超出網(wǎng)格分辨率的準(zhǔn)確性的困難。

亞馬遜團隊的模型首先將聲音定位到粗略定義的區(qū)域,然后將聲音精確地定位在這些區(qū)域內(nèi)。如果它包含至少一個源,則認(rèn)為該區(qū)域處于活動狀態(tài),并且假定在任何活動區(qū)域中最多可以有一個活動源。因為每個粗略區(qū)域在模型的輸出層中都有一組指定的節(jié)點,所以對于給定區(qū)域中的哪個聲源與位置估計相關(guān)聯(lián)不會有任何歧義。

對于每個區(qū)域,模型都會計算該區(qū)域包含一個源的概率,以及源與麥克風(fēng)陣列中心之間的距離以及源相對于陣列的角度。它從麥克風(fēng)中攝取多通道原始音頻,并輸出上述三個量,從而是端到端的—該模型處理原始音頻,從而避免了預(yù)處理或后處理的需要。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。