2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。
直到今天,一篇非常有趣的技術文章還是在 10月1日發(fā)表在Apple的《機器學習期刊》博客上。在其中,蘋果詳細說明了不受限制的“嘿Siri”功能如何利用硬件,軟件和iCloud的功能讓客戶免提使用助手。該系統(tǒng)將基于云的語音識別,自然語言解釋和其他服務與硬件輔助的設備上處理相結合。iOS設備始終運行“非常小的語音識別器”,僅聽“ Hey Siri”短語。
iPhone或Apple Watch中的麥克風每秒記錄16,000個瞬時波形樣本流。這就是為什么這樣做不會給您的iPhone電池增加太多負擔或壟斷RAM和CPU等其他系統(tǒng)資源的原因:
為了避免整日運行主處理器只是為了聽觸發(fā)短語,iPhone的始終在線協(xié)處理器(AOP,它是嵌入在Apple M系列運動協(xié)處理器中的低功耗輔助處理器)可以訪問您的麥克風信號iPhone 6s及更高版本。
我們使用AOP有限的有限處理能力中的一小部分來運行帶有小型神經(jīng)網(wǎng)絡的檢測器。當分數(shù)超過閾值時,運動協(xié)處理器將喚醒主處理器,該主處理器將使用較大的神經(jīng)網(wǎng)絡來分析信號。
由于電池較小,Apple Watch僅在其運動協(xié)處理器檢測到手腕抬起手勢時才運行“ Hey Siri”檢測器,從而打開了屏幕,這就是為什么屏幕關閉時無法在Apple Watch上使用“ Hey Siri” 。
WatchOS會為“ Hey Siri”分配大約有限計算預算的5%。
那么,他們如何實時識別真正的“嘿Siri”熱門短語?
一旦被設備捕獲,波形就會分解為一系列幀,每個幀描述大約0.01秒的聲譜。一次約有20幀(0.2秒的音頻)被傳遞到深度神經(jīng)網(wǎng)絡。
在那里,聲音被轉換為一組語音聲音類別的概率分布:“嘿Siri”短語中使用的那些聲音類別,以及靜音和其他語音,總共約20種聲音類別。然后,計算出您說出的短語為“ Hey Siri”的置信度得分。
如果分數(shù)足夠高,Siri就會醒來。
在iPhone上,他們使用一個神經(jīng)網(wǎng)絡進行初始檢測(在功率消耗運動芯片上運行),并使用另一個神經(jīng)網(wǎng)絡作為輔助檢查程序(在主處理器上運行)。為了減少錯誤觸發(fā),Apple還將在“ Hey Siri”注冊過程中將任何新的“ Hey Siri”語音與保存在設備中的五個短語進行比較。
研究論文解釋說:“這一過程不僅減少了別人說'嘿Siri'觸發(fā)您的iPhone的可能性,而且降低了其他聽起來相似的短語觸發(fā)Siri的速度。”
該設備還將波形上傳到Siri服務器。
如果在云中運行的主要語音識別器聽到的聲音不是“ Hey Siri”(例如“ Hey認真地”,“ Hey敘利亞”或類似的東西),則服務器會向電話發(fā)送取消信號以將其放回睡覺。
“在某些系統(tǒng)上,我們在設備上運行主語音識別器的簡化版本,以便更早提供額外的檢查,” Apple指出。我認為,“某些系統(tǒng)”是指連接電源的設備,例如Mac,Apple TV甚至iPad。
上圖:穿過“ Hey Siri”檢測器的聲學模式,最底部顯示了來自麥克風的波形的頻譜圖。將頂部顯示的最終分數(shù)與閾值進行比較,以決定是否激活Siri。
該閾值本身就是動態(tài)值,因為Apple希望讓用戶在困難的條件下激活Siri-如果它錯過了真正的“ Hey Siri”事件,則系統(tǒng)將進入更敏感的狀態(tài)幾秒鐘。在此期間重復該短語將觸發(fā)Siri。
以下是他們訓練“ Hey Siri”探測器的聲學模型的方式:
早在有Hey Siri功能之前,一小部分用戶會在請求開始時說“ Hey Siri”,方法是先按下按鈕。我們在英語探測器模型的初始訓練中使用了此類“嘿Siri”語音。
我們還包括用于訓練主要語音識別器的一般語音示例。在這兩種情況下,我們都在訓練短語上使用了自動轉錄。Siri團隊成員檢查了轉錄的子集的準確性。
在美式英語中,聲學模型甚至考慮了“ Siri”中不同的第一個元音,一個在“嚴重”中,另一個在“ Syria”中。
訓練一個模型大約需要一天的時間,并且通常在任何一次訓練中都有幾個模型。他們通常會訓練三個版本:用于運動芯片第一次通過的小型模型,用于第二次通過的大尺寸模型以及用于Apple Watch的中型模型。
最后一個花絮:該系統(tǒng)也經(jīng)過訓練,可以識別本地化的“ Hey Siri”短語。
例如,說法語的用戶說“ Dis Siri”。在韓國,他們說“ Siri?”,聽起來像“ Siri Ya”。講俄語的用戶使用“приветSiri”短語(諸如“ Privet Siri”之類的聲音)和泰語“” Siri”(諸如“ Wadi Siri”之類的聲音)。
蘋果公司說:“我們特別在各種條件下(例如在廚房(近處和遠處),汽車,臥室和餐廳中)以各種母語的人進行錄音,”
他們甚至使用多種語言的播客和Siri輸入來表示背景聲音(尤其是語音)和“用戶可能對另一個人說的短語”。
“下一次您說'嘿Siri'時,您可能會想到使對該詞組做出響應的所有事情,但我們希望它'行之有效',”蘋果很好地總結了這一點。
高度技術性的文章提供了對我們視為理所當然的“ Hey Siri”技術的迷人見解,因此,如果您有興趣了解更多信息,請務必對其進行閱讀或保存,以備日后使用。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。