2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。
Orange Labs和Normandie University的研究人員開發(fā)了一種用于視聽情感識別的新型深度神經模型,該模型在小型訓練集中表現良好。他們的研究預先發(fā)布在arXiv上,遵循簡單的哲學,大大限制了模型從數據集中獲取的參數并使用簡單的學習技術。
用于情緒識別的神經網絡在醫(yī)療保健,客戶分析,監(jiān)視甚至動畫的環(huán)境中具有許多有用的應用。雖然最先進的深度學習算法已經取得了顯著的成果,但大多數仍然無法達到人類所獲得的情感的相同理解。
“我們的總體目標是通過讓計算機能夠感知人類表達的各種細微細節(jié)來促進人機交互,”進行這項研究的研究人員FrédéricJurie告訴TechXplore。“感知圖像,視頻,聲音和聲音中包含的情感都屬于這種背景。”
最近,研究將多模態(tài)和時間數據集放在一起,其中包含帶注釋的視頻和視聽剪輯。然而,這些數據集通常包含相對少量的注釋樣本,而為了表現良好,大多數現有的深度學習算法需要更大的數據集。
研究人員試圖通過開發(fā)一個新的視聽情感識別框架來解決這個問題,該框架融合了視覺和音頻素材的分析,即使在相對較小的訓練數據集中也能保持高水平的準確性。他們在AFEW上訓練他們的神經模型,AFEW是從電影中提取并用離散情緒注釋的773個視聽片段的數據集。
“人們可以將這個模型視為處理視頻的黑匣子,并自動推斷出人們的情緒狀態(tài),”Jurie解釋道。“這種深度神經模型的一大優(yōu)勢是,他們自己學習如何通過分析示例處理視頻,而不需要專家提供特定的處理單元。”
研究人員設計的模型遵循奧卡姆的剃刀哲學原理,這表明在兩種方法或解釋之間,最簡單的方法是最佳選擇。因此,與其他用于情感識別的深度學習模型相反,他們的模型保持相對簡單。神經網絡從數據集中學習有限數量的參數,并采用基本的學習策略。
“所建議的網絡由級聯處理層組成,從信號到解釋信息抽象信息,”Jurie說。“音頻和視頻由網絡的兩個不同頻道處理,最近在整個過程中進行組合,幾乎在最后。”
經過測試,他們的光模型實現了60.64%的有希望的情感識別準確率。在科羅拉多舉行的ACM國際多模式互動會議(ICMI)上舉行的2018年野外情緒認可(EmotiW)挑戰(zhàn)中,它也排名第四。
“我們的模型證明,遵循奧卡姆的剃刀原則,即總是選擇最簡單的設計神經網絡的替代方案,可以限制模型的大小,并獲得非常緊湊但最先進的神經網絡,這更容易訓練,“Jurie說。“這與使神經網絡變得越來越大的研究趨勢形成對比。”
研究人員現在將繼續(xù)探索通過使用當前可用的有限注釋訓練數據集同時分析視覺和聽覺數據來實現情緒識別的高精度的方法。
“我們對幾個研究方向感興趣,例如如何更好地融合不同的方式,如何通過緊湊的語義來表示情感,意味著完整的描述符(而不僅僅是類標簽),或者如何使我們的算法能夠用更少的,甚至更少的學習來學習沒有注釋數據,“Jurie說。
2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。