2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
Facebook的研究人員最近編制了一個包含500萬個人物角色和7億個基于人物角色的對話的數(shù)據(jù)集。該數(shù)據(jù)庫可用于訓練端到端對話系統(tǒng),從而在計算機代理和人類之間產(chǎn)生更具吸引力和豐富的對話。
對話系統(tǒng)或會話代理(CA)是設計用于通過文本,語音,圖形或其他方法以連貫的方式與人類通信的計算機系統(tǒng)。到目前為止,已經(jīng)發(fā)現(xiàn)基于神經(jīng)架構(gòu)的對話系統(tǒng)(例如LSTM或存儲器網(wǎng)絡)在實現(xiàn)流暢的通信方面特別有前途,特別是在直接對話對話日志時。
“他們的主要優(yōu)勢之一是他們可以依靠現(xiàn)有對話的大型數(shù)據(jù)源來學習覆蓋各種領域而無需任何專業(yè)知識,”研究人員在他們的論文中寫道,該論文已預先發(fā)布在arXiv上。“然而,另一方面,他們也表現(xiàn)出有限的參與度,特別是在閑聊環(huán)境中:他們?nèi)狈σ恢滦?,并且不會?甚至部分)腳本聊天機器人那樣利用主動參與策略。”
在最近的一項研究中,蒙特利爾學習算法研究所(MILA)和Facebook AI的另一組研究人員創(chuàng)建了一個名為PERSONA-CHAT 的數(shù)據(jù)集,其中包括與文本配置文件或人物角色相關(guān)聯(lián)的代理之間的對話。他們發(fā)現(xiàn),針對特定角色培訓對話系統(tǒng)可以提高他們對互動的參與度。
“然而,PERSONA-CHAT數(shù)據(jù)集是使用基于Mechanical Turk的人工數(shù)據(jù)收集機制創(chuàng)建的,”研究人員在他們的論文中解釋道。“因此,對話框和人物角色都不能完全代表真實的用戶 - 機器人交互,數(shù)據(jù)集覆蓋范圍仍然有限,包含超過1k個不同的角色。”
為了解決以前編譯的數(shù)據(jù)集的局限性,F(xiàn)acebook研究人員創(chuàng)建了一個新的,大規(guī)模的基于角色的對話數(shù)據(jù)集,由從在線平臺Reddit中提取的對話組成。他們的研究通過使用更具代表性的互動,使他們的前輩的工作更進一步。
“在本文中,我們使用以前從Reddit中提取的對話構(gòu)建了一個非常大規(guī)模的基于角色的對話數(shù)據(jù)集,”研究人員寫道。“通過簡單的啟發(fā)式方法,我們創(chuàng)建了一個超過500萬個角色的語料庫,涵蓋超過7億個對話。”
為了評估其有效性,研究人員在他們新開發(fā)的數(shù)據(jù)集上訓練了基于人物的端對端對話系統(tǒng)。受過數(shù)據(jù)集培訓的系統(tǒng)能夠進行更具吸引力的對話,優(yōu)于其他在培訓期間無法訪問人物角色的會話代理。
有趣的是,他們的數(shù)據(jù)集導致了最先進的結(jié)果,即使對話系統(tǒng)只是在其上進行了預訓練。將來,這些發(fā)現(xiàn)可能會導致更具吸引力的聊天機器人的發(fā)展,這些聊天機器人也可以個性化和訓練以獲得特定的角色。
研究人員寫道:“我們表明,訓練模型可以將答案與作者的角色和背景相結(jié)合,從而提高預測性能。” “由于預訓練可以帶來相當大的性能提升,未來的工作可以為各種對話系統(tǒng)微調(diào)這個模型。”
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。