Facebook研究人員構(gòu)建了一個(gè)數(shù)據(jù)集來訓(xùn)練個(gè)性化對話代理

2019-06-10 17:32:21 編輯：來源：

導(dǎo)讀 Facebook的研究人員最近編制了一個(gè)包含500萬個(gè)人物角色和7億個(gè)基于人物角色的對話的數(shù)據(jù)集。該數(shù)據(jù)庫可用于訓(xùn)練端到端對話系統(tǒng)，從而在計(jì)算

Facebook的研究人員最近編制了一個(gè)包含500萬個(gè)人物角色和7億個(gè)基于人物角色的對話的數(shù)據(jù)集。該數(shù)據(jù)庫可用于訓(xùn)練端到端對話系統(tǒng)，從而在計(jì)算機(jī)代理和人類之間產(chǎn)生更具吸引力和豐富的對話。

對話系統(tǒng)或會話代理(CA)是設(shè)計(jì)用于通過文本，語音，圖形或其他方法以連貫的方式與人類通信的計(jì)算機(jī)系統(tǒng)。到目前為止，已經(jīng)發(fā)現(xiàn)基于神經(jīng)架構(gòu)的對話系統(tǒng)(例如LSTM或存儲器網(wǎng)絡(luò))在實(shí)現(xiàn)流暢的通信方面特別有前途，特別是在直接對話對話日志時(shí)。

“他們的主要優(yōu)勢之一是他們可以依靠現(xiàn)有對話的大型數(shù)據(jù)源來學(xué)習(xí)覆蓋各種領(lǐng)域而無需任何專業(yè)知識，”研究人員在他們的論文中寫道，該論文已預(yù)先發(fā)布在arXiv上。“然而，另一方面，他們也表現(xiàn)出有限的參與度，特別是在閑聊環(huán)境中：他們?nèi)狈σ恢滦裕⑶也粫?甚至部分)腳本聊天機(jī)器人那樣利用主動(dòng)參與策略。”

在最近的一項(xiàng)研究中，蒙特利爾學(xué)習(xí)算法研究所(MILA)和Facebook AI的另一組研究人員創(chuàng)建了一個(gè)名為PERSONA-CHAT 的數(shù)據(jù)集，其中包括與文本配置文件或人物角色相關(guān)聯(lián)的代理之間的對話。他們發(fā)現(xiàn)，針對特定角色培訓(xùn)對話系統(tǒng)可以提高他們對互動(dòng)的參與度。

“然而，PERSONA-CHAT數(shù)據(jù)集是使用基于Mechanical Turk的人工數(shù)據(jù)收集機(jī)制創(chuàng)建的，”研究人員在他們的論文中解釋道。“因此，對話框和人物角色都不能完全代表真實(shí)的用戶 - 機(jī)器人交互，數(shù)據(jù)集覆蓋范圍仍然有限，包含超過1k個(gè)不同的角色。”

為了解決以前編譯的數(shù)據(jù)集的局限性，F(xiàn)acebook研究人員創(chuàng)建了一個(gè)新的，大規(guī)模的基于角色的對話數(shù)據(jù)集，由從在線平臺Reddit中提取的對話組成。他們的研究通過使用更具代表性的互動(dòng)，使他們的前輩的工作更進(jìn)一步。

“在本文中，我們使用以前從Reddit中提取的對話構(gòu)建了一個(gè)非常大規(guī)模的基于角色的對話數(shù)據(jù)集，”研究人員寫道。“通過簡單的啟發(fā)式方法，我們創(chuàng)建了一個(gè)超過500萬個(gè)角色的語料庫，涵蓋超過7億個(gè)對話。”

為了評估其有效性，研究人員在他們新開發(fā)的數(shù)據(jù)集上訓(xùn)練了基于人物的端對端對話系統(tǒng)。受過數(shù)據(jù)集培訓(xùn)的系統(tǒng)能夠進(jìn)行更具吸引力的對話，優(yōu)于其他在培訓(xùn)期間無法訪問人物角色的會話代理。

有趣的是，他們的數(shù)據(jù)集導(dǎo)致了最先進(jìn)的結(jié)果，即使對話系統(tǒng)只是在其上進(jìn)行了預(yù)訓(xùn)練。將來，這些發(fā)現(xiàn)可能會導(dǎo)致更具吸引力的聊天機(jī)器人的發(fā)展，這些聊天機(jī)器人也可以個(gè)性化和訓(xùn)練以獲得特定的角色。

研究人員寫道：“我們表明，訓(xùn)練模型可以將答案與作者的角色和背景相結(jié)合，從而提高預(yù)測性能。” “由于預(yù)訓(xùn)練可以帶來相當(dāng)大的性能提升，未來的工作可以為各種對話系統(tǒng)微調(diào)這個(gè)模型。”

標(biāo)簽： Facebook