您的位置: 首頁 >互聯(lián)網(wǎng) >

Bible幫助研究人員完善翻譯算法

2019-06-10 10:51:04 編輯: 來源:
導(dǎo)讀 為了尋找改進(jìn)計(jì)算機(jī)文本翻譯的靈感,達(dá)特茅斯學(xué)院的研究人員轉(zhuǎn)向圣經(jīng)尋求指導(dǎo)。結(jié)果是在各種版本的神圣文本上訓(xùn)練的算法可以將書面作品轉(zhuǎn)換

為了尋找改進(jìn)計(jì)算機(jī)文本翻譯的靈感,達(dá)特茅斯學(xué)院的研究人員轉(zhuǎn)向圣經(jīng)尋求指導(dǎo)。結(jié)果是在各種版本的神圣文本上訓(xùn)練的算法可以將書面作品轉(zhuǎn)換為針對(duì)不同觀眾的不同風(fēng)格。

互聯(lián)網(wǎng)工具翻譯文本,如英語和西班牙語被廣泛使用的語言之間。創(chuàng)建樣式轉(zhuǎn)換器 - 使文本保持相同語言但轉(zhuǎn)換樣式的工具 - 出現(xiàn)的速度要慢得多。在某種程度上,由于難以獲得所需的大量數(shù)據(jù),開發(fā)譯員的努力受到了阻礙。這是研究小組轉(zhuǎn)向圣經(jīng)的地方。

除了成為全球許多人的精神指導(dǎo)之外,達(dá)特茅斯領(lǐng)導(dǎo)的團(tuán)隊(duì)還在圣經(jīng)中看到了“一個(gè)大型的,以前尚未開發(fā)的對(duì)齊平行文本數(shù)據(jù)集”。除了提供無限的靈感之外,每本版本的圣經(jīng)都包含超過31,000節(jié)經(jīng)文,研究人員用這些經(jīng)文為機(jī)器學(xué)習(xí)訓(xùn)練集生成超過150萬個(gè)源和目標(biāo)經(jīng)文的獨(dú)特配對(duì)。

根據(jù)發(fā)表在皇家學(xué)會(huì)開放科學(xué)期刊上的研究,這不是第一個(gè)為風(fēng)格翻譯創(chuàng)建的并行數(shù)據(jù)集。但它是第一個(gè)使用圣經(jīng)的人。過去使用的其他文本,從莎士比亞到維基百科條目,提供的數(shù)據(jù)集要么小得多,要么不適合學(xué)習(xí)風(fēng)格翻譯的任務(wù)。

“英語圣經(jīng)有許多不同的書面風(fēng)格,使其成為風(fēng)格翻譯的完美源文本,”博士Keith Carlson博士說。達(dá)特茅斯大學(xué)的學(xué)生和研究論文的主要作者。

作為研究團(tuán)隊(duì)的一個(gè)額外好處,圣經(jīng)已經(jīng)被書籍,章節(jié)和詩句數(shù)字的一致使用完全編入索引??绨姹镜奈谋镜目深A(yù)測組織消除了可能由匹配相同文本的不同版本的自動(dòng)方法引起的對(duì)齊錯(cuò)誤的風(fēng)險(xiǎn)。

“圣經(jīng)是一個(gè)'神圣的'數(shù)據(jù)集,可以用來研究這項(xiàng)任務(wù),”達(dá)特茅斯計(jì)算機(jī)科學(xué)教授丹尼爾洛克莫爾說。“幾個(gè)世紀(jì)以來,人類一直在執(zhí)行組織圣經(jīng)文本的任務(wù),因此我們不必將信仰置于不太可靠的對(duì)齊算法中。”

為了定義研究的“風(fēng)格”,研究人員參考句子長度,被動(dòng)或主動(dòng)語音的使用,以及可能導(dǎo)致文本具有不同程度的簡單性或形式的單詞選擇。根據(jù)這項(xiàng)研究:“不同的措辭可能會(huì)傳達(dá)不同程度的禮貌或?qū)ψx者的熟悉程度,展示關(guān)于作者的不同文化信息,對(duì)某些人群更容易理解。”

該團(tuán)隊(duì)使用了34種風(fēng)格獨(dú)特的圣經(jīng)版本,其語言復(fù)雜程度從“詹姆斯國王版”到“基礎(chǔ)英語圣經(jīng)”。這些文本被輸入兩種算法 - 一種稱為“摩西” 的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)和一種常用于機(jī)器翻譯的神經(jīng)網(wǎng)絡(luò)框架“Seq2Seq”。

雖然使用了不同版本的圣經(jīng)來訓(xùn)練計(jì)算機(jī)代碼,但最終可以開發(fā)出能夠?yàn)椴煌鼙姺g任何書面文本風(fēng)格的系統(tǒng)。例如,風(fēng)格翻譯可以從“Moby Dick”中選擇英語,并將其翻譯成適合年輕讀者,非英語母語人士或各種受眾中的任何一種的不同版本。

“文本簡化只是一種特定類型的風(fēng)格轉(zhuǎn)移。更廣泛地說,我們的系統(tǒng)旨在生成與原文具有相同含義的文本,但使用不同的單詞,”卡爾森說。

達(dá)特茅斯學(xué)院在計(jì)算機(jī)科學(xué)領(lǐng)域有著悠久的創(chuàng)新歷史。“人工智能”一詞是在1956年創(chuàng)建人工智能研究學(xué)科的會(huì)議期間在達(dá)特茅斯創(chuàng)造的。其他進(jìn)步包括BASIC的設(shè)計(jì) - 第一個(gè)通用和可訪問的編程語言 - 以及為現(xiàn)代操作系統(tǒng)做出貢獻(xiàn)的達(dá)特茅斯時(shí)間共享系統(tǒng)。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。