您的位置: 首頁 >互聯(lián)網(wǎng) >

Facebook研究人員使用數(shù)學(xué)來獲得更好的翻譯

2022-07-05 10:53:20 編輯:諸葛潔貝 來源:
導(dǎo)讀 機(jī)器翻譯工具的設(shè)計者仍然大多依靠字典來使外語易于理解。但是現(xiàn)在有了一種新方法:數(shù)字。Facebook研究人員說,將單詞變成數(shù)字并利用語言之

機(jī)器翻譯工具的設(shè)計者仍然大多依靠字典來使外語易于理解。但是現(xiàn)在有了一種新方法:數(shù)字。

Facebook研究人員說,將單詞變成數(shù)字并利用語言之間的數(shù)學(xué)相似性是一個有前途的途徑-即使“星際迷航”這樣的通用傳播者仍然遙不可及。

強(qiáng)大的自動翻譯是互聯(lián)網(wǎng)巨頭的首要任務(wù)。在世界范圍內(nèi)允許盡可能多的人交流不僅是無私的目標(biāo),而且還是一項好生意。

Facebook,Google和Microsoft以及俄羅斯的Yandex,的百度等都在不斷尋求改善其翻譯工具的方法。

Facebook在巴黎的一個研究實驗室中聘用了人工智能專家。

歐洲社交網(wǎng)絡(luò)基礎(chǔ)AI研究的共同負(fù)責(zé)人Antoine Bordes說,F(xiàn)acebook目前使用多達(dá)200種語言。

當(dāng)前,自動翻譯是基于具有兩種語言的相同文本的大型數(shù)據(jù)庫來工作的。但是對于許多語言對來說,沒有足夠的平行文本。

這就是為什么研究人員一直在尋找另一種方法的原因,例如Facebook開發(fā)的系統(tǒng)可以創(chuàng)建單詞的數(shù)學(xué)表示形式。

每個單詞在數(shù)百個維度的空間中成為一個“向量”。在該向量空間中,口語中具有緊密關(guān)聯(lián)的單詞也發(fā)現(xiàn)自己彼此接近。

從巴斯克到亞馬孫?

“例如,如果您在語義上使用'cat'和'dog'一詞,它們是描述相似事物的詞,因此它們在向量空間上會非常緊密地結(jié)合在一起,”該系統(tǒng)之一的Guillaume Lample說。設(shè)計師。

“如果您使用馬德里,倫敦,巴黎等歐洲首都之類的話,那就是同一主意。”

然后可以使用算法將這些語言映射相互鏈接-最初是粗略的,但最終會變得更加精致,直到可以匹配整個短語而沒有太多錯誤為止。

蘭普爾說,結(jié)果已經(jīng)很有希望。

蘭普爾說,對于英語-羅馬尼亞語的語言對,F(xiàn)acebook當(dāng)前的機(jī)器翻譯系統(tǒng)比單詞矢量系統(tǒng)“相等或可能更差”。

他說,但對于Facebook-傳統(tǒng)系統(tǒng)沒有很多雙語文本可供參考的英語-烏爾都語稀疏語言對來說,單詞矢量系統(tǒng)已經(jīng)很出色了。

但是這種方法是否可以將巴斯克語翻譯成亞馬遜部落的語言?

蘭普爾說,從理論上講,是的,但實際上,要映射該語言,需要大量書面文本,這是亞馬遜部落語言所缺乏的。

他說:“如果您只有成千上萬個短語,它將無法正常工作。您需要成千上萬個短語。”

圣杯

法國CNRS科學(xué)中心的專家表示,Lample為Facebook采取的方法可能會產(chǎn)生有用的結(jié)果,即使它不能帶來完美的翻譯效果。

CNRS的萊迪思實驗室的Thierry Poibeau也從事機(jī)器翻譯的研究,他稱向量向量法為“概念性革命”。

他說“沒有并行數(shù)據(jù)的翻譯”(兩種語言的詞典或相同文檔的版本)“是機(jī)器翻譯的圣杯”。

Poibeau說:“但是問題是,從單詞向量法可以期望達(dá)到什么水平的性能”。

該方法“可以給出原始文本的想法”,但是每次都能提供良好翻譯的能力仍未得到證實。

CNRS的機(jī)械與工程科學(xué)計算機(jī)科學(xué)實驗室的研究員Francois Yvon說,當(dāng)語言之間的距離很遠(yuǎn)時,“語言的鏈接要困難得多”。

他補(bǔ)充說:“用中文表示概念的方式與用法語完全不同。”

伊馮說,然而,即使翻譯不完美也可能有用,并且可以證明足以追蹤仇恨言論,這是Facebook的首要任務(wù)。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。