您的位置: 首頁 >科技 >

機器學習算法可以通過少量訓練發(fā)現(xiàn)隱藏的科學知識

2022-08-24 21:54:41 編輯:古琪婭 來源:
導讀 當然,計算機可以用來玩大師級國際象棋,但是他們可以做出科學發(fā)現(xiàn)嗎?能源部勞倫斯伯克利實驗室的研究人員表明,沒有材料科學培訓的算法可...

當然,計算機可以用來玩大師級國際象棋,但是他們可以做出科學發(fā)現(xiàn)嗎?能源部勞倫斯伯克利實驗室的研究人員表明,沒有材料科學培訓的算法可以掃描數(shù)百萬篇論文的文本并發(fā)現(xiàn)新的科學知識。

由伯克利實驗室能源存儲和分布式資源部門的科學家Anubhav Jain領導的團隊收集了330萬份已發(fā)表的材料科學論文摘要,并將其輸入一個名為Word2vec的算法中。通過分析單詞之間的關系,該算法能夠提前幾年預測新熱電材料的發(fā)現(xiàn),并建議尚未知的材料作為熱電材料的候選材料。

伯克利實驗室的研究人員發(fā)現(xiàn),材料科學文摘的文本挖掘可能會成為新型熱電材料。

“沒有告訴任何有關材料科學的知識,它就學會了周期表和金屬晶體結構等概念,”Jain說。“這暗示了這項技術的潛力。但也許我們發(fā)現(xiàn)的最有趣的事情是,你可以使用這種算法來解決材料研究中的差距,這是人們應該研究但到目前為止還沒有研究過的東西。“

該研究結果發(fā)表在7月3日的“自然”雜志上。該研究的主要作者,“無監(jiān)督的詞匯嵌入材料科學文獻中捕獲潛在知識”,現(xiàn)為伯克利實驗室博士后研究員Vahe Tshitoyan,現(xiàn)在在谷歌工作。與Jain一起,伯克利實驗室的科學家Kristin Persson和Gerbrand Ceder幫助領導了這項研究。

“該文件確定科學文獻的文本挖掘可以發(fā)現(xiàn)隱藏的知識,純文本提取可以建立基本的科學知識,”Ceder說,他還在加州大學伯克利分校的材料科學與工程系任命。

Tshitoyan表示,該項目的動機是難以理解大量已發(fā)表的研究。“在每個研究領域都有100年的研究文獻,每周都有數(shù)十項研究出現(xiàn),”他說。“研究人員只能訪問其中的一小部分。我們認為,機器學習可以做一些事情,以無人監(jiān)督的方式利用所有這些集體知識 - 不需要人類研究人員的指導嗎?“

“國王 - 女王+男人=?”

該團隊從1922年至2018年間在1000多種期刊上發(fā)表的論文中收集了330萬篇摘要.Word2vec在這些摘要中采用了大約500,000個不同的單詞,并將每個單詞轉換為200維向量,或200個數(shù)字的數(shù)組。

“重要的不是每個數(shù)字,而是用數(shù)字來看看單詞是如何相互關聯(lián)的,”Jain說道,他領導一個小組,致力于發(fā)現(xiàn)和設計能源應用的新材料,使用理論,計算和數(shù)據(jù)挖掘。“例如,您可以使用標準矢量數(shù)學減去矢量。其他研究人員已經(jīng)表明,如果你在非科學文本資源上訓練算法并采用“王減女王”產(chǎn)生的矢量,你會得到與“男人減去女人”相同的結果。它沒有你告訴任何事情就找出了關系。“

類似地,當在材料科學文本上進行訓練時,該算法能夠簡單地基于摘要中的單詞的位置以及它們與其他單詞的共現(xiàn)來學習科學術語和概念的含義,例如金屬的晶體結構。例如,正如它可以解決方程“王 - 王后+人”,它可以找出對于“鐵磁 - 鎳鐵+ IrMn”等式,答案將是“反鐵磁性”。

當每個化學元素的向量投影到兩個維度時,Word2vec甚至能夠學習元素周期表中元素之間的關系。

提前幾年預測發(fā)現(xiàn)

因此,如果Word2vec如此智能,它能預測新型熱電材料嗎?良好的熱電材料可以有效地將熱量轉換為電能,并且由安全,豐富且易于生產(chǎn)的材料制成。

伯克利實驗室團隊采用了該算法建議的頂級熱電候選者,該算法根據(jù)其單詞矢量與“熱電”一詞的相似性對每個化合物進行排序。然后,他們進行計算以驗證算法的預測。

在前10個預測中,他們發(fā)現(xiàn)所有計算的功率因數(shù)略高于已知熱電的平均值; 前三位候選者的功率因數(shù)高于已知熱電材料的第95百分位數(shù)。

接下來,他們測試了算法是否可以“過去”進行實驗,只給出2000年的摘要。同樣,在最高預測中,后來的研究中出現(xiàn)了大量的數(shù)據(jù) - 比材料多四倍剛剛被隨機選中。例如,使用截至2008年的數(shù)據(jù)訓練的前五個預測中的三個已被發(fā)現(xiàn),其余兩個包含稀有或有毒元素。

結果令人驚訝。“老實說,我沒想到算法能夠如此預測未來的結果,”Jain說。“我原本以為這個算法可能描述了人們以前做過的事情,但沒有提出這些不同的聯(lián)系。當我不僅看到預測而且看到預測背后的推理時,我感到非常驚訝,例如半赫斯勒結構,這是一種非常熱的電熱晶體結構。“

他補充說:“這項研究表明,如果這個算法早些時候到位,可以想象一些材料可以提前幾年被發(fā)現(xiàn)。”隨著研究,研究人員正在發(fā)布該算法預測的前50種熱電材料。如果他們想要搜索更好的拓撲絕緣體材料,他們還將發(fā)布人們制作自己應用所需的嵌入詞。

接下來,Jain表示,該團隊正在開發(fā)一個更智能,更強大的搜索引擎,允許研究人員以更有用的方式搜索摘要。

該研究由豐田研究所資助。其他研究合著者是伯克利實驗室研究人員John Dagdelen,Leigh Weston,Alexander Dunn和Ziqin Rong,以及加州大學伯克利分校研究員Olga Kononova。


免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。