您的位置: 首頁 >科技 >

機器學習系統(tǒng)在材料的配方中找到模式 即使缺乏訓練數(shù)據(jù)

2019-06-21 16:48:47 編輯: 來源:
導讀 上個月,麻省理工學院的三位材料科學家及其同事發(fā)表了一篇論文,描述了一種新的人工智能系統(tǒng),該系統(tǒng)可以通過科學論文并提取配方來生產(chǎn)特定

上個月,麻省理工學院的三位材料科學家及其同事發(fā)表了一篇論文,描述了一種新的人工智能系統(tǒng),該系統(tǒng)可以通過科學論文并提取“配方”來生產(chǎn)特定類型的材料。

這項工作被設想為朝向系統(tǒng)的第一步,該系統(tǒng)可以產(chǎn)生僅在理論上描述的材料的配方?,F(xiàn)在,在npj計算材料雜志的一篇論文中,同樣的三位材料科學家和麻省理工學院電氣工程與計算機科學系(EECS)的同事,朝著這個方向邁出了一步,采用了一種新的人工智能系統(tǒng)??梢宰R別在配方中一致的更高級別的模式。

例如,新系統(tǒng)能夠識別材料配方中使用的“前體”化學品與所得產(chǎn)品的晶體結構之間的相關性。事實證明,相同的相關性已在文獻中記錄。

該系統(tǒng)還依賴于統(tǒng)計方法,這些方法提供了生成原始配方的自然機制。在論文中,研究人員使用這種機制為已知材料建議替代配方,這些建議符合實際配方。

新論文的第一作者是Edward Kim,他是材料科學與工程專業(yè)的研究生。資深作者是他的顧問,Elsa Olivetti,大西洋里奇菲爾德材料科學與工程系(DMSE)能源研究助理教授。他們加入了DMSE的博士后Kevin Huang和EECS的X-Window聯(lián)盟職業(yè)發(fā)展助理教授Stefanie Jegelka。

稀疏而稀缺

像許多過去10年中表現(xiàn)最佳的人工智能系統(tǒng)一樣,麻省理工學院研究人員的新系統(tǒng)是一個所謂的神經(jīng)網(wǎng)絡,它通過分析大量的訓練數(shù)據(jù)來學習執(zhí)行計算任務。傳統(tǒng)上,嘗試使用神經(jīng)網(wǎng)絡生成材料配方已經(jīng)遇到了兩個問題,研究人員將其描述為稀疏性和稀缺性。

材料的任何配方都可以表示為矢量,它本質(zhì)上是一長串數(shù)字。每個數(shù)字代表配方的一個特征,例如特定化學品的濃度,溶解它的溶劑或發(fā)生反應的溫度。

由于任何給定的配方僅使用文獻中描述的許多化學品和溶劑中的一些,因此大多數(shù)這些數(shù)字將為零。這就是研究人員所說的“稀疏”。

類似地,為了了解如何修改反應參數(shù)(例如化學濃度和溫度)可以影響最終產(chǎn)品,理想情況下,系統(tǒng)將在大量這些參數(shù)變化的實例上進行訓練。但對于某些材料 - 特別是較新的材料 - 文獻可能只包含一些食譜。那是稀缺的。

“人們認為,通過機器學習,你需要大量數(shù)據(jù),如果數(shù)據(jù)稀少,你需要更多數(shù)據(jù),”Kim說。“當你試圖專注于一個非常特殊的系統(tǒng),你被迫使用高維數(shù)據(jù),但你沒有很多,你還能使用這些神經(jīng)機器學習技術嗎?”

神經(jīng)網(wǎng)絡通常被布置成層,每個層由數(shù)千個簡單處理單元或節(jié)點組成。每個節(jié)點都連接到上下層中的多個節(jié)點。數(shù)據(jù)被輸入底層,底層操縱它并將其傳遞給下一層,下一層操縱它并將其傳遞給下一層,依此類推。在訓練期間,不斷地重新調(diào)整節(jié)點之間的連接,直到最終層的輸出始終接近某些計算的結果。

稀疏高維數(shù)據(jù)的問題在于,對于任何給定的訓練示例,底層中的大多數(shù)節(jié)點都不接收數(shù)據(jù)。需要一個非常大的訓練集來確保整個網(wǎng)絡能夠看到足夠的數(shù)據(jù)來學習可靠的概括。

人為瓶頸

麻省理工學院研究人員網(wǎng)絡的目的是將輸入向量提取到更小的向量中,所有向量都對每個輸入都有意義。為此,在一些實驗中,網(wǎng)絡中間只有幾個節(jié)點,只有兩個節(jié)點。

培訓的目標只是配置網(wǎng)絡,使其輸出盡可能接近其輸入。如果訓練成功,那么中間層中的少數(shù)節(jié)點必須以某種方式表示輸入向量中包含的大部分信息,但是以更加壓縮的形式。輸出嘗試匹配輸入的這種系統(tǒng)稱為“自動編碼器”。

自動編碼補償了稀疏性,但為了處理稀缺性,研究人員不僅訓練他們的網(wǎng)絡生產(chǎn)特定材料的配方,而且還生產(chǎn)用于生產(chǎn)非常相似材料的配方。他們使用了三種相似度量,其中一種旨在盡量減少材料之間的差異數(shù)量 - 例如,只用一個原子代替另一個原子 - 同時保留晶體結構。

在訓練期間,網(wǎng)絡給出示例配方的權重根據(jù)其相似性得分而變化。

發(fā)揮賠率

事實上,研究人員的網(wǎng)絡不僅僅是一個自動編碼器,而是一個所謂的變分自動編碼器。這意味著在訓練期間,網(wǎng)絡不僅要評估其輸出與輸入的匹配程度,還要評估中間層采用的值與某些統(tǒng)計模型(如熟悉的鐘形曲線或正態(tài)分布)的一致程度。 。也就是說,在整個訓練集中,中間層采用的值應該圍繞中心值聚集,然后在所有方向上以常規(guī)速率逐漸減小。

在針對二氧化錳和相關化合物的配方訓練了具有雙節(jié)點中間層的變分自動編碼器之后,研究人員構建了一個二維圖,描繪了兩個中間節(jié)點在訓練集中的每個示例所采用的值。

值得注意的是,使用相同前體化學物質(zhì)的訓練樣例粘貼在地圖的相同區(qū)域,區(qū)域之間有明顯的邊界。對于產(chǎn)生四種二氧化錳常見“多晶型物”或晶體結構的培養(yǎng)實例也是如此。并且將這兩個映射結合起來表明了特定前體和特定晶體結構之間的相關性。

“我們認為這些地區(qū)是連續(xù)的很酷,”奧利維蒂說,“因為沒有理由認為這一定是真的。”

變分自動編碼也是研究人員系統(tǒng)生成新配方的原因。由于中間層采用的值遵循概率分布,因此隨機選擇該分布的值可能會產(chǎn)生合理的配方。

“這實際上觸及了目前對機器學習非常感興趣的各種主題,”Jegelka說。“通過結構化對象學習,允許通過專家進行解釋和與專家交互,以及生成結構化復雜數(shù)據(jù) - 我們整合了所有這些。”

“'可合成性'是一個概念的例子,它是材料科學的核心,但缺乏良好的基于??物理的描述,”Citrine Informatics的創(chuàng)始人兼首席科學家Bryce Meredig說道,該公司提供大數(shù)據(jù)和人工智能技術承擔材料科學研究。“因此,新材料的計算屏幕多年來因預測材料的合成難以接近而受到限制.Olivetti及其同事采用了一種新穎的,數(shù)據(jù)驅(qū)動的方法來繪制材料合成圖,并為使我們能夠進行計算做出了重要貢獻。識別不僅具有令人興奮的特性而且實際上可以在實驗室中制造的材料。“


免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權歸原作者所有。