機器學(xué)習(xí)系統(tǒng)在材料的配方中找到模式即使缺乏訓(xùn)練數(shù)據(jù)

2019-06-21 16:48:47 編輯：來源：

導(dǎo)讀上個月，麻省理工學(xué)院的三位材料科學(xué)家及其同事發(fā)表了一篇論文，描述了一種新的人工智能系統(tǒng)，該系統(tǒng)可以通過科學(xué)論文并提取配方來生產(chǎn)特定

上個月，麻省理工學(xué)院的三位材料科學(xué)家及其同事發(fā)表了一篇論文，描述了一種新的人工智能系統(tǒng)，該系統(tǒng)可以通過科學(xué)論文并提取“配方”來生產(chǎn)特定類型的材料。

這項工作被設(shè)想為朝向系統(tǒng)的第一步，該系統(tǒng)可以產(chǎn)生僅在理論上描述的材料的配方?，F(xiàn)在，在npj計算材料雜志的一篇論文中，同樣的三位材料科學(xué)家和麻省理工學(xué)院電氣工程與計算機科學(xué)系(EECS)的同事，朝著這個方向邁出了一步，采用了一種新的人工智能系統(tǒng)?？梢宰R別在配方中一致的更高級別的模式。

例如，新系統(tǒng)能夠識別材料配方中使用的“前體”化學(xué)品與所得產(chǎn)品的晶體結(jié)構(gòu)之間的相關(guān)性。事實證明，相同的相關(guān)性已在文獻中記錄。

該系統(tǒng)還依賴于統(tǒng)計方法，這些方法提供了生成原始配方的自然機制。在論文中，研究人員使用這種機制為已知材料建議替代配方，這些建議符合實際配方。

新論文的第一作者是Edward Kim，他是材料科學(xué)與工程專業(yè)的研究生。資深作者是他的顧問，Elsa Olivetti，大西洋里奇菲爾德材料科學(xué)與工程系(DMSE)能源研究助理教授。他們加入了DMSE的博士后Kevin Huang和EECS的X-Window聯(lián)盟職業(yè)發(fā)展助理教授Stefanie Jegelka。

稀疏而稀缺

像許多過去10年中表現(xiàn)最佳的人工智能系統(tǒng)一樣，麻省理工學(xué)院研究人員的新系統(tǒng)是一個所謂的神經(jīng)網(wǎng)絡(luò)，它通過分析大量的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)執(zhí)行計算任務(wù)。傳統(tǒng)上，嘗試使用神經(jīng)網(wǎng)絡(luò)生成材料配方已經(jīng)遇到了兩個問題，研究人員將其描述為稀疏性和稀缺性。

材料的任何配方都可以表示為矢量，它本質(zhì)上是一長串數(shù)字。每個數(shù)字代表配方的一個特征，例如特定化學(xué)品的濃度，溶解它的溶劑或發(fā)生反應(yīng)的溫度。

由于任何給定的配方僅使用文獻中描述的許多化學(xué)品和溶劑中的一些，因此大多數(shù)這些數(shù)字將為零。這就是研究人員所說的“稀疏”。

類似地，為了了解如何修改反應(yīng)參數(shù)(例如化學(xué)濃度和溫度)可以影響最終產(chǎn)品，理想情況下，系統(tǒng)將在大量這些參數(shù)變化的實例上進行訓(xùn)練。但對于某些材料 - 特別是較新的材料 - 文獻可能只包含一些食譜。那是稀缺的。

“人們認為，通過機器學(xué)習(xí)，你需要大量數(shù)據(jù)，如果數(shù)據(jù)稀少，你需要更多數(shù)據(jù)，”Kim說。“當你試圖專注于一個非常特殊的系統(tǒng)，你被迫使用高維數(shù)據(jù)，但你沒有很多，你還能使用這些神經(jīng)機器學(xué)習(xí)技術(shù)嗎?”

神經(jīng)網(wǎng)絡(luò)通常被布置成層，每個層由數(shù)千個簡單處理單元或節(jié)點組成。每個節(jié)點都連接到上下層中的多個節(jié)點。數(shù)據(jù)被輸入底層，底層操縱它并將其傳遞給下一層，下一層操縱它并將其傳遞給下一層，依此類推。在訓(xùn)練期間，不斷地重新調(diào)整節(jié)點之間的連接，直到最終層的輸出始終接近某些計算的結(jié)果。

稀疏高維數(shù)據(jù)的問題在于，對于任何給定的訓(xùn)練示例，底層中的大多數(shù)節(jié)點都不接收數(shù)據(jù)。需要一個非常大的訓(xùn)練集來確保整個網(wǎng)絡(luò)能夠看到足夠的數(shù)據(jù)來學(xué)習(xí)可靠的概括。

人為瓶頸

麻省理工學(xué)院研究人員網(wǎng)絡(luò)的目的是將輸入向量提取到更小的向量中，所有向量都對每個輸入都有意義。為此，在一些實驗中，網(wǎng)絡(luò)中間只有幾個節(jié)點，只有兩個節(jié)點。

培訓(xùn)的目標只是配置網(wǎng)絡(luò)，使其輸出盡可能接近其輸入。如果訓(xùn)練成功，那么中間層中的少數(shù)節(jié)點必須以某種方式表示輸入向量中包含的大部分信息，但是以更加壓縮的形式。輸出嘗試匹配輸入的這種系統(tǒng)稱為“自動編碼器”。

自動編碼補償了稀疏性，但為了處理稀缺性，研究人員不僅訓(xùn)練他們的網(wǎng)絡(luò)生產(chǎn)特定材料的配方，而且還生產(chǎn)用于生產(chǎn)非常相似材料的配方。他們使用了三種相似度量，其中一種旨在盡量減少材料之間的差異數(shù)量 - 例如，只用一個原子代替另一個原子 - 同時保留晶體結(jié)構(gòu)。

在訓(xùn)練期間，網(wǎng)絡(luò)給出示例配方的權(quán)重根據(jù)其相似性得分而變化。

發(fā)揮賠率

事實上，研究人員的網(wǎng)絡(luò)不僅僅是一個自動編碼器，而是一個所謂的變分自動編碼器。這意味著在訓(xùn)練期間，網(wǎng)絡(luò)不僅要評估其輸出與輸入的匹配程度，還要評估中間層采用的值與某些統(tǒng)計模型(如熟悉的鐘形曲線或正態(tài)分布)的一致程度。。也就是說，在整個訓(xùn)練集中，中間層采用的值應(yīng)該圍繞中心值聚集，然后在所有方向上以常規(guī)速率逐漸減小。

在針對二氧化錳和相關(guān)化合物的配方訓(xùn)練了具有雙節(jié)點中間層的變分自動編碼器之后，研究人員構(gòu)建了一個二維圖，描繪了兩個中間節(jié)點在訓(xùn)練集中的每個示例所采用的值。

值得注意的是，使用相同前體化學(xué)物質(zhì)的訓(xùn)練樣例粘貼在地圖的相同區(qū)域，區(qū)域之間有明顯的邊界。對于產(chǎn)生四種二氧化錳常見“多晶型物”或晶體結(jié)構(gòu)的培養(yǎng)實例也是如此。并且將這兩個映射結(jié)合起來表明了特定前體和特定晶體結(jié)構(gòu)之間的相關(guān)性。

“我們認為這些地區(qū)是連續(xù)的很酷，”奧利維蒂說，“因為沒有理由認為這一定是真的。”

變分自動編碼也是研究人員系統(tǒng)生成新配方的原因。由于中間層采用的值遵循概率分布，因此隨機選擇該分布的值可能會產(chǎn)生合理的配方。

“這實際上觸及了目前對機器學(xué)習(xí)非常感興趣的各種主題，”Jegelka說。“通過結(jié)構(gòu)化對象學(xué)習(xí)，允許通過專家進行解釋和與專家交互，以及生成結(jié)構(gòu)化復(fù)雜數(shù)據(jù) - 我們整合了所有這些。”

“'可合成性'是一個概念的例子，它是材料科學(xué)的核心，但缺乏良好的基于??物理的描述，”Citrine Informatics的創(chuàng)始人兼首席科學(xué)家Bryce Meredig說道，該公司提供大數(shù)據(jù)和人工智能技術(shù)承擔(dān)材料科學(xué)研究。“因此，新材料的計算屏幕多年來因預(yù)測材料的合成難以接近而受到限制.Olivetti及其同事采用了一種新穎的，數(shù)據(jù)驅(qū)動的方法來繪制材料合成圖，并為使我們能夠進行計算做出了重要貢獻。識別不僅具有令人興奮的特性而且實際上可以在實驗室中制造的材料。“

標簽：機器學(xué)習(xí)系統(tǒng)