您的位置: 首頁 >互聯(lián)網(wǎng) >

安全地發(fā)現(xiàn)潛在藥物的神經(jīng)網(wǎng)絡(luò)可以鼓勵大規(guī)模匯集敏感數(shù)據(jù)

2019-06-10 11:01:26 編輯: 來源:
導(dǎo)讀 麻省理工學(xué)院的研究人員開發(fā)了一種加密系統(tǒng),可以幫助神經(jīng)網(wǎng)絡(luò)在大量藥理數(shù)據(jù)集中識別有希望的候選藥物,同時保持?jǐn)?shù)據(jù)的私密性。如此大規(guī)模

麻省理工學(xué)院的研究人員開發(fā)了一種加密系統(tǒng),可以幫助神經(jīng)網(wǎng)絡(luò)在大量藥理數(shù)據(jù)集中識別有希望的候選藥物,同時保持?jǐn)?shù)據(jù)的私密性。如此大規(guī)模的安全計(jì)算可以為預(yù)測藥物發(fā)現(xiàn)提供廣泛的敏感藥理學(xué)數(shù)據(jù)匯集。

藥物 - 靶標(biāo)相互作用(DTI)數(shù)據(jù)集顯示候選化合物是否作用于靶蛋白,對于幫助研究人員開發(fā)新藥物至關(guān)重要。可以訓(xùn)練模型來處理已知DTI的數(shù)據(jù)集,然后使用該信息找到新的候選藥物。

近年來,制藥公司,大學(xué)和其他實(shí)體已經(jīng)開放將藥理學(xué)數(shù)據(jù)匯集到更大的數(shù)據(jù)庫中,這可以大大改善這些模型的培訓(xùn)。然而,由于知識產(chǎn)權(quán)問題和其他隱私問題,這些數(shù)據(jù)集的范圍仍然有限。用于保護(hù)數(shù)據(jù)的密碼學(xué)方法是如此計(jì)算密集的,它們不能很好地?cái)U(kuò)展到超過例如成千上萬的DTI的數(shù)據(jù)集,這些數(shù)據(jù)集相對較小。

麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的研究人員在“ 科學(xué)”雜志上發(fā)表的一篇論文中描述了一個神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)在超過一百萬個DTI的數(shù)據(jù)集上進(jìn)行了安全訓(xùn)練和測試。該網(wǎng)絡(luò)利用現(xiàn)代加密工具和優(yōu)化技術(shù)將輸入數(shù)據(jù)保密,同時大規(guī)??焖儆行У剡\(yùn)行。

該團(tuán)隊(duì)的實(shí)驗(yàn)表明,網(wǎng)絡(luò)比現(xiàn)有方法更快,更準(zhǔn)確; 它可以在幾天內(nèi)處理大量數(shù)據(jù)集,而其他加密框架則需要數(shù)月。此外,該網(wǎng)絡(luò)確定了幾種新的相互作用,包括白血病藥物伊馬替尼和一種與癌癥相關(guān)的酶ErbB4突變之間的相互作用 - 這可能具有臨床意義。

“人們意識到他們需要匯集他們的數(shù)據(jù),以大大加快藥物發(fā)現(xiàn)過程,并使我們共同在解決重要的人類疾病,如癌癥或糖尿病方面取得科學(xué)進(jìn)步。但他們沒有好的方法, “相應(yīng)的作者Bonnie Berger,西蒙斯數(shù)學(xué)教授和CSAIL的首席研究員說。“通過這項(xiàng)工作,我們?yōu)檫@些實(shí)體提供了一種方法,可以有效地集中和分析他們的數(shù)據(jù)。”

加入Berger的是共同作者Brian Hie和Hyunghoon Cho,他們都是電氣工程和計(jì)算機(jī)科學(xué)的研究生以及CSAIL計(jì)算和生物學(xué)研究組的研究人員。

“秘密共享”數(shù)據(jù)

這篇新論文建立在研究人員以前在基因組研究中保護(hù)患者機(jī)密性的工作的基礎(chǔ)上,這些研究發(fā)現(xiàn)了特定遺傳變異與疾病發(fā)病率之間的聯(lián)系。基因組數(shù)據(jù)可能會泄露個人信息,因此患者可能不愿意參加研究。在那項(xiàng)工作中,Berger,Cho和前斯坦福大學(xué)博士。學(xué)生開發(fā)了一種基于密碼學(xué)框架的協(xié)議,稱為“秘密共享”,可以安全有效地分析一百萬個基因組的數(shù)據(jù)集。相比之下,現(xiàn)有的提案只能處理幾千個基因組。

秘密共享用于多方計(jì)算,其中敏感數(shù)據(jù)被劃分為多個服務(wù)器之間的單獨(dú)“共享”。在整個計(jì)算過程中,每一方總是只擁有其數(shù)據(jù)的份額,這看起來是完全隨機(jī)的。但是,總的來說,服務(wù)器仍然可以在底層私有數(shù)據(jù)上進(jìn)行通信和執(zhí)行有用的操作。在計(jì)算結(jié)束時,當(dāng)需要結(jié)果時,各方合并其份額以揭示結(jié)果。

“我們以前的工作為基礎(chǔ),將秘密共享應(yīng)用于藥理學(xué)合作的問題,但它并不是現(xiàn)成的,”Berger說。

一項(xiàng)關(guān)鍵創(chuàng)新是減少培訓(xùn)和測試所需的計(jì)算量。現(xiàn)有的預(yù)測藥物發(fā)現(xiàn)模型將DTI的化學(xué)和蛋白質(zhì)結(jié)構(gòu)表示為圖形或矩陣。然而,這些方法與數(shù)據(jù)集中的DTI數(shù)量成二次方或平方。基本上,隨著數(shù)據(jù)集的大小增加,處理這些表示變得極其計(jì)算密集。“雖然這對于處理原始數(shù)據(jù)可能沒什么問題,但如果你在安全計(jì)算中嘗試這樣做,那就不可行,”Hie說。

研究人員培訓(xùn)了一種依賴于線性計(jì)算的神經(jīng)網(wǎng)絡(luò),該計(jì)算可以更有效地?cái)U(kuò)展數(shù)據(jù)。“我們絕對需要可擴(kuò)展性,因?yàn)槲覀冋噲D提供一種將數(shù)據(jù)匯集到更大的數(shù)據(jù)集中的方法,”Cho說。

研究人員在STITCH數(shù)據(jù)集上訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò),該數(shù)據(jù)集擁有150萬個DTI,使其成為同類中最大的公開數(shù)據(jù)集。在訓(xùn)練中,網(wǎng)絡(luò)將每種藥物化合物和蛋白質(zhì)結(jié)構(gòu)編碼為簡單的載體表示。這基本上將復(fù)雜的結(jié)構(gòu)濃縮為計(jì)算機(jī)可以容易地處理的1和0。從這些向量,網(wǎng)絡(luò)然后學(xué)習(xí)交互和非交互的模式。通過聯(lián)合新的化合物和蛋白質(zhì)結(jié)構(gòu),網(wǎng)絡(luò)然后預(yù)測它們是否會相互作用。

該網(wǎng)絡(luò)還具有針對效率和安全性進(jìn)行了優(yōu)化的架構(gòu)。神經(jīng)網(wǎng)絡(luò)的每一層都需要一些激活函數(shù)來確定如何將信息發(fā)送到下一層。在他們的網(wǎng)絡(luò)中,研究人員使用了一種稱為整流線性單元(ReLU)的高效激活功能。此功能僅需要交互的單個安全數(shù)值比較,以確定是否將數(shù)據(jù)發(fā)送(1)或不發(fā)送(0)到下一層,同時也從不透露任何有關(guān)實(shí)際數(shù)據(jù)的信息。與更復(fù)雜的功能相比,此操作在安全計(jì)算中更有效,因此在確保數(shù)據(jù)隱私的同時減少了計(jì)算負(fù)擔(dān)。

“重要的原因是我們希望在秘密共享框架內(nèi)做到這一點(diǎn)......而且我們不想增加計(jì)算開銷,”Berger說。最后,“沒有顯示模型的參數(shù),所有輸入數(shù)據(jù) - 藥物,目標(biāo)和交互 - 都保密。”

尋找互動

研究人員將他們的網(wǎng)絡(luò)與來自DrugBank的一部分已知DTI的幾個最先進(jìn)的明文(未加密)模型進(jìn)行了對比,這是一個包含大約2,000個DTI的流行數(shù)據(jù)集。除了保持?jǐn)?shù)據(jù)私密性外,研究人員的網(wǎng)絡(luò)在預(yù)測準(zhǔn)確性方面優(yōu)于所有模型。只有兩個基線模型可以合理地?cái)U(kuò)展到STITCH數(shù)據(jù)集,研究人員的模型實(shí)現(xiàn)了幾乎兩倍的模型精度。

研究人員還在STITCH中測試了沒有列出相互作用的藥物 - 靶標(biāo)對,并發(fā)現(xiàn)了一些臨床確定的藥物相互作用,這些相互作用沒有在數(shù)據(jù)庫中列出但應(yīng)該是。在該論文中,研究人員列出了最強(qiáng)烈的預(yù)測,包括:屈洛昔芬和雌激素受體,它們作為乳腺癌的治療方法達(dá)到了III期臨床試驗(yàn); 和西奧骨化醇和維生素D受體治療其他癌癥。Cho和Hie通過合同研究組織獨(dú)立驗(yàn)證了得分最高的小說互動。

接下來,研究人員正在與合作伙伴一起在現(xiàn)實(shí)環(huán)境中建立他們的協(xié)作管道。“我們有興趣將安全計(jì)算環(huán)境整合在一起,因此我們可以使用真實(shí)數(shù)據(jù)運(yùn)行我們的安全協(xié)議,”Cho說。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。