您的位置: 首頁 >科技 >

研究人員針對協(xié)作眾包平臺openml.org的用戶測試了該系統(tǒng)

2019-06-21 16:56:26 編輯: 來源:
導讀 數(shù)據(jù)科學近期的巨大增長 - 無論是作為學科還是應(yīng)用程序 - 都可以部分歸功于其強大的解決問題能力:它可以預測信用卡交易何時是欺詐性的

數(shù)據(jù)科學近期的巨大增長 - 無論是作為學科還是應(yīng)用程序 - 都可以部分歸功于其強大的解決問題能力:它可以預測信用卡交易何時是欺詐性的,幫助企業(yè)主找出何時發(fā)送優(yōu)惠券通過預測學生何時輟學,以最大化客戶響應(yīng)或促進教育干預。

然而,要獲得這些數(shù)據(jù)驅(qū)動的解決方案,數(shù)據(jù)科學家必須通過一系列復雜的步驟來處理原始數(shù)據(jù),每個步驟都需要許多人為驅(qū)動的決策。決定建模技術(shù)的過程的最后一步尤其重要。有數(shù)百種技術(shù)可供選擇 - 從神經(jīng)網(wǎng)絡(luò)到支持向量機 - 并且選擇最好的技術(shù)可能意味著數(shù)百萬美元的額外收入,或者發(fā)現(xiàn)關(guān)鍵醫(yī)療設(shè)備中的缺陷與缺失它之間的差異。

上周在IEEE國際大數(shù)據(jù)大會上發(fā)表的一篇名為“ATM:一種用于自動機器學習的分布式,協(xié)作,可擴展系統(tǒng)”的論文中,來自麻省理工學院和密歇根州立大學的研究人員提出了一種自動選擇模型的新系統(tǒng)。一步,甚至改善人的表現(xiàn)。該系統(tǒng)稱為自動調(diào)諧模型(ATM),利用基于云的計算對建模選項執(zhí)行高吞吐量搜索,并針對特定問題找到最佳可能的建模技術(shù)。它還調(diào)整了模型的超參數(shù) - 一種優(yōu)化算法的方法 - 這可以對性能產(chǎn)生重大影響。ATM現(xiàn)在可用作企業(yè)作為開源平臺。

為了將ATM與人類表演者進行比較,研究人員針對協(xié)作眾包平臺openml.org的用戶測試了該系統(tǒng)。在這個平臺上,數(shù)據(jù)科學家們共同努力解決問題,通過相互建立工作找到最佳解決方案。ATM從該平臺分析了47個數(shù)據(jù)集,并且能夠提供比人類在30%的時間內(nèi)提出的解決方案更好的解決方案。當它無法超越人類時,它就會非常接近,而且至關(guān)重要的是,它的工作速度比人類快得多。雖然open-ml用戶平均需要100天才能提供接近最優(yōu)的解決方案,但ATM可以在不到一天的時間內(nèi)得到答案。

賦予數(shù)據(jù)科學家權(quán)力

這種速度和準確性為數(shù)據(jù)科學家提供了急需的安心,他們經(jīng)常受到“假設(shè)”的困擾。“有很多選擇,”密歇根州立大學計算機科學與工程系教授,該論文的資深作者Arun Ross說。“如果數(shù)據(jù)科學家選擇支持向量機作為建模技術(shù),那么神經(jīng)網(wǎng)絡(luò)或不同模型是否會帶來更好的準確性的問題總會在她腦海中浮現(xiàn)。”

在過去幾年中,模型選擇/調(diào)整的問題已成為機器學習的一個全新子領(lǐng)域的焦點,稱為Auto-ML。Auto-ML解決方案旨在為數(shù)據(jù)科學家提供針對給定機器學習任務(wù)的最佳模型。只有一個問題:競爭的Auto-ML方法產(chǎn)生不同的結(jié)果,并且它們的方法通常是不透明的。換句話說,在尋求解決一個選擇問題時,社區(qū)創(chuàng)造了另一個更復雜的問題。麻省理工學院信息與決策系統(tǒng)實驗室(LIDS)的主要研究科學家,該論文的高級作者Kalyan Veeramachaneni說:“'假設(shè)'問題仍然存在。” “它只是轉(zhuǎn)移到'如果我們使用不同的Auto-ML方法怎么辦?'”

ATM系統(tǒng)的工作方式不同,使用按需云計算在一夜之間生成并比較數(shù)百(甚至數(shù)千)個模型。為了搜索技術(shù),研究人員使用智能選擇機制。系統(tǒng)并行測試數(shù)千個模型,對每個模型進行評估,并為那些有希望的技術(shù)分配更多的計算資源。糟糕的解決方案被淘汰,而最好的選擇上升到頂部。

ATM不是盲目地選擇“最佳”并將其提供給用戶,而是將結(jié)果顯示為分布,允許并排比較不同的方法。通過這種方式,羅斯說,ATM加速了測試和比較不同建模方法的過程,而沒有自動化人類直覺,這仍然是數(shù)據(jù)科學過程的重要組成部分。

開源,社區(qū)驅(qū)動的方法

通過簡化模型選擇流程,Veeramachaneni和他的團隊旨在讓數(shù)據(jù)科學家能夠在更具影響力的部分工作。“我們希望我們的系統(tǒng)能夠讓專家們花更多的時間來理解數(shù)據(jù),問題的制定和特征工程,”Veeramachaneni說。

為此,研究人員正在開源ATM,使其可供想要使用它的企業(yè)使用。它們還包括一些條款,允許研究人員整合新的模型選擇技術(shù),從而不斷改進平臺。ATM可以在單個機器,本地計算集群或云中的按需集群上運行,并且可以同時處理多個數(shù)據(jù)集和多個用戶。

“中小型數(shù)據(jù)科學團隊可以通過幾步建立和開始生產(chǎn)模型,”Veeramachaneni說。其中沒有一個是“假設(shè)”。


免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。