您的位置: 首頁(yè) >互聯(lián)網(wǎng) >

超級(jí)計(jì)算加速了深度學(xué)習(xí)培訓(xùn)

2019-06-24 11:26:11 編輯: 來(lái)源:
導(dǎo)讀 來(lái)自加州大學(xué)伯克利分校,加州大學(xué)戴維斯分校和德克薩斯高級(jí)計(jì)算中心(TACC)的一組研究人員發(fā)表了一項(xiàng)研究結(jié)果,旨在利用超級(jí)計(jì)算機(jī)的力量訓(xùn)

來(lái)自加州大學(xué)伯克利分校,加州大學(xué)戴維斯分校和德克薩斯高級(jí)計(jì)算中心(TACC)的一組研究人員發(fā)表了一項(xiàng)研究結(jié)果,旨在利用超級(jí)計(jì)算機(jī)的力量訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(DNN)的圖像迅速認(rèn)識(shí)。

研究人員在TACC 的Stampede2超級(jí)計(jì)算機(jī)上有效地使用了1024個(gè)Skylake處理器,在11分鐘內(nèi)完成了與AlexNet的100-epoch ImageNet培訓(xùn) - 這是迄今為止記錄的最快時(shí)間。使用1600個(gè)Skylake處理器,他們還在32分鐘內(nèi)完成了使用ResNet-50的90年代ImageNet培訓(xùn),擊敗了Facebook的先前結(jié)果,對(duì)于批量超過(guò)20,000的批次,他們的準(zhǔn)確性遠(yuǎn)高于Facebook的。(近年來(lái),ImageNet基準(zhǔn)測(cè)試 - 一種專(zhuān)為圖像識(shí)別研究而設(shè)計(jì)的可視化數(shù)據(jù)庫(kù) - 在評(píng)估DNN培訓(xùn)的不同方法方面發(fā)揮了重要作用。)

在Stampede2上使用512個(gè)Intel Xeon Phi芯片,他們?cè)?4分鐘內(nèi)完成了100個(gè)紀(jì)元的AlexNet,并在60分鐘內(nèi)完成了90個(gè)紀(jì)元的ResNet-50。

“這些結(jié)果表明,使用先進(jìn)的計(jì)算資源,如TACC,以及大型小批量啟用算法,以交互方式和分布式方式訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的潛力,”TACC研究科學(xué)家趙章說(shuō)。領(lǐng)先的超級(jí)計(jì)算中心。“鑒于我們龐大的用戶(hù)群和巨大的容量,這將對(duì)科學(xué)產(chǎn)生重大影響。”

他們于2017年11月在Arxiv上公布了他們的結(jié)果。

DNN培訓(xùn)系統(tǒng)實(shí)現(xiàn)了最先進(jìn)的“前1”測(cè)試準(zhǔn)確度,這意味著模型應(yīng)答(概率最高的那個(gè))的情況的百分比恰好是預(yù)期的答案。使用ResNet-50(微軟開(kāi)發(fā)的卷積神經(jīng)網(wǎng)絡(luò)贏得了2015年ImageNet大規(guī)模視覺(jué)識(shí)別競(jìng)賽并超越了ImageNet數(shù)據(jù)集中的人類(lèi)表現(xiàn)),他們實(shí)現(xiàn)了超過(guò)75%的準(zhǔn)確率 - 與Facebook和亞馬遜的批量培訓(xùn)水平相當(dāng)。在這項(xiàng)工作中,將數(shù)據(jù)的批量大小縮放到32,000只會(huì)損失0.6%的前1精度。

相對(duì)較慢的訓(xùn)練速度會(huì)影響科學(xué)的速度,以及研究人員愿意探索的那種科學(xué)。谷歌的研究人員指出,如果培訓(xùn)神經(jīng)網(wǎng)絡(luò)需要一到四天的時(shí)間,研究人員認(rèn)為這是可以容忍的。如果需要一到四周,該方法將僅用于高價(jià)值實(shí)驗(yàn)。如果需要一個(gè)多月,科學(xué)家們甚至都不會(huì)嘗試。如果研究人員能夠在喝咖啡休息期間完成培訓(xùn)過(guò)程,那么它將顯著提高他們的生產(chǎn)力。

該小組的突破涉及層智能自適應(yīng)速率調(diào)整(LARS)算法的開(kāi)發(fā),該算法能夠有效地將數(shù)據(jù)分發(fā)到多個(gè)處理器,以使用比批量大小更多的項(xiàng)目(最多32,000個(gè)項(xiàng)目)同時(shí)進(jìn)行計(jì)算。

LARS在一個(gè)前向/后向傳遞中包含更多訓(xùn)練示例,并根據(jù)從前一次迭代中收集的度量自適應(yīng)地調(diào)整神經(jīng)網(wǎng)絡(luò)的每一層之間的學(xué)習(xí)速率。

由于這些變化,他們能夠利用Stampede2上提供的大量Skylake和Intel Xeon Phi處理器,同時(shí)保持準(zhǔn)確性,而以前的大批量方法則不然。

“對(duì)于深度學(xué)習(xí)應(yīng)用程序,更大的數(shù)據(jù)集和更大的模型可以顯著提高準(zhǔn)確性,但代價(jià)是延長(zhǎng)培訓(xùn)時(shí)間,”加州大學(xué)伯克利分校數(shù)學(xué)與計(jì)算機(jī)科學(xué)教授James Demmel說(shuō)。“使用LARS算法,由Y. You與B. Ginsburg和I. Gitman在NVIDIA實(shí)習(xí)期間共同開(kāi)發(fā),使我們能夠保持準(zhǔn)確度,即使批量為32K。這種大批量的尺寸使我們能夠有效地使用分布式系統(tǒng),并在1024 Skylake處理器上使用AlexNet在11分鐘內(nèi)完成ImageNet培訓(xùn),這是對(duì)先前結(jié)果的重大改進(jìn)。

這些發(fā)現(xiàn)顯示了使用專(zhuān)用硬件(GPU,Tensor Flow芯片,F(xiàn)PGA或其他新興架構(gòu))進(jìn)行深度學(xué)習(xí)的趨勢(shì)的替代方案。該團(tuán)隊(duì)編寫(xiě)了基于Caffe的代碼,并使用了支持多節(jié)點(diǎn)培訓(xùn)的Intel-Caffe。

深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練階段通常是深度學(xué)習(xí)中最耗時(shí)的部分。直到最近,由加州大學(xué)伯克利分校領(lǐng)導(dǎo)的團(tuán)隊(duì)完成的過(guò)程將花費(fèi)數(shù)小時(shí)或數(shù)天??焖俜植际脚嘤?xùn)的進(jìn)步將影響科學(xué)的速度,以及研究人員可以用這些新方法探索的科學(xué)類(lèi)型。

該實(shí)驗(yàn)是TACC更廣泛努力的一部分,用于測(cè)試CPU硬件在深度學(xué)習(xí)和機(jī)器學(xué)習(xí)應(yīng)用程序和框架(包括Caffe,MXNet和TensorFlow)中的適用性。

TACC的專(zhuān)家展示了在使用resNet-50處理器將Caffe擴(kuò)展到1024個(gè)Skylake處理器時(shí),該框架的運(yùn)行效率約為73%,比單個(gè)Skylake處理器快750倍。

“使用商用HPC服務(wù)器在大量數(shù)據(jù)集上快速訓(xùn)練深度學(xué)習(xí)算法是測(cè)量和模擬研究的強(qiáng)大新工具,”TACC數(shù)據(jù)密集計(jì)算總監(jiān)Niall Gaffney說(shuō)。“通過(guò)不必在專(zhuān)用硬件系統(tǒng)之間遷移大型數(shù)據(jù)集,減少了數(shù)據(jù)驅(qū)動(dòng)發(fā)現(xiàn)的時(shí)間,并且可以顯著提高整體效率。”

隨著研究人員和科學(xué)學(xué)科越來(lái)越多地使用機(jī)器和深度學(xué)習(xí)從大規(guī)模實(shí)驗(yàn)和模擬數(shù)據(jù)集中提取見(jiàn)解,擁有能夠處理這種工作量的系統(tǒng)非常重要。

最近的研究結(jié)果表明,現(xiàn)在可以通過(guò)Stampede2等國(guó)家先進(jìn)的計(jì)算資源向開(kāi)放科學(xué)界提供此類(lèi)系統(tǒng)。


免責(zé)聲明:本文由用戶(hù)上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。