超級計(jì)算加速了深度學(xué)習(xí)培訓(xùn)

2019-06-24 11:26:11 編輯：來源：

導(dǎo)讀來自加州大學(xué)伯克利分校，加州大學(xué)戴維斯分校和德克薩斯高級計(jì)算中心(TACC)的一組研究人員發(fā)表了一項(xiàng)研究結(jié)果，旨在利用超級計(jì)算機(jī)的力量訓(xùn)

來自加州大學(xué)伯克利分校，加州大學(xué)戴維斯分校和德克薩斯高級計(jì)算中心(TACC)的一組研究人員發(fā)表了一項(xiàng)研究結(jié)果，旨在利用超級計(jì)算機(jī)的力量訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(DNN)的圖像迅速認(rèn)識。

研究人員在TACC 的Stampede2超級計(jì)算機(jī)上有效地使用了1024個(gè)Skylake處理器，在11分鐘內(nèi)完成了與AlexNet的100-epoch ImageNet培訓(xùn) - 這是迄今為止記錄的最快時(shí)間。使用1600個(gè)Skylake處理器，他們還在32分鐘內(nèi)完成了使用ResNet-50的90年代ImageNet培訓(xùn)，擊敗了Facebook的先前結(jié)果，對于批量超過20,000的批次，他們的準(zhǔn)確性遠(yuǎn)高于Facebook的。(近年來，ImageNet基準(zhǔn)測試 - 一種專為圖像識別研究而設(shè)計(jì)的可視化數(shù)據(jù)庫 - 在評估DNN培訓(xùn)的不同方法方面發(fā)揮了重要作用。)

在Stampede2上使用512個(gè)Intel Xeon Phi芯片，他們在24分鐘內(nèi)完成了100個(gè)紀(jì)元的AlexNet，并在60分鐘內(nèi)完成了90個(gè)紀(jì)元的ResNet-50。

“這些結(jié)果表明，使用先進(jìn)的計(jì)算資源，如TACC，以及大型小批量啟用算法，以交互方式和分布式方式訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的潛力，”TACC研究科學(xué)家趙章說。領(lǐng)先的超級計(jì)算中心。“鑒于我們龐大的用戶群和巨大的容量，這將對科學(xué)產(chǎn)生重大影響。”

他們于2017年11月在Arxiv上公布了他們的結(jié)果。

DNN培訓(xùn)系統(tǒng)實(shí)現(xiàn)了最先進(jìn)的“前1”測試準(zhǔn)確度，這意味著模型應(yīng)答(概率最高的那個(gè))的情況的百分比恰好是預(yù)期的答案。使用ResNet-50(微軟開發(fā)的卷積神經(jīng)網(wǎng)絡(luò)贏得了2015年ImageNet大規(guī)模視覺識別競賽并超越了ImageNet數(shù)據(jù)集中的人類表現(xiàn))，他們實(shí)現(xiàn)了超過75%的準(zhǔn)確率 - 與Facebook和亞馬遜的批量培訓(xùn)水平相當(dāng)。在這項(xiàng)工作中，將數(shù)據(jù)的批量大小縮放到32,000只會損失0.6%的前1精度。

相對較慢的訓(xùn)練速度會影響科學(xué)的速度，以及研究人員愿意探索的那種科學(xué)。谷歌的研究人員指出，如果培訓(xùn)神經(jīng)網(wǎng)絡(luò)需要一到四天的時(shí)間，研究人員認(rèn)為這是可以容忍的。如果需要一到四周，該方法將僅用于高價(jià)值實(shí)驗(yàn)。如果需要一個(gè)多月，科學(xué)家們甚至都不會嘗試。如果研究人員能夠在喝咖啡休息期間完成培訓(xùn)過程，那么它將顯著提高他們的生產(chǎn)力。

該小組的突破涉及層智能自適應(yīng)速率調(diào)整(LARS)算法的開發(fā)，該算法能夠有效地將數(shù)據(jù)分發(fā)到多個(gè)處理器，以使用比批量大小更多的項(xiàng)目(最多32,000個(gè)項(xiàng)目)同時(shí)進(jìn)行計(jì)算。

LARS在一個(gè)前向/后向傳遞中包含更多訓(xùn)練示例，并根據(jù)從前一次迭代中收集的度量自適應(yīng)地調(diào)整神經(jīng)網(wǎng)絡(luò)的每一層之間的學(xué)習(xí)速率。

由于這些變化，他們能夠利用Stampede2上提供的大量Skylake和Intel Xeon Phi處理器，同時(shí)保持準(zhǔn)確性，而以前的大批量方法則不然。

“對于深度學(xué)習(xí)應(yīng)用程序，更大的數(shù)據(jù)集和更大的模型可以顯著提高準(zhǔn)確性，但代價(jià)是延長培訓(xùn)時(shí)間，”加州大學(xué)伯克利分校數(shù)學(xué)與計(jì)算機(jī)科學(xué)教授James Demmel說。“使用LARS算法，由Y. You與B. Ginsburg和I. Gitman在NVIDIA實(shí)習(xí)期間共同開發(fā)，使我們能夠保持準(zhǔn)確度，即使批量為32K。這種大批量的尺寸使我們能夠有效地使用分布式系統(tǒng)，并在1024 Skylake處理器上使用AlexNet在11分鐘內(nèi)完成ImageNet培訓(xùn)，這是對先前結(jié)果的重大改進(jìn)。

這些發(fā)現(xiàn)顯示了使用專用硬件(GPU，Tensor Flow芯片，F(xiàn)PGA或其他新興架構(gòu))進(jìn)行深度學(xué)習(xí)的趨勢的替代方案。該團(tuán)隊(duì)編寫了基于Caffe的代碼，并使用了支持多節(jié)點(diǎn)培訓(xùn)的Intel-Caffe。

深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練階段通常是深度學(xué)習(xí)中最耗時(shí)的部分。直到最近，由加州大學(xué)伯克利分校領(lǐng)導(dǎo)的團(tuán)隊(duì)完成的過程將花費(fèi)數(shù)小時(shí)或數(shù)天?？焖俜植际脚嘤?xùn)的進(jìn)步將影響科學(xué)的速度，以及研究人員可以用這些新方法探索的科學(xué)類型。

該實(shí)驗(yàn)是TACC更廣泛努力的一部分，用于測試CPU硬件在深度學(xué)習(xí)和機(jī)器學(xué)習(xí)應(yīng)用程序和框架(包括Caffe，MXNet和TensorFlow)中的適用性。

TACC的專家展示了在使用resNet-50處理器將Caffe擴(kuò)展到1024個(gè)Skylake處理器時(shí)，該框架的運(yùn)行效率約為73%，比單個(gè)Skylake處理器快750倍。

“使用商用HPC服務(wù)器在大量數(shù)據(jù)集上快速訓(xùn)練深度學(xué)習(xí)算法是測量和模擬研究的強(qiáng)大新工具，”TACC數(shù)據(jù)密集計(jì)算總監(jiān)Niall Gaffney說。“通過不必在專用硬件系統(tǒng)之間遷移大型數(shù)據(jù)集，減少了數(shù)據(jù)驅(qū)動發(fā)現(xiàn)的時(shí)間，并且可以顯著提高整體效率。”

隨著研究人員和科學(xué)學(xué)科越來越多地使用機(jī)器和深度學(xué)習(xí)從大規(guī)模實(shí)驗(yàn)和模擬數(shù)據(jù)集中提取見解，擁有能夠處理這種工作量的系統(tǒng)非常重要。

最近的研究結(jié)果表明，現(xiàn)在可以通過Stampede2等國家先進(jìn)的計(jì)算資源向開放科學(xué)界提供此類系統(tǒng)。

標(biāo)簽：深度學(xué)習(xí)培訓(xùn)