2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
深度學(xué)習(xí)的最新進展以及跨應(yīng)用程序域使用機器學(xué)習(xí)的指數(shù)增長已使AI加速變得至關(guān)重要。IBM Research一直在構(gòu)建AI硬件加速器的管道來滿足這一需求。在2018年VLSI電路研討會上,我們展示了一個可跨多種AI硬件系統(tǒng)擴展的Multi-TeraOPS加速器核心構(gòu)建塊。該數(shù)字AI內(nèi)核具有并行架構(gòu),可確保非常高的利用率和高效的計算引擎,可謹慎利用降低的精度。
近似計算是我們利用“人工智能的物理學(xué)”方法的中心原則,在該方法中,通過專門構(gòu)建的架構(gòu)實現(xiàn)了高能效的計算收益,最初使用數(shù)字計算,后來使用模擬和內(nèi)存計算。
從歷史上看,計算一直依賴于高精度的64位和32位浮點算法。這種方法可以將精確的計算精確到小數(shù)點后第n位,這對于科學(xué)計算任務(wù)(例如模擬人的心臟或計算航天飛機的軌跡)至關(guān)重要。但是,對于常見的深度學(xué)習(xí)任務(wù),我們是否需要這種準確性?我們的大腦是否需要高分辨率圖像才能識別家庭成員或貓?當我們輸入文本線程進行搜索時,我們是否需要精確地將第50,002個最有用答復(fù)與第500,003個相對答復(fù)進行比較?答案是,包括這些示例在內(nèi)的許多任務(wù)都可以通過近似計算來完成。
由于普通的深度學(xué)習(xí)工作負載很少需要全精度,因此降低精度是自然的方向。具有16位精度引擎的計算構(gòu)件比具有32位精度的同類構(gòu)件小4倍。對于AI訓(xùn)練和推理工作負載而言,這種區(qū)域效率的提高成為性能和功率效率的提升。簡而言之,在近似計算中,只要我們還開發(fā)了算法改進來保持模型的準確性,就可以用數(shù)值精度換取計算效率。這種方法還補充了其他近似計算技術(shù)-包括最近的工作,該工作描述了新穎的訓(xùn)練壓縮方法以減少通信開銷,從而使現(xiàn)有方法的速度提高了40-200倍。
我們在2018年VLSI電路研討會上介紹了我們的數(shù)字AI內(nèi)核的實驗結(jié)果。我們新核心的設(shè)計受四個目標支配:
端到端性能:并行計算,高利用率,高數(shù)據(jù)帶寬
深度學(xué)習(xí)模型的準確性:與高精度實現(xiàn)一樣精確
功率效率:應(yīng)用程序功率應(yīng)由計算元素主導(dǎo)
靈活性和可編程性:允許調(diào)整當前算法以及開發(fā)未來的深度學(xué)習(xí)算法和模型
我們的新架構(gòu)不僅針對矩陣乘法和卷積內(nèi)核進行了優(yōu)化,而矩陣乘法和卷積內(nèi)核往往主導(dǎo)著深度學(xué)習(xí)計算,還優(yōu)化了一系列激活函數(shù),這些函數(shù)是深度學(xué)習(xí)計算工作量的一部分。此外,我們的架構(gòu)為本地卷積運算提供了支持,從而允許在圖像和語音數(shù)據(jù)上進行深度學(xué)習(xí)訓(xùn)練和推理任務(wù),從而在內(nèi)核上以非凡的效率運行。
為了說明如何針對各種深度學(xué)習(xí)功能優(yōu)化核心架構(gòu),圖1顯示了整個應(yīng)用程序域中深度學(xué)習(xí)算法中操作類型的細目分類。通過使用圖2和圖3中所示的處理元素的自定義數(shù)據(jù)流組織,可以在核心體系結(jié)構(gòu)中計算主導(dǎo)矩陣乘法分量,其中可以有效利用降低的精度計算,而其余向量函數(shù)(圖2中的所有非紅色條形)圖1)在圖3或4所示的處理元素或特殊功能單元中執(zhí)行,具體取決于特定功能的精度要求。
在研討會上,我們展示了硬件結(jié)果,證實了這種單一架構(gòu)方法既可以訓(xùn)練也可以進行推理,并支持多個領(lǐng)域的模型(例如,語音,視覺,自然語言處理)。盡管其他小組指出了其專用AI芯片的“峰值性能”,但其持續(xù)的性能水平僅處于很小的峰值,但我們一直致力于最大化持續(xù)的性能和利用率,因為持續(xù)的性能直接轉(zhuǎn)化為用戶體驗和響應(yīng)時間。
我們的測試芯片如圖5所示。使用內(nèi)置14LPP技術(shù)的該測試芯片,我們已經(jīng)在廣泛的深度學(xué)習(xí)庫中成功演示了訓(xùn)練和推理,并練習(xí)了深度學(xué)習(xí)任務(wù)中常用的所有操作,包括矩陣乘法,卷積和各種非線性激活函數(shù)。
我們在VLSI論文中強調(diào)了數(shù)字AI核心的靈活性和多用途功能,以及對多個數(shù)據(jù)流的本地支持,但是這種方法是完全模塊化的。該AI內(nèi)核可以集成到SoC,CPU或微控制器中,并用于訓(xùn)練,推理或兩者。使用該內(nèi)核的芯片可以部署在數(shù)據(jù)中心或邊緣。
在對IBM Research 的深度學(xué)習(xí)算法有基本了解的推動下,我們期望培訓(xùn)和推理的精度要求將繼續(xù)提高,這將推動AI所需的硬件架構(gòu)中量子效率的提高。請繼續(xù)關(guān)注我們團隊的更多研究。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。