2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。
萊斯大學(Rice University)的研究人員已經(jīng)展示了設計創(chuàng)新的以數(shù)據(jù)為中心的計算硬件的方法,以及與機器學習算法共同設計硬件的方法,這些方法可以將能源效率提高兩個數(shù)量級。
機器學習的進步,即自動駕駛汽車和許多其他高科技應用背后的人工智能的形式,已經(jīng)引領了一個新的計算時代——以數(shù)據(jù)為中心的時代——并迫使工程師們重新思考計算機架構的各個方面,這些方面在過去的75年中幾乎沒有受到挑戰(zhàn)。
”問題是大規(guī)模深層神經(jīng)網(wǎng)絡,對機器學習最先進的今天,超過90%的整個系統(tǒng)運行所需的電力消耗的內(nèi)存和處理器之間的數(shù)據(jù)移動,”林Yingyan說,電氣和計算機工程助理教授。
Lin和合作者提出了兩種互補的方法來優(yōu)化以數(shù)據(jù)為中心的處理,這兩種方法都在6月3日的國際計算機架構研討會(ISCA)上提出,這是計算機架構新想法和研究的重要會議之一。
對數(shù)據(jù)中心架構的驅(qū)動與一個被稱為馮·諾伊曼瓶頸(von Neumann瓶頸)的問題有關,這是一種效率低下的問題,源自于自數(shù)學家約翰·馮·諾伊曼(John von Neumann)于1945年發(fā)明以來一直統(tǒng)治著計算架構的內(nèi)存和處理分離。通過將內(nèi)存從程序和數(shù)據(jù)中分離出來,馮·諾伊曼架構使一臺計算機變得不可思議地多才多藝;根據(jù)從內(nèi)存中加載的存儲程序,計算機可以用來進行視頻通話、準備電子表格或模擬火星上的天氣。
但將內(nèi)存與處理分離也意味著即使是簡單的操作,比如2加2,也需要計算機處理器多次訪問內(nèi)存。這種內(nèi)存瓶頸在深度神經(jīng)網(wǎng)絡(通過“研究”大量以前的例子來學習做出類似人類決策的系統(tǒng))的大規(guī)模操作中變得更糟。網(wǎng)絡越大,它所能掌握的任務就越難,顯示的例子越多,它的性能就越好。深度神經(jīng)網(wǎng)絡訓練可能需要一批專門的處理器,這些處理器24小時不停地運行一個多星期。在智能手機上根據(jù)學習到的網(wǎng)絡執(zhí)行任務——這個過程稱為推理——可以在不到一個小時內(nèi)耗盡電池。
“人們普遍認為,對于機器學習時代的以數(shù)據(jù)為中心的算法,我們需要創(chuàng)新的以數(shù)據(jù)為中心的硬件架構,”賴斯高效與智能計算(EIC)實驗室主任林說。“但機器學習的最佳硬件架構是什么?”
她說:“沒有一個統(tǒng)一的答案,因為不同的應用程序需要的機器學習算法可能在算法結構和復雜性方面有很大的不同,同時有不同的任務準確性和資源消耗(如能源成本、延遲和吞吐量權衡要求)。”“許多研究人員正在對此進行研究,像英特爾、IBM和谷歌這樣的大公司都有自己的設計?!?/p>
林的團隊在ISCA 2020年的一次演講中展示了她和她的學生為“內(nèi)存處理”(PIM)開發(fā)的創(chuàng)新架構的成果,PIM是一種將處理引入內(nèi)存陣列的非馮·諾伊曼方法。一個有前途的PIM平臺是“電阻隨機訪問存儲器”(ReRAM),一種類似于flash的非易失性存儲器。Lin說,雖然已經(jīng)提出了其他的ram PIM加速器架構,但在超過10個深度神經(jīng)網(wǎng)絡模型上進行的實驗發(fā)現(xiàn),及時發(fā)現(xiàn)的能效是最具競爭力的最先進的ram PIM加速器的18倍,其計算密度是最先進的30倍以上。
及時,即“時域、內(nèi)存執(zhí)行、局部性”,通過消除由于頻繁訪問主存以處理中間輸入和輸出以及本地和主存之間的接口而導致的效率低下,從而實現(xiàn)了它的性能。
在主存儲器中,數(shù)據(jù)是數(shù)字存儲的,但是當它被帶到本地存儲器中進行內(nèi)存處理時,必須轉換為模擬數(shù)據(jù)。在以前的PIM加速器中,產(chǎn)生的數(shù)值從模擬轉換為數(shù)字,然后送回主存儲器。如果它們被從主存調(diào)用到本地重新運行以進行后續(xù)操作,它們將再次轉換為模擬,依此類推。
通過在本地內(nèi)存中使用模擬格式緩沖區(qū),及時避免了不必要的訪問主存和接口數(shù)據(jù)轉換的開銷。這樣,將大部分需要的數(shù)據(jù)及時保存在本地內(nèi)存數(shù)組中,大大提高了效率。
在2020年ISCA大會上,該組織的第二項提案是SmartExchange,這是一種結合算法和加速硬件創(chuàng)新以節(jié)約能源的設計。
“與執(zhí)行一次計算相比,訪問主內(nèi)存(戲劇化)的能量消耗要高出約200倍,因此SmartExchange的關鍵理念是在算法中強化結構,使我們可以用高成本的內(nèi)存換取低成本的計算,”Lin說。
“例如,假設我們的算法有1000個參數(shù),”她補充道?!霸趥鹘y(tǒng)的方法中,我們將在DRAM中存儲所有1000個數(shù)據(jù),并根據(jù)計算需要進行訪問。通過SmartExchange,我們可以在這1000人中找到一些結構。然后我們只需要存儲10,因為如果我們知道這10和剩下的990之間的關系,我們就可以計算任何一個990,而不用從DRAM調(diào)用它們。
她說:“我們將這10個‘基礎’子集稱為‘基礎’子集,其想法是將這些存儲在靠近處理器的本地,以避免或大幅減少訪問DRAM的成本?!?/p>
研究人員使用SmartExchange算法和他們的定制硬件加速器在七個基準深度神經(jīng)網(wǎng)絡模型和三個基準數(shù)據(jù)集上進行實驗。他們發(fā)現(xiàn),與最先進的深度神經(jīng)網(wǎng)絡加速器相比,這種組合將延遲降低了19倍之多。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。