您的位置: 首頁 >互聯(lián)網(wǎng) >

Google的第四代張量處理單元公開發(fā)布

2020-07-31 08:44:35 編輯: 來源:國際品牌資訊

模型時,第四代TPU的得分也很高。使用256個第四代TPU進行培訓需要1.82分鐘,僅比使用4,096個第三代TPU進行培訓所需的0.39分鐘稍慢。同時,使用Nvidia硬件達到0.81分鐘的培訓時間,需要2,048張A100卡和512個AMD Epyc 7742 CPU內核。

最新的MLPerf包括新的和經(jīng)過修改的基準(建議和強化學習),并且TPU的結果參差不齊。由64個第四代TPU組成的集群在“建議”任務中表現(xiàn)良好,花費了1.12分鐘的時間來訓練來自Criteo AI Lab的Terabyte點擊率(CTR)數(shù)據(jù)集的1TB日志的模型。(八個Nvidia A100卡和兩個AMD Epyc 7742 CPU內核在3.33分鐘內完成了訓練。)但是Nvidia在強化學習方面取得了領先,設法在29.7分鐘的簡化版棋盤游戲中將模型訓練為50%的獲勝率。帶有256個A100卡和64個AMD Epyc 7742 CPU內核。256個第四代TPU花費了150.95分鐘。

需要注意的一點是,Nvidia硬件以Facebook的PyTorch框架和Nvidia自己的框架(而不是Google TensorFlow)為基準。第三代和第四代TPU都使用TensorFlow,JAX和Lingvo。盡管這可能會在一定程度上影響結果,甚至允許這樣做,但基準測試明確了第四代TPU的性能優(yōu)勢。


免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。