2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ 備案號:
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)
近日超算集群Frontier研究人員在AMD硬件平臺上集合了37888個MI250X GPU和9472個Epyc 7A53 CPU的環(huán)境,并且僅使用其中8%左右的GPU,訓練了一個GPT-3.5規(guī)模的模型,展示了如何用非英偉達生態(tài)完成大規(guī)模訓練的技術框架和細節(jié),披露了英偉達的技術護城河。
研究人員使用ROCM軟件平臺在AMD硬件上成功突破了分布式訓練模型的難點。在研究人員看來,訓練一萬億參數(shù)規(guī)模的LLM最棘手的挑戰(zhàn)是對內存的需求,至少需要14TB的內存才可以滿足這樣的需求。單塊GPU最大的內存只有64GB,這意味著需要并行使用多個AMD MI250X GPU才可以滿足要求,多塊GPU并行對GPU的通信要求非常高,如果不能利用GPU之間的帶寬通信,將會浪費大部分的GPU計算資源。研究人員將基于CUDA的代碼轉換為HIP代碼,預構建DeepSpeed ops,將縮放效率做到87%,完成很多工作之后,終于訓練出了超萬億參數(shù)LLM規(guī)模的成果。
2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ 備案號:
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)