Frontier 是世界上最大的超級計算機，使用 3,072 個 AMD GPU 來訓練超過 1 萬億個參數 LLM

2024-01-15 07:17:20

比特新聞據新致遠1月13日報導，AMD的軟硬體系統也可以訓練GPT-3.5級大型機型。

Frontier是橡樹嶺國家實驗室世界上最大的超級計算機，擁有37,888個MI250X GPU和9,472個Epyc7A53CPU。最近，研究人員僅使用大約 8% 的 GPU 訓練了 GPT-3.5 比例的模型。研究人員成功利用ROCM軟體平臺成功突破了AMD硬體上分散式訓練模型的諸多難點，利用ROCM平臺建立了最先進的AMD硬體上大型模型分散式訓練演演演算法和框架。

成功為非 NVIDIA 和非 CUDA 平臺上的 LLM 高效培訓提供了可行的技術框架。

訓練結束后，研究人員將Frontier上訓練大型模型的經驗總結成一篇論文，詳細介紹了遇到和克服的挑戰。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

1人點讚了這條動態

讚賞
1
留言
轉發
分享

留言

0/400

暫無留言