比特新聞 據新致遠1月13日報導,AMD的軟硬體系統也可以訓練GPT-3.5級大型機型。Frontier是橡樹嶺國家實驗室世界上最大的超級計算機,擁有37,888個MI250X GPU和9,472個Epyc7A53CPU。 最近,研究人員僅使用大約 8% 的 GPU 訓練了 GPT-3.5 比例的模型。 研究人員成功利用ROCM軟體平臺成功突破了AMD硬體上分散式訓練模型的諸多難點,利用ROCM平臺建立了最先進的AMD硬體上大型模型分散式訓練演演演算法和框架。成功為非 NVIDIA 和非 CUDA 平臺上的 LLM 高效培訓提供了可行的技術框架。訓練結束后,研究人員將Frontier上訓練大型模型的經驗總結成一篇論文,詳細介紹了遇到和克服的挑戰。
Frontier 是世界上最大的超級計算機,使用 3,072 個 AMD GPU 來訓練超過 1 萬億個參數 LLM
比特新聞 據新致遠1月13日報導,AMD的軟硬體系統也可以訓練GPT-3.5級大型機型。
Frontier是橡樹嶺國家實驗室世界上最大的超級計算機,擁有37,888個MI250X GPU和9,472個Epyc7A53CPU。 最近,研究人員僅使用大約 8% 的 GPU 訓練了 GPT-3.5 比例的模型。 研究人員成功利用ROCM軟體平臺成功突破了AMD硬體上分散式訓練模型的諸多難點,利用ROCM平臺建立了最先進的AMD硬體上大型模型分散式訓練演演演算法和框架。
成功為非 NVIDIA 和非 CUDA 平臺上的 LLM 高效培訓提供了可行的技術框架。
訓練結束后,研究人員將Frontier上訓練大型模型的經驗總結成一篇論文,詳細介紹了遇到和克服的挑戰。