Bit News 1月13日のNew Zhiyuanのレポートによると、AMDのソフトウェアおよびハードウェアシステムは、GPT-3.5レベルの大規模モデルもトレーニングできます。オークリッジ国立研究所の世界最大のスーパーコンピューターであるFrontierには、37,888個のMI250X GPUと9,472個のEpyc7A53CPUが搭載されています。 最近、研究者はGPT-3.5スケールのモデルを、これらのGPUの約8%しか使用せずにトレーニングしました。 研究者らは、ROCMソフトウェア・プラットフォームを使用して、AMDハードウェア上の分散トレーニング・モデルの多くの困難を突破することに成功し、ROCMプラットフォームを使用してAMDハードウェア上の大規模モデル向けの最先端の分散トレーニング・アルゴリズムとフレームワークを確立しました。非NVIDIAおよび非CUDAプラットフォームでのLLMの効率的なトレーニングのための実現可能な技術フレームワークを提供することに成功しました。トレーニング後、研究者はFrontierで大規模モデルをトレーニングした経験を、遭遇した課題と克服した課題を詳述した論文にまとめました。
世界最大のスーパーコンピューターである Frontier は、3,072 個の AMD GPU を使用して、1 兆を超えるパラメーター LLM をトレーニングしています
Bit News 1月13日のNew Zhiyuanのレポートによると、AMDのソフトウェアおよびハードウェアシステムは、GPT-3.5レベルの大規模モデルもトレーニングできます。
オークリッジ国立研究所の世界最大のスーパーコンピューターであるFrontierには、37,888個のMI250X GPUと9,472個のEpyc7A53CPUが搭載されています。 最近、研究者はGPT-3.5スケールのモデルを、これらのGPUの約8%しか使用せずにトレーニングしました。 研究者らは、ROCMソフトウェア・プラットフォームを使用して、AMDハードウェア上の分散トレーニング・モデルの多くの困難を突破することに成功し、ROCMプラットフォームを使用してAMDハードウェア上の大規模モデル向けの最先端の分散トレーニング・アルゴリズムとフレームワークを確立しました。
非NVIDIAおよび非CUDAプラットフォームでのLLMの効率的なトレーニングのための実現可能な技術フレームワークを提供することに成功しました。
トレーニング後、研究者はFrontierで大規模モデルをトレーニングした経験を、遭遇した課題と克服した課題を詳述した論文にまとめました。