世界最大のスーパーコンピューターである Frontier は、3,072 個の AMD GPU を使用して、1 兆を超えるパラメーター LLM をトレーニングしています

2024-01-15 07:17:20

Bit News 1月13日のNew Zhiyuanのレポートによると、AMDのソフトウェアおよびハードウェアシステムは、GPT-3.5レベルの大規模モデルもトレーニングできます。

オークリッジ国立研究所の世界最大のスーパーコンピューターであるFrontierには、37,888個のMI250X GPUと9,472個のEpyc7A53CPUが搭載されています。最近、研究者はGPT-3.5スケールのモデルを、これらのGPUの約8%しか使用せずにトレーニングしました。研究者らは、ROCMソフトウェア・プラットフォームを使用して、AMDハードウェア上の分散トレーニング・モデルの多くの困難を突破することに成功し、ROCMプラットフォームを使用してAMDハードウェア上の大規模モデル向けの最先端の分散トレーニング・アルゴリズムとフレームワークを確立しました。

非NVIDIAおよび非CUDAプラットフォームでのLLMの効率的なトレーニングのための実現可能な技術フレームワークを提供することに成功しました。

トレーニング後、研究者はFrontierで大規模モデルをトレーニングした経験を、遭遇した課題と克服した課題を詳述した論文にまとめました。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

1 いいね

報酬
1
コメント
リポスト
共有

0/400

コメントなし

トピック
#Gate Releases August Reserves Report
9k 人気度
#BTC Hits New ATH
96k 人気度
#Show My Alpha Points
126k 人気度
#ETH Countdown To A New High
6k 人気度
#Circle Launches ARC
4k 人気度

ピン

サイトマップ