世界最大のスーパーコンピューターである Frontier は、3,072 個の AMD GPU を使用して、1 兆を超えるパラメーター LLM をトレーニングしています

Bit News 1月13日のNew Zhiyuanのレポートによると、AMDのソフトウェアおよびハードウェアシステムは、GPT-3.5レベルの大規模モデルもトレーニングできます。

オークリッジ国立研究所の世界最大のスーパーコンピューターであるFrontierには、37,888個のMI250X GPUと9,472個のEpyc7A53CPUが搭載されています。 最近、研究者はGPT-3.5スケールのモデルを、これらのGPUの約8%しか使用せずにトレーニングしました。 研究者らは、ROCMソフトウェア・プラットフォームを使用して、AMDハードウェア上の分散トレーニング・モデルの多くの困難を突破することに成功し、ROCMプラットフォームを使用してAMDハードウェア上の大規模モデル向けの最先端の分散トレーニング・アルゴリズムとフレームワークを確立しました。

非NVIDIAおよび非CUDAプラットフォームでのLLMの効率的なトレーニングのための実現可能な技術フレームワークを提供することに成功しました。

トレーニング後、研究者はFrontierで大規模モデルをトレーニングした経験を、遭遇した課題と克服した課題を詳述した論文にまとめました。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)