Frontier, найбільший у світі суперкомп'ютер, використовує 3 072 графічні процесори AMD для навчання понад трильйона параметрів LLM

Bit News Згідно зі звітом New Zhiyuan від 13 січня, програмно-апаратні системи AMD також можуть навчати великі моделі рівня GPT-3.5.

Frontier, найбільший у світі суперкомп'ютер в Національній лабораторії Оук-Рідж, є домом для 37 888 графічних процесорів MI250X і 9 472 процесорів Epyc7A53. Нещодавно дослідники навчили модель масштабу GPT-3.5, використовуючи лише близько 8% цих графічних процесорів. Дослідники успішно використали програмну платформу ROCM для успішного подолання багатьох труднощів розподілених навчальних моделей на апаратному забезпеченні AMD, а також створили найдосконаліший алгоритм розподіленого навчання та фреймворк для великих моделей на апаратному забезпеченні AMD з використанням платформи ROCM.

Успішно забезпечує можливу технічну основу для ефективного навчання LLM на платформах, що не належать до NVIDIA, і без CUDA.

Після тренінгу дослідники узагальнили досвід навчання великих моделей на Frontier у документі, в якому детально описали проблеми, з якими стикалися та долали їх.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити