Frontier, крупнейший в мире суперкомпьютер, использует 3072 графических процессора AMD для обучения более триллиона параметров LLM

Bit News Согласно сообщению New Zhiyuan от 13 января, программно-аппаратные системы AMD также могут обучать большие модели уровня GPT-3.5.

Frontier, крупнейший в мире суперкомпьютер в Национальной лаборатории Оук-Ридж, содержит 37 888 графических процессоров MI250X и 9 472 процессора Epyc7A53. Недавно исследователи обучили модель в масштабе GPT-3,5, используя только около 8% этих графических процессоров. Исследователи успешно использовали программную платформу ROCM, чтобы успешно преодолеть многие трудности распределенных обучающих моделей на аппаратном обеспечении AMD, и создали самый передовой алгоритм и фреймворк распределенного обучения для больших моделей на оборудовании AMD с использованием платформы ROCM.

Успешно предоставляет осуществимую техническую основу для эффективного обучения магистров права на платформах, отличных от NVIDIA и не CUDA.

После обучения исследователи обобщили опыт обучения больших моделей на Frontier в документе с подробным описанием проблем, с которыми пришлось столкнуться и преодолеть.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить