Bit News Согласно сообщению New Zhiyuan от 13 января, программно-аппаратные системы AMD также могут обучать большие модели уровня GPT-3.5.
Frontier, крупнейший в мире суперкомпьютер в Национальной лаборатории Оук-Ридж, содержит 37 888 графических процессоров MI250X и 9 472 процессора Epyc7A53. Недавно исследователи обучили модель в масштабе GPT-3,5, используя только около 8% этих графических процессоров. Исследователи успешно использовали программную платформу ROCM, чтобы успешно преодолеть многие трудности распределенных обучающих моделей на аппаратном обеспечении AMD, и создали самый передовой алгоритм и фреймворк распределенного обучения для больших моделей на оборудовании AMD с использованием платформы ROCM.
Успешно предоставляет осуществимую техническую основу для эффективного обучения магистров права на платформах, отличных от NVIDIA и не CUDA.
После обучения исследователи обобщили опыт обучения больших моделей на Frontier в документе с подробным описанием проблем, с которыми пришлось столкнуться и преодолеть.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Frontier, крупнейший в мире суперкомпьютер, использует 3072 графических процессора AMD для обучения более триллиона параметров LLM
Bit News Согласно сообщению New Zhiyuan от 13 января, программно-аппаратные системы AMD также могут обучать большие модели уровня GPT-3.5.
Frontier, крупнейший в мире суперкомпьютер в Национальной лаборатории Оук-Ридж, содержит 37 888 графических процессоров MI250X и 9 472 процессора Epyc7A53. Недавно исследователи обучили модель в масштабе GPT-3,5, используя только около 8% этих графических процессоров. Исследователи успешно использовали программную платформу ROCM, чтобы успешно преодолеть многие трудности распределенных обучающих моделей на аппаратном обеспечении AMD, и создали самый передовой алгоритм и фреймворк распределенного обучения для больших моделей на оборудовании AMD с использованием платформы ROCM.
Успешно предоставляет осуществимую техническую основу для эффективного обучения магистров права на платформах, отличных от NVIDIA и не CUDA.
После обучения исследователи обобщили опыт обучения больших моделей на Frontier в документе с подробным описанием проблем, с которыми пришлось столкнуться и преодолеть.