Frontier, la supercomputadora más grande del mundo, utiliza 3.072 GPU AMD para entrenar más de un billón de LLM de parámetros

2024-01-15 07:17:20

Según un informe de New Zhiyuan del 13 de enero, los sistemas de software y hardware de AMD también pueden entrenar modelos grandes de nivel GPT-3.5.

Frontier, la supercomputadora más grande del mundo en el Laboratorio Nacional de Oak Ridge, alberga 37.888 GPU MI250X y 9.472 CPU Epyc7A53. Recientemente, los investigadores entrenaron un modelo a escala GPT-3.5 utilizando solo alrededor del 8% de esas GPU. Los investigadores utilizaron con éxito la plataforma de software ROCM para superar con éxito muchas dificultades de los modelos de entrenamiento distribuido en hardware de AMD, y establecieron el algoritmo y el marco de entrenamiento distribuido más avanzados para modelos grandes en hardware de AMD utilizando la plataforma ROCM.

Proporciona con éxito un marco técnico factible para la capacitación eficiente de LLM en plataformas que no son NVIDIA y no CUDA.

Después de la capacitación, los investigadores resumieron la experiencia de entrenar modelos grandes en Frontier en un documento que detalla los desafíos encontrados y superados.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta

Recompensa
1
Comentar
Republicar
Compartir

Comentar

0/400

Sin comentarios

Tema
#Gate Releases August Reserves Report
7k Popularidad
#BTC Hits New ATH
94k Popularidad
#Show My Alpha Points
125k Popularidad
#ETH Countdown To A New High
6k Popularidad
#Circle Launches ARC
4k Popularidad

Anclado