Frontier, la supercomputadora más grande del mundo, utiliza 3.072 GPU AMD para entrenar más de un billón de LLM de parámetros

Según un informe de New Zhiyuan del 13 de enero, los sistemas de software y hardware de AMD también pueden entrenar modelos grandes de nivel GPT-3.5.

Frontier, la supercomputadora más grande del mundo en el Laboratorio Nacional de Oak Ridge, alberga 37.888 GPU MI250X y 9.472 CPU Epyc7A53. Recientemente, los investigadores entrenaron un modelo a escala GPT-3.5 utilizando solo alrededor del 8% de esas GPU. Los investigadores utilizaron con éxito la plataforma de software ROCM para superar con éxito muchas dificultades de los modelos de entrenamiento distribuido en hardware de AMD, y establecieron el algoritmo y el marco de entrenamiento distribuido más avanzados para modelos grandes en hardware de AMD utilizando la plataforma ROCM.

Proporciona con éxito un marco técnico factible para la capacitación eficiente de LLM en plataformas que no son NVIDIA y no CUDA.

Después de la capacitación, los investigadores resumieron la experiencia de entrenar modelos grandes en Frontier en un documento que detalla los desafíos encontrados y superados.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)