Frontier, o maior supercomputador do mundo, usa 3.072 GPUs AMD para treinar mais de um trilhão de LLMs de parâmetros

Bit News De acordo com um relatório da New Zhiyuan em 13 de janeiro, os sistemas de software e hardware da AMD também podem treinar modelos grandes de nível GPT-3.5.

Frontier, o maior supercomputador do mundo no Oak Ridge National Laboratory, é o lar de 37.888 GPUs MI250X e 9.472 CPUs Epyc7A53. Recentemente, os pesquisadores treinaram um modelo em escala GPT-3.5 usando apenas cerca de 8% dessas GPUs. Os pesquisadores usaram com sucesso a plataforma de software ROCM para superar com sucesso muitas dificuldades de modelos de treinamento distribuído em hardware AMD, e estabeleceram o algoritmo de treinamento distribuído mais avançado e estrutura para grandes modelos em hardware AMD usando a plataforma ROCM.

Fornece com sucesso uma estrutura técnica viável para o treinamento eficiente de LLMs em plataformas não-NVIDIA e não-CUDA.

Após o treinamento, os pesquisadores resumiram a experiência de treinar grandes modelos na Frontier em um artigo detalhando os desafios encontrados e superados.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)