Frontier, o maior supercomputador do mundo, usa 3.072 GPUs AMD para treinar mais de um trilhão de LLMs de parâmetros

2024-01-15 07:17:20

Bit News De acordo com um relatório da New Zhiyuan em 13 de janeiro, os sistemas de software e hardware da AMD também podem treinar modelos grandes de nível GPT-3.5.

Frontier, o maior supercomputador do mundo no Oak Ridge National Laboratory, é o lar de 37.888 GPUs MI250X e 9.472 CPUs Epyc7A53. Recentemente, os pesquisadores treinaram um modelo em escala GPT-3.5 usando apenas cerca de 8% dessas GPUs. Os pesquisadores usaram com sucesso a plataforma de software ROCM para superar com sucesso muitas dificuldades de modelos de treinamento distribuído em hardware AMD, e estabeleceram o algoritmo de treinamento distribuído mais avançado e estrutura para grandes modelos em hardware AMD usando a plataforma ROCM.

Fornece com sucesso uma estrutura técnica viável para o treinamento eficiente de LLMs em plataformas não-NVIDIA e não-CUDA.

Após o treinamento, os pesquisadores resumiram a experiência de treinar grandes modelos na Frontier em um artigo detalhando os desafios encontrados e superados.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos

Recompensa
1
Comentar
Republicar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
#Gate Releases August Reserves Report
7k Popularidade
#BTC Hits New ATH
94k Popularidade
#Show My Alpha Points
125k Popularidade
#ETH Countdown To A New High
6k Popularidade
#Circle Launches ARC
4k Popularidade

Pino