New Zhiyuan'ın 13 Ocak'ta yayınladığı bir rapora göre, AMD'nin yazılım ve donanım sistemleri GPT-3.5 seviyesindeki büyük modelleri de eğitebiliyor.
Oak Ridge Ulusal Laboratuvarı'ndaki dünyanın en büyük süper bilgisayarı olan Frontier, 37.888 MI250X GPU'ya ve 9.472 Epyc7A53CPU'ya ev sahipliği yapıyor. Son zamanlarda, araştırmacılar bu GPU'ların yalnızca yaklaşık %8'ini kullanarak GPT-3.5 ölçekli bir modeli eğitti. Araştırmacılar, AMD donanımı üzerinde dağıtılmış eğitim modellerinin birçok zorluğunu başarıyla aşmak için ROCM yazılım platformunu başarıyla kullandılar ve ROCM platformunu kullanarak AMD donanımındaki büyük modeller için en gelişmiş dağıtılmış eğitim algoritmasını ve çerçevesini oluşturdular.
LLM'lerin NVIDIA olmayan ve CUDA olmayan platformlarda verimli bir şekilde eğitilmesi için uygun bir teknik çerçeveyi başarıyla sağlar.
Eğitimden sonra araştırmacılar, Frontier'deki büyük modelleri eğitme deneyimini, karşılaşılan ve üstesinden gelinen zorlukları detaylandıran bir makalede özetlediler.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Dünyanın en büyük süper bilgisayarı olan Frontier, bir trilyondan fazla parametreli LLM'yi eğitmek için 3.072 AMD GPU kullanıyor
New Zhiyuan'ın 13 Ocak'ta yayınladığı bir rapora göre, AMD'nin yazılım ve donanım sistemleri GPT-3.5 seviyesindeki büyük modelleri de eğitebiliyor.
Oak Ridge Ulusal Laboratuvarı'ndaki dünyanın en büyük süper bilgisayarı olan Frontier, 37.888 MI250X GPU'ya ve 9.472 Epyc7A53CPU'ya ev sahipliği yapıyor. Son zamanlarda, araştırmacılar bu GPU'ların yalnızca yaklaşık %8'ini kullanarak GPT-3.5 ölçekli bir modeli eğitti. Araştırmacılar, AMD donanımı üzerinde dağıtılmış eğitim modellerinin birçok zorluğunu başarıyla aşmak için ROCM yazılım platformunu başarıyla kullandılar ve ROCM platformunu kullanarak AMD donanımındaki büyük modeller için en gelişmiş dağıtılmış eğitim algoritmasını ve çerçevesini oluşturdular.
LLM'lerin NVIDIA olmayan ve CUDA olmayan platformlarda verimli bir şekilde eğitilmesi için uygun bir teknik çerçeveyi başarıyla sağlar.
Eğitimden sonra araştırmacılar, Frontier'deki büyük modelleri eğitme deneyimini, karşılaşılan ve üstesinden gelinen zorlukları detaylandıran bir makalede özetlediler.