Menurut sebuah laporan oleh New Zhiyuan pada 13 Januari, sistem perangkat lunak dan perangkat keras AMD juga dapat melatih model besar level GPT-3.5.
Frontier, superkomputer terbesar di dunia di Oak Ridge National Laboratory, adalah rumah bagi 37.888 GPU MI250X dan 9.472 CPU Epyc7A53. Baru-baru ini, para peneliti melatih model skala GPT-3.5 menggunakan hanya sekitar 8% dari GPU tersebut. Para peneliti berhasil menggunakan platform perangkat lunak ROCM untuk berhasil menerobos banyak kesulitan model pelatihan terdistribusi pada perangkat keras AMD, dan menetapkan algoritma dan kerangka kerja pelatihan terdistribusi paling canggih untuk model besar pada perangkat keras AMD menggunakan platform ROCM.
Berhasil menyediakan kerangka kerja teknis yang layak untuk pelatihan LLM yang efisien pada platform non-NVIDIA dan non-CUDA.
Setelah pelatihan, para peneliti merangkum pengalaman melatih model besar di Frontier menjadi sebuah makalah yang merinci tantangan yang dihadapi dan diatasi.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Frontier, superkomputer terbesar di dunia, menggunakan 3.072 GPU AMD untuk melatih lebih dari satu triliun LLM parameter
Menurut sebuah laporan oleh New Zhiyuan pada 13 Januari, sistem perangkat lunak dan perangkat keras AMD juga dapat melatih model besar level GPT-3.5.
Frontier, superkomputer terbesar di dunia di Oak Ridge National Laboratory, adalah rumah bagi 37.888 GPU MI250X dan 9.472 CPU Epyc7A53. Baru-baru ini, para peneliti melatih model skala GPT-3.5 menggunakan hanya sekitar 8% dari GPU tersebut. Para peneliti berhasil menggunakan platform perangkat lunak ROCM untuk berhasil menerobos banyak kesulitan model pelatihan terdistribusi pada perangkat keras AMD, dan menetapkan algoritma dan kerangka kerja pelatihan terdistribusi paling canggih untuk model besar pada perangkat keras AMD menggunakan platform ROCM.
Berhasil menyediakan kerangka kerja teknis yang layak untuk pelatihan LLM yang efisien pada platform non-NVIDIA dan non-CUDA.
Setelah pelatihan, para peneliti merangkum pengalaman melatih model besar di Frontier menjadi sebuah makalah yang merinci tantangan yang dihadapi dan diatasi.