Terobosan model besar didasarkan pada peningkatan daya komputasi perangkat keras dan kemampuan komputasi awan NVIDIA H100, yang dianggap sebagai "bom nuklir" GPU, menghadapi kekurangan paling serius dalam sejarah. Sam Altman secara langsung menyatakan bahwa kekurangan GPU membatasi kecepatan peningkatan teknologi OpenAI dalam hal penyempurnaan, kapasitas khusus, jendela konteks 32K, dan multimodalitas.
Artikel ini dikompilasi dari GPU Utils Penulis terutama membahas berapa lama GPU (terutama NVIDIA H100) akan bertahan dari perspektif penawaran dan permintaan.
Dari perspektif permintaan, NVIDIA H100 tidak diragukan lagi merupakan permintaan yang kaku untuk pelatihan model besar Menurut perkiraan, permintaan H100 saat ini di pasar adalah sekitar 432.000 lembar, yang setara dengan nilai total sekitar 35.000 dolar AS per lembar. Dengan GPU $15 miliar**, angka 432k tidak termasuk perusahaan seperti ByteDance (TikTok), Baidu, dan Tencent yang membutuhkan banyak H800.
Di sisi suplai, kekurangan H100 secara langsung dibatasi oleh kapasitas produksi TSMC, dan dalam jangka pendek, NVIDIA tidak memiliki pabrik chip alternatif lain. Karena pengapalan yang terbatas, NVIDIA juga memiliki strategi sendiri tentang cara mengalokasikan GPU ini.Bagi NVIDIA, cara memastikan GPU terbatas ini mengalir ke kuda hitam AI daripada pesaing potensial seperti Google, Microsoft, dan AWS sangatlah penting.
Berapa lama perlombaan senjata AI di sekitar H100 ini akan bertahan? Jawabannya belum jelas. Meskipun NVIDIA mengatakan akan meningkatkan pasokan pada paruh kedua tahun ini, tampaknya kekurangan GPU dapat berlanjut hingga 2024.
Di sekitar kekurangan H100, pasar dapat memasuki "lingkaran setan": kelangkaan menyebabkan kapasitas GPU dianggap sebagai parit bagi perusahaan AI, yang menyebabkan lebih banyak penimbunan GPU, yang semakin meningkatkan kelangkaan GPU.
**Berikut ini adalah daftar isi artikel ini, dan disarankan untuk membacanya bersamaan dengan poin-poin utama. **
👇
01 latar belakang
02 Analisis kebutuhan untuk H100
03 H100 Analisis sisi suplai
04 Cara mendapatkan H100
05 Ringkasan
01.Latar Belakang
Hingga Agustus 2023, pengembangan bidang kecerdasan buatan terkendala oleh hambatan suplai GPU.
"Salah satu alasan ledakan AI diremehkan adalah kekurangan GPU/TPU. Kekurangan GPU dan TPU membatasi kecepatan pengenalan produk dan kemajuan pelatihan model, tetapi kendala ini tersembunyi. Kami terutama melihat harga saham NVIDIA melonjak , bukan kemajuan R&D yang dibatasi. Hal-hal akan membaik ketika penawaran dan permintaan seimbang.
—Adam D'Angelo, CEO Quora, Poe.com, mantan CTO Facebook
Ini adalah CEO dan perusahaan yang paling penting bagi pasokan dan permintaan GPU serta AI
Sam Altman mengatakan bahwa kekurangan GPU telah membatasi kemajuan proyek OpenAI, seperti penyempurnaan, kapasitas khusus, jendela konteks 32K, multi-modalitas, dll.
Kluster H100 berskala besar dari penyedia cloud kecil dan besar kehabisan kapasitas.
"Semua orang ingin NVIDIA membuat lebih banyak A/H100."
Informasi dari eksekutif penyedia cloud
"Karena kekurangan GPU saat ini, lebih baik bagi OpenAI jika lebih sedikit orang yang menggunakan produk kami";
"Kami sebenarnya akan senang jika orang lebih sedikit menggunakan produk OpenAI karena kami tidak memiliki cukup GPU".
—Sam Altman, CEO, OpenAI
Di satu sisi, kata-kata Sam Altman secara halus menunjukkan bahwa produk OpenAI telah dicintai oleh pengguna di seluruh dunia, tetapi pada saat yang sama, ini juga menggambarkan fakta bahwa OpenAI memang membutuhkan lebih banyak GPU untuk lebih mempromosikan dan meningkatkan fungsinya.
Azure dan Microsoft juga menghadapi situasi serupa, dan seorang anonim menyebutkan:
• Perusahaan membatasi karyawan untuk menggunakan GPU, dan setiap orang harus mengantre untuk mengajukan daya komputasi seperti mahasiswa pada tahun 1970-an untuk menggunakan komputer. Dari sudut pandang saya, OpenAI saat ini menyedot semua sumber daya GPU;
• Pada bulan Juni tahun ini, kerjasama antara Microsoft dan CoreWeave pada dasarnya adalah untuk meningkatkan catu daya GPU/komputasi Microsoft.
CoreWeave:
Penyedia layanan daya komputasi awan, menurut situs web resmi CoreWeave, layanan mereka 80% lebih murah daripada vendor komputasi awan tradisional. Pada April 2023, CoreWeave menerima investasi putaran B NVIDIA dan memperoleh sejumlah besar kartu H100 baru. Pada bulan Juni, Microsoft juga menandatangani perjanjian dengan CoreWeave. Microsoft akan menginvestasikan miliaran dolar dalam beberapa tahun ke depan untuk pembangunan infrastruktur komputasi awan.
Pada bulan Juli, CoreWeave meluncurkan proyek superkomputer AI tercepat di dunia dalam kemitraan dengan NVIDIA, dan Inflection AI menciptakan salah satu model bahasa skala besar paling kompleks di dunia di CoreWeave Cloud menggunakan infrastruktur yang mendukung pengiriman MLPerf. Selain itu, CoreWeave menggunakan kartu akselerator NVIDIA H100 sebagai jaminan, dan mengumumkan pada bulan Agustus bahwa mereka telah menyelesaikan pembiayaan utang sebesar $2,3 miliar.
Singkatnya, pasokan GPU H100 sudah cukup sedikit. Bahkan ada desas-desus bahwa **Azure dan GCP praktis kehabisan kapasitas, dan AWS kehabisan kapasitas. **
Alasan kelangkaan adalah karena NVIDIA hanya memasok begitu banyak GPU H100 ke penyedia cloud ini.Karena output GPU H100 NVIDIA tidak dapat memenuhi permintaan, daya komputasi yang dapat disediakan oleh penyedia cloud ini secara alami akan mulai kekurangan pasokan.
Jika Anda ingin memahami hambatan daya komputasi, Anda dapat berfokus pada pertanyaan berikut:
• Apa alasan khusus untuk situasi ini? :
Seberapa besar permintaannya? Misalnya, di bidang mana permintaan kecerdasan buatan meningkat relatif cepat;
Seberapa besar persediaannya? Apakah kapasitas produksi produsen GPU seperti NVIDIA cukup untuk memenuhi permintaan;
• Berapa lama kelangkaan ini akan berlangsung? Kapan penawaran dan permintaan GPU secara bertahap mencapai titik keseimbangan?
• Bagaimana kekurangan ini dapat dikurangi secara efektif?
Analisis Persyaratan 02.H100
Analisis masalah utama hambatan daya komputasi dari sisi permintaan:
Secara khusus, apa yang ingin dibeli orang tetapi kesulitan mendapatkannya?
Seberapa besar permintaan GPU di pasar saat ini?
Mengapa bisnis lebih memilih NVIDIA H100 daripada GPU lain?
Jenis GPU apa yang saat ini ada di pasaran?
Di mana perusahaan dapat membeli GPU? Berapa harga mereka?
** Siapa yang menuntut H100? **
Perusahaan dengan permintaan lebih dari 1.000 H100 atau A100:
Selain tiga raksasa Azure, GCP, dan AWS, ada juga Oracle, dan penyedia cloud GPU seperti CoreWeave dan Lambda;
• Raksasa teknologi lainnya:
Misalnya, Tesla (**catatan pengambilan: **Meta, Apple, dan raksasa lain yang penulis aslinya tidak sebutkan di sini juga memiliki banyak permintaan untuk GPU, Google terutama menggunakan TPU untuk memproses kalkulasi, dan permintaan untuk H100 terutama Platform Google Cloud).
Selain perusahaan di atas, jika perusahaan perlu banyak melakukan fine-tuning LLM, juga perlu mencadangkan minimal 100 H100 atau A100.
Untuk perusahaan yang menggunakan cloud pribadi (CoreWeave, Lambda), dan perusahaan dengan ratusan hingga ribuan saham H100, mereka hampir selalu dihadapkan pada pekerjaan LLM dan beberapa model difusi (Model Difusi). Beberapa perusahaan memilih untuk menyempurnakan model yang ada, tetapi lebih banyak startup AI yang membangun model besar baru mereka sendiri dari awal. **Perusahaan-perusahaan ini biasanya menandatangani kontrak dengan penyedia layanan cloud pribadi dalam kisaran $10-50 juta selama 3 tahun dan menggunakan beberapa ratus hingga beberapa ribu GPU. **
Untuk perusahaan yang hanya menggunakan sejumlah kecil GPU H100 sesuai permintaan, tugas terkait LLM menghabiskan sebagian besar penggunaan GPU mereka, dan LLM dapat menggunakan lebih dari 50% GPU.
Saat ini, cloud pribadi disukai oleh perusahaan, dan meskipun perusahaan ini biasanya memilih penyedia layanan cloud besar default, mereka juga menghadapi risiko tersingkir.
**• Apakah lab AI besar lebih dibatasi oleh tugas inferensi atau tugas pelatihan? **
Pertanyaan ini tergantung pada seberapa menarik produk mereka. Dengan kata lain, daya tarik produk perusahaan sangat penting dalam menentukan alokasi sumber daya Dalam hal sumber daya yang terbatas, prioritas penalaran dan pelatihan seringkali memiliki penekanan tersendiri. Pandangan Sam Altman adalah jika pilihan harus dibuat, OpenAI lebih cenderung untuk meningkatkan kemampuan penalaran, tetapi saat ini OpenAI terbatas pada kedua aspek tersebut.
Mengapa H100 hanya diperlukan untuk pelatihan LLM
Sebagian besar pasar saat ini menggunakan GPU NVIDIA H100. Ini karena GPU H100 adalah yang tercepat dalam hal inferensi dan pelatihan LLM, dan juga memiliki kinerja biaya inferensi terbaik. Secara khusus, sebagian besar perusahaan memilih untuk menggunakan server 8-GPU HGX H100 SXM.
Menurut analisa saya, untuk pekerjaan yang sama, H100 lebih menguntungkan dari segi biaya. GPU V100 adalah pilihan yang baik jika Anda dapat menemukan unit bekas, tetapi seringkali tidak memungkinkan.
—— orang anonim
Dalam hal kesimpulan, kami menemukan GPU A10G lebih dari cukup dan jauh lebih murah.
—— Seorang eksekutif cloud pribadi
Kami memperhatikan bahwa Falcon 40b dan llama2 70b juga banyak digunakan, di mana pernyataan ini tidak lagi akurat. Oleh karena itu, kecepatan interkoneksi sangat penting untuk tugas inferensi.
— (Lainnya) Eksekutif Cloud Pribadi
Falcon 40b :
Falcon adalah model bahasa besar dasar dengan 40 miliar parameter, Falcon 40b bertujuan untuk menggunakan lebih sedikit daya komputasi pelatihan untuk mencapai hasil yang lebih baik, model hanya menyumbang 75% dari komputasi pelatihan GPT-3, 40% dari Chinchilla dan PaLM-62B 80% dari latihan. Pada 25 Mei 2023, Institut Inovasi Teknologi UEA mengumumkan bahwa itu akan membuka sumber Falcon 9 untuk penelitian dan penggunaan komersial.Setelah dirilis, itu pernah menduduki puncak daftar LLM sumber terbuka Hugging Face.
**• Apa kebutuhan umum tim wirausaha LLM? **
**Untuk startup LLM, mereka sering memilih GPU H100 dengan InfiniBand 3,2Tb/s untuk pelatihan LLM. Meskipun hampir semua orang lebih memilih H100 di sesi pelatihan, di sesi inferensi, perusahaan-perusahaan ini lebih memperhatikan kinerja biaya, yaitu kinerja yang diciptakan per dolar. **
Masih ada beberapa masalah dengan kinerja per dolar GPU H100 dibandingkan dengan A100, tetapi H100 masih lebih disukai karena penskalaannya yang lebih baik, dan waktu pelatihan yang lebih cepat, sementara kecepatan/kompresi dimulai, melatih, atau meningkatkan Waktu model sangat penting untuk startup.
"Untuk pelatihan multi-node, semuanya memerlukan GPU A100 atau H100 dengan jaringan InfiniBand. Satu-satunya persyaratan non-A/H100 yang kami amati adalah untuk inferensi, di mana beban kerjanya adalah GPU tunggal atau node tunggal."
—— Seorang eksekutif cloud pribadi
Faktor utama yang mempengaruhi pelatihan LLM adalah:
**• Bandwidth memori: **Dalam menghadapi sejumlah besar data yang dimuat dari memori, bandwidth memori yang lebih tinggi dapat mempercepat pemuatan data;
**• Daya komputasi model (FLOPS, operasi floating point per detik): ** Kernel tensor atau unit perkalian matriks setara, yang terutama memengaruhi kecepatan kalkulasi;
**• Cache dan latensi cache: **Cache dapat menyimpan data sementara untuk akses berulang, yang berdampak signifikan pada kinerja;
**• Fitur tambahan: **Seperti FP8 (angka floating-point 8-bit), dll., format numerik presisi rendah dapat mempercepat pelatihan dan inferensi;
**• Performa komputasi: ** terkait dengan jumlah inti GPU CUDA, dan terutama memengaruhi jumlah tugas yang dapat dijalankan secara paralel;
**• Kecepatan interkoneksi: **Untuk bandwidth interkoneksi antar node yang cepat seperti InfiniBand, faktor ini akan memengaruhi kecepatan pelatihan yang didistribusikan.
**H100 lebih disukai daripada A100 karena latensi cache H100 yang lebih rendah dan kemampuan komputasi FP8. **
H100 benar-benar pilihan pertama karena 3x lebih efisien daripada A100 tetapi harganya hanya 1,5 - 2x A100. Bagaimana mempertimbangkan biaya keseluruhan sistem, kinerja per dolar dari H100 juga jauh lebih tinggi, jika Anda mempertimbangkan kinerja sistem, kinerja per dolar mungkin 4-5 kali lebih tinggi.
—— Seorang peneliti pembelajaran yang mendalam
**Mengapa presisi numerik begitu penting? **
Angka floating-point presisi rendah dapat meningkatkan pelatihan dan kecepatan inferensi.Misalnya, FP16 memiliki setengah jejak memori dari FP32 dan tiga kali lebih cepat dari FP32 dalam hal kecepatan kalkulasi. Dalam proses pelatihan LLM, untuk memastikan keseimbangan antara kecepatan dan presisi, metode seperti presisi campuran dan presisi adaptif digunakan untuk mempercepat model bahasa besar.Oleh karena itu, dukungan presisi ganda merupakan salah satu pertimbangan penting untuk pelatihan model bahasa besar. Google mengusulkan format numerik BFP16, yang memperluas jangkauan numerik sekaligus mengurangi presisi, dan kinerjanya lebih baik daripada FP 32.
**• Selain GPU, apa saja kaitan biaya dalam pelatihan dan pengoperasian LLM? **
GPU saat ini merupakan komponen termahal di seluruh infrastruktur pelatihan LLM, tetapi aspek biaya lainnya tidak rendah, yang juga berdampak pada biaya pelatihan dan pengoperasian LLM:
Memori sistem dan SSD NVMe mahal: Model besar memerlukan banyak memori berkecepatan tinggi dan SSD berkecepatan tinggi untuk melakukan cache dan memuat data, dan kedua komponen tersebut mahal;
Jaringan berkecepatan tinggi mahal: Jaringan berkecepatan tinggi seperti InfiniBand (digunakan untuk komunikasi antar node) sangat mahal, terutama untuk pelatihan terdistribusi yang besar.
Mungkin 10%-15% dari total biaya menjalankan klaster digunakan untuk listrik dan hosting, dibagi secara merata di antara keduanya. Biaya listrik termasuk listrik, biaya konstruksi pusat data, biaya tanah dan karyawan, dll., Sekitar 5%-8%; Biaya hosting termasuk tanah, bangunan, karyawan, dll., Sekitar 5%-10%. **
Perhatian utama kami adalah jaringan dan data center yang handal. AWS tidak cocok karena keterbatasan jaringan dan perangkat keras yang tidak dapat diandalkan.
——Peneliti Deep Learning
**• Bagaimana teknologi GPUDirect membantu dalam pelatihan LLM? **
GPUDirect NVIDIA tidak diperlukan untuk pelatihan LLM, tetapi juga dapat membantu kinerja:
Teknologi GPUDirect dapat meningkatkan kinerja, tetapi belum tentu merupakan perbedaan yang sangat penting. Sebagian besar tergantung di mana kemacetan sistem Anda. Untuk beberapa implementasi arsitektur/perangkat lunak, hambatan sistem belum tentu jaringan. **Namun dalam hal jaringan, GPUDirect dapat meningkatkan kinerja sebesar 10%-20%, yang merupakan angka yang cukup besar untuk biaya pelatihan yang mahal. **
Meskipun demikian, RDMA GPUDirect sekarang sangat populer sehingga popularitasnya hampir berbicara sendiri. Saya pikir dukungan GPUDirect lemah untuk jaringan non-Infiniband, tetapi sebagian besar kluster GPU yang dioptimalkan untuk pelatihan jaringan saraf memiliki jaringan/kartu Infiniband. Faktor kinerja yang lebih besar mungkin adalah NVLink, karena lebih jarang daripada Infiniband, tetapi ini juga hanya penting jika Anda menerapkan strategi paralelisasi tertentu.
Jadi, fitur-fitur seperti jaringan yang kuat dan GPUDirect dapat membuat perangkat lunak yang kurang canggih dapat langsung digunakan. Namun, GPUDirect tidak sepenuhnya diperlukan jika biaya atau infrastruktur lama dipertimbangkan.
—— Seorang peneliti pembelajaran yang mendalam
GPUDirect:
Teknologi transmisi data yang disebut Penyimpanan GPUDirect (GPUDirect Storage) yang diperkenalkan oleh NVIDIA terutama digunakan untuk mempercepat transmisi data yang disimpan di berbagai penyimpanan ke memori GPU, yang dapat meningkatkan bandwidth 2 hingga 8 kali lipat, dan juga dapat mengurangi jumlah akhir- to-end delay hingga 3,8 kali. Di masa lalu, CPU bertanggung jawab memuat data dari memori ke GPU, yang sangat membatasi kinerja perangkat keras.
Jalur standar untuk transfer data dari disk NVMe ke memori GPU adalah dengan menggunakan buffer bouncing (Bounce Buffer) di memori sistem, yang merupakan salinan data tambahan. Inti dari teknologi penyimpanan GPUDirect adalah menghindari penggunaan cache rebound untuk mengurangi salinan data tambahan, dan menggunakan mesin akses memori langsung (Direct Memory Access, DMA) untuk memasukkan data langsung ke memori GPU.
**Mengapa perusahaan LLM tidak dapat menggunakan GPU AMD? **
Seorang eksekutif perusahaan cloud swasta mengatakan bahwa secara teoritis layak untuk membeli GPU AMD, tetapi dibutuhkan waktu tertentu dari pembelian hingga pengoperasian peralatan yang sebenarnya. Oleh karena itu, CUDA adalah parit NVIDIA saat ini.
Studi MosaicML menyebutkan bahwa GPU AMD juga cocok untuk tugas pelatihan model besar. Mereka bereksperimen dengan tugas pelatihan sederhana berdasarkan PyTorch tanpa modifikasi kode apa pun dibandingkan dengan menjalankan NVIDIA. Penulis menunjukkan bahwa selama basis kode dibuat di PyTorch, itu dapat digunakan langsung di AMD tanpa adaptasi tambahan. Kedepannya, penulis berencana untuk memverifikasi kinerja sistem AMD pada cluster komputasi yang lebih besar.
Di saat yang sama, ada juga pandangan bahwa mengingat biaya pelatihan model mendekati 300 juta dolar AS, tidak ada yang mau mengambil risiko mengandalkan chip dari AMD atau startup lain dalam skala besar, terutama ketika permintaan chip sedang. atas pesanan lebih dari 10.000 .
Seorang pensiunan di industri semikonduktor juga menyebutkan bahwa situasi pasokan AMD tidak optimis, dan kapasitas produksi CoWoS TSMC telah diserap oleh NVIDIA, jadi meskipun MI250 mungkin merupakan alternatif yang layak, juga sulit diperoleh.
H100 VS A100
NVIDIA A100:
Peningkatan NVIDIA V100, dibandingkan dengan V100, kinerja A100 telah ditingkatkan 20 kali lipat, yang sangat cocok untuk tugas-tugas seperti AI dan analisis data. Terdiri dari 54 miliar transistor, A100 mengintegrasikan inti Tensor generasi ketiga dengan akselerasi untuk operasi matriks jarang, terutama berguna untuk penalaran dan pelatihan AI. Selain itu, beberapa GPU A100 dapat dimanfaatkan untuk beban kerja inferensi AI yang lebih besar dengan teknologi interkoneksi NVIDIA NVLink.
NVIDIA H100:
Generasi berikutnya dari A100 adalah chip terbaru yang dioptimalkan untuk model besar. Ini didasarkan pada arsitektur Hopper, dibangun menggunakan proses versi kustom 5nm TSMC (4N), dan satu chip berisi 80 miliar transistor. Secara khusus, NVIDIA mengusulkan Transformer Engine, yang mengintegrasikan beberapa kalkulasi presisi dan kemampuan pemrosesan dinamis dari jaringan saraf Transformer, memungkinkan GPU H100 mengurangi waktu pelatihan model secara signifikan. Berdasarkan H100, NVIDIA juga meluncurkan rangkaian produk seperti workstation pembelajaran mesin dan superkomputer, seperti 8 H100 dan 4 NVLink yang digabungkan untuk membentuk GPU raksasa - DGX H100.
Dibandingkan dengan A100, kecepatan inferensi 16-bit H100 sekitar 3,5 kali lebih cepat, dan kecepatan pelatihan 16-bit sekitar 2,3 kali lebih cepat.
Perbandingan kecepatan A100 dan H100
Pelatihan H100 MoE
Percepatan H100 Sesuai Skala
Kebanyakan orang cenderung membeli H100 untuk pelatihan model dan inferensi, dan menggunakan A100 terutama untuk inferensi model. Namun, seseorang juga dapat mempertimbangkan faktor-faktor berikut:
**• Biaya: **H100 lebih mahal dari A100;
**• Kapasitas: **A100 dan H100 berbeda dalam daya komputasi dan memori;
**• Penggunaan perangkat keras baru: **Adopsi H100 memerlukan penyesuaian terkait dalam perangkat lunak dan alur kerja;
**• Risiko: ** Ada lebih banyak risiko yang tidak diketahui dalam pengaturan H100;
**• PERANGKAT LUNAK DIOPTIMALKAN: **Beberapa perangkat lunak telah dioptimalkan untuk A100.
Secara keseluruhan, meskipun kinerja H100 lebih tinggi, ada kalanya masuk akal untuk memilih A100,** yang membuat peningkatan dari A100 ke H100 bukan keputusan yang mudah dengan banyak faktor yang harus dipertimbangkan. **
Faktanya, A100 akan menjadi V100 seperti sekarang ini dalam beberapa tahun. Mempertimbangkan kendala kinerja, saya rasa hampir tidak ada yang akan melatih LLM di V100 sekarang. Tapi V100 masih digunakan untuk inferensi dan tugas lainnya. Demikian pula, harga A100 mungkin turun karena lebih banyak perusahaan AI beralih ke H100 untuk melatih model baru, tetapi akan selalu ada permintaan untuk A100, terutama untuk inferensi.
Eksekutif Cloud Pribadi
Saya pikir itu dapat menyebabkan banjir A100 di pasar lagi karena beberapa perusahaan rintisan yang didanai sangat besar akhirnya gulung tikar.
— (Lainnya) Eksekutif Cloud Pribadi
Namun seiring waktu, orang akan menggunakan A100 untuk lebih banyak tugas inferensi daripada melatih model terbaru dan lebih besar. **Kinerja V100 tidak dapat lagi mendukung pelatihan model besar, dan kartu grafis dengan memori tinggi lebih cocok untuk model besar, sehingga tim mutakhir lebih memilih H100 atau A100.
Alasan utama untuk tidak menggunakan V100 adalah kurangnya tipe data brainfloat16 (bfloat16, BF16). Tanpa jenis data ini, sulit untuk melatih model dengan mudah. Alasan utama untuk kinerja OPT dan BLOOM yang buruk adalah tidak adanya tipe data ini (OPT dilatih di float16, BLOOM kebanyakan membuat prototipe dilakukan di FP16, yang membuat tidak mungkin untuk menggeneralisasi data ke pelatihan yang dijalankan di BF16 ).
——Peneliti Deep Learning
**• Apa perbedaan antara GPU Nvida H100, GH200, DGX GH200, HGX H100 dan DGX H100? **
• H100 = 1x H100 GPU;
• HGX H100 = platform referensi server NVIDIA. Digunakan oleh OEM untuk membangun server 4-GPU atau 8-GPU, diproduksi oleh OEM pihak ketiga seperti Supermicro;
• DGX H100 = Server resmi NVIDIA H100 dengan 8x H100, NVIDIA adalah pemasok tunggalnya;
• GH200 = 1x H100 GPU plus 1x Grace CPU;
• DGX GH200 = 256x GH200, hadir akhir 2023, mungkin hanya dari NVIDIA;
• MGX untuk perusahaan komputasi awan besar.
Dari jumlah tersebut, sebagian besar perusahaan memilih untuk membeli 8-GPU HGX H100 daripada server DGX H100 atau 4-GPU HGX H100.
**Berapa harga GPU ini secara terpisah? **
1x DGX H100 (SXM) dengan 8x GPU H100 berharga $460.000, termasuk layanan dukungan yang diperlukan, dll., sekitar $100.000. Startup bisa mendapatkan diskon Inception sekitar $50.000 hingga 8x kotak DGX H100, dengan total 64 H100.
Spesifikasi spesifik GPU adalah sebagai berikut:
Spesifikasi DGX H100
1x HGX H100 (SXM) dengan 8x GPU H100 dapat berharga antara $300.000-380.000 bergantung pada spesifikasi (jaringan, penyimpanan, memori, CPU) dan margin vendor serta tingkat dukungan. Jika spesifikasinya persis sama dengan DGX H100, bisnis dapat membayar harga lebih tinggi dari $360.000 hingga $380.000 termasuk dukungan.
1x HGX H100 (PCIe) dengan 8x H100 GPU kira-kira $300rb termasuk dukungan, tergantung spesifikasi.
Harga pasar untuk kartu PCIe adalah sekitar $30.000 hingga $32.000.
Kartu grafis SXM tidak dijual sebagai kartu tunggal, sehingga harga menjadi sulit. Umumnya hanya dijual sebagai server 4GPU dan 8GPU.
Sekitar 70-80% permintaan di pasar adalah untuk SXM H100, dan sisanya untuk PCIe H100. Permintaan untuk segmen SXM sedang meningkat, karena hanya kartu PCIe yang tersedia di bulan-bulan sebelumnya. Mengingat sebagian besar perusahaan membeli 8GPU HGX H100s (SXMs), itu kira-kira $360K-$380K per 8 H100s, termasuk komponen server lainnya.
DGX GH200 berisi 256x GH200, dan setiap GH200 berisi 1x H100 GPU dan 1x Grace CPU. Menurut perkiraan, harga DGX GH200 mungkin antara 15 juta - 25 juta dolar AS.
**Apa permintaan pasar untuk GPU? **
• Pelatihan GPT-4 dapat dilakukan pada 10.000 hingga 25.000 lembar A100;
• Meta memiliki sekitar 21.000 A100, Tesla memiliki sekitar 7.000 A100, dan Stability AI memiliki sekitar 5.000 A100;
• Pelatihan Falcon 40B dilakukan pada 384 A100;
• Infleksi menggunakan 3500 lembar H100 dalam model setara GPT-3.5.
Kami akan memiliki 22.000 GPU yang digunakan pada bulan Desember, dan lebih dari 3.500 unit yang digunakan saat ini.
— Mustafa Suleyman, CEO, AI Infleksi
**Menurut Elon Musk, pelatihan GPT-5 dapat menggunakan 30.000-50.000 H100. **Morgan Stanley mengusulkan pada Februari 2023 bahwa GPT-5 akan menggunakan 25.000 GPU, dan mereka juga mengusulkan pada saat GPT-5 sudah dalam pelatihan, tetapi Sam Altman kemudian membantahnya pada Mei tahun ini, mengatakan OpenAI tidak berlatih GPT-5, jadi informasi Morgan Stanley mungkin tidak akurat.
GCP memiliki sekitar 25.000 H100, dan Azure mungkin memiliki 10.000-40.000 H100. Itu harus serupa untuk Oracle. Selain itu, sebagian besar kapasitas Azure akan disediakan untuk OpenAI.
CoreWeave mengelola sekitar 35.000 hingga 40.000 H100, tetapi ini berdasarkan pesanan, bukan aktual.
**Berapa banyak H100 yang dipesan oleh Startup? **Jika digunakan untuk tugas fine-tuning LLM, biasanya dipesan puluhan atau ratusan lembar; jika digunakan untuk pelatihan LLM, diperlukan ribuan lembar.
**Berapa H100 yang dibutuhkan perusahaan di sektor LLM? **
• OpenAI mungkin membutuhkan 50.000, Infleksi mungkin membutuhkan 24.000, dan Meta mungkin membutuhkan 25.000 (ada juga yang mengatakan bahwa Meta sebenarnya membutuhkan 100.000 atau lebih);
• Penyedia layanan cloud besar, seperti Azure, Google Cloud, AWS, dan Oracle masing-masing mungkin membutuhkan 30.000;
• Penyedia layanan cloud pribadi, seperti Lambda dan CoreWeave, dan cloud pribadi lainnya dapat berjumlah hingga 100.000;
• Antropik, Helsing, Mistral, Karakter mungkin berharga masing-masing 10k.
Angka-angka di atas adalah perkiraan dan tebakan, dan beberapa di antaranya mungkin dihitung dua kali, seperti pelanggan yang menyewa cloud. **Secara umum, menurut perhitungan saat ini, jumlah H100 adalah sekitar 432.000. Jika dihitung masing-masing sekitar US$35.000, ini adalah GPU dengan nilai total sekitar US$15 miliar. Juga, angka 432.000 tidak termasuk perusahaan China seperti ByteDance (TikTok), Baidu, dan Tencent yang membutuhkan banyak H800. **
Selain itu, beberapa perusahaan keuangan juga menggelar A100/H100 mulai dari ratusan hingga ribuan: seperti Jane Street, JP Morgan, Two Sigma, dan Citadel.
**Bagaimana hal ini dibandingkan dengan pendapatan pusat data NVIDIA? **Pendapatan pusat data NVIDIA sebesar $4,28 miliar untuk Februari-April 2023. Antara 25 Mei dan Juli 2023, pendapatan pusat data bisa mencapai sekitar $8 miliar. **Hal ini terutama didasarkan pada asumsi bahwa panduan pendapatan NVIDIA yang lebih tinggi untuk kuartal tersebut terutama disebabkan oleh peningkatan pendapatan dari bisnis pusat data, bukan dari area bisnis lainnya. **
Oleh karena itu, mungkin diperlukan beberapa waktu untuk mengurangi kekurangan pasokan. Tetapi ada kemungkinan kekurangan daya komputasi telah dibesar-besarkan. Pertama-tama, sebagian besar perusahaan tidak segera membeli semua H100 yang mereka butuhkan, tetapi meningkatkan secara bertahap, selain itu, NVIDIA juga secara aktif meningkatkan kapasitas produksi.
Memiliki 400.000 H100 di pasar secara keseluruhan tidak di luar jangkauan, terutama mengingat bahwa setiap orang menggunakan 4 atau 5 angka H100 dalam jumlah besar akhir-akhir ini.
—— Seorang eksekutif cloud pribadi
Meringkaskan
• Sebagian besar CSP besar (Azure, AWS, GCP, dan Oracle) dan cloud pribadi (CoreWeave, Lambda, dan lainnya) lebih memilih lebih banyak GPU H100 daripada sekadar dapat mengaksesnya, sebagian besar penawaran AI besar Perusahaan juga mengejar lebih banyak GPU H100 .
• Biasanya perusahaan ini menginginkan sasis 8GPU HGX H100 dengan kartu SXM. Bergantung pada spesifikasi dan dukungan, setiap server 8GPU berharga sekitar $3-4 juta. Mungkin ada kelebihan permintaan untuk ratusan ribu GPU H100, dengan nilai total lebih dari $15 miliar;
• Dengan persediaan yang terbatas, NVIDIA dapat menaikkan harga untuk menemukan harga keseimbangan pasar, dan sampai batas tertentu memang demikian. Secara keseluruhan, keputusan akhir tentang cara mengalokasikan GPU H100 bergantung pada pelanggan mana yang dipilih NVIDIA sendiri untuk mengalokasikannya.
03.H100 Analisis sisi suplai
** Hambatan dari TSMC **
H100 diproduksi oleh TSMC (TSMC), **Dapatkah NVIDIA memilih pabrik chip lain untuk memproduksi lebih banyak H100? Setidaknya belum. **
NVIDIA telah bekerja sama dengan Samsung di masa lalu, tetapi Samsung belum dapat memenuhi kebutuhan mereka akan GPU mutakhir, sehingga saat ini NVIDIA hanya dapat menggunakan GPU H100s dan GPU 5nm lainnya yang diproduksi oleh TSMC. **Mungkin di masa mendatang, NVIDIA akan bekerja sama dengan Intel, atau terus bekerja sama dengan Samsung dalam teknologi terkait, tetapi situasi ini tidak akan terjadi dalam jangka pendek, sehingga kekurangan pasokan H100 tidak akan berkurang. **
Teknologi 5-nanometer (N5) TSMC akan memasuki produksi massal pada tahun 2020. Teknologi N5 adalah teknologi proses EUV kedua TSMC, menawarkan kecepatan lebih cepat dan konsumsi daya lebih rendah daripada teknologi N7 sebelumnya. Selain itu, TSMC juga berencana untuk meluncurkan teknologi 4-nanometer (N4), yang merupakan versi penyempurnaan dari teknologi N5 yang akan semakin meningkatkan performa dan konsumsi daya, serta berencana memulai produksi massal pada tahun 2022.
H100 diproduksi berdasarkan proses TSMC 4N, yang termasuk dalam 5nm yang disempurnakan dalam seri 5nm, bukan proses 4nm sebenarnya. **Selain NVIDIA, Apple juga menggunakan teknologi ini, tetapi sebagian besar beralih ke N3 dan mempertahankan sebagian besar kapasitas N3. **Selain itu, Qualcomm dan AMD adalah pelanggan besar seri N5.
A100 menggunakan proses N7 TSMC.
7 nanometer (N7) adalah simpul proses yang akan diproduksi massal oleh TSMC pada tahun 2019. Berdasarkan N7, TSMC juga memperkenalkan proses N7+, yang merupakan proses pembuatan 7nm menggunakan EUV (litografi ultraviolet ekstrim), yang meningkatkan kerapatan transistor sebesar 15% hingga 20% sekaligus mengurangi konsumsi daya chip.
Umumnya, kapasitas proses front-end (Fab Capacity) akan direncanakan lebih dari 12 bulan sebelumnya. Ditunjukkan bahwa TSMC dan pelanggan utamanya akan bersama-sama merencanakan permintaan produksi untuk tahun depan, sehingga kekurangan pasokan H100 saat ini sebagian disebabkan oleh kesalahan penilaian TSMC dan NVIDIA terhadap permintaan H100 tahun ini di tahun sebelumnya.
Kapasitas Hebat:
Dalam alur proses chip semikonduktor, Fab adalah singkatan dari FABRICATION (pemrosesan, pembuatan), dan Kapasitas Fab dapat dianggap sebagai kapasitas kapasitas.
Menurut sumber lain, biasanya butuh 6 bulan untuk menjual H100 ke pelanggan (produksi, pengemasan dan pengujian) sejak awal produksi, namun situasi ini belum dapat dikonfirmasi.
Seorang pensiunan profesional di industri semikonduktor menunjukkan bahwa kapasitas produksi wafer bukanlah hambatan TSMC, tetapi hambatan sebenarnya terletak pada CoWoS (penumpukan tiga dimensi) yang telah disebutkan di atas.
CoWoS (Chip pada wafer pada Substrat, susun tiga dimensi):
Ini adalah teknologi produksi terintegrasi 2.5D dari TSMC. Pertama, chip dihubungkan ke wafer silikon melalui proses pengemasan CoW (Chip on Wafer), kemudian chip CoW dihubungkan ke substrat (Substrat), dan diintegrasikan ke dalam CoWoS .
Menurut DigiTimes, TSMC telah mulai memperluas kapasitas produksi CoWoS, dan berencana untuk meningkatkan kapasitas produksi CoWoS dari 8.000 wafer per bulan menjadi 11.000 wafer per bulan pada akhir tahun 2023, dan menjadi sekitar 14.500 hingga 16.600 wafer per bulan pada akhir tahun. 2024. Raksasa teknologi besar seperti NVIDIA, Amazon, Broadcom, Cisco, dan Xilinx semuanya memiliki permintaan yang meningkat untuk kemasan CoWoS canggih TSMC.
Memori H100
**Tipe Memori (Memory Bype), Lebar Bus Memori (Memory Bus Width) dan Kecepatan Jam Memori (Memory Clock Speed) secara bersama-sama mempengaruhi bandwidth memori GPU. **NVIDIA merancang bus width dan clock speed H100 sebagai bagian dari arsitektur GPU. Memori HBM3 terutama digunakan pada H100 SXM, dan HBM2e terutama digunakan pada H100 PCIe.
HBM sulit diproduksi dan pasokannya sangat terbatas, sehingga memproduksi HBM adalah mimpi buruk. Tapi begitu HBM diproduksi, desain lainnya menjadi mudah.
——Seorang peneliti Deepl Learning
**Jenis memori, lebar bus memori, dan kecepatan jam memori adalah tiga indikator penting dari memori komputer. **
Lebar Bus Memori:
Ini mengacu pada lebar saluran transmisi data antara modul memori dan motherboard. Lebar bus memori yang lebih lebar dapat memberikan jalur data yang lebih besar, sehingga meningkatkan kecepatan transmisi data antara memori dan prosesor.
Kecepatan Jam Memori:
Mengacu pada frekuensi jam kerja modul memori. Kecepatan jam memori yang lebih tinggi berarti memori dapat melakukan operasi baca dan tulis lebih cepat dan memberikan kecepatan transmisi data yang lebih tinggi.
HBM(Memori Bandwidth Tinggi):
Adalah teknologi memori bandwidth tinggi yang digunakan untuk memberikan kecepatan akses memori yang cepat di unit pemrosesan grafis (GPU) dan perangkat komputasi performa tinggi lainnya. Teknologi memori yang digunakan pada kartu grafis tradisional dan perangkat komputasi biasanya didasarkan pada desain GDDR (Graphics Double Data Rate), yang memiliki keseimbangan tertentu antara performa dan konsumsi daya. Teknologi HBM mencapai bandwidth yang lebih tinggi dan konsumsi daya yang lebih rendah dengan menempatkan tumpukan memori pada chip GPU dan menumpuk beberapa chip DRAM secara bersamaan melalui koneksi vertikal berkecepatan tinggi (TSV).
Untuk memori HBM3, NVIDIA dapat menggunakan semua atau sebagian besar SK Hynix. Tidak pasti apakah NVIDIA H100 menggunakan memori Samsung, tetapi yang pasti NVIDIA saat ini tidak menggunakan memori Micron.
Sejauh menyangkut HBM3, secara umum, SK Hynix memiliki keluaran terbesar, diikuti oleh Samsung, dan Micron peringkat ketiga memiliki selisih keluaran yang besar dengan dua yang sebelumnya. Tampaknya SK Hynix telah meningkatkan produksi, tetapi NVIDIA masih ingin mereka memproduksi lebih banyak, sedangkan Samsung dan Micron belum berhasil meningkatkan produksi.
**Apa lagi yang digunakan dalam pembuatan GPU? **
Selain itu, produksi GPU juga akan melibatkan banyak bahan dan suku cadang logam.Kekurangan bahan baku di tautan ini juga akan menyebabkan hambatan pasokan GPU, seperti:
**• Logam dan bahan kimia: **Termasuk silikon (metaloid) seperti tembaga, tantalum, emas, aluminium, nikel, timah, indium, dan paladium, yang digunakan dalam berbagai tahap produksi, dari pembuatan putaran silikon hingga perakitan akhir GPU , seperti silikon, tanah jarang, dll.;
**• Komponen dan bahan pengemasan: **Seperti substrat, bola dan kabel solder, senyawa pembuangan panas, dll., yang digunakan untuk menyelesaikan perakitan dan tautan berbagai komponen GPU, dan sangat penting untuk pengoperasian unit GPU;
**• Konsumsi Energi:**Karena penggunaan peralatan mekanis presisi tinggi selama proses pembuatan chip GPU, diperlukan listrik dalam jumlah besar.
**Bagaimana cara NVIDIA menangani kekurangan H100? **
NVIDIA mengungkapkan bahwa mereka akan meningkatkan pasokan pada paruh kedua tahun ini.CFO NVIDIA mengatakan pada laporan keuangan bahwa perusahaan sedang melakukan yang terbaik untuk mengatasi masalah pasokan, tetapi selain itu, mereka tidak menyampaikan informasi lebih lanjut, juga tidak mereka memiliki angka spesifik yang terkait dengan H100. .
"Kami sedang mengatasi masalah pasokan kami untuk kuartal ini, tetapi kami juga telah membeli banyak stok untuk paruh kedua tahun ini."
"Kami percaya bahwa pasokan di paruh kedua tahun ini akan jauh lebih tinggi daripada di paruh pertama."
-- Colette Kress, CFO Nvidia, pada panggilan pendapatan Februari-April 2023
Seorang eksekutif perusahaan cloud swasta percaya bahwa **lingkaran setan dapat muncul di pasar berikutnya, yaitu, kelangkaan menyebabkan kapasitas GPU dianggap sebagai parit bagi perusahaan AI, yang menyebabkan lebih banyak penimbunan GPU, yang pada gilirannya semakin memperburuk kelangkaan dari GPU. **
Menurut interval historis antara peluncuran arsitektur yang berbeda oleh NVIDIA, model H100 generasi berikutnya mungkin tidak akan dirilis hingga akhir tahun 2024 (pertengahan 2024 hingga awal 2025). Sebelum itu, H100 akan selalu menjadi produk unggulan NVIDIA GPU (GH200 dan DGX GH200 tidak dihitung, keduanya bukan GPU murni, dan keduanya menggunakan H100 sebagai GPU).
Selain itu, diharapkan akan ada versi 120GB dengan memori lebih besar di masa mendatang.
04. Cara mendapatkan H100
Penjual H100
Original Equipment Manufacturers (OEM) seperti Dell, HPE, Lenovo, Supermicro dan Quanta menjual H100 dan HGX H100, sedangkan pemesanan InfiniBand perlu dilakukan melalui NVIDIA Mellanox.
Mellanox adalah salah satu pemasok utama InfiniBand global Pada tahun 2015, pangsa Mellanox di pasar IB global mencapai 80%. Pada 2019, NVIDIA mengakuisisi Mellanox seharga $125 per saham, dengan total nilai transaksi sekitar $6,9 miliar. Akuisisi ini memungkinkan NVIDIA untuk lebih memperluas pangsa pasarnya dalam komputasi dan pusat data berperforma tinggi, serta memperkuat daya saing NVIDIA di bidang AI.
Dengan menggabungkan teknologi interkoneksi kecepatan tinggi Mellanox dengan akselerator GPU NVIDIA, NVIDIA dapat menyediakan pusat data dengan bandwidth yang lebih tinggi dan solusi latensi yang lebih rendah. Selain Mellanox, teknologi IB dari QLogic, pemasok lain di bidang IB, diakuisisi oleh Intel Corporation pada tahun 2012.
Cloud GPU seperti CoreWeave dan Lambda membeli GPU dari OEM dan menyewakannya ke Startup. Pemain cloud hyperscale (Azure, GCP, AWS, Oracle) dapat membeli lebih banyak secara langsung dengan NVIDIA, tetapi terkadang mereka juga bekerja dengan OEM.
Untuk DGX, pembelian juga dilakukan melalui OEM. Meskipun pelanggan dapat berkomunikasi dengan NVIDIA tentang persyaratan pembelian, pembelian dilakukan melalui OEM alih-alih langsung melakukan pemesanan pembelian dengan NVIDIA.
Waktu pengiriman untuk 8 server GPU HGX sangat buruk dan 4 server GPU HGX cukup bagus, tetapi kenyataannya semua orang menginginkan 8 server GPU.
**• Berapa lama waktu yang diperlukan dari pemesanan hingga penerapan H100? **
Penyebaran adalah proses bertahap. Katakanlah pesanan 5.000 GPU, mereka mungkin mendapatkan akses ke 2.000 atau 4.000 GPU dalam 4-5 bulan, dan kemudian GPU yang tersisa dalam 6 bulan atau lebih.
Untuk Startup, jika ingin membeli GPU, tidak memesan dari OEM atau reseller Mereka umumnya memilih layanan public cloud seperti Oracle, atau menyewa hak akses private cloud seperti Lambda dan CoreWeave, atau gunakan layanan seperti FluidStack dan OEM dan penyedia yang bekerja dengan akses sewa pusat data.
**• Haruskah perusahaan membangun pusat data atau colocation sendiri? **
Untuk pendirian pusat data, faktor yang perlu diperhatikan antara lain waktu pendirian pusat data, apakah ada bakat dan pengalaman di bidang perangkat keras, dan skala investasi modal.
Menyewa dan hosting server jauh lebih mudah. Jika Anda ingin membangun pusat data Anda sendiri, Anda harus memasang jalur fiber gelap ke lokasi Anda untuk terhubung ke Internet, dan biaya fiber adalah $10.000 per kilometer. Selama ledakan Internet, sebagian besar infrastruktur sudah dibangun dan dibayar. Sekarang, Anda tinggal menyewa, dan itu cukup murah.
—— Seorang eksekutif cloud pribadi
Memilih untuk menyewa atau membangun pusat data adalah salah satu atau keputusan Menurut kebutuhan aktual, perusahaan dapat memiliki opsi berbeda berikut:
Cloud sesuai permintaan: murni menggunakan layanan cloud untuk sewa;
Cloud cadangan;
Hosting (membeli server, bekerja sama dengan penyedia untuk menghosting dan mengelola server);
Self-hosting (membeli dan menghosting server sendiri).
Sebagian besar Startup yang membutuhkan banyak H100 akan memilih cloud atau colocation yang dicadangkan.
**Bagaimana perusahaan memilih perusahaan layanan cloud? **
Ada pandangan bahwa infrastruktur Oracle tidak dapat diandalkan seperti tiga cloud utama, tetapi bersedia menghabiskan lebih banyak waktu untuk dukungan teknis pelanggan. Beberapa praktisi perusahaan cloud pribadi mengatakan bahwa 100% dari mereka akan memiliki banyak pelanggan yang tidak puas dengan layanan berbasis Oracle, dan beberapa CEO dari perusahaan lain percaya bahwa kemampuan jaringan Oracle lebih kuat.
**Umumnya, Startup akan memilih perusahaan dengan kombinasi dukungan layanan, harga, dan kapasitas terkuat. **
Perbedaan utama antara beberapa perusahaan layanan cloud besar adalah:
**• Jaringan: **AWS dan Google Cloud lebih lambat mengadopsi InfiniBand karena mereka memiliki pendekatan sendiri, tetapi sebagian besar startup yang mencari klaster A100/H100 besar mencari InfiniBand;
**• Ketersediaan: **Misalnya, sebagian besar daya komputasi Azure H100 digunakan oleh OpenAI, yang berarti mungkin tidak banyak daya komputasi yang tersedia untuk pelanggan lain.
**Meskipun tidak ada dasar faktual, ada spekulasi bahwa NVIDIA lebih cenderung memprioritaskan pasokan GPU untuk penyedia layanan cloud yang belum mengembangkan chip pembelajaran mesin pesaing. **Ketiga penyedia layanan cloud utama saat ini sedang mengembangkan chip pembelajaran mesin mereka sendiri, tetapi alternatif NVIDIA AWS dan Google sudah ada di pasar dan mencuri sebagian pangsa pasar NVIDIA. Ini juga menimbulkan beberapa spekulasi pasar bahwa NVIDIA lebih bersedia bekerja sama dengan Oracle karena hal ini.
Beberapa perusahaan cloud besar memiliki harga yang lebih baik daripada yang lain. Seperti yang dicatat oleh salah satu eksekutif cloud pribadi, "Misalnya, A100 di AWS/AZURE jauh lebih mahal daripada GCP."
Oracle memberi tahu saya bahwa mereka akan memiliki "puluhan ribu H100" yang beroperasi akhir tahun ini. Namun dalam hal harga, mereka lebih tinggi dari perusahaan lain. Mereka tidak memberi saya harga untuk H100, tetapi untuk A100 80GB, mereka mengutip saya hampir $4/jam, yang hampir 2x lebih banyak daripada yang dikutip GCP, dan dengan konsumsi daya dan tenaga yang sama.
— Anonim
Awan yang lebih kecil memiliki keunggulan dalam hal harga, kecuali dalam beberapa kasus di mana salah satu perusahaan awan besar mungkin melakukan kesepakatan aneh dengan imbalan ekuitas.
Jadi secara keseluruhan dari segi kedekatan kerjasama dengan NVIDIA, Oracle dan Azure > GCP dan AWS, tapi ini hanya perkiraan saja.
Oracle memelopori A100s dan menghosting cluster berbasis Nvidia dalam kemitraan dengan Nvidia, yang juga merupakan pelanggan Azure.
**• Perusahaan cloud besar mana yang memiliki kinerja jaringan terbaik? **
Azure, CoreWeave, dan Lambda semuanya menggunakan InfiniBand. Performa jaringan Oracle bagus pada 3200 Gbps, tetapi menggunakan Ethernet daripada InfiniBand, dan bisa sekitar 15-20% lebih lambat daripada IB untuk kasus penggunaan seperti pelatihan LLM parameter tinggi. Jaringan AWS dan GCP tidak sebaik itu.
**• Bagaimana perusahaan memilih layanan cloud saat ini? **
Data statistik untuk 15 perusahaan menunjukkan bahwa 15 perusahaan yang disurvei akan memilih AWS, GCP, atau Azure, dan Oracle tidak termasuk di antara mereka.
Sebagian besar bisnis cenderung menggunakan cloud yang ada. Namun untuk tim wirausaha, pilihan mereka lebih berdasarkan kenyataan: siapa pun yang dapat menyediakan daya komputasi akan memilih yang mana.
**• Dengan siapa NVIDIA bekerja di DGX Cloud? **
"Nvidia bermitra dengan penyedia layanan cloud terkemuka untuk menghosting Infrastruktur Cloud DGX, dimulai dengan Oracle Cloud Infrastructure" - jual dengan Nvidia, tetapi sewa melalui penyedia cloud yang ada (pertama dengan Oracle, lalu Azure, diikuti oleh Google Cloud, yang tidak bekerja dengan AWS).
CEO NVIDIA Jensen Huang mengatakan pada panggilan pendapatan NVIDIA bahwa "perpaduan yang ideal adalah 10% cloud NVIDIA DGX dan 90% cloud CSP".
• Jadwal H100 raksasa cloud:
CoreWeave adalah salah satu yang pertama. Sebagai investor CoreWeave, dan untuk memperkuat persaingan di antara perusahaan cloud besar, NVIDIA adalah yang pertama menyelesaikan pengiriman CoreWeave.
Jadwal H100 perusahaan layanan cloud lainnya adalah sebagai berikut:
• Azure mengumumkan ketersediaan H100 untuk pratinjau pada 13 Maret;
• Oracle mengumumkan pasokan terbatas H100 pada 21 Maret;
• Lambda Labs mengumumkan pada 21 Maret akan meluncurkan H100 pada awal April;
• AWS mengumumkan pada 21 Maret bahwa H100 akan tersedia dalam pratinjau dalam beberapa minggu;
• Google Cloud mengumumkan dimulainya pratinjau pribadi H100 pada 10 Mei.
**• Layanan cloud mana yang digunakan oleh berbagai perusahaan? **
• OpenAI: Azure
• Infleksi: Azure dan CoreWeave
• Antropik: AWS dan Google Cloud
• Padukan:AWS dan Google Cloud
• Wajah Memeluk: AWS
• Stabilitas AI: CoreWeave dan AWS
• Karakter.ai: Google Cloud
• X.ai: Oracle
• NVIDIA: Azure
**Bagaimana cara mendapatkan lebih banyak kuota GPU? **
Hambatan terakhir adalah apakah distribusi daya komputasi dapat diperoleh dari NVIDIA.
**• Bagaimana cara NVIDIA memilih pelanggan? **
NVIDIA biasanya mengalokasikan sejumlah GPU untuk setiap pelanggan, dan dalam proses ini **NVIDIA paling memperhatikan "siapa pelanggan akhir", misalnya, Azure mengatakan "kami ingin membeli 10.000 H100 untuk mendukung Infleksi", dan hasil yang sesuai dengan Azure mengatakan "Kami membeli 10.000 H100 untuk Azure" berbeda. **Jika NVIDIA tertarik pada pelanggan akhir tertentu, perusahaan cloud mungkin mendapatkan kuota GPU tambahan. Oleh karena itu, NVIDIA berharap untuk mengetahui sebanyak mungkin siapa pelanggan akhir, dan mereka akan lebih condong ke perusahaan besar atau startup dengan dukungan yang kuat.
Ya, sepertinya memang begitu. Nvidia suka memberikan akses GPU ke startup AI (banyak di antaranya memiliki hubungan dekat dengan Nvidia). Inflection, sebuah perusahaan AI yang diinvestasikan oleh Nvidia, sedang menguji kluster H100 yang sangat besar di CoreWeave.
—— Seorang eksekutif cloud pribadi
Jika perusahaan cloud tertentu membawa pelanggan akhir ke NVIDIA dan menyatakan bahwa mereka siap untuk membeli H100 dalam jumlah tertentu, dan NVIDIA tertarik dengan pelanggan akhir ini, NVIDIA umumnya akan memberikan kuota tertentu, yang sebenarnya akan meningkatkan jumlah yang NVIDIA mengalokasikan ke pelanggan akhir. Kapasitas total perusahaan cloud, karena alokasi ini tidak bergantung pada kuota yang awalnya diberikan kepada perusahaan cloud oleh NVIDIA.
Alokasi kapasitas besar NVIDIA ke cloud pribadi adalah kasus khusus: **CoreWeave memiliki lebih banyak H100 daripada GCP. NVIDIA enggan mengalokasikan sumber daya yang signifikan kepada perusahaan yang mencoba bersaing langsung dengannya (AWS Inferentia dan Tranium, Google TPUs, Azure Project Athena). **
Namun pada akhirnya, jika Anda mengirimkan pesanan pembelian dan uang ke NVIDIA, berkomitmen pada kesepakatan yang lebih besar dengan pendanaan lebih awal, dan menunjukkan profil berisiko rendah Anda, Anda pasti akan mendapatkan lebih banyak kuota GPU daripada orang lain.
05. Ringkasan
Padahal, seperti yang dikatakan Sam Altman, "era penggunaan model besar akan segera berakhir", saat ini kita masih dibatasi oleh GPU. Di satu sisi, perusahaan seperti OpenAI sudah memiliki produk PMF yang sangat baik seperti ChatGPT, tetapi karena dibatasi oleh GPU, mereka perlu membeli daya komputasi dalam jumlah besar. Di sisi lain, banyak tim sedang mengerjakan kemungkinan untuk berpartisipasi di LLM di masa depan Menimbun GPU terlepas dari potensinya untuk membuat sesuatu seperti ChatGPT.
Namun tidak diragukan lagi bahwa hak bicara NVIDIA tidak akan tergoyahkan.
Pada tahap ini, produk LLM terbaik yang dilakukan PMF adalah ChatGPT. Berikut ini penggunaan ChatGPT sebagai contoh untuk menjelaskan mengapa terjadi kekurangan GPU:
Karena ChatGPT sangat populer di kalangan pengguna, ARR (pendapatan berulang tahunan) dapat melebihi 500 juta dolar AS;
ChatGPT berjalan pada API GPT-4 dan GPT-3.5;
API GPT-4 dan GPT-3.5 membutuhkan GPU untuk berjalan, dan diperlukan sejumlah besar GPU. OpenAI berharap untuk merilis lebih banyak fungsi untuk ChatGPT dan API-nya, tetapi tidak dapat direalisasikan karena terbatasnya jumlah GPU;
OpenAI membeli sejumlah besar GPU NVIDIA melalui Microsoft (Azure);
Untuk memproduksi GPU H100 SXM, NVIDIA menggunakan TSMC untuk pembuatannya, dan menggunakan teknologi pengemasan CoWoS TSMC dan HBM3 terutama dari SK Hynix.
Selain OpenAI, masih banyak perusahaan di pasar yang melatih model besar mereka sendiri, mari kita kesampingkan berapa banyak gelembung yang ada di LLM, dan seberapa besar kemungkinan produk PMF muncul pada akhirnya, tetapi secara umum persaingan LLM telah mendorong permintaan pasar akan permintaan GPU. Selain itu, ada beberapa perusahaan yang meskipun tidak membutuhkan GPU untuk saat ini, mereka akan mulai menimbunnya terlebih dahulu karena khawatir dengan masa depan. Jadi ini seperti "ekspektasi kekurangan pasokan memperburuk kekurangan pasokan"**.
Jadi, kekuatan lain yang mendorong permintaan GPU adalah perusahaan perusahaan yang ingin membuat LLM baru, atau berpartisipasi dalam AI di masa mendatang:
Pentingnya model besar telah menjadi konsensus: jika ini adalah perusahaan yang matang, ia berharap dapat melatih LLM dengan datanya sendiri dan berharap akan membawa lebih banyak nilai bisnis; sebagai perusahaan pemula, ia berharap dapat membangunnya memiliki LLM dan mengubahnya menjadi nilai komersial. GPU hanya diperlukan untuk melatih model besar;
Komunikasi antara perusahaan ini dan vendor cloud besar (Azure, Google Cloud, AWS), mencoba mendapatkan H100 yang cukup;
Selama proses, mereka menemukan bahwa vendor cloud tidak memiliki cukup H100 untuk dialokasikan, dan beberapa vendor cloud juga memiliki konfigurasi jaringan yang cacat, sehingga CoreWeave, Oracle, Lambda, dan FluidStack juga menjadi membeli GPU dan memilikinya, mungkin mereka juga berdiskusi dengan OEM dan NVIDIA;
Pada akhirnya, mereka mendapat banyak GPU;
Sekarang, mereka mencoba mencocokkan produk mereka dengan pasar;
Jika belum jelas, jalannya tidak mudah - ingat bahwa OpenAI mencapai kecocokan pasar produk pada model yang lebih kecil dan kemudian meningkatkannya. Tetapi sekarang untuk mencapai kecocokan pasar produk, Anda harus menyesuaikan kasus penggunaan pengguna Anda lebih baik daripada model OpenAI, jadi Anda memerlukan lebih banyak GPU daripada OpenAI untuk memulai.
**Setidaknya hingga akhir tahun 2023, akan ada kekurangan bagi perusahaan yang menggunakan ratusan atau ribuan H100, mungkin pada akhir tahun 2023, situasinya akan menjadi lebih jelas, tetapi tampaknya kekurangan GPU dapat berlanjut hingga tahun 2024. **
Perjalanan Pasokan dan Permintaan GPU
Referensi
Komentar dari pendiri startup LLM-untuk-perusahaan khusus
Pesan dari penyedia cloud
Percakapan dengan s di perusahaan cloud dan penyedia GPU
Tesla Q1 2023 (mencakup 1 Jan 2023 hingga 31 Mar 2023) panggilan pendapatan
Komentar dari perusahaan cloud
Rata-rata perkiraan dari perusahaan cloud
︎
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Analisis Penawaran dan Permintaan H100: Berapa lama perang chip akan berlangsung?
Pengarang: Clay Pascal
Disusun oleh: wenli, Lavida, yunhao
Direkomendasikan oleh: Cage, Huaiwei
Sumber: Unicorn Luar Negeri
Terobosan model besar didasarkan pada peningkatan daya komputasi perangkat keras dan kemampuan komputasi awan NVIDIA H100, yang dianggap sebagai "bom nuklir" GPU, menghadapi kekurangan paling serius dalam sejarah. Sam Altman secara langsung menyatakan bahwa kekurangan GPU membatasi kecepatan peningkatan teknologi OpenAI dalam hal penyempurnaan, kapasitas khusus, jendela konteks 32K, dan multimodalitas.
Artikel ini dikompilasi dari GPU Utils Penulis terutama membahas berapa lama GPU (terutama NVIDIA H100) akan bertahan dari perspektif penawaran dan permintaan.
Dari perspektif permintaan, NVIDIA H100 tidak diragukan lagi merupakan permintaan yang kaku untuk pelatihan model besar Menurut perkiraan, permintaan H100 saat ini di pasar adalah sekitar 432.000 lembar, yang setara dengan nilai total sekitar 35.000 dolar AS per lembar. Dengan GPU $15 miliar**, angka 432k tidak termasuk perusahaan seperti ByteDance (TikTok), Baidu, dan Tencent yang membutuhkan banyak H800.
Di sisi suplai, kekurangan H100 secara langsung dibatasi oleh kapasitas produksi TSMC, dan dalam jangka pendek, NVIDIA tidak memiliki pabrik chip alternatif lain. Karena pengapalan yang terbatas, NVIDIA juga memiliki strategi sendiri tentang cara mengalokasikan GPU ini.Bagi NVIDIA, cara memastikan GPU terbatas ini mengalir ke kuda hitam AI daripada pesaing potensial seperti Google, Microsoft, dan AWS sangatlah penting.
Berapa lama perlombaan senjata AI di sekitar H100 ini akan bertahan? Jawabannya belum jelas. Meskipun NVIDIA mengatakan akan meningkatkan pasokan pada paruh kedua tahun ini, tampaknya kekurangan GPU dapat berlanjut hingga 2024.
Di sekitar kekurangan H100, pasar dapat memasuki "lingkaran setan": kelangkaan menyebabkan kapasitas GPU dianggap sebagai parit bagi perusahaan AI, yang menyebabkan lebih banyak penimbunan GPU, yang semakin meningkatkan kelangkaan GPU.
**Berikut ini adalah daftar isi artikel ini, dan disarankan untuk membacanya bersamaan dengan poin-poin utama. **
👇
01 latar belakang
02 Analisis kebutuhan untuk H100
03 H100 Analisis sisi suplai
04 Cara mendapatkan H100
05 Ringkasan
01.Latar Belakang
Hingga Agustus 2023, pengembangan bidang kecerdasan buatan terkendala oleh hambatan suplai GPU.
"Salah satu alasan ledakan AI diremehkan adalah kekurangan GPU/TPU. Kekurangan GPU dan TPU membatasi kecepatan pengenalan produk dan kemajuan pelatihan model, tetapi kendala ini tersembunyi. Kami terutama melihat harga saham NVIDIA melonjak , bukan kemajuan R&D yang dibatasi. Hal-hal akan membaik ketika penawaran dan permintaan seimbang.
—Adam D'Angelo, CEO Quora, Poe.com, mantan CTO Facebook
Sam Altman mengatakan bahwa kekurangan GPU telah membatasi kemajuan proyek OpenAI, seperti penyempurnaan, kapasitas khusus, jendela konteks 32K, multi-modalitas, dll.
Kluster H100 berskala besar dari penyedia cloud kecil dan besar kehabisan kapasitas.
"Semua orang ingin NVIDIA membuat lebih banyak A/H100."
"Karena kekurangan GPU saat ini, lebih baik bagi OpenAI jika lebih sedikit orang yang menggunakan produk kami";
"Kami sebenarnya akan senang jika orang lebih sedikit menggunakan produk OpenAI karena kami tidak memiliki cukup GPU".
—Sam Altman, CEO, OpenAI
Di satu sisi, kata-kata Sam Altman secara halus menunjukkan bahwa produk OpenAI telah dicintai oleh pengguna di seluruh dunia, tetapi pada saat yang sama, ini juga menggambarkan fakta bahwa OpenAI memang membutuhkan lebih banyak GPU untuk lebih mempromosikan dan meningkatkan fungsinya.
Azure dan Microsoft juga menghadapi situasi serupa, dan seorang anonim menyebutkan:
• Perusahaan membatasi karyawan untuk menggunakan GPU, dan setiap orang harus mengantre untuk mengajukan daya komputasi seperti mahasiswa pada tahun 1970-an untuk menggunakan komputer. Dari sudut pandang saya, OpenAI saat ini menyedot semua sumber daya GPU;
• Pada bulan Juni tahun ini, kerjasama antara Microsoft dan CoreWeave pada dasarnya adalah untuk meningkatkan catu daya GPU/komputasi Microsoft.
CoreWeave:
Penyedia layanan daya komputasi awan, menurut situs web resmi CoreWeave, layanan mereka 80% lebih murah daripada vendor komputasi awan tradisional. Pada April 2023, CoreWeave menerima investasi putaran B NVIDIA dan memperoleh sejumlah besar kartu H100 baru. Pada bulan Juni, Microsoft juga menandatangani perjanjian dengan CoreWeave. Microsoft akan menginvestasikan miliaran dolar dalam beberapa tahun ke depan untuk pembangunan infrastruktur komputasi awan.
Pada bulan Juli, CoreWeave meluncurkan proyek superkomputer AI tercepat di dunia dalam kemitraan dengan NVIDIA, dan Inflection AI menciptakan salah satu model bahasa skala besar paling kompleks di dunia di CoreWeave Cloud menggunakan infrastruktur yang mendukung pengiriman MLPerf. Selain itu, CoreWeave menggunakan kartu akselerator NVIDIA H100 sebagai jaminan, dan mengumumkan pada bulan Agustus bahwa mereka telah menyelesaikan pembiayaan utang sebesar $2,3 miliar.
Singkatnya, pasokan GPU H100 sudah cukup sedikit. Bahkan ada desas-desus bahwa **Azure dan GCP praktis kehabisan kapasitas, dan AWS kehabisan kapasitas. **
Alasan kelangkaan adalah karena NVIDIA hanya memasok begitu banyak GPU H100 ke penyedia cloud ini.Karena output GPU H100 NVIDIA tidak dapat memenuhi permintaan, daya komputasi yang dapat disediakan oleh penyedia cloud ini secara alami akan mulai kekurangan pasokan.
Jika Anda ingin memahami hambatan daya komputasi, Anda dapat berfokus pada pertanyaan berikut:
• Apa alasan khusus untuk situasi ini? :
Seberapa besar permintaannya? Misalnya, di bidang mana permintaan kecerdasan buatan meningkat relatif cepat;
Seberapa besar persediaannya? Apakah kapasitas produksi produsen GPU seperti NVIDIA cukup untuk memenuhi permintaan;
• Berapa lama kelangkaan ini akan berlangsung? Kapan penawaran dan permintaan GPU secara bertahap mencapai titik keseimbangan?
• Bagaimana kekurangan ini dapat dikurangi secara efektif?
Analisis Persyaratan 02.H100
Analisis masalah utama hambatan daya komputasi dari sisi permintaan:
Secara khusus, apa yang ingin dibeli orang tetapi kesulitan mendapatkannya?
Seberapa besar permintaan GPU di pasar saat ini?
Mengapa bisnis lebih memilih NVIDIA H100 daripada GPU lain?
Jenis GPU apa yang saat ini ada di pasaran?
Di mana perusahaan dapat membeli GPU? Berapa harga mereka?
** Siapa yang menuntut H100? **
Perusahaan dengan permintaan lebih dari 1.000 H100 atau A100:
• ** Pelatihan startup LLM:**
OpenAI (melalui Azure), Antropik, Infleksi (melalui Azure dan CoreWeave), Mistral AI;
• Penyedia Layanan Cloud (CSP):
Selain tiga raksasa Azure, GCP, dan AWS, ada juga Oracle, dan penyedia cloud GPU seperti CoreWeave dan Lambda;
• Raksasa teknologi lainnya:
Misalnya, Tesla (**catatan pengambilan: **Meta, Apple, dan raksasa lain yang penulis aslinya tidak sebutkan di sini juga memiliki banyak permintaan untuk GPU, Google terutama menggunakan TPU untuk memproses kalkulasi, dan permintaan untuk H100 terutama Platform Google Cloud).
Selain perusahaan di atas, jika perusahaan perlu banyak melakukan fine-tuning LLM, juga perlu mencadangkan minimal 100 H100 atau A100.
Untuk perusahaan yang menggunakan cloud pribadi (CoreWeave, Lambda), dan perusahaan dengan ratusan hingga ribuan saham H100, mereka hampir selalu dihadapkan pada pekerjaan LLM dan beberapa model difusi (Model Difusi). Beberapa perusahaan memilih untuk menyempurnakan model yang ada, tetapi lebih banyak startup AI yang membangun model besar baru mereka sendiri dari awal. **Perusahaan-perusahaan ini biasanya menandatangani kontrak dengan penyedia layanan cloud pribadi dalam kisaran $10-50 juta selama 3 tahun dan menggunakan beberapa ratus hingga beberapa ribu GPU. **
Untuk perusahaan yang hanya menggunakan sejumlah kecil GPU H100 sesuai permintaan, tugas terkait LLM menghabiskan sebagian besar penggunaan GPU mereka, dan LLM dapat menggunakan lebih dari 50% GPU.
Saat ini, cloud pribadi disukai oleh perusahaan, dan meskipun perusahaan ini biasanya memilih penyedia layanan cloud besar default, mereka juga menghadapi risiko tersingkir.
**• Apakah lab AI besar lebih dibatasi oleh tugas inferensi atau tugas pelatihan? **
Pertanyaan ini tergantung pada seberapa menarik produk mereka. Dengan kata lain, daya tarik produk perusahaan sangat penting dalam menentukan alokasi sumber daya Dalam hal sumber daya yang terbatas, prioritas penalaran dan pelatihan seringkali memiliki penekanan tersendiri. Pandangan Sam Altman adalah jika pilihan harus dibuat, OpenAI lebih cenderung untuk meningkatkan kemampuan penalaran, tetapi saat ini OpenAI terbatas pada kedua aspek tersebut.
Mengapa H100 hanya diperlukan untuk pelatihan LLM
Sebagian besar pasar saat ini menggunakan GPU NVIDIA H100. Ini karena GPU H100 adalah yang tercepat dalam hal inferensi dan pelatihan LLM, dan juga memiliki kinerja biaya inferensi terbaik. Secara khusus, sebagian besar perusahaan memilih untuk menggunakan server 8-GPU HGX H100 SXM.
Menurut analisa saya, untuk pekerjaan yang sama, H100 lebih menguntungkan dari segi biaya. GPU V100 adalah pilihan yang baik jika Anda dapat menemukan unit bekas, tetapi seringkali tidak memungkinkan.
—— orang anonim
Dalam hal kesimpulan, kami menemukan GPU A10G lebih dari cukup dan jauh lebih murah.
—— Seorang eksekutif cloud pribadi
Kami memperhatikan bahwa Falcon 40b dan llama2 70b juga banyak digunakan, di mana pernyataan ini tidak lagi akurat. Oleh karena itu, kecepatan interkoneksi sangat penting untuk tugas inferensi.
— (Lainnya) Eksekutif Cloud Pribadi
Falcon 40b :
Falcon adalah model bahasa besar dasar dengan 40 miliar parameter, Falcon 40b bertujuan untuk menggunakan lebih sedikit daya komputasi pelatihan untuk mencapai hasil yang lebih baik, model hanya menyumbang 75% dari komputasi pelatihan GPT-3, 40% dari Chinchilla dan PaLM-62B 80% dari latihan. Pada 25 Mei 2023, Institut Inovasi Teknologi UEA mengumumkan bahwa itu akan membuka sumber Falcon 9 untuk penelitian dan penggunaan komersial.Setelah dirilis, itu pernah menduduki puncak daftar LLM sumber terbuka Hugging Face.
**• Apa kebutuhan umum tim wirausaha LLM? **
**Untuk startup LLM, mereka sering memilih GPU H100 dengan InfiniBand 3,2Tb/s untuk pelatihan LLM. Meskipun hampir semua orang lebih memilih H100 di sesi pelatihan, di sesi inferensi, perusahaan-perusahaan ini lebih memperhatikan kinerja biaya, yaitu kinerja yang diciptakan per dolar. **
Masih ada beberapa masalah dengan kinerja per dolar GPU H100 dibandingkan dengan A100, tetapi H100 masih lebih disukai karena penskalaannya yang lebih baik, dan waktu pelatihan yang lebih cepat, sementara kecepatan/kompresi dimulai, melatih, atau meningkatkan Waktu model sangat penting untuk startup.
"Untuk pelatihan multi-node, semuanya memerlukan GPU A100 atau H100 dengan jaringan InfiniBand. Satu-satunya persyaratan non-A/H100 yang kami amati adalah untuk inferensi, di mana beban kerjanya adalah GPU tunggal atau node tunggal."
—— Seorang eksekutif cloud pribadi
Faktor utama yang mempengaruhi pelatihan LLM adalah:
**• Bandwidth memori: **Dalam menghadapi sejumlah besar data yang dimuat dari memori, bandwidth memori yang lebih tinggi dapat mempercepat pemuatan data;
**• Daya komputasi model (FLOPS, operasi floating point per detik): ** Kernel tensor atau unit perkalian matriks setara, yang terutama memengaruhi kecepatan kalkulasi;
**• Cache dan latensi cache: **Cache dapat menyimpan data sementara untuk akses berulang, yang berdampak signifikan pada kinerja;
**• Fitur tambahan: **Seperti FP8 (angka floating-point 8-bit), dll., format numerik presisi rendah dapat mempercepat pelatihan dan inferensi;
**• Performa komputasi: ** terkait dengan jumlah inti GPU CUDA, dan terutama memengaruhi jumlah tugas yang dapat dijalankan secara paralel;
**• Kecepatan interkoneksi: **Untuk bandwidth interkoneksi antar node yang cepat seperti InfiniBand, faktor ini akan memengaruhi kecepatan pelatihan yang didistribusikan.
**H100 lebih disukai daripada A100 karena latensi cache H100 yang lebih rendah dan kemampuan komputasi FP8. **
H100 benar-benar pilihan pertama karena 3x lebih efisien daripada A100 tetapi harganya hanya 1,5 - 2x A100. Bagaimana mempertimbangkan biaya keseluruhan sistem, kinerja per dolar dari H100 juga jauh lebih tinggi, jika Anda mempertimbangkan kinerja sistem, kinerja per dolar mungkin 4-5 kali lebih tinggi.
—— Seorang peneliti pembelajaran yang mendalam
**Mengapa presisi numerik begitu penting? **
Angka floating-point presisi rendah dapat meningkatkan pelatihan dan kecepatan inferensi.Misalnya, FP16 memiliki setengah jejak memori dari FP32 dan tiga kali lebih cepat dari FP32 dalam hal kecepatan kalkulasi. Dalam proses pelatihan LLM, untuk memastikan keseimbangan antara kecepatan dan presisi, metode seperti presisi campuran dan presisi adaptif digunakan untuk mempercepat model bahasa besar.Oleh karena itu, dukungan presisi ganda merupakan salah satu pertimbangan penting untuk pelatihan model bahasa besar. Google mengusulkan format numerik BFP16, yang memperluas jangkauan numerik sekaligus mengurangi presisi, dan kinerjanya lebih baik daripada FP 32.
**• Selain GPU, apa saja kaitan biaya dalam pelatihan dan pengoperasian LLM? **
GPU saat ini merupakan komponen termahal di seluruh infrastruktur pelatihan LLM, tetapi aspek biaya lainnya tidak rendah, yang juga berdampak pada biaya pelatihan dan pengoperasian LLM:
Memori sistem dan SSD NVMe mahal: Model besar memerlukan banyak memori berkecepatan tinggi dan SSD berkecepatan tinggi untuk melakukan cache dan memuat data, dan kedua komponen tersebut mahal;
Jaringan berkecepatan tinggi mahal: Jaringan berkecepatan tinggi seperti InfiniBand (digunakan untuk komunikasi antar node) sangat mahal, terutama untuk pelatihan terdistribusi yang besar.
Mungkin 10%-15% dari total biaya menjalankan klaster digunakan untuk listrik dan hosting, dibagi secara merata di antara keduanya. Biaya listrik termasuk listrik, biaya konstruksi pusat data, biaya tanah dan karyawan, dll., Sekitar 5%-8%; Biaya hosting termasuk tanah, bangunan, karyawan, dll., Sekitar 5%-10%. **
Perhatian utama kami adalah jaringan dan data center yang handal. AWS tidak cocok karena keterbatasan jaringan dan perangkat keras yang tidak dapat diandalkan.
——Peneliti Deep Learning
**• Bagaimana teknologi GPUDirect membantu dalam pelatihan LLM? **
GPUDirect NVIDIA tidak diperlukan untuk pelatihan LLM, tetapi juga dapat membantu kinerja:
Teknologi GPUDirect dapat meningkatkan kinerja, tetapi belum tentu merupakan perbedaan yang sangat penting. Sebagian besar tergantung di mana kemacetan sistem Anda. Untuk beberapa implementasi arsitektur/perangkat lunak, hambatan sistem belum tentu jaringan. **Namun dalam hal jaringan, GPUDirect dapat meningkatkan kinerja sebesar 10%-20%, yang merupakan angka yang cukup besar untuk biaya pelatihan yang mahal. **
Meskipun demikian, RDMA GPUDirect sekarang sangat populer sehingga popularitasnya hampir berbicara sendiri. Saya pikir dukungan GPUDirect lemah untuk jaringan non-Infiniband, tetapi sebagian besar kluster GPU yang dioptimalkan untuk pelatihan jaringan saraf memiliki jaringan/kartu Infiniband. Faktor kinerja yang lebih besar mungkin adalah NVLink, karena lebih jarang daripada Infiniband, tetapi ini juga hanya penting jika Anda menerapkan strategi paralelisasi tertentu.
Jadi, fitur-fitur seperti jaringan yang kuat dan GPUDirect dapat membuat perangkat lunak yang kurang canggih dapat langsung digunakan. Namun, GPUDirect tidak sepenuhnya diperlukan jika biaya atau infrastruktur lama dipertimbangkan.
—— Seorang peneliti pembelajaran yang mendalam
GPUDirect:
Teknologi transmisi data yang disebut Penyimpanan GPUDirect (GPUDirect Storage) yang diperkenalkan oleh NVIDIA terutama digunakan untuk mempercepat transmisi data yang disimpan di berbagai penyimpanan ke memori GPU, yang dapat meningkatkan bandwidth 2 hingga 8 kali lipat, dan juga dapat mengurangi jumlah akhir- to-end delay hingga 3,8 kali. Di masa lalu, CPU bertanggung jawab memuat data dari memori ke GPU, yang sangat membatasi kinerja perangkat keras.
Jalur standar untuk transfer data dari disk NVMe ke memori GPU adalah dengan menggunakan buffer bouncing (Bounce Buffer) di memori sistem, yang merupakan salinan data tambahan. Inti dari teknologi penyimpanan GPUDirect adalah menghindari penggunaan cache rebound untuk mengurangi salinan data tambahan, dan menggunakan mesin akses memori langsung (Direct Memory Access, DMA) untuk memasukkan data langsung ke memori GPU.
**Mengapa perusahaan LLM tidak dapat menggunakan GPU AMD? **
Seorang eksekutif perusahaan cloud swasta mengatakan bahwa secara teoritis layak untuk membeli GPU AMD, tetapi dibutuhkan waktu tertentu dari pembelian hingga pengoperasian peralatan yang sebenarnya. Oleh karena itu, CUDA adalah parit NVIDIA saat ini.
Studi MosaicML menyebutkan bahwa GPU AMD juga cocok untuk tugas pelatihan model besar. Mereka bereksperimen dengan tugas pelatihan sederhana berdasarkan PyTorch tanpa modifikasi kode apa pun dibandingkan dengan menjalankan NVIDIA. Penulis menunjukkan bahwa selama basis kode dibuat di PyTorch, itu dapat digunakan langsung di AMD tanpa adaptasi tambahan. Kedepannya, penulis berencana untuk memverifikasi kinerja sistem AMD pada cluster komputasi yang lebih besar.
Di saat yang sama, ada juga pandangan bahwa mengingat biaya pelatihan model mendekati 300 juta dolar AS, tidak ada yang mau mengambil risiko mengandalkan chip dari AMD atau startup lain dalam skala besar, terutama ketika permintaan chip sedang. atas pesanan lebih dari 10.000 .
Seorang pensiunan di industri semikonduktor juga menyebutkan bahwa situasi pasokan AMD tidak optimis, dan kapasitas produksi CoWoS TSMC telah diserap oleh NVIDIA, jadi meskipun MI250 mungkin merupakan alternatif yang layak, juga sulit diperoleh.
H100 VS A100
NVIDIA A100:
Peningkatan NVIDIA V100, dibandingkan dengan V100, kinerja A100 telah ditingkatkan 20 kali lipat, yang sangat cocok untuk tugas-tugas seperti AI dan analisis data. Terdiri dari 54 miliar transistor, A100 mengintegrasikan inti Tensor generasi ketiga dengan akselerasi untuk operasi matriks jarang, terutama berguna untuk penalaran dan pelatihan AI. Selain itu, beberapa GPU A100 dapat dimanfaatkan untuk beban kerja inferensi AI yang lebih besar dengan teknologi interkoneksi NVIDIA NVLink.
NVIDIA H100:
Generasi berikutnya dari A100 adalah chip terbaru yang dioptimalkan untuk model besar. Ini didasarkan pada arsitektur Hopper, dibangun menggunakan proses versi kustom 5nm TSMC (4N), dan satu chip berisi 80 miliar transistor. Secara khusus, NVIDIA mengusulkan Transformer Engine, yang mengintegrasikan beberapa kalkulasi presisi dan kemampuan pemrosesan dinamis dari jaringan saraf Transformer, memungkinkan GPU H100 mengurangi waktu pelatihan model secara signifikan. Berdasarkan H100, NVIDIA juga meluncurkan rangkaian produk seperti workstation pembelajaran mesin dan superkomputer, seperti 8 H100 dan 4 NVLink yang digabungkan untuk membentuk GPU raksasa - DGX H100.
Dibandingkan dengan A100, kecepatan inferensi 16-bit H100 sekitar 3,5 kali lebih cepat, dan kecepatan pelatihan 16-bit sekitar 2,3 kali lebih cepat.
Kebanyakan orang cenderung membeli H100 untuk pelatihan model dan inferensi, dan menggunakan A100 terutama untuk inferensi model. Namun, seseorang juga dapat mempertimbangkan faktor-faktor berikut:
**• Biaya: **H100 lebih mahal dari A100;
**• Kapasitas: **A100 dan H100 berbeda dalam daya komputasi dan memori;
**• Penggunaan perangkat keras baru: **Adopsi H100 memerlukan penyesuaian terkait dalam perangkat lunak dan alur kerja;
**• Risiko: ** Ada lebih banyak risiko yang tidak diketahui dalam pengaturan H100;
**• PERANGKAT LUNAK DIOPTIMALKAN: **Beberapa perangkat lunak telah dioptimalkan untuk A100.
Secara keseluruhan, meskipun kinerja H100 lebih tinggi, ada kalanya masuk akal untuk memilih A100,** yang membuat peningkatan dari A100 ke H100 bukan keputusan yang mudah dengan banyak faktor yang harus dipertimbangkan. **
Faktanya, A100 akan menjadi V100 seperti sekarang ini dalam beberapa tahun. Mempertimbangkan kendala kinerja, saya rasa hampir tidak ada yang akan melatih LLM di V100 sekarang. Tapi V100 masih digunakan untuk inferensi dan tugas lainnya. Demikian pula, harga A100 mungkin turun karena lebih banyak perusahaan AI beralih ke H100 untuk melatih model baru, tetapi akan selalu ada permintaan untuk A100, terutama untuk inferensi.
Saya pikir itu dapat menyebabkan banjir A100 di pasar lagi karena beberapa perusahaan rintisan yang didanai sangat besar akhirnya gulung tikar.
— (Lainnya) Eksekutif Cloud Pribadi
Namun seiring waktu, orang akan menggunakan A100 untuk lebih banyak tugas inferensi daripada melatih model terbaru dan lebih besar. **Kinerja V100 tidak dapat lagi mendukung pelatihan model besar, dan kartu grafis dengan memori tinggi lebih cocok untuk model besar, sehingga tim mutakhir lebih memilih H100 atau A100.
Alasan utama untuk tidak menggunakan V100 adalah kurangnya tipe data brainfloat16 (bfloat16, BF16). Tanpa jenis data ini, sulit untuk melatih model dengan mudah. Alasan utama untuk kinerja OPT dan BLOOM yang buruk adalah tidak adanya tipe data ini (OPT dilatih di float16, BLOOM kebanyakan membuat prototipe dilakukan di FP16, yang membuat tidak mungkin untuk menggeneralisasi data ke pelatihan yang dijalankan di BF16 ).
——Peneliti Deep Learning
**• Apa perbedaan antara GPU Nvida H100, GH200, DGX GH200, HGX H100 dan DGX H100? **
• H100 = 1x H100 GPU;
• HGX H100 = platform referensi server NVIDIA. Digunakan oleh OEM untuk membangun server 4-GPU atau 8-GPU, diproduksi oleh OEM pihak ketiga seperti Supermicro;
• DGX H100 = Server resmi NVIDIA H100 dengan 8x H100, NVIDIA adalah pemasok tunggalnya;
• GH200 = 1x H100 GPU plus 1x Grace CPU;
• DGX GH200 = 256x GH200, hadir akhir 2023, mungkin hanya dari NVIDIA;
• MGX untuk perusahaan komputasi awan besar.
Dari jumlah tersebut, sebagian besar perusahaan memilih untuk membeli 8-GPU HGX H100 daripada server DGX H100 atau 4-GPU HGX H100.
**Berapa harga GPU ini secara terpisah? **
1x DGX H100 (SXM) dengan 8x GPU H100 berharga $460.000, termasuk layanan dukungan yang diperlukan, dll., sekitar $100.000. Startup bisa mendapatkan diskon Inception sekitar $50.000 hingga 8x kotak DGX H100, dengan total 64 H100.
Spesifikasi spesifik GPU adalah sebagai berikut:
1x HGX H100 (SXM) dengan 8x GPU H100 dapat berharga antara $300.000-380.000 bergantung pada spesifikasi (jaringan, penyimpanan, memori, CPU) dan margin vendor serta tingkat dukungan. Jika spesifikasinya persis sama dengan DGX H100, bisnis dapat membayar harga lebih tinggi dari $360.000 hingga $380.000 termasuk dukungan.
1x HGX H100 (PCIe) dengan 8x H100 GPU kira-kira $300rb termasuk dukungan, tergantung spesifikasi.
Harga pasar untuk kartu PCIe adalah sekitar $30.000 hingga $32.000.
Kartu grafis SXM tidak dijual sebagai kartu tunggal, sehingga harga menjadi sulit. Umumnya hanya dijual sebagai server 4GPU dan 8GPU.
Sekitar 70-80% permintaan di pasar adalah untuk SXM H100, dan sisanya untuk PCIe H100. Permintaan untuk segmen SXM sedang meningkat, karena hanya kartu PCIe yang tersedia di bulan-bulan sebelumnya. Mengingat sebagian besar perusahaan membeli 8GPU HGX H100s (SXMs), itu kira-kira $360K-$380K per 8 H100s, termasuk komponen server lainnya.
DGX GH200 berisi 256x GH200, dan setiap GH200 berisi 1x H100 GPU dan 1x Grace CPU. Menurut perkiraan, harga DGX GH200 mungkin antara 15 juta - 25 juta dolar AS.
**Apa permintaan pasar untuk GPU? **
• Pelatihan GPT-4 dapat dilakukan pada 10.000 hingga 25.000 lembar A100;
• Meta memiliki sekitar 21.000 A100, Tesla memiliki sekitar 7.000 A100, dan Stability AI memiliki sekitar 5.000 A100;
• Pelatihan Falcon 40B dilakukan pada 384 A100;
• Infleksi menggunakan 3500 lembar H100 dalam model setara GPT-3.5.
Kami akan memiliki 22.000 GPU yang digunakan pada bulan Desember, dan lebih dari 3.500 unit yang digunakan saat ini.
— Mustafa Suleyman, CEO, AI Infleksi
**Menurut Elon Musk, pelatihan GPT-5 dapat menggunakan 30.000-50.000 H100. **Morgan Stanley mengusulkan pada Februari 2023 bahwa GPT-5 akan menggunakan 25.000 GPU, dan mereka juga mengusulkan pada saat GPT-5 sudah dalam pelatihan, tetapi Sam Altman kemudian membantahnya pada Mei tahun ini, mengatakan OpenAI tidak berlatih GPT-5, jadi informasi Morgan Stanley mungkin tidak akurat.
GCP memiliki sekitar 25.000 H100, dan Azure mungkin memiliki 10.000-40.000 H100. Itu harus serupa untuk Oracle. Selain itu, sebagian besar kapasitas Azure akan disediakan untuk OpenAI.
CoreWeave mengelola sekitar 35.000 hingga 40.000 H100, tetapi ini berdasarkan pesanan, bukan aktual.
**Berapa banyak H100 yang dipesan oleh Startup? **Jika digunakan untuk tugas fine-tuning LLM, biasanya dipesan puluhan atau ratusan lembar; jika digunakan untuk pelatihan LLM, diperlukan ribuan lembar.
**Berapa H100 yang dibutuhkan perusahaan di sektor LLM? **
• OpenAI mungkin membutuhkan 50.000, Infleksi mungkin membutuhkan 24.000, dan Meta mungkin membutuhkan 25.000 (ada juga yang mengatakan bahwa Meta sebenarnya membutuhkan 100.000 atau lebih);
• Penyedia layanan cloud besar, seperti Azure, Google Cloud, AWS, dan Oracle masing-masing mungkin membutuhkan 30.000;
• Penyedia layanan cloud pribadi, seperti Lambda dan CoreWeave, dan cloud pribadi lainnya dapat berjumlah hingga 100.000;
• Antropik, Helsing, Mistral, Karakter mungkin berharga masing-masing 10k.
Angka-angka di atas adalah perkiraan dan tebakan, dan beberapa di antaranya mungkin dihitung dua kali, seperti pelanggan yang menyewa cloud. **Secara umum, menurut perhitungan saat ini, jumlah H100 adalah sekitar 432.000. Jika dihitung masing-masing sekitar US$35.000, ini adalah GPU dengan nilai total sekitar US$15 miliar. Juga, angka 432.000 tidak termasuk perusahaan China seperti ByteDance (TikTok), Baidu, dan Tencent yang membutuhkan banyak H800. **
Selain itu, beberapa perusahaan keuangan juga menggelar A100/H100 mulai dari ratusan hingga ribuan: seperti Jane Street, JP Morgan, Two Sigma, dan Citadel.
**Bagaimana hal ini dibandingkan dengan pendapatan pusat data NVIDIA? **Pendapatan pusat data NVIDIA sebesar $4,28 miliar untuk Februari-April 2023. Antara 25 Mei dan Juli 2023, pendapatan pusat data bisa mencapai sekitar $8 miliar. **Hal ini terutama didasarkan pada asumsi bahwa panduan pendapatan NVIDIA yang lebih tinggi untuk kuartal tersebut terutama disebabkan oleh peningkatan pendapatan dari bisnis pusat data, bukan dari area bisnis lainnya. **
Oleh karena itu, mungkin diperlukan beberapa waktu untuk mengurangi kekurangan pasokan. Tetapi ada kemungkinan kekurangan daya komputasi telah dibesar-besarkan. Pertama-tama, sebagian besar perusahaan tidak segera membeli semua H100 yang mereka butuhkan, tetapi meningkatkan secara bertahap, selain itu, NVIDIA juga secara aktif meningkatkan kapasitas produksi.
Memiliki 400.000 H100 di pasar secara keseluruhan tidak di luar jangkauan, terutama mengingat bahwa setiap orang menggunakan 4 atau 5 angka H100 dalam jumlah besar akhir-akhir ini.
—— Seorang eksekutif cloud pribadi
Meringkaskan
• Sebagian besar CSP besar (Azure, AWS, GCP, dan Oracle) dan cloud pribadi (CoreWeave, Lambda, dan lainnya) lebih memilih lebih banyak GPU H100 daripada sekadar dapat mengaksesnya, sebagian besar penawaran AI besar Perusahaan juga mengejar lebih banyak GPU H100 .
• Biasanya perusahaan ini menginginkan sasis 8GPU HGX H100 dengan kartu SXM. Bergantung pada spesifikasi dan dukungan, setiap server 8GPU berharga sekitar $3-4 juta. Mungkin ada kelebihan permintaan untuk ratusan ribu GPU H100, dengan nilai total lebih dari $15 miliar;
• Dengan persediaan yang terbatas, NVIDIA dapat menaikkan harga untuk menemukan harga keseimbangan pasar, dan sampai batas tertentu memang demikian. Secara keseluruhan, keputusan akhir tentang cara mengalokasikan GPU H100 bergantung pada pelanggan mana yang dipilih NVIDIA sendiri untuk mengalokasikannya.
03.H100 Analisis sisi suplai
** Hambatan dari TSMC **
H100 diproduksi oleh TSMC (TSMC), **Dapatkah NVIDIA memilih pabrik chip lain untuk memproduksi lebih banyak H100? Setidaknya belum. **
NVIDIA telah bekerja sama dengan Samsung di masa lalu, tetapi Samsung belum dapat memenuhi kebutuhan mereka akan GPU mutakhir, sehingga saat ini NVIDIA hanya dapat menggunakan GPU H100s dan GPU 5nm lainnya yang diproduksi oleh TSMC. **Mungkin di masa mendatang, NVIDIA akan bekerja sama dengan Intel, atau terus bekerja sama dengan Samsung dalam teknologi terkait, tetapi situasi ini tidak akan terjadi dalam jangka pendek, sehingga kekurangan pasokan H100 tidak akan berkurang. **
Teknologi 5-nanometer (N5) TSMC akan memasuki produksi massal pada tahun 2020. Teknologi N5 adalah teknologi proses EUV kedua TSMC, menawarkan kecepatan lebih cepat dan konsumsi daya lebih rendah daripada teknologi N7 sebelumnya. Selain itu, TSMC juga berencana untuk meluncurkan teknologi 4-nanometer (N4), yang merupakan versi penyempurnaan dari teknologi N5 yang akan semakin meningkatkan performa dan konsumsi daya, serta berencana memulai produksi massal pada tahun 2022.
H100 diproduksi berdasarkan proses TSMC 4N, yang termasuk dalam 5nm yang disempurnakan dalam seri 5nm, bukan proses 4nm sebenarnya. **Selain NVIDIA, Apple juga menggunakan teknologi ini, tetapi sebagian besar beralih ke N3 dan mempertahankan sebagian besar kapasitas N3. **Selain itu, Qualcomm dan AMD adalah pelanggan besar seri N5.
A100 menggunakan proses N7 TSMC.
7 nanometer (N7) adalah simpul proses yang akan diproduksi massal oleh TSMC pada tahun 2019. Berdasarkan N7, TSMC juga memperkenalkan proses N7+, yang merupakan proses pembuatan 7nm menggunakan EUV (litografi ultraviolet ekstrim), yang meningkatkan kerapatan transistor sebesar 15% hingga 20% sekaligus mengurangi konsumsi daya chip.
Umumnya, kapasitas proses front-end (Fab Capacity) akan direncanakan lebih dari 12 bulan sebelumnya. Ditunjukkan bahwa TSMC dan pelanggan utamanya akan bersama-sama merencanakan permintaan produksi untuk tahun depan, sehingga kekurangan pasokan H100 saat ini sebagian disebabkan oleh kesalahan penilaian TSMC dan NVIDIA terhadap permintaan H100 tahun ini di tahun sebelumnya.
Kapasitas Hebat:
Dalam alur proses chip semikonduktor, Fab adalah singkatan dari FABRICATION (pemrosesan, pembuatan), dan Kapasitas Fab dapat dianggap sebagai kapasitas kapasitas.
Menurut sumber lain, biasanya butuh 6 bulan untuk menjual H100 ke pelanggan (produksi, pengemasan dan pengujian) sejak awal produksi, namun situasi ini belum dapat dikonfirmasi.
Seorang pensiunan profesional di industri semikonduktor menunjukkan bahwa kapasitas produksi wafer bukanlah hambatan TSMC, tetapi hambatan sebenarnya terletak pada CoWoS (penumpukan tiga dimensi) yang telah disebutkan di atas.
CoWoS (Chip pada wafer pada Substrat, susun tiga dimensi):
Ini adalah teknologi produksi terintegrasi 2.5D dari TSMC. Pertama, chip dihubungkan ke wafer silikon melalui proses pengemasan CoW (Chip on Wafer), kemudian chip CoW dihubungkan ke substrat (Substrat), dan diintegrasikan ke dalam CoWoS .
Menurut DigiTimes, TSMC telah mulai memperluas kapasitas produksi CoWoS, dan berencana untuk meningkatkan kapasitas produksi CoWoS dari 8.000 wafer per bulan menjadi 11.000 wafer per bulan pada akhir tahun 2023, dan menjadi sekitar 14.500 hingga 16.600 wafer per bulan pada akhir tahun. 2024. Raksasa teknologi besar seperti NVIDIA, Amazon, Broadcom, Cisco, dan Xilinx semuanya memiliki permintaan yang meningkat untuk kemasan CoWoS canggih TSMC.
Memori H100
**Tipe Memori (Memory Bype), Lebar Bus Memori (Memory Bus Width) dan Kecepatan Jam Memori (Memory Clock Speed) secara bersama-sama mempengaruhi bandwidth memori GPU. **NVIDIA merancang bus width dan clock speed H100 sebagai bagian dari arsitektur GPU. Memori HBM3 terutama digunakan pada H100 SXM, dan HBM2e terutama digunakan pada H100 PCIe.
HBM sulit diproduksi dan pasokannya sangat terbatas, sehingga memproduksi HBM adalah mimpi buruk. Tapi begitu HBM diproduksi, desain lainnya menjadi mudah.
——Seorang peneliti Deepl Learning
**Jenis memori, lebar bus memori, dan kecepatan jam memori adalah tiga indikator penting dari memori komputer. **
Lebar Bus Memori:
Ini mengacu pada lebar saluran transmisi data antara modul memori dan motherboard. Lebar bus memori yang lebih lebar dapat memberikan jalur data yang lebih besar, sehingga meningkatkan kecepatan transmisi data antara memori dan prosesor.
Kecepatan Jam Memori:
Mengacu pada frekuensi jam kerja modul memori. Kecepatan jam memori yang lebih tinggi berarti memori dapat melakukan operasi baca dan tulis lebih cepat dan memberikan kecepatan transmisi data yang lebih tinggi.
HBM(Memori Bandwidth Tinggi):
Adalah teknologi memori bandwidth tinggi yang digunakan untuk memberikan kecepatan akses memori yang cepat di unit pemrosesan grafis (GPU) dan perangkat komputasi performa tinggi lainnya. Teknologi memori yang digunakan pada kartu grafis tradisional dan perangkat komputasi biasanya didasarkan pada desain GDDR (Graphics Double Data Rate), yang memiliki keseimbangan tertentu antara performa dan konsumsi daya. Teknologi HBM mencapai bandwidth yang lebih tinggi dan konsumsi daya yang lebih rendah dengan menempatkan tumpukan memori pada chip GPU dan menumpuk beberapa chip DRAM secara bersamaan melalui koneksi vertikal berkecepatan tinggi (TSV).
Untuk memori HBM3, NVIDIA dapat menggunakan semua atau sebagian besar SK Hynix. Tidak pasti apakah NVIDIA H100 menggunakan memori Samsung, tetapi yang pasti NVIDIA saat ini tidak menggunakan memori Micron.
Sejauh menyangkut HBM3, secara umum, SK Hynix memiliki keluaran terbesar, diikuti oleh Samsung, dan Micron peringkat ketiga memiliki selisih keluaran yang besar dengan dua yang sebelumnya. Tampaknya SK Hynix telah meningkatkan produksi, tetapi NVIDIA masih ingin mereka memproduksi lebih banyak, sedangkan Samsung dan Micron belum berhasil meningkatkan produksi.
**Apa lagi yang digunakan dalam pembuatan GPU? **
Selain itu, produksi GPU juga akan melibatkan banyak bahan dan suku cadang logam.Kekurangan bahan baku di tautan ini juga akan menyebabkan hambatan pasokan GPU, seperti:
**• Logam dan bahan kimia: **Termasuk silikon (metaloid) seperti tembaga, tantalum, emas, aluminium, nikel, timah, indium, dan paladium, yang digunakan dalam berbagai tahap produksi, dari pembuatan putaran silikon hingga perakitan akhir GPU , seperti silikon, tanah jarang, dll.;
**• Komponen dan bahan pengemasan: **Seperti substrat, bola dan kabel solder, senyawa pembuangan panas, dll., yang digunakan untuk menyelesaikan perakitan dan tautan berbagai komponen GPU, dan sangat penting untuk pengoperasian unit GPU;
**• Konsumsi Energi:**Karena penggunaan peralatan mekanis presisi tinggi selama proses pembuatan chip GPU, diperlukan listrik dalam jumlah besar.
**Bagaimana cara NVIDIA menangani kekurangan H100? **
NVIDIA mengungkapkan bahwa mereka akan meningkatkan pasokan pada paruh kedua tahun ini.CFO NVIDIA mengatakan pada laporan keuangan bahwa perusahaan sedang melakukan yang terbaik untuk mengatasi masalah pasokan, tetapi selain itu, mereka tidak menyampaikan informasi lebih lanjut, juga tidak mereka memiliki angka spesifik yang terkait dengan H100. .
"Kami sedang mengatasi masalah pasokan kami untuk kuartal ini, tetapi kami juga telah membeli banyak stok untuk paruh kedua tahun ini."
"Kami percaya bahwa pasokan di paruh kedua tahun ini akan jauh lebih tinggi daripada di paruh pertama."
-- Colette Kress, CFO Nvidia, pada panggilan pendapatan Februari-April 2023
Seorang eksekutif perusahaan cloud swasta percaya bahwa **lingkaran setan dapat muncul di pasar berikutnya, yaitu, kelangkaan menyebabkan kapasitas GPU dianggap sebagai parit bagi perusahaan AI, yang menyebabkan lebih banyak penimbunan GPU, yang pada gilirannya semakin memperburuk kelangkaan dari GPU. **
Menurut interval historis antara peluncuran arsitektur yang berbeda oleh NVIDIA, model H100 generasi berikutnya mungkin tidak akan dirilis hingga akhir tahun 2024 (pertengahan 2024 hingga awal 2025). Sebelum itu, H100 akan selalu menjadi produk unggulan NVIDIA GPU (GH200 dan DGX GH200 tidak dihitung, keduanya bukan GPU murni, dan keduanya menggunakan H100 sebagai GPU).
Selain itu, diharapkan akan ada versi 120GB dengan memori lebih besar di masa mendatang.
04. Cara mendapatkan H100
Penjual H100
Original Equipment Manufacturers (OEM) seperti Dell, HPE, Lenovo, Supermicro dan Quanta menjual H100 dan HGX H100, sedangkan pemesanan InfiniBand perlu dilakukan melalui NVIDIA Mellanox.
Mellanox adalah salah satu pemasok utama InfiniBand global Pada tahun 2015, pangsa Mellanox di pasar IB global mencapai 80%. Pada 2019, NVIDIA mengakuisisi Mellanox seharga $125 per saham, dengan total nilai transaksi sekitar $6,9 miliar. Akuisisi ini memungkinkan NVIDIA untuk lebih memperluas pangsa pasarnya dalam komputasi dan pusat data berperforma tinggi, serta memperkuat daya saing NVIDIA di bidang AI.
Dengan menggabungkan teknologi interkoneksi kecepatan tinggi Mellanox dengan akselerator GPU NVIDIA, NVIDIA dapat menyediakan pusat data dengan bandwidth yang lebih tinggi dan solusi latensi yang lebih rendah. Selain Mellanox, teknologi IB dari QLogic, pemasok lain di bidang IB, diakuisisi oleh Intel Corporation pada tahun 2012.
Cloud GPU seperti CoreWeave dan Lambda membeli GPU dari OEM dan menyewakannya ke Startup. Pemain cloud hyperscale (Azure, GCP, AWS, Oracle) dapat membeli lebih banyak secara langsung dengan NVIDIA, tetapi terkadang mereka juga bekerja dengan OEM.
Untuk DGX, pembelian juga dilakukan melalui OEM. Meskipun pelanggan dapat berkomunikasi dengan NVIDIA tentang persyaratan pembelian, pembelian dilakukan melalui OEM alih-alih langsung melakukan pemesanan pembelian dengan NVIDIA.
Waktu pengiriman untuk 8 server GPU HGX sangat buruk dan 4 server GPU HGX cukup bagus, tetapi kenyataannya semua orang menginginkan 8 server GPU.
**• Berapa lama waktu yang diperlukan dari pemesanan hingga penerapan H100? **
Penyebaran adalah proses bertahap. Katakanlah pesanan 5.000 GPU, mereka mungkin mendapatkan akses ke 2.000 atau 4.000 GPU dalam 4-5 bulan, dan kemudian GPU yang tersisa dalam 6 bulan atau lebih.
Untuk Startup, jika ingin membeli GPU, tidak memesan dari OEM atau reseller Mereka umumnya memilih layanan public cloud seperti Oracle, atau menyewa hak akses private cloud seperti Lambda dan CoreWeave, atau gunakan layanan seperti FluidStack dan OEM dan penyedia yang bekerja dengan akses sewa pusat data.
**• Haruskah perusahaan membangun pusat data atau colocation sendiri? **
Untuk pendirian pusat data, faktor yang perlu diperhatikan antara lain waktu pendirian pusat data, apakah ada bakat dan pengalaman di bidang perangkat keras, dan skala investasi modal.
Menyewa dan hosting server jauh lebih mudah. Jika Anda ingin membangun pusat data Anda sendiri, Anda harus memasang jalur fiber gelap ke lokasi Anda untuk terhubung ke Internet, dan biaya fiber adalah $10.000 per kilometer. Selama ledakan Internet, sebagian besar infrastruktur sudah dibangun dan dibayar. Sekarang, Anda tinggal menyewa, dan itu cukup murah.
—— Seorang eksekutif cloud pribadi
Memilih untuk menyewa atau membangun pusat data adalah salah satu atau keputusan Menurut kebutuhan aktual, perusahaan dapat memiliki opsi berbeda berikut:
Cloud sesuai permintaan: murni menggunakan layanan cloud untuk sewa;
Cloud cadangan;
Hosting (membeli server, bekerja sama dengan penyedia untuk menghosting dan mengelola server);
Self-hosting (membeli dan menghosting server sendiri).
Sebagian besar Startup yang membutuhkan banyak H100 akan memilih cloud atau colocation yang dicadangkan.
**Bagaimana perusahaan memilih perusahaan layanan cloud? **
Ada pandangan bahwa infrastruktur Oracle tidak dapat diandalkan seperti tiga cloud utama, tetapi bersedia menghabiskan lebih banyak waktu untuk dukungan teknis pelanggan. Beberapa praktisi perusahaan cloud pribadi mengatakan bahwa 100% dari mereka akan memiliki banyak pelanggan yang tidak puas dengan layanan berbasis Oracle, dan beberapa CEO dari perusahaan lain percaya bahwa kemampuan jaringan Oracle lebih kuat.
**Umumnya, Startup akan memilih perusahaan dengan kombinasi dukungan layanan, harga, dan kapasitas terkuat. **
Perbedaan utama antara beberapa perusahaan layanan cloud besar adalah:
**• Jaringan: **AWS dan Google Cloud lebih lambat mengadopsi InfiniBand karena mereka memiliki pendekatan sendiri, tetapi sebagian besar startup yang mencari klaster A100/H100 besar mencari InfiniBand;
**• Ketersediaan: **Misalnya, sebagian besar daya komputasi Azure H100 digunakan oleh OpenAI, yang berarti mungkin tidak banyak daya komputasi yang tersedia untuk pelanggan lain.
**Meskipun tidak ada dasar faktual, ada spekulasi bahwa NVIDIA lebih cenderung memprioritaskan pasokan GPU untuk penyedia layanan cloud yang belum mengembangkan chip pembelajaran mesin pesaing. **Ketiga penyedia layanan cloud utama saat ini sedang mengembangkan chip pembelajaran mesin mereka sendiri, tetapi alternatif NVIDIA AWS dan Google sudah ada di pasar dan mencuri sebagian pangsa pasar NVIDIA. Ini juga menimbulkan beberapa spekulasi pasar bahwa NVIDIA lebih bersedia bekerja sama dengan Oracle karena hal ini.
Beberapa perusahaan cloud besar memiliki harga yang lebih baik daripada yang lain. Seperti yang dicatat oleh salah satu eksekutif cloud pribadi, "Misalnya, A100 di AWS/AZURE jauh lebih mahal daripada GCP."
Oracle memberi tahu saya bahwa mereka akan memiliki "puluhan ribu H100" yang beroperasi akhir tahun ini. Namun dalam hal harga, mereka lebih tinggi dari perusahaan lain. Mereka tidak memberi saya harga untuk H100, tetapi untuk A100 80GB, mereka mengutip saya hampir $4/jam, yang hampir 2x lebih banyak daripada yang dikutip GCP, dan dengan konsumsi daya dan tenaga yang sama.
— Anonim
Awan yang lebih kecil memiliki keunggulan dalam hal harga, kecuali dalam beberapa kasus di mana salah satu perusahaan awan besar mungkin melakukan kesepakatan aneh dengan imbalan ekuitas.
Jadi secara keseluruhan dari segi kedekatan kerjasama dengan NVIDIA, Oracle dan Azure > GCP dan AWS, tapi ini hanya perkiraan saja.
Oracle memelopori A100s dan menghosting cluster berbasis Nvidia dalam kemitraan dengan Nvidia, yang juga merupakan pelanggan Azure.
**• Perusahaan cloud besar mana yang memiliki kinerja jaringan terbaik? **
Azure, CoreWeave, dan Lambda semuanya menggunakan InfiniBand. Performa jaringan Oracle bagus pada 3200 Gbps, tetapi menggunakan Ethernet daripada InfiniBand, dan bisa sekitar 15-20% lebih lambat daripada IB untuk kasus penggunaan seperti pelatihan LLM parameter tinggi. Jaringan AWS dan GCP tidak sebaik itu.
**• Bagaimana perusahaan memilih layanan cloud saat ini? **
Data statistik untuk 15 perusahaan menunjukkan bahwa 15 perusahaan yang disurvei akan memilih AWS, GCP, atau Azure, dan Oracle tidak termasuk di antara mereka.
Sebagian besar bisnis cenderung menggunakan cloud yang ada. Namun untuk tim wirausaha, pilihan mereka lebih berdasarkan kenyataan: siapa pun yang dapat menyediakan daya komputasi akan memilih yang mana.
**• Dengan siapa NVIDIA bekerja di DGX Cloud? **
"Nvidia bermitra dengan penyedia layanan cloud terkemuka untuk menghosting Infrastruktur Cloud DGX, dimulai dengan Oracle Cloud Infrastructure" - jual dengan Nvidia, tetapi sewa melalui penyedia cloud yang ada (pertama dengan Oracle, lalu Azure, diikuti oleh Google Cloud, yang tidak bekerja dengan AWS).
CEO NVIDIA Jensen Huang mengatakan pada panggilan pendapatan NVIDIA bahwa "perpaduan yang ideal adalah 10% cloud NVIDIA DGX dan 90% cloud CSP".
• Jadwal H100 raksasa cloud:
CoreWeave adalah salah satu yang pertama. Sebagai investor CoreWeave, dan untuk memperkuat persaingan di antara perusahaan cloud besar, NVIDIA adalah yang pertama menyelesaikan pengiriman CoreWeave.
Jadwal H100 perusahaan layanan cloud lainnya adalah sebagai berikut:
• Azure mengumumkan ketersediaan H100 untuk pratinjau pada 13 Maret;
• Oracle mengumumkan pasokan terbatas H100 pada 21 Maret;
• Lambda Labs mengumumkan pada 21 Maret akan meluncurkan H100 pada awal April;
• AWS mengumumkan pada 21 Maret bahwa H100 akan tersedia dalam pratinjau dalam beberapa minggu;
• Google Cloud mengumumkan dimulainya pratinjau pribadi H100 pada 10 Mei.
**• Layanan cloud mana yang digunakan oleh berbagai perusahaan? **
• OpenAI: Azure
• Infleksi: Azure dan CoreWeave
• Antropik: AWS dan Google Cloud
• Padukan:AWS dan Google Cloud
• Wajah Memeluk: AWS
• Stabilitas AI: CoreWeave dan AWS
• Karakter.ai: Google Cloud
• X.ai: Oracle
• NVIDIA: Azure
**Bagaimana cara mendapatkan lebih banyak kuota GPU? **
Hambatan terakhir adalah apakah distribusi daya komputasi dapat diperoleh dari NVIDIA.
**• Bagaimana cara NVIDIA memilih pelanggan? **
NVIDIA biasanya mengalokasikan sejumlah GPU untuk setiap pelanggan, dan dalam proses ini **NVIDIA paling memperhatikan "siapa pelanggan akhir", misalnya, Azure mengatakan "kami ingin membeli 10.000 H100 untuk mendukung Infleksi", dan hasil yang sesuai dengan Azure mengatakan "Kami membeli 10.000 H100 untuk Azure" berbeda. **Jika NVIDIA tertarik pada pelanggan akhir tertentu, perusahaan cloud mungkin mendapatkan kuota GPU tambahan. Oleh karena itu, NVIDIA berharap untuk mengetahui sebanyak mungkin siapa pelanggan akhir, dan mereka akan lebih condong ke perusahaan besar atau startup dengan dukungan yang kuat.
Ya, sepertinya memang begitu. Nvidia suka memberikan akses GPU ke startup AI (banyak di antaranya memiliki hubungan dekat dengan Nvidia). Inflection, sebuah perusahaan AI yang diinvestasikan oleh Nvidia, sedang menguji kluster H100 yang sangat besar di CoreWeave.
—— Seorang eksekutif cloud pribadi
Jika perusahaan cloud tertentu membawa pelanggan akhir ke NVIDIA dan menyatakan bahwa mereka siap untuk membeli H100 dalam jumlah tertentu, dan NVIDIA tertarik dengan pelanggan akhir ini, NVIDIA umumnya akan memberikan kuota tertentu, yang sebenarnya akan meningkatkan jumlah yang NVIDIA mengalokasikan ke pelanggan akhir. Kapasitas total perusahaan cloud, karena alokasi ini tidak bergantung pada kuota yang awalnya diberikan kepada perusahaan cloud oleh NVIDIA.
Alokasi kapasitas besar NVIDIA ke cloud pribadi adalah kasus khusus: **CoreWeave memiliki lebih banyak H100 daripada GCP. NVIDIA enggan mengalokasikan sumber daya yang signifikan kepada perusahaan yang mencoba bersaing langsung dengannya (AWS Inferentia dan Tranium, Google TPUs, Azure Project Athena). **
Namun pada akhirnya, jika Anda mengirimkan pesanan pembelian dan uang ke NVIDIA, berkomitmen pada kesepakatan yang lebih besar dengan pendanaan lebih awal, dan menunjukkan profil berisiko rendah Anda, Anda pasti akan mendapatkan lebih banyak kuota GPU daripada orang lain.
05. Ringkasan
Padahal, seperti yang dikatakan Sam Altman, "era penggunaan model besar akan segera berakhir", saat ini kita masih dibatasi oleh GPU. Di satu sisi, perusahaan seperti OpenAI sudah memiliki produk PMF yang sangat baik seperti ChatGPT, tetapi karena dibatasi oleh GPU, mereka perlu membeli daya komputasi dalam jumlah besar. Di sisi lain, banyak tim sedang mengerjakan kemungkinan untuk berpartisipasi di LLM di masa depan Menimbun GPU terlepas dari potensinya untuk membuat sesuatu seperti ChatGPT.
Namun tidak diragukan lagi bahwa hak bicara NVIDIA tidak akan tergoyahkan.
Pada tahap ini, produk LLM terbaik yang dilakukan PMF adalah ChatGPT. Berikut ini penggunaan ChatGPT sebagai contoh untuk menjelaskan mengapa terjadi kekurangan GPU:
Karena ChatGPT sangat populer di kalangan pengguna, ARR (pendapatan berulang tahunan) dapat melebihi 500 juta dolar AS;
ChatGPT berjalan pada API GPT-4 dan GPT-3.5;
API GPT-4 dan GPT-3.5 membutuhkan GPU untuk berjalan, dan diperlukan sejumlah besar GPU. OpenAI berharap untuk merilis lebih banyak fungsi untuk ChatGPT dan API-nya, tetapi tidak dapat direalisasikan karena terbatasnya jumlah GPU;
OpenAI membeli sejumlah besar GPU NVIDIA melalui Microsoft (Azure);
Untuk memproduksi GPU H100 SXM, NVIDIA menggunakan TSMC untuk pembuatannya, dan menggunakan teknologi pengemasan CoWoS TSMC dan HBM3 terutama dari SK Hynix.
Selain OpenAI, masih banyak perusahaan di pasar yang melatih model besar mereka sendiri, mari kita kesampingkan berapa banyak gelembung yang ada di LLM, dan seberapa besar kemungkinan produk PMF muncul pada akhirnya, tetapi secara umum persaingan LLM telah mendorong permintaan pasar akan permintaan GPU. Selain itu, ada beberapa perusahaan yang meskipun tidak membutuhkan GPU untuk saat ini, mereka akan mulai menimbunnya terlebih dahulu karena khawatir dengan masa depan. Jadi ini seperti "ekspektasi kekurangan pasokan memperburuk kekurangan pasokan"**.
Jadi, kekuatan lain yang mendorong permintaan GPU adalah perusahaan perusahaan yang ingin membuat LLM baru, atau berpartisipasi dalam AI di masa mendatang:
Pentingnya model besar telah menjadi konsensus: jika ini adalah perusahaan yang matang, ia berharap dapat melatih LLM dengan datanya sendiri dan berharap akan membawa lebih banyak nilai bisnis; sebagai perusahaan pemula, ia berharap dapat membangunnya memiliki LLM dan mengubahnya menjadi nilai komersial. GPU hanya diperlukan untuk melatih model besar;
Komunikasi antara perusahaan ini dan vendor cloud besar (Azure, Google Cloud, AWS), mencoba mendapatkan H100 yang cukup;
Selama proses, mereka menemukan bahwa vendor cloud tidak memiliki cukup H100 untuk dialokasikan, dan beberapa vendor cloud juga memiliki konfigurasi jaringan yang cacat, sehingga CoreWeave, Oracle, Lambda, dan FluidStack juga menjadi membeli GPU dan memilikinya, mungkin mereka juga berdiskusi dengan OEM dan NVIDIA;
Pada akhirnya, mereka mendapat banyak GPU;
Sekarang, mereka mencoba mencocokkan produk mereka dengan pasar;
Jika belum jelas, jalannya tidak mudah - ingat bahwa OpenAI mencapai kecocokan pasar produk pada model yang lebih kecil dan kemudian meningkatkannya. Tetapi sekarang untuk mencapai kecocokan pasar produk, Anda harus menyesuaikan kasus penggunaan pengguna Anda lebih baik daripada model OpenAI, jadi Anda memerlukan lebih banyak GPU daripada OpenAI untuk memulai.
**Setidaknya hingga akhir tahun 2023, akan ada kekurangan bagi perusahaan yang menggunakan ratusan atau ribuan H100, mungkin pada akhir tahun 2023, situasinya akan menjadi lebih jelas, tetapi tampaknya kekurangan GPU dapat berlanjut hingga tahun 2024. **
Referensi
Komentar dari pendiri startup LLM-untuk-perusahaan khusus
Pesan dari penyedia cloud
Percakapan dengan s di perusahaan cloud dan penyedia GPU
Tesla Q1 2023 (mencakup 1 Jan 2023 hingga 31 Mar 2023) panggilan pendapatan
Komentar dari perusahaan cloud
Rata-rata perkiraan dari perusahaan cloud
︎