Görsel kaynağı: Unbounded AI tarafından oluşturuldu
Büyük modellerin atılımı, donanım bilgi işlem gücü ve bulut bilgi işlem yeteneklerinin geliştirilmesine dayanmaktadır.GPU "nükleer bomba" olarak kabul edilen NVIDIA H100, tarihteki en ciddi eksiklikle karşı karşıyadır. Sam Altman, GPU eksikliğinin ince ayar, özel kapasite, 32K bağlam pencereleri ve çok modluluk açısından OpenAI'nin teknoloji yükseltmelerinin hızını sınırladığını doğrudan belirtti.
Bu makale GPU Utils'ten derlenmiştir Yazar, esas olarak GPU'ların (özellikle NVIDIA H100) ne kadar dayanacağını arz ve talep açısından tartışmaktadır.
Talep açısından bakıldığında, NVIDIA H100 şüphesiz büyük modelleri eğitmek için katı bir taleptir.Tahminlere göre, pazardaki H100 için mevcut talep yaklaşık 432.000 sayfadır ve bu da sayfa başına yaklaşık 35.000 ABD dolarına eşdeğerdir. 15 milyar dolarlık GPU** ile 432 bin rakam, çok fazla H800'e ihtiyaç duyan ByteDance (TikTok), Baidu ve Tencent gibi şirketleri içermez.
Arz tarafında, H100 eksikliği doğrudan TSMC'nin üretim kapasitesi ile sınırlıdır ve kısa vadede NVIDIA'nın başka alternatif çip fabrikası yoktur. Sınırlı sevkiyatlar nedeniyle, NVIDIA'nın da bu GPU'ları nasıl tahsis edeceğine dair kendi stratejisi vardır.NVIDIA için, bu sınırlı GPU'ların Google, Microsoft ve AWS gibi potansiyel rakipler yerine yapay zeka kara atlarına akışının nasıl sağlanacağı çok önemlidir.
Bu AI silahlanma yarışı H100 etrafında ne kadar sürecek? Cevap henüz net değil. NVIDIA yılın ikinci yarısında arzı artıracağını söylese de GPU sıkıntısı 2024 yılına kadar devam edebilir gibi görünüyor.
H100 kıtlığıyla ilgili olarak, pazar bir "kısır döngüye" girebilir: kıtlık, GPU kapasitesinin yapay zeka şirketleri için bir hendek olarak görülmesine neden olur, bu da daha fazla GPU istifine yol açar ve bu da GPU kıtlığını daha da artırır.
**Bu makalenin içindekiler tablosu aşağıdadır ve ana noktalarla birlikte okunması tavsiye edilir. **
👇
01 arka plan
02 H100 için gereksinim analizi
03 H100 Arz tarafı analizi
04 H100 nasıl alınır
05 Özet
01.Arka Plan
Ağustos 2023'e kadar yapay zeka alanının gelişimi, GPU tedarikindeki darboğaz nedeniyle kısıtlandı.
"AI patlamasının hafife alınmasının nedenlerinden biri, GPU/TPU eksikliğidir. GPU ve TPU eksikliği, ürün tanıtımı ve model eğitimi ilerleme hızını sınırlar, ancak bu kısıtlamalar gizlidir. Esas olarak NVIDIA'nın hisse senedi fiyatının yükseldiğini görüyoruz. , Ar-Ge ilerlemesi kısıtlı değil Arz ve talep dengelendiğinde işler düzelir.
—Adam D'Angelo, Quora CEO'su, Poe.com, eski Facebook CTO'su
Bunlar, GPU arzı ve talebi ile yapay zeka için en önemli olan CEO'lar ve şirketlerdir
Sam Altman, GPU eksikliğinin ince ayar, özel kapasite, 32K bağlam pencereleri, çok modluluk vb. gibi OpenAI projelerinin ilerlemesini sınırladığını söyledi.
Küçük ve büyük bulut sağlayıcılarından oluşan büyük ölçekli H100 kümelerinin kapasitesi tükeniyor.
"Herkes NVIDIA'nın daha fazla A/H100 yapmasını istiyor."
Bulut sağlayıcı yöneticilerinden alınan bilgiler
"Mevcut GPU sıkıntısı nedeniyle, ürünlerimizi daha az kişinin kullanması OpenAI için daha iyidir";
"Yeterli GPU'muz olmadığı için insanlar OpenAI ürünlerini daha az kullansaydı gerçekten mutlu olurduk."
—Sam Altman, CEO, OpenAI
Bir yandan Sam Altman'ın sözleri, OpenAI ürünlerinin dünyanın her yerindeki kullanıcılar tarafından sevildiğini incelikli bir şekilde gösteriyor, ancak aynı zamanda OpenAI'nin işlevlerini daha da ilerletmek ve yükseltmek için daha fazla GPU'ya ihtiyacı olduğu gerçeğini de gösteriyor.
Azure ve Microsoft da benzer bir durumla karşı karşıyadır ve kimliği belirsiz bir kişi şunları belirtmiştir:
• Şirket, çalışanlarının GPU kullanmasını kısıtlıyor ve herkesin bilgisayar kullanmak için 1970'lerdeki üniversite öğrencileri gibi bilgi işlem gücüne başvurmak için sıraya girmesi gerekiyor. Benim bakış açıma göre, OpenAI şu anda tüm GPU kaynaklarını emiyor;
• Bu yılın Haziran ayında, Microsoft ve CoreWeave arasındaki işbirliği esas olarak Microsoft'un GPU/bilgi işlem güç kaynağını geliştirmeye yöneliktir.
CoreWeave :
CoreWeave'in resmi web sitesine göre bulut bilgi işlem güç hizmeti sağlayıcıları, hizmetleri geleneksel bulut bilgi işlem sağlayıcılarından %80 daha ucuz. Nisan 2023'te CoreWeave, NVIDIA'nın B-round yatırımını aldı ve çok sayıda yeni H100 kartı aldı.Microsoft, Haziran ayında CoreWeave ile de bir anlaşma imzaladı.Microsoft, bulut bilişim altyapı inşaatı için önümüzdeki birkaç yıl içinde milyarlarca dolar yatırım yapacak.
Temmuz ayında CoreWeave, NVIDIA ile ortaklaşa dünyanın en hızlı yapay zeka süper bilgisayar projesini başlattı ve Inflection AI, MLPerf gönderimlerini destekleyen altyapıyı kullanarak CoreWeave Cloud üzerinde dünyanın en karmaşık büyük ölçekli dil modellerinden birini yarattı. Ayrıca CoreWeave, elindeki NVIDIA H100 hızlandırıcı kartını teminat olarak kullanmış ve Ağustos ayında 2.3 milyar dolarlık borç finansmanını tamamladığını açıklamıştı.
Özetlemek gerekirse, H100 GPU'ların arzı zaten oldukça kısa. Hatta **Azure ve GCP'nin kapasitesinin fiilen tükenmekte olduğuna ve AWS'nin kapasitesinin tükendiğine dair söylentiler bile var. **
Eksikliğin nedeni, NVIDIA'nın bu bulut sağlayıcılara yalnızca bir miktar H100 GPU sağlamasıdır.NVIDIA'nın H100 GPU çıkışı talebi karşılayamadığı için, bu bulut sağlayıcıların sağlayabileceği bilgi işlem gücü doğal olarak yetersiz kalmaya başlayacaktır.
Bilgi işlem gücünün darboğazını anlamak istiyorsanız aşağıdaki sorulara odaklanabilirsiniz:
• Bu durumun özel nedenleri nelerdir? :
Talep ne kadar büyük? Örneğin yapay zekaya olan talep hangi alanlarda görece hızlı artıyor;
Arz ne kadar büyük? NVIDIA gibi GPU üreticilerinin üretim kapasitesinin talebi karşılamaya yeterli olup olmadığı;
• Bu eksiklik ne kadar sürecek? GPU'ların arz ve talebi ne zaman yavaş yavaş bir denge noktasına ulaşacak?
• Bu eksikliğin etkili bir şekilde giderilebileceği yollar nelerdir?
02.H100 Gereksinim Analizi
Bilgi işlem gücü darboğazlarının temel sorunlarını talep yönünden analiz edin:
Özellikle, insanların satın almak isteyip de elde etmekte zorlandıkları şey nedir?
Mevcut pazarda GPU'ya olan talep ne kadar büyük?
İşletmeler neden farklı GPU'lar yerine NVIDIA H100'ü tercih ediyor?
Şu anda piyasada ne tür GPU'lar var?
İşletmeler GPU'ları nereden satın alabilir? Fiyatları nedir?
**H100 isteyenler kimlerdir? **
1.000'den fazla H100 veya A100 talebi olan işletmeler:
Üç dev Azure, GCP ve AWS'ye ek olarak, CoreWeave ve Lambda gibi Oracle ve GPU bulut sağlayıcıları da var;
• Diğer teknoloji devleri:
Örneğin, Tesla (**seçim notu: **Orijinal yazarın burada bahsetmediği Meta, Apple ve diğer devlerin de GPU'lara yönelik çok fazla talebi vardır, Google hesaplamaları işlemek için esas olarak TPU'yu kullanır ve H100'e olan talep esas olarak Google Bulut Platformu) .
Yukarıdaki şirketlere ek olarak, şirketin çok fazla LLM ince ayarı yapması gerekiyorsa, ayrıca en az 100 H100 veya A100 ayırması gerekir.
Özel bulutları (CoreWeave, Lambda) benimseyen şirketler ve yüz ila binlerce H100 stoğuna sahip şirketler için, neredeyse çoğunlukla LLM'nin çalışmaları ve bazı yayılma modelleri (Diffusion Modeli) ile karşı karşıya kalıyorlar. Bazı şirketler mevcut modellerde ince ayar yapmayı tercih ediyor, ancak daha fazla AI girişimi sıfırdan kendi yeni büyük modellerini oluşturuyor. **Bu şirketler genellikle özel bulut hizmeti sağlayıcılarla 10-50 milyon $ aralığında 3 yıllık sözleşmeler imzalar ve birkaç yüz ila birkaç bin GPU kullanır. **
Yalnızca az sayıda isteğe bağlı H100 GPU kullanan şirketler için LLM ile ilgili görevler, GPU kullanımlarının büyük bir bölümünü oluşturur ve LLM, GPU'nun %50'den fazlasını kullanabilir.
Şu anda, özel bulutlar işletmeler tarafından tercih ediliyor ve bu kuruluşlar genellikle varsayılan büyük bulut hizmeti sağlayıcılarını seçseler de, elenme riskiyle de karşı karşıyalar.
**• Büyük yapay zeka laboratuvarları, çıkarım görevleri veya eğitim görevleri tarafından daha mı kısıtlanır? **
Bu soru, ürünlerinin ne kadar çekici olduğuna bağlıdır. Başka bir deyişle, kaynak tahsisinin belirlenmesinde şirket ürünlerinin çekiciliği çok önemlidir.Sınırlı kaynaklar söz konusu olduğunda, muhakeme ve eğitim öncelikleri genellikle kendi vurgularına sahiptir. Sam Altman'ın görüşü, eğer bir seçim yapılması gerekiyorsa, OpenAI'nin muhakeme yeteneklerini geliştirmeye daha yatkın olduğu, ancak şu anda OpenAI'nin her iki açıdan da sınırlı olduğu yönünde.
H100 neden sadece LLM eğitimi için gereklidir
Mevcut pazarın çoğu NVIDIA H100 GPU'ları kullanıyor. Bunun nedeni, H100 GPU'nun LLM çıkarımı ve eğitimi açısından en hızlısı olması ve aynı zamanda en iyi çıkarım maliyeti performansına sahip olmasıdır. Özellikle, çoğu kuruluş 8-GPU HGX H100 SXM sunucusunu kullanmayı tercih eder.
Analizlerime göre aynı iş için H100 maliyet açısından daha avantajlı. Kullanılmış bir birim bulabilirseniz V100 GPU iyi bir seçenektir, ancak bu genellikle mümkün olmaz.
—— isimsiz bir kişi
Çıkarım açısından, A10G GPU'yu fazlasıyla yeterli ve çok daha ucuz bulduk.
—— Özel bir bulut yöneticisi
Falcon 40b ve llama2 70b'nin de yoğun bir şekilde kullanıldığını ve bu ifadenin artık doğru olmadığını fark ettik. Bu nedenle çıkarım görevleri için ara bağlantı hızı çok önemlidir.
— (Başka) Özel Bulut Yöneticisi
Şahin 40b :
Falcon, 40 milyar parametreye sahip temel bir büyük dil modelidir, Falcon 40b, daha iyi sonuçlar elde etmek için daha az eğitim hesaplama gücü kullanmayı amaçlar, model, GPT-3 eğitim hesaplamasının yalnızca %75'ini, Chinchilla'nın %40'ını ve PaLM-62B'nin %80'ini oluşturur. eğitim 25 Mayıs 2023'te BAE Teknoloji İnovasyon Enstitüsü, araştırma ve ticari kullanım için açık kaynaklı Falcon 9'u duyurdu. Piyasaya sürüldükten sonra, bir zamanlar Hugging Face açık kaynak LLM listesinin başında yer aldı.
**• LLM girişimci ekiplerinin ortak ihtiyaçları nelerdir? **
**LLM girişimleri için genellikle LLM eğitimi için 3,2 Tb/sn InfiniBand ile H100 GPU'yu seçerler. Eğitim seansında hemen hemen herkes H100'ü tercih etse de çıkarım seansında bu firmalar daha çok maliyet performansına yani dolar başına yaratılan performansa önem veriyor. **
A100'e kıyasla H100 GPU'ların dolar başına performansıyla ilgili hala bazı sorunlar var, ancak H100'ler daha iyi ölçeklendirmeleri ve daha hızlı eğitim süreleri nedeniyle tercih edilmeye devam ederken, hız/sıkıştırma başlatma, çalıştırma veya geliştirme Model zamanlaması kritik öneme sahip. girişimler.
"Çok düğümlü eğitim için, hepsi InfiniBand ağ bağlantısına sahip bir A100 veya H100 GPU gerektiriyor. A/H100 dışında gözlemlediğimiz tek gereksinim, iş yükünün tek GPU veya tek düğüm olduğu çıkarım içindi."
—— Özel bir bulut yöneticisi
LLM eğitimini etkileyen ana faktörler şunlardır:
**• Bellek bant genişliği: **Bellekten yüklenen büyük miktarda veri karşısında, daha yüksek bellek bant genişliği veri yüklemeyi hızlandırabilir;
**• Model bilgi işlem gücü (FLOPS, saniyedeki kayan nokta işlemleri): ** Esas olarak hesaplama hızını etkileyen tensör çekirdeği veya eşdeğeri matris çarpım birimi;
**• Önbellek ve önbellek gecikmesi: **Önbellek, performansı önemli ölçüde etkileyen tekrarlanan erişim için verileri geçici olarak depolayabilir;
**• Ek özellikler: **FP8 (8 bit kayan noktalı sayı) vb. gibi, düşük kesinlikli sayısal biçimler, eğitim ve çıkarımı hızlandırabilir;
**• Bilgi işlem performansı: ** GPU CUDA çekirdeklerinin sayısıyla ilişkilidir ve temel olarak paralel olarak yürütülebilen görevlerin sayısını etkiler;
**• Ara bağlantı hızı: **InfiniBand gibi hızlı düğümler arası ara bağlantı bant genişliği için bu faktör, dağıtılmış eğitimin hızını etkileyecektir.
**H100'ün daha düşük önbellek gecikmesi ve FP8 hesaplama kapasitesi nedeniyle kısmen H100'e göre H100 tercih edilir. **
H100, A100'den 3 kata kadar daha verimli olduğu, ancak A100'ün yalnızca 1,5 - 2 katı maliyeti olduğu için gerçekten ilk tercihtir. Tüm sistemin maliyeti nasıl düşünülürse, H100'ün dolar başına performansı da çok daha yüksek, sistem performansını düşünürsek dolar başına performans 4-5 kat daha fazla olabilir.
—— Bir derin öğrenme araştırmacısı
**Sayısal kesinlik neden bu kadar önemli? **
Düşük hassasiyetli kayan noktalı sayılar, eğitim ve çıkarım hızını artırabilir.Örneğin, FP16, FP32'nin bellek ayak izinin yarısı kadardır ve hesaplama hızı açısından FP32'den üç kat daha hızlıdır. LLM eğitim sürecinde hız ve kesinlik arasındaki dengeyi sağlamak için karışık kesinlik ve uyarlamalı kesinlik gibi yöntemler kullanılarak büyük dil modellerinin hızlandırılması sağlanır.Bu nedenle çoklu kesinlik desteği büyük dil modeli eğitimi için önemli hususlardan biridir. Google, kesinliği azaltırken sayısal aralığı genişleten ve performansı FP 32'den daha iyi olan BFP16 sayısal biçimini önerdi.
**• GPU'nun yanı sıra, LLM eğitimi ve operasyonundaki maliyet bağlantıları nelerdir? **
GPU şu anda LLM eğitim altyapısının tamamındaki en pahalı bileşendir, ancak maliyetin diğer yönleri de düşük değildir ve bunların da LLM'nin eğitim ve işletme maliyetleri üzerinde etkisi vardır:
Sistem belleği ve NVMe SSD'ler pahalıdır: Büyük modeller, verileri önbelleğe almak ve yüklemek için çok sayıda yüksek hızlı bellek ve yüksek hızlı SSD gerektirir ve her iki bileşen de pahalıdır;
Yüksek hızlı ağlar pahalıdır: InfiniBand (düğümler arasındaki iletişim için kullanılır) gibi yüksek hızlı ağlar, özellikle büyük, dağıtılmış eğitim için çok pahalıdır.
Bir kümeyi çalıştırmanın toplam maliyetinin belki de %10 ila %15'i elektrik ve barındırmaya gider ve ikisi arasında kabaca eşit bir şekilde bölünür. Elektrik maliyetleri, elektrik, veri merkezi inşaat maliyetleri, arazi maliyetleri ve çalışanları vb. içerir, yaklaşık %5-%8; barındırma maliyetleri, arazi, binalar, çalışanlar vb. içerir, yaklaşık %5-%10. **
Ana endişemiz ağ ve güvenilir veri merkezidir. AWS, ağ sınırlamaları ve güvenilmez donanım nedeniyle uygun değildi.
——Derin Öğrenme Araştırmacısı
**• GPUDirect teknolojisi LLM eğitiminde nasıl yardımcı olur? **
NVIDIA'nın GPUDirect'i LLM eğitimi için gerekli değildir, ancak performansa da yardımcı olabilir:
GPUDirect teknolojisi performansı artırabilir, ancak kritik üstü bir fark olması gerekmez. Çoğunlukla sistem darboğazınızın nerede olduğuna bağlıdır. Bazı mimariler/yazılım uygulamaları için, sistem darboğazı mutlaka ağ değildir. **Ancak ağ oluşturma söz konusu olduğunda, GPUDirect performansı %10 - %20 oranında artırabilir; bu, pahalı eğitim çalıştırma maliyetleri için önemli bir sayıdır. **
Bununla birlikte, GPUDirect RDMA artık o kadar yaygın ki popülaritesi neredeyse kendi adına konuşuyor. Infiniband olmayan ağlar için GPUDirect desteğinin zayıf olduğunu düşünüyorum, ancak sinir ağı eğitimi için optimize edilmiş çoğu GPU kümesinin Infiniband ağları/kartları var. Infiniband'dan daha nadir olduğu için performans için daha büyük faktör muhtemelen NVLink'tir, ancak aynı zamanda yalnızca belirli bir paralelleştirme stratejisi kullanırsanız kritiktir.
Bu nedenle, güçlü ağ iletişimi ve GPUDirect gibi özellikler, daha az gelişmiş yazılımların kutudan çıktığı gibi çalışmasını sağlayabilir. Ancak, maliyet veya eski altyapı dikkate alındığında GPUDirect kesinlikle gerekli değildir.
—— Bir derin öğrenme araştırmacısı
GPUDirect:
NVIDIA tarafından tanıtılan GPUDirect Storage (GPUDirect Storage) adı verilen veri aktarım teknolojisi, esas olarak çeşitli depolarda depolanan verilerin GPU belleğine aktarımını hızlandırmak için kullanılır, bu da bant genişliğini 2 ila 8 kat artırabilir ve aynı zamanda son bitiş gecikmesi 3,8 kata kadardır. Geçmişte CPU, bellekten GPU'ya veri yüklemekten sorumluydu, bu da donanım performansını büyük ölçüde sınırlıyordu.
NVMe diskinden GPU belleğine veri aktarımı için standart yol, sistem belleğinde ek bir veri kopyası olan sıçrama arabelleğini (Bounce Buffer) kullanmaktır. GPUDirect depolama teknolojisinin özü, ek veri kopyalarını azaltmak için geri tepme önbelleğinin kullanılmasını önlemek ve verileri doğrudan GPU belleğine koymak için doğrudan bellek erişim motorunu (Doğrudan Bellek Erişimi, DMA) kullanmaktır.
**LLM şirketi neden AMD'nin GPU'sunu kullanamıyor? **
Özel bir bulut şirketinin yöneticisi, AMD GPU'ları satın almanın teorik olarak mümkün olduğunu, ancak satın alma işleminden ekipmanın fiili çalışmasına kadar belirli bir süre geçtiğini söyledi.Pazara geç girin. Bu nedenle CUDA, NVIDIA'nın şu anki hendeğidir.
Bir MosaicML araştırması, AMD GPU'ların büyük model eğitim görevleri için de uygun olduğundan bahsetmiştir. NVIDIA üzerinde çalışmaya kıyasla herhangi bir kod değişikliği olmaksızın PyTorch tabanlı basit bir eğitim görevi denediler. Yazarlar, kod tabanı PyTorch üzerine kurulduğu sürece, ek uyarlama olmaksızın doğrudan AMD üzerinde kullanılabileceğini göstermektedir. Gelecekte yazar, AMD sisteminin performansını daha büyük bir bilgi işlem kümesinde doğrulamayı planlıyor.
Aynı zamanda, bir model eğitiminin maliyetinin 300 milyon ABD dolarına yakın olduğu düşünüldüğünde, özellikle çip talebi arttığında, hiç kimsenin büyük ölçekte AMD veya diğer startup'lardan gelen çiplere güvenme riskini almayacağı görüşü de var. 10.000'den fazla sipariş üzerine.
Yarı iletken endüstrisinden emekli olan bir kişi de AMD'nin tedarik durumunun iyimser olmadığını ve TSMC'nin CoWoS üretim kapasitesinin NVIDIA tarafından emildiğini, bu nedenle MI250'nin uygulanabilir bir alternatif olsa da elde edilmesinin de zor olduğunu belirtti.
H100 A100'e Karşı
NVIDIA A100:
V100 ile karşılaştırıldığında NVIDIA V100'ün yükseltilmesi, A100'ün performansı 20 kat iyileştirildi, bu da AI ve veri analizi gibi görevler için çok uygun. 54 milyar transistörden oluşan A100, üçüncü nesil Tensor çekirdeklerini seyrek matris işlemleri için hızlandırma ile entegre eder, özellikle yapay zeka akıl yürütme ve eğitim için yararlıdır. Ek olarak, NVIDIA NVLink ara bağlantı teknolojisi ile daha büyük AI çıkarım iş yükleri için birden fazla A100 GPU'dan yararlanılabilir.
NVIDIA H100:
A100'ün yeni nesli, büyük modeller için optimize edilmiş en son çiptir. TSMC'nin 5nm özel sürüm süreci (4N) kullanılarak oluşturulan Hopper mimarisine dayalıdır ve tek bir çip 80 milyar transistör içerir. Özellikle, NVIDIA, çoklu hassas hesaplamaları ve Transformer sinir ağının dinamik işleme yeteneklerini birleştiren ve H100 GPU'nun model eğitim süresini büyük ölçüde azaltmasını sağlayan Transformer Engine'i önerdi. H100'ü temel alan NVIDIA, dev bir GPU - DGX H100 oluşturmak üzere birleştirilmiş 8 H100 ve 4 NVLink gibi makine öğrenimi iş istasyonları ve süper bilgisayarlar gibi bir dizi ürünü de piyasaya sürdü.
A100 ile karşılaştırıldığında, H100'ün 16 bit çıkarım hızı yaklaşık 3,5 kat daha hızlıdır ve 16 bit eğitim hızı yaklaşık 2,3 kat daha hızlıdır.
A100 ve H100 hız karşılaştırması
H100 Eğitim MoE
Ölçekte H100 Hızlandırma
Çoğu insan, model eğitimi ve çıkarım için H100'ü satın alma ve A100'ü temel olarak model çıkarımı için kullanma eğilimindedir. Bununla birlikte, aşağıdaki faktörler de dikkate alınabilir:
**• Maliyet: **H100, A100'den daha pahalıdır;
**• Kapasite: **A100 ve H100, bilgi işlem gücü ve bellek açısından farklıdır;
**• Yeni donanım kullanımı: **H100'ün benimsenmesi, yazılım ve iş akışında ilgili ayarlamaları gerektirir;
**• Risk: ** H100 ayarında daha fazla bilinmeyen risk vardır;
**• YAZILIM İYİLEŞTİRİLDİ: **Bazı yazılımlar A100 için optimize edildi.
Genel olarak, H100'ün daha yüksek performansına rağmen, A100'ü** seçmenin mantıklı olduğu zamanlar vardır, bu da A100'den H100'e yükseltmeyi dikkate alınması gereken birçok faktörle kolay bir karar olmaktan çıkarır. **
Aslında, A100 birkaç yıl içinde bugünkü V100 olacaktı. Performans kısıtlamaları göz önüne alındığında, artık neredeyse hiç kimsenin V100'de LLM eğitimi vermeyeceğini düşünüyorum. Ancak V100 hala çıkarım ve diğer görevler için kullanılıyor. Aynı şekilde, daha fazla AI şirketi yeni modeller yetiştirmek için H100'e yöneldikçe A100'ün fiyatı düşebilir, ancak A100'e, özellikle çıkarım için her zaman talep olacaktır.
Özel Bulut Yöneticisi
Bence bu, büyük ölçüde finanse edilen bazı girişimler iflas ettiğinden, piyasada tekrar bir A100 seline yol açabilir.
— (Başka) Özel Bulut Yöneticisi
Ancak zamanla, insanlar en yeni ve daha büyük modelleri eğitmek yerine A100'ü giderek daha fazla çıkarım görevi için kullanacak. **V100'ün performansı artık büyük modellerin eğitimini destekleyemez ve yüksek bellekli grafik kartları büyük modeller için daha uygundur, bu nedenle ileri teknoloji ekipleri H100 veya A100'ü tercih eder.
V100'ün kullanılmamasının temel nedeni, brainfloat16 (bfloat16, BF16) veri türlerinin olmamasıdır. Bu tür veriler olmadan modelleri kolayca eğitmek zordur. OPT ve BLOOM'un düşük performansının ana nedeni, bu veri türünün olmamasıdır (OPT, float16'da eğitildi, BLOOM çoğunlukla FP16'da prototipleme yapıldı, bu da verilerin BF16'da yapılan eğitim çalıştırmalarına genelleştirilmesini imkansız hale getirdi).
——Derin Öğrenme Araştırmacısı
**• Nvida'nın GPU'ları H100, GH200, DGX GH200, HGX H100 ve DGX H100 arasındaki fark nedir? **
• H100 = 1x H100 GPU;
• HGX H100 = NVIDIA sunucu referans platformu. Supermicro gibi üçüncü taraf OEM'ler tarafından üretilen 4-GPU veya 8-GPU sunucuları oluşturmak için OEM'ler tarafından kullanılır;
• DGX H100 = 8x H100'e sahip resmi NVIDIA H100 sunucusu, NVIDIA onun tek tedarikçisidir;
• GH200 = 1x H100 GPU artı 1x Grace CPU;
• DGX GH200 = 256x GH200, 2023'ün sonlarında geliyor, muhtemelen yalnızca NVIDIA'dan;
• Büyük bulut bilişim şirketleri için MGX.
Bunlardan çoğu şirket, DGX H100 veya 4-GPU HGX H100 sunucuları yerine 8-GPU HGX H100 satın almayı seçti.
**Bu GPU'ların ayrı ayrı maliyeti nedir? **
8x H100 GPU'lu 1x DGX H100 (SXM), gerekli destek hizmetleri vb. dahil olmak üzere 460.000$'a, yaklaşık 100.000$'a mal olur. Başlangıçlar, toplam 64 H100 için 8x DGX H100 kutusuna kadar yaklaşık 50.000 $'lık bir Başlangıç indirimi alabilir.
GPU'nun spesifik özellikleri aşağıdaki gibidir:
DGX H100 Özellikleri
8x H100 GPU'lu 1x HGX H100 (SXM), teknik özelliklere (ağ, depolama, bellek, CPU) ve satıcı marjlarına ve destek düzeylerine bağlı olarak 300.000-380.000 ABD Doları arasında bir maliyete sahip olabilir. Spesifikasyonlar DGX H100 ile tamamen aynıysa, işletmeler destek dahil 360.000 ila 380.000 $ gibi daha yüksek bir fiyat ödeyebilir.
8x H100 GPU'lu 1x HGX H100 (PCIe), teknik özelliklere bağlı olarak destek dahil yaklaşık 300.000 ABD dolarıdır.
Bir PCIe kartın piyasa fiyatı yaklaşık 30.000 ila 32.000 ABD Doları arasındadır.
SXM ekran kartları tek kart olarak satılmadığı için fiyatlandırma zordur. Genellikle sadece 4GPU ve 8GPU sunucular olarak satılır.
Piyasadaki talebin yaklaşık %70-80'i SXM H100'e, geri kalanı ise PCIe H100'e yönelik. Önceki aylarda yalnızca PCIe kartları mevcut olduğundan, SXM segmentine olan talep artıyor. Çoğu şirketin 8GPU HGX H100'ler (SXM'ler) satın aldığı göz önüne alındığında, diğer sunucu bileşenleri de dahil olmak üzere bu, 8 H100 başına yaklaşık 360.000-380.000 ABD Doları demektir.
DGX GH200, 256x GH200 içerir ve her GH200, 1x H100 GPU ve 1x Grace CPU içerir. Tahminlere göre DGX GH200'ün maliyeti 15 milyon - 25 milyon ABD doları arasında olabilir.
**GPU için pazar talebi nedir? **
• GPT-4 eğitimi 10.000 ila 25.000 A100 yaprak üzerinde yapılabilir;
• Meta'da yaklaşık 21.000 A100, Tesla'da yaklaşık 7.000 A100 ve Stability AI'da yaklaşık 5.000 A100 vardır;
• 384 adet A100'de Falcon 40B eğitimi gerçekleştirildi;
• Inflection, GPT-3.5'e eşdeğer modelinde 3500 H100 sayfa kullanır.
Aralık ayına kadar kullanımda olan 22.000 GPU'muz olacak ve bugün 3.500'den fazla birimimiz kullanımda olacak.
— Mustafa Süleyman, CEO, Inflection AI
**Elon Musk'a göre GPT-5 eğitimi 30.000-50.000 H100 kullanabilir. **Morgan Stanley, Şubat 2023'te GPT-5'in 25.000 GPU kullanacağını önerdi ve o sırada GPT-5'in halihazırda eğitimde olduğunu da öne sürdüler, ancak Sam Altman daha sonra bu yılın Mayıs ayında OpenAI'nin eğitim vermediğini söyleyerek bunu yalanladı. GPT-5, bu nedenle Morgan Stanley'nin bilgileri doğru olmayabilir.
GCP'de yaklaşık 25.000 H100 vardır ve Azure'da 10.000-40.000 H100 olabilir. Oracle için benzer olmalıdır. Ek olarak, Azure'un kapasitesinin çoğu OpenAI'ye sağlanacaktır.
CoreWeave yaklaşık 35.000 ila 40.000 H100 tutar, ancak bu, gerçekleşenleri değil, siparişleri temel alır.
**Başlangıç kaç adet H100 siparişi verdi? **LLM ince ayar görevi için kullanılırsa, genellikle onlarca veya yüzlerce sayfa sipariş edilir; LLM eğitimi için kullanılırsa binlerce sayfa gerekir.
**LLM sektöründeki bir şirketin ne kadar H100'e ihtiyacı olabilir? **
• OpenAI'nin 50.000'e ihtiyacı olabilir, Inflection'ın 24.000'e ihtiyacı olabilir ve Meta'nın 25.000'e ihtiyacı olabilir (Meta'nın aslında 100.000 veya daha fazlasına ihtiyacı olduğuna dair sözler de vardır);
• Azure, Google Cloud, AWS ve Oracle gibi büyük bulut hizmeti sağlayıcılarının her birinin 30.000'e ihtiyacı olabilir;
• Lambda ve CoreWeave gibi özel bulut hizmeti sağlayıcıları ve diğer özel bulutların toplamı 100.000'e ulaşabilir;
• Antropik, Helsing, Mistral, Karakter her biri 10k tutabilir.
Yukarıdaki rakamlar tahmini ve tahminidir ve bulutu kiralayan müşteriler gibi bazıları iki kez sayılabilir. **Genel olarak, mevcut hesaplamalara göre H100 sayısı yaklaşık 432.000'dir. Her biri yaklaşık 35.000 ABD Doları olarak hesaplanırsa, bu, toplam değeri yaklaşık 15 milyar ABD Doları olan bir GPU'dur. Ayrıca 432.000 rakamı, çok fazla H800 gerektiren ByteDance (TikTok), Baidu ve Tencent gibi Çinli şirketleri içermiyor. **
Buna ek olarak, Jane Street, JP Morgan, Two Sigma ve Citadel gibi bazı finans şirketleri de yüzlerle binler arasında A100/H100 kullanıyor.
**Bu, NVIDIA veri merkezi geliriyle nasıl karşılaştırılır? **NVIDIA veri merkezi geliri, Şubat-Nisan 2023 için 4,28 milyar dolar. 25 Mayıs ile Temmuz 2023 arasında veri merkezi geliri yaklaşık 8 milyar dolar olabilir. **Bu, öncelikle NVIDIA'nın çeyrek için daha yüksek gelir rehberliğinin, işin diğer alanlarından ziyade veri merkezi işinden elde edilen artan gelirden kaynaklandığı varsayımına dayanmaktadır. **
Bu nedenle, tedarik sıkıntısının azalması biraz zaman alabilir. Ancak bilgi işlem gücü eksikliğinin abartılmış olması mümkündür.Öncelikle, çoğu şirket ihtiyaç duyduğu tüm H100'leri hemen satın almaz, kademeli olarak yükseltir; ayrıca NVIDIA, üretim kapasitesini de aktif olarak artırıyor.
Piyasada bir bütün olarak 400.000 H100'e sahip olmak, özellikle bugünlerde herkesin çok sayıda 4 veya 5 rakamlı H100 kullandığı düşünülürse, ulaşılmaz değildir.
—— Özel bir bulut yöneticisi
Özetle
• Çoğu büyük CSP (Azure, AWS, GCP ve Oracle) ve özel bulutlar (CoreWeave, Lambda ve çeşitli diğerleri), onlara erişebilmektense daha fazla H100 GPU'yu tercih eder, çoğu büyük AI teklifi Şirket ayrıca daha fazla H100 GPU peşindedir .
• Genellikle bu şirketler, SXM kartlı bir 8GPU HGX H100 kasası ister. Spesifikasyonlara ve desteğe bağlı olarak, her bir 8GPU sunucusunun maliyeti yaklaşık 3-4 milyon ABD dolarıdır. Toplam değeri 15 milyar doları aşan yüzbinlerce H100 GPU için aşırı talep olabilir;
• Sınırlı arz ile NVIDIA, piyasa denge fiyatını bulmak için fiyatları yükseltebilirdi ve bir dereceye kadar yükseltti. Sonuç olarak, H100 GPU'nun nasıl tahsis edileceğine ilişkin nihai karar, NVIDIA'nın kendisinin onu tahsis etmeyi tercih ettiği müşterilere bağlıdır.
03.H100 Arz tarafı analizi
TSMC'den darboğaz
H100'ler TSMC (TSMC) tarafından üretilmiştir, **NVIDIA daha fazla H100 üretmek için diğer çip fabrikalarını seçebilir mi? En azından henüz değil. **
NVIDIA, geçmişte Samsung ile işbirliği yaptı, ancak Samsung, son teknoloji GPU'lara olan ihtiyaçlarını karşılayamadı, bu nedenle NVIDIA, şu anda yalnızca H100s GPU'ları ve TSMC tarafından üretilen diğer 5nm GPU'ları kullanabilir. **Belki gelecekte NVIDIA, ilgili teknolojilerde Intel ile işbirliği yapacak veya Samsung ile işbirliğine devam edecek, ancak bu durumların hiçbiri kısa vadede olmayacak, bu nedenle H100'ün arz sıkıntısı azalmayacak. **
TSMC'nin 5 nanometre (N5) teknolojisi, 2020'de seri üretime girecek. N5 teknolojisi, TSMC'nin önceki N7 teknolojisinden daha yüksek hız ve daha düşük güç tüketimi sunan ikinci EUV işlem teknolojisidir. Ayrıca TSMC, N5 teknolojisinin performans ve güç tüketimini daha da iyileştirecek geliştirilmiş bir versiyonu olan 4 nanometre (N4) teknolojisini de piyasaya sürmeyi planlıyor ve 2022'de seri üretime başlamayı planlıyor.
H100, gerçek 4nm işlemine değil, 5nm serisindeki geliştirilmiş 5nm'ye ait olan TSMC 4N işlemine dayalı olarak üretilmiştir. **NVIDIA'ya ek olarak, Apple da bu teknolojiyi kullanıyor, ancak esas olarak N3'e geçtiler ve N3 kapasitesinin çoğunu korudular. **Ayrıca Qualcomm ve AMD, N5 serisinin büyük müşterileridir.
A100, TSMC'nin N7 sürecini kullanır.
7 nanometre (N7), TSMC'nin 2019'da seri üretime geçireceği işlem düğümüdür. TSMC, N7 temelinde, çip güç tüketimini azaltırken transistör yoğunluğunu %15 ila %20 oranında artıran EUV (aşırı ultraviyole litografi) kullanan 7 nm'lik bir üretim süreci olan N7+ sürecini de tanıttı.
Genel olarak, ön uç işlem kapasitesi (Fab Kapasitesi) 12 aydan uzun bir süre önceden planlanacaktır. TSMC ve ana müşterilerinin gelecek yıl için üretim talebini ortaklaşa planlayacaklarına işaret ediliyor, bu nedenle mevcut H100 tedarik sıkıntısı kısmen TSMC ve NVIDIA'nın geçen yıl bu yılki H100 talebini yanlış değerlendirmesinden kaynaklanıyor.
Fabrika Kapasitesi:
Yarı iletken çip proses akışında Fab, FABRICATION (işleme, üretim) kelimelerinin kısaltmasıdır ve Fab Kapasite, kapasite kapasitesi olarak kabul edilebilir.
Başka bir kaynağa göre, H100'ün üretim başlangıcından itibaren müşterilere satılması (üretim, paketleme ve testler) genellikle 6 ay sürüyor, ancak bu durum henüz doğrulanmadı.
Yarı iletken endüstrisinden emekli bir profesyonel, gofret üretim kapasitesinin TSMC'nin darboğazı olmadığını, ancak asıl darboğazın yukarıda bahsedilen CoWoS'de (üç boyutlu istifleme) yattığını belirtti.
CoWoS (Alt Tabaka üzerinde gofret üzerinde çip, üç boyutlu istifleme):
TSMC'nin 2.5D entegre üretim teknolojisidir.Önce çip CoW (Chip on Gofret) paketleme işlemi ile silikon gofrete bağlanır ve ardından CoW çip alt tabakaya (Substrat) bağlanır ve CoWoS'a entegre edilir .
DigiTimes'a göre TSMC, CoWoS üretim kapasitesini artırmaya başladı ve CoWoS üretim kapasitesini 2023'ün sonuna kadar ayda 8.000 gofretten ayda 11.000 gofrete ve 2023'ün sonuna kadar ayda yaklaşık 14.500'den 16.600 gofrete çıkarmayı planlıyor. 2024. NVIDIA, Amazon, Broadcom, Cisco ve Xilinx gibi büyük teknoloji devlerinin tümü, TSMC'nin gelişmiş CoWoS paketine olan talebi artırdı.
H100 Bellek
**Memory Type (Memory Bype), Memory Bus Width (Memory Bus Width) ve Memory Clock Speed (Memory Clock Speed), GPU'nun bellek bant genişliğini birlikte etkiler. **NVIDIA, H100'ün veri yolu genişliğini ve saat hızını GPU mimarisinin bir parçası olarak tasarlamıştır. HBM3 bellek ağırlıklı olarak H100 SXM'de kullanılır ve HBM2e ağırlıklı olarak H100 PCIe'de kullanılır.
HBM'nin üretilmesi zordur ve tedarik çok sınırlıdır, bu nedenle HBM üretmek bir kabustur. Ancak HBM bir kez üretildiğinde, tasarımın geri kalanı kolaylaşır.
——Bir Deepl Learning araştırmacısı
**Bellek türü, bellek veri yolu genişliği ve bellek saat hızı, bilgisayar belleğinin üç önemli göstergesidir. **
Bellek Veriyolu Genişliği:
Bellek modülü ile ana kart arasındaki veri iletim kanalının genişliğini ifade eder.Daha geniş bir bellek veri yolu genişliği, daha büyük bir veri yolu sağlayabilir, böylece bellek ile işlemci arasındaki veri aktarım hızını artırabilir.
Bellek Saat Hızı:
Bellek modülünün çalışma saati frekansını ifade eder.Daha yüksek bellek saat hızı, belleğin okuma ve yazma işlemlerini daha hızlı gerçekleştirebileceği ve daha yüksek veri iletim hızı sağlayabileceği anlamına gelir.
HBM (Yüksek Bant Genişliğine Sahip Bellek):
Grafik işlem birimlerinde (GPU'lar) ve diğer yüksek performanslı bilgi işlem cihazlarında hızlı bellek erişim hızları sağlamak için kullanılan yüksek bant genişliğine sahip bir bellek teknolojisidir. Geleneksel grafik kartlarında ve bilgi işlem cihazlarında kullanılan bellek teknolojisi, genellikle performans ve güç tüketimi arasında belirli bir dengeye sahip olan GDDR (Grafik Çift Veri Hızı) tasarımına dayalıdır. HBM teknolojisi, bellek yığınlarını GPU yongalarına yerleştirerek ve birden çok DRAM yongasını yüksek hızlı dikey bağlantılar (TSV'ler) aracılığıyla bir araya getirerek daha yüksek bant genişliği ve daha düşük güç tüketimi sağlar.
HBM3 belleği için NVIDIA, SK Hynix'in tamamını veya büyük ölçüde kullanabilir. NVIDIA'nın H100'ünün Samsung'un hafızasını kullanıp kullanmadığı kesin değil ama NVIDIA'nın şu anda Micron'un hafızasını kullanmadığı kesin.
HBM3 söz konusu olduğunda, genel olarak konuşursak, SK Hynix en büyük çıktıya sahip, onu Samsung takip ediyor ve üçüncü sıradaki Micron, önceki ikisiyle büyük bir çıktı açığına sahip. Görünüşe göre SK Hynix üretimi hızlandırdı, ancak NVIDIA hala daha fazlasını üretmelerini istiyor, Samsung ve Micron ise henüz üretimi artırmayı başaramadı.
**GPU üretiminde başka neler kullanılıyor? **
Ek olarak, GPU üretimi de çok fazla metal malzeme ve parça içerecektir.Bu bağlantılardaki hammadde eksikliği, GPU'nun tedarik darboğazına da neden olacaktır, örneğin:
**• Metaller ve kimyasallar: **Silikon Yuvarlak üretiminden GPU'nun son montajına kadar üretimin çeşitli aşamalarında kullanılan bakır, tantal, altın, alüminyum, nikel, kalay, indiyum ve paladyum gibi silikonu (metaloidler) içerir silikon, nadir toprak vb. gibi;
**• Bileşenler ve paketleme malzemeleri: **GPU'nun çeşitli bileşenlerinin montajını ve bağlantısını tamamlamak için kullanılan ve GPU'nun çalışması için kritik olan alt tabakalar, lehim topları ve teller, ısı dağıtma bileşikleri vb. GPU;
**• Enerji Tüketimi:**GPU yongalarının üretim sürecinde yüksek hassasiyetli mekanik ekipman kullanılması nedeniyle büyük miktarda elektrik gereklidir.
**NVIDIA, H100 eksikliğini nasıl gideriyor? **
NVIDIA, bu yılın ikinci yarısında arzı artıracaklarını açıkladı.NVIDIA CFO'su mali raporda şirketin tedarik sorununu çözmek için elinden gelenin en iyisini yaptığını ancak bunun dışında herhangi bir bilgi iletmediklerini ve sağlamadıklarını da açıkladı. H100 ile ilgili belirli rakamları var.
"Çeyrek için tedarik sorunlarımız üzerinde çalışıyoruz, ancak yılın ikinci yarısı için de çok fazla hisse senedi satın aldık."
Yılın ikinci yarısındaki arzın, ilk yarıdaki arzın önemli ölçüde üzerinde olacağına inanıyoruz” dedi.
-- Nvidia'nın CFO'su Colette Kress, Şubat-Nisan 2023 kazanç çağrısı hakkında
Özel bir bulut şirketi yöneticisi, **daha sonra piyasada bir kısır döngünün ortaya çıkabileceğine inanıyor, yani kıtlık, GPU kapasitesinin AI şirketleri için bir hendek olarak görülmesine neden oluyor, bu da daha fazla GPU istifine yol açıyor ve bu da kıtlığı daha da şiddetlendiriyor GPU sayısı. **
NVIDIA'nın farklı mimarileri piyasaya sürmesi arasındaki tarihsel aralığa göre, H100'ün yeni nesil modeli 2024'ün sonuna kadar (2024 ortasından 2025'in başına kadar) piyasaya sürülmeyebilir. Bundan önce, H100 her zaman NVIDIA GPU'nun en üst düzey ürünü olacaktır (GH200 ve DGX GH200 sayılmaz, saf GPU değildirler ve her ikisi de GPU olarak H100 kullanır).
Ayrıca gelecekte daha büyük belleğe sahip 120 GB'lık bir versiyonun da çıkması bekleniyor.
04. H100 nasıl alınır
H100 satıcısı
Dell, HPE, Lenovo, Supermicro ve Quanta gibi Orijinal Ekipman Üreticileri (OEM'ler), H100 ve HGX H100'ü satarken, InfiniBand siparişinin NVIDIA Mellanox aracılığıyla yapılması gerekiyor.
Mellanox dünyanın en büyük InfiniBand tedarikçilerinden biridir. 2015 yılında Mellanox'un küresel IB pazarındaki payı %80'e ulaştı. 2019'da NVIDIA, Mellanox'u hisse başına 125 ABD Doları karşılığında, toplam işlem değeri yaklaşık 6,9 milyar ABD Doları karşılığında satın aldı. Bu satın alma, NVIDIA'nın yüksek performanslı bilgi işlem ve veri merkezlerindeki pazar payını daha da genişletmesini sağlar ve NVIDIA'nın yapay zeka alanındaki rekabet gücünü güçlendirir.
Mellanox'un yüksek hızlı ara bağlantı teknolojisini NVIDIA'nın GPU hızlandırıcılarıyla birleştiren NVIDIA, veri merkezlerine daha yüksek bant genişliği ve daha düşük gecikme süresi çözümleri sağlayabilir. Mellanox'a ek olarak, IB alanındaki bir başka tedarikçi olan QLogic'in IB teknolojisi, 2012 yılında Intel Corporation tarafından satın alındı.
CoreWeave ve Lambda gibi GPU bulutları, OEM'lerden GPU satın alır ve onları Startup'lara kiralar. Hiper ölçekli bulut oynatıcıları (Azure, GCP, AWS, Oracle) NVIDIA ile daha doğrudan satın alabilir, ancak bazen OEM'lerle de çalışırlar.
DGX için satın alma, OEM aracılığıyla da yapılır. Müşteriler, satın alma gereksinimleri konusunda NVIDIA ile iletişim kurabilse de, satın alma, doğrudan NVIDIA ile bir satın alma siparişi vermek yerine OEM aracılığıyla gerçekleştirilir.
8 GPU HGX sunucularının teslimat süreleri korkunç ve 4 GPU HGX sunucuları oldukça iyi, ancak gerçek şu ki herkes 8 GPU sunucusu istiyor.
**** Bir siparişin verilmesinden H100'ün konuşlandırılmasına kadar geçen süre ne kadardır? **
Dağıtım aşamalı bir süreçtir. 5.000 GPU'luk bir sipariş diyelim, 4-5 ayda 2.000 veya 4.000 GPU'ya, 6 ay gibi bir sürede kalan GPU'lara erişim sağlayabilirler.
Startup için, bir GPU satın almak istiyorsanız, bir OEM'den veya bayiden sipariş vermezsiniz. Genellikle Oracle gibi genel bulut hizmetlerini seçerler veya Lambda gibi özel bulutlara erişim hakları kiralarlar ve CoreWeave veya FluidStack ve OEM'ler gibi hizmetleri kullanın ve veri merkezleriyle çalışan sağlayıcılar erişimi kiralayın.
**• İşletme kendi veri merkezini mi yoksa ortak yerleşimi mi oluşturmalı? **
Bir veri merkezinin kurulması için, veri merkezinin kurulma süresi, donanım konusunda yetenek ve deneyim olup olmadığı ve sermaye yatırımının ölçeği göz önünde bulundurulması gereken faktörler arasında yer alır.
Bir sunucu kiralamak ve barındırmak çok daha kolaydır. Kendi veri merkezinizi kurmak istiyorsanız, internete bağlanmak için bulunduğunuz yere karanlık bir fiber hat çekmeniz gerekir ve fiberin maliyeti kilometre başına 10.000 ABD dolarıdır. İnternet patlaması sırasında, altyapının çoğu zaten inşa edilmiş ve bedeli ödenmişti. Şimdi, sadece kiralayabilirsiniz ve oldukça ucuzdur.
—— Özel bir bulut yöneticisi
Bir veri merkezini kiralamayı veya inşa etmeyi seçmek, bir ya da bu karardır.Gerçek ihtiyaçlara göre, işletmeler aşağıdaki farklı seçeneklere sahip olabilir:
İsteğe bağlı bulut: yalnızca kiralama için bulut hizmetlerini kullanın;
Ayrılmış bulut;
Barındırma (sunucu satın almak, sunucuyu barındırmak ve yönetmek için bir sağlayıcıyla işbirliği yapmak);
Kendi kendine barındırma (bir sunucuyu kendiniz satın alma ve barındırma).
Çok fazla H100'e ihtiyaç duyan çoğu Başlangıç, ayrılmış bulut veya ortak yerleşimi tercih edecektir.
**İşletmeler bir bulut hizmeti şirketini nasıl seçer? **
Oracle'ın altyapısının üç ana bulut kadar güvenilir olmadığına dair bir görüş var, ancak müşteri teknik desteğine daha fazla zaman ayırmaya istekli. Bazı özel bulut şirketi uygulayıcıları, %100'ünün Oracle tabanlı hizmetlerden çok sayıda memnun olmayan müşterisi olacağını söyledi ve diğer şirketlerin bazı CEO'ları, Oracle'ın ağ oluşturma yeteneklerinin daha güçlü olduğuna inanıyor.
**Genel olarak Startup, hizmet desteği, fiyat ve kapasitenin en güçlü kombinasyonuna sahip şirketi seçecektir. **
Birkaç büyük bulut hizmeti şirketi arasındaki temel farklar şunlardır:
**• Ağ oluşturma: **AWS ve Google Cloud, kendi yaklaşımları olduğundan InfiniBand'i benimseme konusunda daha yavaş davrandılar, ancak büyük A100/H100 kümeleri arayan çoğu girişim InfiniBand'i arıyor;
**• Kullanılabilirlik: **Örneğin, Azure'un H100 bilgi işlem gücünün çoğu OpenAI tarafından kullanılır; bu, diğer müşteriler için çok fazla bilgi işlem gücü bulunmayabileceği anlamına gelir.
**Olgusal bir temel olmamasına rağmen, NVIDIA'nın rakip makine öğrenimi yongaları geliştirmemiş bulut hizmeti sağlayıcıları için GPU tedarikine öncelik verme eğiliminde olduğuna dair spekülasyonlar var. **Üç büyük bulut hizmeti sağlayıcısı da şu anda kendi makine öğrenimi yongalarını geliştiriyor, ancak AWS ve Google'ın NVIDIA alternatifleri zaten piyasada ve NVIDIA'dan pazar payının bir kısmını çalıyor. Bu ayrıca, NVIDIA'nın bu nedenle Oracel ile işbirliği yapmaya daha istekli olduğuna dair bazı pazar spekülasyonlarına yol açtı.
Bazı büyük bulut şirketlerinin fiyatları diğerlerinden daha iyi. Bir özel bulut yöneticisinin belirttiği gibi, "Örneğin, AWS/AZURE üzerinde A100, GCP'den çok daha pahalıdır."
Oracle, bu yıl içinde "onbinlerce H100" hizmete gireceklerini söyledi. Ancak fiyat açısından diğer firmalara göre daha yüksektir. Bana H100 için fiyat vermediler, ancak A100 80GB için bana yaklaşık 4 $/saat fiyat verdiler; bu, GCP'nin teklif ettiğinden neredeyse 2 kat daha fazla ve aynı güç tüketimi ve çabayla.
— anonim
Büyük bulut şirketlerinden birinin öz sermaye karşılığında tuhaf bir anlaşma yapabileceği bazı durumlar dışında, daha küçük bulutların fiyatlandırma açısından bir avantajı vardır.
Yani genel olarak, NVIDIA, Oracle ve Azure > GCP ve AWS ile işbirliğinin yakınlığı açısından, ancak bu sadece bir tahmin.
Oracle, yine bir Azure müşterisi olan Nvidia ile ortaklaşa A100'lere öncülük etti ve Nvidia tabanlı kümelere ev sahipliği yaptı.
**• Hangi büyük bulut şirketi en iyi ağ performansına sahiptir? **
Azure, CoreWeave ve Lambda'nın tümü InfiniBand kullanır. Oracle'ın ağ performansı 3200 Gbps'de iyidir, ancak InfiniBand yerine Ethernet kullanır ve yüksek parametreli LLM eğitimi gibi kullanım durumları için IB'den yaklaşık %15-20 daha yavaş olabilir. AWS ve GCP ağları o kadar iyi değil.
**• İşletmeler şu anda bulut hizmetlerini nasıl seçiyor? **
15 şirket için istatistiksel bir veri, ankete katılan 15 şirketin tamamının AWS, GCP veya Azure'u seçeceğini ve Oracle'ın aralarında olmadığını gösteriyor.
Çoğu işletme mevcut bulutlarını kullanma eğilimindedir. Ancak girişimci ekipler için seçimleri daha çok gerçeğe dayalıdır: Kim bilgi işlem gücü sağlayabilirse, hangisini seçecek.
**** NVIDIA, DGX Cloud üzerinde kiminle çalışıyor? **
"Nvidia, Oracle Bulut Altyapısı ile başlayarak DGX Bulut Altyapısını barındırmak için önde gelen bulut hizmeti sağlayıcılarıyla ortaklık kuruyor" - Nvidia ile satış yapın, ancak mevcut bulut sağlayıcıları aracılığıyla kiralayın (önce Oracle, ardından Azure ve ardından Google Cloud ile çalışmadı) AWS).
NVIDIA CEO'su Jensen Huang, NVIDIA'nın kazanç çağrısıyla ilgili olarak "ideal karışımın %10 NVIDIA DGX bulutu ve %90 CSP bulutu olduğunu" söyledi.
**** Bulut devlerinin H100 programı:**
CoreWeave ilklerden biriydi. CoreWeave'in bir yatırımcısı olarak ve büyük bulut şirketleri arasındaki rekabeti güçlendirmek için NVIDIA, CoreWeave teslimatını ilk tamamlayan şirket oldu.
Diğer bulut hizmeti şirketlerinin H100 takvimi şu şekilde:
• Azure, 13 Mart'ta önizleme için H100'ün kullanılabilir olduğunu duyurdu;
• Oracle, 21 Mart'ta sınırlı H100 arzını duyurdu;
• Lambda Labs, 21 Mart'ta H100'ü Nisan başında piyasaya süreceğini duyurdu;
• AWS, 21 Mart'ta H100'ün birkaç hafta içinde ön izlemede olacağını duyurdu;
• Google Cloud, 10 Mayıs'ta H100 özel önizlemesinin başladığını duyurdu.
**• Farklı şirketler hangi bulut hizmetlerini kullanıyor? **
• OpenAI: Azure
• Bükülme: Azure ve CoreWeave
• Antropik: AWS ve Google Cloud
• Tutarlı: AWS ve Google Cloud
• Sarılan Yüz: AWS
• Kararlılık AI: CoreWeave ve AWS
• Character.ai: Google Bulut
• X.ai: Oracle
• NVIDIA: Azure
**Daha fazla GPU kotası nasıl alınır? **
Son darboğaz, hesaplama gücü dağıtımının NVIDIA'dan elde edilip edilemeyeceğidir.
**** NVIDIA müşterileri nasıl seçer? **
NVIDIA genellikle her müşteriye belirli sayıda GPU tahsis eder ve bu süreçte **NVIDIA en çok "son müşterinin kim olduğu" ile ilgilenir, örneğin Azure, "Inflection'ı desteklemek için 10.000 H100 satın almak istiyoruz" dedi ve Azure'un "Azure için 10.000 H100 satın aldık" demesine karşılık gelen sonuç farklıdır. **NVIDIA belirli bir son müşteriyle ilgilenirse, bulut şirketinin ek GPU kotası alması mümkündür. Bu nedenle NVIDIA, son müşterilerin kim olduğunu olabildiğince çok bilmeyi umuyor ve onlar büyük işletmelere veya güçlü onaylara sahip yeni kurulan şirketlere daha yatkın olacaklar.
Evet, görünüşe göre durum bu. Nvidia, AI girişimlerine (çoğunun Nvidia ile yakın bağları olan) GPU erişimi vermeyi sever. Nvidia'nın yatırım yaptığı bir AI şirketi olan Inflection, CoreWeave üzerinde devasa bir H100 kümesini test ediyor.
—— Özel bir bulut yöneticisi
Belirli bir bulut şirketi bir son müşteriyi NVIDIA'ya getirirse ve belirli bir miktarda H100 satın almaya hazır olduğunu ifade ederse ve NVIDIA bu son müşteriyle ilgilenirse, NVIDIA genellikle belirli bir kota verir ve bu da aslında NVIDIA'nın satın aldığı miktarı artıracaktır. bulut şirketinin toplam kapasitesi, çünkü bu dağıtım NVIDIA tarafından bulut şirketine başlangıçta verilen kotadan bağımsızdır.
NVIDIA'nın özel bulutlara büyük kapasite tahsis etmesi özel bir durumdur: **CoreWeave, GCP'den daha fazla H100'e sahiptir. NVIDIA, kendisiyle doğrudan rekabet etmeye çalışan şirketlere (AWS Inferentia ve Tranium, Google TPU'lar, Azure Project Athena) önemli kaynaklar ayırma konusunda isteksizdir. **
Ancak günün sonunda, NVIDIA'ya bir satın alma emri ve para gönderirseniz, daha fazla peşin finansmanla daha büyük bir anlaşmaya varırsanız ve düşük riskli profilinizi belirtirseniz, herkesten daha fazla GPU kotası almanız kaçınılmazdır.
05. Özet
Sam Altman'ın dediği gibi "büyük model kullanma devri sona eriyor" olsa da, şu anda hala GPU ile sınırlıyız. Bir yandan, OpenAI gibi şirketlerin zaten ChatGPT gibi mükemmel PMF ürünleri var, ancak bunlar GPU'larla sınırlı oldukları için büyük miktarda bilgi işlem gücü satın almaları gerekiyor.Diğer yandan, birçok ekip katılım olasılığı üzerinde çalışıyor. Gelecekte LLM'de ChatGPT gibi bir şey yaratma potansiyellerinden bağımsız olarak GPU'ları İstifleme.
Ancak NVIDIA'nın söz hakkının sarsılmayacağına şüphe yok.
Bu aşamada, PMF'nin yaptığı en iyi LLM ürünü ChatGPT'dir. Aşağıda, neden GPU eksikliği olduğunu açıklamak için örnek olarak ChatGPT kullanılmıştır:
ChatGPT, kullanıcılar arasında çok popüler olduğundan, ARR'si (yıllık yinelenen gelir) 500 milyon ABD dolarını aşabilir;
ChatGPT, GPT-4 ve GPT-3.5'in API'sinde çalışır;
GPT-4 ve GPT-3.5 API'lerinin çalışması için bir GPU gerekir ve çok sayıda GPU gerekir.OpenAI, ChatGPT ve API'si için daha fazla işlev yayınlamayı umar, ancak sınırlı sayıdan dolayı gerçekleştirilemez. GPU'lar;
OpenAI, Microsoft (Azure) aracılığıyla çok sayıda NVIDIA GPU satın aldı;
NVIDIA, H100 SXM GPU'yu üretmek için üretim için TSMC'yi kullanır ve TSMC'nin CoWoS paketleme teknolojisini ve esas olarak SK Hynix'ten gelen HBM3'ü kullanır.
OpenAI'ye ek olarak, piyasada kendi büyük modellerini eğiten birçok şirket var, LLM'de kaç tane balon olduğunu ve PMF ürünlerinin sonunda ortaya çıkma olasılığını bir kenara bırakalım, ancak genel olarak LLM rekabeti, piyasanın GPU'lara olan talebini artırdı. Ayrıca, şu an için GPU'lara ihtiyaçları olmasa bile, gelecek endişesi nedeniyle önceden stoklamaya başlayacak bazı şirketler var. Yani bu, "arz eksikliği beklentisi arz eksikliğini şiddetlendiriyor"** gibi bir şey.
Bu nedenle, GPU'lara olan talebi artıran bir diğer güç, yeni LLM'ler oluşturmak veya gelecekte yapay zekaya katılmak isteyen kurumsal şirketlerdir:
Büyük modellerin önemi bir fikir birliği haline geldi: eğer olgun bir kuruluşsa, LLM'yi kendi verileri üzerinde eğitmeyi umuyor ve daha fazla iş değeri getireceğini umuyor; yeni kurulan bir şirket olarak, LLM'ye sahip olun ve bunu ticari değere dönüştürün. GPU, yalnızca büyük modelleri eğitmek için gereklidir;
Yeterli H100 elde etmeye çalışan bu kuruluşlar ve büyük bulut satıcıları (Azure, Google Cloud, AWS) arasındaki iletişim;
İşlem sırasında, bulut satıcılarının tahsis etmek için yeterli H100'e sahip olmadığını ve bazı bulut satıcılarının da kusurlu ağ yapılandırmalarına sahip olduğunu gördüler, bu nedenle CoreWeave, Oracle, Lambda ve FluidStack de GPU satın aldı ve onlara sahip oldu, belki de tartışıyorlar OEM ve NVIDIA ile;
Sonunda çok sayıda GPU aldılar;
Şimdi ürünlerini piyasaya uydurmaya çalışıyorlar;
Halihazırda net değilse, yol kolay değildir - OpenAI'nin ürün-pazar uyumunu daha küçük bir modelde başardığını ve ardından onu büyüttüğünü unutmayın. Ancak şimdi, ürün-pazar uyumu elde etmek için, kullanıcınızın kullanım durumuna OpenAI'nin modelinden daha iyi uymanız gerekiyor, bu nedenle başlangıç için OpenAI'den daha fazla GPU'ya ihtiyacınız var.
**En azından 2023'ün sonuna kadar yüzlerce hatta binlerce H100 kullanan işletmelerde eksiklikler olacak, belki 2023'ün sonunda durum netleşecek ama görünen o ki GPU sıkıntısı 2024'e kadar devam edebilir. **
GPU Arz ve Talep Yolculuğu
Referans
İşletmeler için özel LLM'ler başlangıç kurucusundan yorum
Bir bulut sağlayıcısından mesaj
Bulut şirketlerinde ve GPU sağlayıcılarında s ile görüşmeler
Tesla Q1 2023 (1 Ocak 2023 - 31 Mart 2023'ü kapsar) kazanç çağrısı
Bir bulut şirketinden bir yorum
Bir bulut şirketinden tahmin edilen bir basketbol sahası
︎
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
H100 Arz ve Talep Analizi: Chip savaşı ne kadar sürecek?
Yazar: Kil Pascal
Derleyen: wenli, Lavida, yunhao
Tavsiye eden: Cage, Huaiwei
Kaynak: Denizaşırı Tekboynuzlar
Büyük modellerin atılımı, donanım bilgi işlem gücü ve bulut bilgi işlem yeteneklerinin geliştirilmesine dayanmaktadır.GPU "nükleer bomba" olarak kabul edilen NVIDIA H100, tarihteki en ciddi eksiklikle karşı karşıyadır. Sam Altman, GPU eksikliğinin ince ayar, özel kapasite, 32K bağlam pencereleri ve çok modluluk açısından OpenAI'nin teknoloji yükseltmelerinin hızını sınırladığını doğrudan belirtti.
Bu makale GPU Utils'ten derlenmiştir Yazar, esas olarak GPU'ların (özellikle NVIDIA H100) ne kadar dayanacağını arz ve talep açısından tartışmaktadır.
Talep açısından bakıldığında, NVIDIA H100 şüphesiz büyük modelleri eğitmek için katı bir taleptir.Tahminlere göre, pazardaki H100 için mevcut talep yaklaşık 432.000 sayfadır ve bu da sayfa başına yaklaşık 35.000 ABD dolarına eşdeğerdir. 15 milyar dolarlık GPU** ile 432 bin rakam, çok fazla H800'e ihtiyaç duyan ByteDance (TikTok), Baidu ve Tencent gibi şirketleri içermez.
Arz tarafında, H100 eksikliği doğrudan TSMC'nin üretim kapasitesi ile sınırlıdır ve kısa vadede NVIDIA'nın başka alternatif çip fabrikası yoktur. Sınırlı sevkiyatlar nedeniyle, NVIDIA'nın da bu GPU'ları nasıl tahsis edeceğine dair kendi stratejisi vardır.NVIDIA için, bu sınırlı GPU'ların Google, Microsoft ve AWS gibi potansiyel rakipler yerine yapay zeka kara atlarına akışının nasıl sağlanacağı çok önemlidir.
Bu AI silahlanma yarışı H100 etrafında ne kadar sürecek? Cevap henüz net değil. NVIDIA yılın ikinci yarısında arzı artıracağını söylese de GPU sıkıntısı 2024 yılına kadar devam edebilir gibi görünüyor.
H100 kıtlığıyla ilgili olarak, pazar bir "kısır döngüye" girebilir: kıtlık, GPU kapasitesinin yapay zeka şirketleri için bir hendek olarak görülmesine neden olur, bu da daha fazla GPU istifine yol açar ve bu da GPU kıtlığını daha da artırır.
**Bu makalenin içindekiler tablosu aşağıdadır ve ana noktalarla birlikte okunması tavsiye edilir. **
👇
01 arka plan
02 H100 için gereksinim analizi
03 H100 Arz tarafı analizi
04 H100 nasıl alınır
05 Özet
01.Arka Plan
Ağustos 2023'e kadar yapay zeka alanının gelişimi, GPU tedarikindeki darboğaz nedeniyle kısıtlandı.
"AI patlamasının hafife alınmasının nedenlerinden biri, GPU/TPU eksikliğidir. GPU ve TPU eksikliği, ürün tanıtımı ve model eğitimi ilerleme hızını sınırlar, ancak bu kısıtlamalar gizlidir. Esas olarak NVIDIA'nın hisse senedi fiyatının yükseldiğini görüyoruz. , Ar-Ge ilerlemesi kısıtlı değil Arz ve talep dengelendiğinde işler düzelir.
—Adam D'Angelo, Quora CEO'su, Poe.com, eski Facebook CTO'su
Sam Altman, GPU eksikliğinin ince ayar, özel kapasite, 32K bağlam pencereleri, çok modluluk vb. gibi OpenAI projelerinin ilerlemesini sınırladığını söyledi.
Küçük ve büyük bulut sağlayıcılarından oluşan büyük ölçekli H100 kümelerinin kapasitesi tükeniyor.
"Herkes NVIDIA'nın daha fazla A/H100 yapmasını istiyor."
"Mevcut GPU sıkıntısı nedeniyle, ürünlerimizi daha az kişinin kullanması OpenAI için daha iyidir";
"Yeterli GPU'muz olmadığı için insanlar OpenAI ürünlerini daha az kullansaydı gerçekten mutlu olurduk."
—Sam Altman, CEO, OpenAI
Bir yandan Sam Altman'ın sözleri, OpenAI ürünlerinin dünyanın her yerindeki kullanıcılar tarafından sevildiğini incelikli bir şekilde gösteriyor, ancak aynı zamanda OpenAI'nin işlevlerini daha da ilerletmek ve yükseltmek için daha fazla GPU'ya ihtiyacı olduğu gerçeğini de gösteriyor.
Azure ve Microsoft da benzer bir durumla karşı karşıyadır ve kimliği belirsiz bir kişi şunları belirtmiştir:
• Şirket, çalışanlarının GPU kullanmasını kısıtlıyor ve herkesin bilgisayar kullanmak için 1970'lerdeki üniversite öğrencileri gibi bilgi işlem gücüne başvurmak için sıraya girmesi gerekiyor. Benim bakış açıma göre, OpenAI şu anda tüm GPU kaynaklarını emiyor;
• Bu yılın Haziran ayında, Microsoft ve CoreWeave arasındaki işbirliği esas olarak Microsoft'un GPU/bilgi işlem güç kaynağını geliştirmeye yöneliktir.
CoreWeave :
CoreWeave'in resmi web sitesine göre bulut bilgi işlem güç hizmeti sağlayıcıları, hizmetleri geleneksel bulut bilgi işlem sağlayıcılarından %80 daha ucuz. Nisan 2023'te CoreWeave, NVIDIA'nın B-round yatırımını aldı ve çok sayıda yeni H100 kartı aldı.Microsoft, Haziran ayında CoreWeave ile de bir anlaşma imzaladı.Microsoft, bulut bilişim altyapı inşaatı için önümüzdeki birkaç yıl içinde milyarlarca dolar yatırım yapacak.
Temmuz ayında CoreWeave, NVIDIA ile ortaklaşa dünyanın en hızlı yapay zeka süper bilgisayar projesini başlattı ve Inflection AI, MLPerf gönderimlerini destekleyen altyapıyı kullanarak CoreWeave Cloud üzerinde dünyanın en karmaşık büyük ölçekli dil modellerinden birini yarattı. Ayrıca CoreWeave, elindeki NVIDIA H100 hızlandırıcı kartını teminat olarak kullanmış ve Ağustos ayında 2.3 milyar dolarlık borç finansmanını tamamladığını açıklamıştı.
Özetlemek gerekirse, H100 GPU'ların arzı zaten oldukça kısa. Hatta **Azure ve GCP'nin kapasitesinin fiilen tükenmekte olduğuna ve AWS'nin kapasitesinin tükendiğine dair söylentiler bile var. **
Eksikliğin nedeni, NVIDIA'nın bu bulut sağlayıcılara yalnızca bir miktar H100 GPU sağlamasıdır.NVIDIA'nın H100 GPU çıkışı talebi karşılayamadığı için, bu bulut sağlayıcıların sağlayabileceği bilgi işlem gücü doğal olarak yetersiz kalmaya başlayacaktır.
Bilgi işlem gücünün darboğazını anlamak istiyorsanız aşağıdaki sorulara odaklanabilirsiniz:
• Bu durumun özel nedenleri nelerdir? :
Talep ne kadar büyük? Örneğin yapay zekaya olan talep hangi alanlarda görece hızlı artıyor;
Arz ne kadar büyük? NVIDIA gibi GPU üreticilerinin üretim kapasitesinin talebi karşılamaya yeterli olup olmadığı;
• Bu eksiklik ne kadar sürecek? GPU'ların arz ve talebi ne zaman yavaş yavaş bir denge noktasına ulaşacak?
• Bu eksikliğin etkili bir şekilde giderilebileceği yollar nelerdir?
02.H100 Gereksinim Analizi
Bilgi işlem gücü darboğazlarının temel sorunlarını talep yönünden analiz edin:
Özellikle, insanların satın almak isteyip de elde etmekte zorlandıkları şey nedir?
Mevcut pazarda GPU'ya olan talep ne kadar büyük?
İşletmeler neden farklı GPU'lar yerine NVIDIA H100'ü tercih ediyor?
Şu anda piyasada ne tür GPU'lar var?
İşletmeler GPU'ları nereden satın alabilir? Fiyatları nedir?
**H100 isteyenler kimlerdir? **
1.000'den fazla H100 veya A100 talebi olan işletmeler:
• Başlangıç eğitimi LLM:
OpenAI (Azure aracılığıyla), Anthropic, Inflection (Azure ve CoreWeave aracılığıyla), Mistral AI;
• Bulut Hizmeti Sağlayıcıları (CSP'ler):
Üç dev Azure, GCP ve AWS'ye ek olarak, CoreWeave ve Lambda gibi Oracle ve GPU bulut sağlayıcıları da var;
• Diğer teknoloji devleri:
Örneğin, Tesla (**seçim notu: **Orijinal yazarın burada bahsetmediği Meta, Apple ve diğer devlerin de GPU'lara yönelik çok fazla talebi vardır, Google hesaplamaları işlemek için esas olarak TPU'yu kullanır ve H100'e olan talep esas olarak Google Bulut Platformu) .
Yukarıdaki şirketlere ek olarak, şirketin çok fazla LLM ince ayarı yapması gerekiyorsa, ayrıca en az 100 H100 veya A100 ayırması gerekir.
Özel bulutları (CoreWeave, Lambda) benimseyen şirketler ve yüz ila binlerce H100 stoğuna sahip şirketler için, neredeyse çoğunlukla LLM'nin çalışmaları ve bazı yayılma modelleri (Diffusion Modeli) ile karşı karşıya kalıyorlar. Bazı şirketler mevcut modellerde ince ayar yapmayı tercih ediyor, ancak daha fazla AI girişimi sıfırdan kendi yeni büyük modellerini oluşturuyor. **Bu şirketler genellikle özel bulut hizmeti sağlayıcılarla 10-50 milyon $ aralığında 3 yıllık sözleşmeler imzalar ve birkaç yüz ila birkaç bin GPU kullanır. **
Yalnızca az sayıda isteğe bağlı H100 GPU kullanan şirketler için LLM ile ilgili görevler, GPU kullanımlarının büyük bir bölümünü oluşturur ve LLM, GPU'nun %50'den fazlasını kullanabilir.
Şu anda, özel bulutlar işletmeler tarafından tercih ediliyor ve bu kuruluşlar genellikle varsayılan büyük bulut hizmeti sağlayıcılarını seçseler de, elenme riskiyle de karşı karşıyalar.
**• Büyük yapay zeka laboratuvarları, çıkarım görevleri veya eğitim görevleri tarafından daha mı kısıtlanır? **
Bu soru, ürünlerinin ne kadar çekici olduğuna bağlıdır. Başka bir deyişle, kaynak tahsisinin belirlenmesinde şirket ürünlerinin çekiciliği çok önemlidir.Sınırlı kaynaklar söz konusu olduğunda, muhakeme ve eğitim öncelikleri genellikle kendi vurgularına sahiptir. Sam Altman'ın görüşü, eğer bir seçim yapılması gerekiyorsa, OpenAI'nin muhakeme yeteneklerini geliştirmeye daha yatkın olduğu, ancak şu anda OpenAI'nin her iki açıdan da sınırlı olduğu yönünde.
H100 neden sadece LLM eğitimi için gereklidir
Mevcut pazarın çoğu NVIDIA H100 GPU'ları kullanıyor. Bunun nedeni, H100 GPU'nun LLM çıkarımı ve eğitimi açısından en hızlısı olması ve aynı zamanda en iyi çıkarım maliyeti performansına sahip olmasıdır. Özellikle, çoğu kuruluş 8-GPU HGX H100 SXM sunucusunu kullanmayı tercih eder.
Analizlerime göre aynı iş için H100 maliyet açısından daha avantajlı. Kullanılmış bir birim bulabilirseniz V100 GPU iyi bir seçenektir, ancak bu genellikle mümkün olmaz.
—— isimsiz bir kişi
Çıkarım açısından, A10G GPU'yu fazlasıyla yeterli ve çok daha ucuz bulduk.
—— Özel bir bulut yöneticisi
Falcon 40b ve llama2 70b'nin de yoğun bir şekilde kullanıldığını ve bu ifadenin artık doğru olmadığını fark ettik. Bu nedenle çıkarım görevleri için ara bağlantı hızı çok önemlidir.
— (Başka) Özel Bulut Yöneticisi
Şahin 40b :
Falcon, 40 milyar parametreye sahip temel bir büyük dil modelidir, Falcon 40b, daha iyi sonuçlar elde etmek için daha az eğitim hesaplama gücü kullanmayı amaçlar, model, GPT-3 eğitim hesaplamasının yalnızca %75'ini, Chinchilla'nın %40'ını ve PaLM-62B'nin %80'ini oluşturur. eğitim 25 Mayıs 2023'te BAE Teknoloji İnovasyon Enstitüsü, araştırma ve ticari kullanım için açık kaynaklı Falcon 9'u duyurdu. Piyasaya sürüldükten sonra, bir zamanlar Hugging Face açık kaynak LLM listesinin başında yer aldı.
**• LLM girişimci ekiplerinin ortak ihtiyaçları nelerdir? **
**LLM girişimleri için genellikle LLM eğitimi için 3,2 Tb/sn InfiniBand ile H100 GPU'yu seçerler. Eğitim seansında hemen hemen herkes H100'ü tercih etse de çıkarım seansında bu firmalar daha çok maliyet performansına yani dolar başına yaratılan performansa önem veriyor. **
A100'e kıyasla H100 GPU'ların dolar başına performansıyla ilgili hala bazı sorunlar var, ancak H100'ler daha iyi ölçeklendirmeleri ve daha hızlı eğitim süreleri nedeniyle tercih edilmeye devam ederken, hız/sıkıştırma başlatma, çalıştırma veya geliştirme Model zamanlaması kritik öneme sahip. girişimler.
"Çok düğümlü eğitim için, hepsi InfiniBand ağ bağlantısına sahip bir A100 veya H100 GPU gerektiriyor. A/H100 dışında gözlemlediğimiz tek gereksinim, iş yükünün tek GPU veya tek düğüm olduğu çıkarım içindi."
—— Özel bir bulut yöneticisi
LLM eğitimini etkileyen ana faktörler şunlardır:
**• Bellek bant genişliği: **Bellekten yüklenen büyük miktarda veri karşısında, daha yüksek bellek bant genişliği veri yüklemeyi hızlandırabilir;
**• Model bilgi işlem gücü (FLOPS, saniyedeki kayan nokta işlemleri): ** Esas olarak hesaplama hızını etkileyen tensör çekirdeği veya eşdeğeri matris çarpım birimi;
**• Önbellek ve önbellek gecikmesi: **Önbellek, performansı önemli ölçüde etkileyen tekrarlanan erişim için verileri geçici olarak depolayabilir;
**• Ek özellikler: **FP8 (8 bit kayan noktalı sayı) vb. gibi, düşük kesinlikli sayısal biçimler, eğitim ve çıkarımı hızlandırabilir;
**• Bilgi işlem performansı: ** GPU CUDA çekirdeklerinin sayısıyla ilişkilidir ve temel olarak paralel olarak yürütülebilen görevlerin sayısını etkiler;
**• Ara bağlantı hızı: **InfiniBand gibi hızlı düğümler arası ara bağlantı bant genişliği için bu faktör, dağıtılmış eğitimin hızını etkileyecektir.
**H100'ün daha düşük önbellek gecikmesi ve FP8 hesaplama kapasitesi nedeniyle kısmen H100'e göre H100 tercih edilir. **
H100, A100'den 3 kata kadar daha verimli olduğu, ancak A100'ün yalnızca 1,5 - 2 katı maliyeti olduğu için gerçekten ilk tercihtir. Tüm sistemin maliyeti nasıl düşünülürse, H100'ün dolar başına performansı da çok daha yüksek, sistem performansını düşünürsek dolar başına performans 4-5 kat daha fazla olabilir.
—— Bir derin öğrenme araştırmacısı
**Sayısal kesinlik neden bu kadar önemli? **
Düşük hassasiyetli kayan noktalı sayılar, eğitim ve çıkarım hızını artırabilir.Örneğin, FP16, FP32'nin bellek ayak izinin yarısı kadardır ve hesaplama hızı açısından FP32'den üç kat daha hızlıdır. LLM eğitim sürecinde hız ve kesinlik arasındaki dengeyi sağlamak için karışık kesinlik ve uyarlamalı kesinlik gibi yöntemler kullanılarak büyük dil modellerinin hızlandırılması sağlanır.Bu nedenle çoklu kesinlik desteği büyük dil modeli eğitimi için önemli hususlardan biridir. Google, kesinliği azaltırken sayısal aralığı genişleten ve performansı FP 32'den daha iyi olan BFP16 sayısal biçimini önerdi.
**• GPU'nun yanı sıra, LLM eğitimi ve operasyonundaki maliyet bağlantıları nelerdir? **
GPU şu anda LLM eğitim altyapısının tamamındaki en pahalı bileşendir, ancak maliyetin diğer yönleri de düşük değildir ve bunların da LLM'nin eğitim ve işletme maliyetleri üzerinde etkisi vardır:
Sistem belleği ve NVMe SSD'ler pahalıdır: Büyük modeller, verileri önbelleğe almak ve yüklemek için çok sayıda yüksek hızlı bellek ve yüksek hızlı SSD gerektirir ve her iki bileşen de pahalıdır;
Yüksek hızlı ağlar pahalıdır: InfiniBand (düğümler arasındaki iletişim için kullanılır) gibi yüksek hızlı ağlar, özellikle büyük, dağıtılmış eğitim için çok pahalıdır.
Bir kümeyi çalıştırmanın toplam maliyetinin belki de %10 ila %15'i elektrik ve barındırmaya gider ve ikisi arasında kabaca eşit bir şekilde bölünür. Elektrik maliyetleri, elektrik, veri merkezi inşaat maliyetleri, arazi maliyetleri ve çalışanları vb. içerir, yaklaşık %5-%8; barındırma maliyetleri, arazi, binalar, çalışanlar vb. içerir, yaklaşık %5-%10. **
Ana endişemiz ağ ve güvenilir veri merkezidir. AWS, ağ sınırlamaları ve güvenilmez donanım nedeniyle uygun değildi.
——Derin Öğrenme Araştırmacısı
**• GPUDirect teknolojisi LLM eğitiminde nasıl yardımcı olur? **
NVIDIA'nın GPUDirect'i LLM eğitimi için gerekli değildir, ancak performansa da yardımcı olabilir:
GPUDirect teknolojisi performansı artırabilir, ancak kritik üstü bir fark olması gerekmez. Çoğunlukla sistem darboğazınızın nerede olduğuna bağlıdır. Bazı mimariler/yazılım uygulamaları için, sistem darboğazı mutlaka ağ değildir. **Ancak ağ oluşturma söz konusu olduğunda, GPUDirect performansı %10 - %20 oranında artırabilir; bu, pahalı eğitim çalıştırma maliyetleri için önemli bir sayıdır. **
Bununla birlikte, GPUDirect RDMA artık o kadar yaygın ki popülaritesi neredeyse kendi adına konuşuyor. Infiniband olmayan ağlar için GPUDirect desteğinin zayıf olduğunu düşünüyorum, ancak sinir ağı eğitimi için optimize edilmiş çoğu GPU kümesinin Infiniband ağları/kartları var. Infiniband'dan daha nadir olduğu için performans için daha büyük faktör muhtemelen NVLink'tir, ancak aynı zamanda yalnızca belirli bir paralelleştirme stratejisi kullanırsanız kritiktir.
Bu nedenle, güçlü ağ iletişimi ve GPUDirect gibi özellikler, daha az gelişmiş yazılımların kutudan çıktığı gibi çalışmasını sağlayabilir. Ancak, maliyet veya eski altyapı dikkate alındığında GPUDirect kesinlikle gerekli değildir.
—— Bir derin öğrenme araştırmacısı
GPUDirect:
NVIDIA tarafından tanıtılan GPUDirect Storage (GPUDirect Storage) adı verilen veri aktarım teknolojisi, esas olarak çeşitli depolarda depolanan verilerin GPU belleğine aktarımını hızlandırmak için kullanılır, bu da bant genişliğini 2 ila 8 kat artırabilir ve aynı zamanda son bitiş gecikmesi 3,8 kata kadardır. Geçmişte CPU, bellekten GPU'ya veri yüklemekten sorumluydu, bu da donanım performansını büyük ölçüde sınırlıyordu.
NVMe diskinden GPU belleğine veri aktarımı için standart yol, sistem belleğinde ek bir veri kopyası olan sıçrama arabelleğini (Bounce Buffer) kullanmaktır. GPUDirect depolama teknolojisinin özü, ek veri kopyalarını azaltmak için geri tepme önbelleğinin kullanılmasını önlemek ve verileri doğrudan GPU belleğine koymak için doğrudan bellek erişim motorunu (Doğrudan Bellek Erişimi, DMA) kullanmaktır.
**LLM şirketi neden AMD'nin GPU'sunu kullanamıyor? **
Özel bir bulut şirketinin yöneticisi, AMD GPU'ları satın almanın teorik olarak mümkün olduğunu, ancak satın alma işleminden ekipmanın fiili çalışmasına kadar belirli bir süre geçtiğini söyledi.Pazara geç girin. Bu nedenle CUDA, NVIDIA'nın şu anki hendeğidir.
Bir MosaicML araştırması, AMD GPU'ların büyük model eğitim görevleri için de uygun olduğundan bahsetmiştir. NVIDIA üzerinde çalışmaya kıyasla herhangi bir kod değişikliği olmaksızın PyTorch tabanlı basit bir eğitim görevi denediler. Yazarlar, kod tabanı PyTorch üzerine kurulduğu sürece, ek uyarlama olmaksızın doğrudan AMD üzerinde kullanılabileceğini göstermektedir. Gelecekte yazar, AMD sisteminin performansını daha büyük bir bilgi işlem kümesinde doğrulamayı planlıyor.
Aynı zamanda, bir model eğitiminin maliyetinin 300 milyon ABD dolarına yakın olduğu düşünüldüğünde, özellikle çip talebi arttığında, hiç kimsenin büyük ölçekte AMD veya diğer startup'lardan gelen çiplere güvenme riskini almayacağı görüşü de var. 10.000'den fazla sipariş üzerine.
Yarı iletken endüstrisinden emekli olan bir kişi de AMD'nin tedarik durumunun iyimser olmadığını ve TSMC'nin CoWoS üretim kapasitesinin NVIDIA tarafından emildiğini, bu nedenle MI250'nin uygulanabilir bir alternatif olsa da elde edilmesinin de zor olduğunu belirtti.
H100 A100'e Karşı
NVIDIA A100:
V100 ile karşılaştırıldığında NVIDIA V100'ün yükseltilmesi, A100'ün performansı 20 kat iyileştirildi, bu da AI ve veri analizi gibi görevler için çok uygun. 54 milyar transistörden oluşan A100, üçüncü nesil Tensor çekirdeklerini seyrek matris işlemleri için hızlandırma ile entegre eder, özellikle yapay zeka akıl yürütme ve eğitim için yararlıdır. Ek olarak, NVIDIA NVLink ara bağlantı teknolojisi ile daha büyük AI çıkarım iş yükleri için birden fazla A100 GPU'dan yararlanılabilir.
NVIDIA H100:
A100'ün yeni nesli, büyük modeller için optimize edilmiş en son çiptir. TSMC'nin 5nm özel sürüm süreci (4N) kullanılarak oluşturulan Hopper mimarisine dayalıdır ve tek bir çip 80 milyar transistör içerir. Özellikle, NVIDIA, çoklu hassas hesaplamaları ve Transformer sinir ağının dinamik işleme yeteneklerini birleştiren ve H100 GPU'nun model eğitim süresini büyük ölçüde azaltmasını sağlayan Transformer Engine'i önerdi. H100'ü temel alan NVIDIA, dev bir GPU - DGX H100 oluşturmak üzere birleştirilmiş 8 H100 ve 4 NVLink gibi makine öğrenimi iş istasyonları ve süper bilgisayarlar gibi bir dizi ürünü de piyasaya sürdü.
A100 ile karşılaştırıldığında, H100'ün 16 bit çıkarım hızı yaklaşık 3,5 kat daha hızlıdır ve 16 bit eğitim hızı yaklaşık 2,3 kat daha hızlıdır.
Çoğu insan, model eğitimi ve çıkarım için H100'ü satın alma ve A100'ü temel olarak model çıkarımı için kullanma eğilimindedir. Bununla birlikte, aşağıdaki faktörler de dikkate alınabilir:
**• Maliyet: **H100, A100'den daha pahalıdır;
**• Kapasite: **A100 ve H100, bilgi işlem gücü ve bellek açısından farklıdır;
**• Yeni donanım kullanımı: **H100'ün benimsenmesi, yazılım ve iş akışında ilgili ayarlamaları gerektirir;
**• Risk: ** H100 ayarında daha fazla bilinmeyen risk vardır;
**• YAZILIM İYİLEŞTİRİLDİ: **Bazı yazılımlar A100 için optimize edildi.
Genel olarak, H100'ün daha yüksek performansına rağmen, A100'ü** seçmenin mantıklı olduğu zamanlar vardır, bu da A100'den H100'e yükseltmeyi dikkate alınması gereken birçok faktörle kolay bir karar olmaktan çıkarır. **
Aslında, A100 birkaç yıl içinde bugünkü V100 olacaktı. Performans kısıtlamaları göz önüne alındığında, artık neredeyse hiç kimsenin V100'de LLM eğitimi vermeyeceğini düşünüyorum. Ancak V100 hala çıkarım ve diğer görevler için kullanılıyor. Aynı şekilde, daha fazla AI şirketi yeni modeller yetiştirmek için H100'e yöneldikçe A100'ün fiyatı düşebilir, ancak A100'e, özellikle çıkarım için her zaman talep olacaktır.
Bence bu, büyük ölçüde finanse edilen bazı girişimler iflas ettiğinden, piyasada tekrar bir A100 seline yol açabilir.
— (Başka) Özel Bulut Yöneticisi
Ancak zamanla, insanlar en yeni ve daha büyük modelleri eğitmek yerine A100'ü giderek daha fazla çıkarım görevi için kullanacak. **V100'ün performansı artık büyük modellerin eğitimini destekleyemez ve yüksek bellekli grafik kartları büyük modeller için daha uygundur, bu nedenle ileri teknoloji ekipleri H100 veya A100'ü tercih eder.
V100'ün kullanılmamasının temel nedeni, brainfloat16 (bfloat16, BF16) veri türlerinin olmamasıdır. Bu tür veriler olmadan modelleri kolayca eğitmek zordur. OPT ve BLOOM'un düşük performansının ana nedeni, bu veri türünün olmamasıdır (OPT, float16'da eğitildi, BLOOM çoğunlukla FP16'da prototipleme yapıldı, bu da verilerin BF16'da yapılan eğitim çalıştırmalarına genelleştirilmesini imkansız hale getirdi).
——Derin Öğrenme Araştırmacısı
**• Nvida'nın GPU'ları H100, GH200, DGX GH200, HGX H100 ve DGX H100 arasındaki fark nedir? **
• H100 = 1x H100 GPU;
• HGX H100 = NVIDIA sunucu referans platformu. Supermicro gibi üçüncü taraf OEM'ler tarafından üretilen 4-GPU veya 8-GPU sunucuları oluşturmak için OEM'ler tarafından kullanılır;
• DGX H100 = 8x H100'e sahip resmi NVIDIA H100 sunucusu, NVIDIA onun tek tedarikçisidir;
• GH200 = 1x H100 GPU artı 1x Grace CPU;
• DGX GH200 = 256x GH200, 2023'ün sonlarında geliyor, muhtemelen yalnızca NVIDIA'dan;
• Büyük bulut bilişim şirketleri için MGX.
Bunlardan çoğu şirket, DGX H100 veya 4-GPU HGX H100 sunucuları yerine 8-GPU HGX H100 satın almayı seçti.
**Bu GPU'ların ayrı ayrı maliyeti nedir? **
8x H100 GPU'lu 1x DGX H100 (SXM), gerekli destek hizmetleri vb. dahil olmak üzere 460.000$'a, yaklaşık 100.000$'a mal olur. Başlangıçlar, toplam 64 H100 için 8x DGX H100 kutusuna kadar yaklaşık 50.000 $'lık bir Başlangıç indirimi alabilir.
GPU'nun spesifik özellikleri aşağıdaki gibidir:
8x H100 GPU'lu 1x HGX H100 (SXM), teknik özelliklere (ağ, depolama, bellek, CPU) ve satıcı marjlarına ve destek düzeylerine bağlı olarak 300.000-380.000 ABD Doları arasında bir maliyete sahip olabilir. Spesifikasyonlar DGX H100 ile tamamen aynıysa, işletmeler destek dahil 360.000 ila 380.000 $ gibi daha yüksek bir fiyat ödeyebilir.
8x H100 GPU'lu 1x HGX H100 (PCIe), teknik özelliklere bağlı olarak destek dahil yaklaşık 300.000 ABD dolarıdır.
Bir PCIe kartın piyasa fiyatı yaklaşık 30.000 ila 32.000 ABD Doları arasındadır.
SXM ekran kartları tek kart olarak satılmadığı için fiyatlandırma zordur. Genellikle sadece 4GPU ve 8GPU sunucular olarak satılır.
Piyasadaki talebin yaklaşık %70-80'i SXM H100'e, geri kalanı ise PCIe H100'e yönelik. Önceki aylarda yalnızca PCIe kartları mevcut olduğundan, SXM segmentine olan talep artıyor. Çoğu şirketin 8GPU HGX H100'ler (SXM'ler) satın aldığı göz önüne alındığında, diğer sunucu bileşenleri de dahil olmak üzere bu, 8 H100 başına yaklaşık 360.000-380.000 ABD Doları demektir.
DGX GH200, 256x GH200 içerir ve her GH200, 1x H100 GPU ve 1x Grace CPU içerir. Tahminlere göre DGX GH200'ün maliyeti 15 milyon - 25 milyon ABD doları arasında olabilir.
**GPU için pazar talebi nedir? **
• GPT-4 eğitimi 10.000 ila 25.000 A100 yaprak üzerinde yapılabilir;
• Meta'da yaklaşık 21.000 A100, Tesla'da yaklaşık 7.000 A100 ve Stability AI'da yaklaşık 5.000 A100 vardır;
• 384 adet A100'de Falcon 40B eğitimi gerçekleştirildi;
• Inflection, GPT-3.5'e eşdeğer modelinde 3500 H100 sayfa kullanır.
Aralık ayına kadar kullanımda olan 22.000 GPU'muz olacak ve bugün 3.500'den fazla birimimiz kullanımda olacak.
— Mustafa Süleyman, CEO, Inflection AI
**Elon Musk'a göre GPT-5 eğitimi 30.000-50.000 H100 kullanabilir. **Morgan Stanley, Şubat 2023'te GPT-5'in 25.000 GPU kullanacağını önerdi ve o sırada GPT-5'in halihazırda eğitimde olduğunu da öne sürdüler, ancak Sam Altman daha sonra bu yılın Mayıs ayında OpenAI'nin eğitim vermediğini söyleyerek bunu yalanladı. GPT-5, bu nedenle Morgan Stanley'nin bilgileri doğru olmayabilir.
GCP'de yaklaşık 25.000 H100 vardır ve Azure'da 10.000-40.000 H100 olabilir. Oracle için benzer olmalıdır. Ek olarak, Azure'un kapasitesinin çoğu OpenAI'ye sağlanacaktır.
CoreWeave yaklaşık 35.000 ila 40.000 H100 tutar, ancak bu, gerçekleşenleri değil, siparişleri temel alır.
**Başlangıç kaç adet H100 siparişi verdi? **LLM ince ayar görevi için kullanılırsa, genellikle onlarca veya yüzlerce sayfa sipariş edilir; LLM eğitimi için kullanılırsa binlerce sayfa gerekir.
**LLM sektöründeki bir şirketin ne kadar H100'e ihtiyacı olabilir? **
• OpenAI'nin 50.000'e ihtiyacı olabilir, Inflection'ın 24.000'e ihtiyacı olabilir ve Meta'nın 25.000'e ihtiyacı olabilir (Meta'nın aslında 100.000 veya daha fazlasına ihtiyacı olduğuna dair sözler de vardır);
• Azure, Google Cloud, AWS ve Oracle gibi büyük bulut hizmeti sağlayıcılarının her birinin 30.000'e ihtiyacı olabilir;
• Lambda ve CoreWeave gibi özel bulut hizmeti sağlayıcıları ve diğer özel bulutların toplamı 100.000'e ulaşabilir;
• Antropik, Helsing, Mistral, Karakter her biri 10k tutabilir.
Yukarıdaki rakamlar tahmini ve tahminidir ve bulutu kiralayan müşteriler gibi bazıları iki kez sayılabilir. **Genel olarak, mevcut hesaplamalara göre H100 sayısı yaklaşık 432.000'dir. Her biri yaklaşık 35.000 ABD Doları olarak hesaplanırsa, bu, toplam değeri yaklaşık 15 milyar ABD Doları olan bir GPU'dur. Ayrıca 432.000 rakamı, çok fazla H800 gerektiren ByteDance (TikTok), Baidu ve Tencent gibi Çinli şirketleri içermiyor. **
Buna ek olarak, Jane Street, JP Morgan, Two Sigma ve Citadel gibi bazı finans şirketleri de yüzlerle binler arasında A100/H100 kullanıyor.
**Bu, NVIDIA veri merkezi geliriyle nasıl karşılaştırılır? **NVIDIA veri merkezi geliri, Şubat-Nisan 2023 için 4,28 milyar dolar. 25 Mayıs ile Temmuz 2023 arasında veri merkezi geliri yaklaşık 8 milyar dolar olabilir. **Bu, öncelikle NVIDIA'nın çeyrek için daha yüksek gelir rehberliğinin, işin diğer alanlarından ziyade veri merkezi işinden elde edilen artan gelirden kaynaklandığı varsayımına dayanmaktadır. **
Bu nedenle, tedarik sıkıntısının azalması biraz zaman alabilir. Ancak bilgi işlem gücü eksikliğinin abartılmış olması mümkündür.Öncelikle, çoğu şirket ihtiyaç duyduğu tüm H100'leri hemen satın almaz, kademeli olarak yükseltir; ayrıca NVIDIA, üretim kapasitesini de aktif olarak artırıyor.
Piyasada bir bütün olarak 400.000 H100'e sahip olmak, özellikle bugünlerde herkesin çok sayıda 4 veya 5 rakamlı H100 kullandığı düşünülürse, ulaşılmaz değildir.
—— Özel bir bulut yöneticisi
Özetle
• Çoğu büyük CSP (Azure, AWS, GCP ve Oracle) ve özel bulutlar (CoreWeave, Lambda ve çeşitli diğerleri), onlara erişebilmektense daha fazla H100 GPU'yu tercih eder, çoğu büyük AI teklifi Şirket ayrıca daha fazla H100 GPU peşindedir .
• Genellikle bu şirketler, SXM kartlı bir 8GPU HGX H100 kasası ister. Spesifikasyonlara ve desteğe bağlı olarak, her bir 8GPU sunucusunun maliyeti yaklaşık 3-4 milyon ABD dolarıdır. Toplam değeri 15 milyar doları aşan yüzbinlerce H100 GPU için aşırı talep olabilir;
• Sınırlı arz ile NVIDIA, piyasa denge fiyatını bulmak için fiyatları yükseltebilirdi ve bir dereceye kadar yükseltti. Sonuç olarak, H100 GPU'nun nasıl tahsis edileceğine ilişkin nihai karar, NVIDIA'nın kendisinin onu tahsis etmeyi tercih ettiği müşterilere bağlıdır.
03.H100 Arz tarafı analizi
TSMC'den darboğaz
H100'ler TSMC (TSMC) tarafından üretilmiştir, **NVIDIA daha fazla H100 üretmek için diğer çip fabrikalarını seçebilir mi? En azından henüz değil. **
NVIDIA, geçmişte Samsung ile işbirliği yaptı, ancak Samsung, son teknoloji GPU'lara olan ihtiyaçlarını karşılayamadı, bu nedenle NVIDIA, şu anda yalnızca H100s GPU'ları ve TSMC tarafından üretilen diğer 5nm GPU'ları kullanabilir. **Belki gelecekte NVIDIA, ilgili teknolojilerde Intel ile işbirliği yapacak veya Samsung ile işbirliğine devam edecek, ancak bu durumların hiçbiri kısa vadede olmayacak, bu nedenle H100'ün arz sıkıntısı azalmayacak. **
TSMC'nin 5 nanometre (N5) teknolojisi, 2020'de seri üretime girecek. N5 teknolojisi, TSMC'nin önceki N7 teknolojisinden daha yüksek hız ve daha düşük güç tüketimi sunan ikinci EUV işlem teknolojisidir. Ayrıca TSMC, N5 teknolojisinin performans ve güç tüketimini daha da iyileştirecek geliştirilmiş bir versiyonu olan 4 nanometre (N4) teknolojisini de piyasaya sürmeyi planlıyor ve 2022'de seri üretime başlamayı planlıyor.
H100, gerçek 4nm işlemine değil, 5nm serisindeki geliştirilmiş 5nm'ye ait olan TSMC 4N işlemine dayalı olarak üretilmiştir. **NVIDIA'ya ek olarak, Apple da bu teknolojiyi kullanıyor, ancak esas olarak N3'e geçtiler ve N3 kapasitesinin çoğunu korudular. **Ayrıca Qualcomm ve AMD, N5 serisinin büyük müşterileridir.
A100, TSMC'nin N7 sürecini kullanır.
7 nanometre (N7), TSMC'nin 2019'da seri üretime geçireceği işlem düğümüdür. TSMC, N7 temelinde, çip güç tüketimini azaltırken transistör yoğunluğunu %15 ila %20 oranında artıran EUV (aşırı ultraviyole litografi) kullanan 7 nm'lik bir üretim süreci olan N7+ sürecini de tanıttı.
Genel olarak, ön uç işlem kapasitesi (Fab Kapasitesi) 12 aydan uzun bir süre önceden planlanacaktır. TSMC ve ana müşterilerinin gelecek yıl için üretim talebini ortaklaşa planlayacaklarına işaret ediliyor, bu nedenle mevcut H100 tedarik sıkıntısı kısmen TSMC ve NVIDIA'nın geçen yıl bu yılki H100 talebini yanlış değerlendirmesinden kaynaklanıyor.
Fabrika Kapasitesi:
Yarı iletken çip proses akışında Fab, FABRICATION (işleme, üretim) kelimelerinin kısaltmasıdır ve Fab Kapasite, kapasite kapasitesi olarak kabul edilebilir.
Başka bir kaynağa göre, H100'ün üretim başlangıcından itibaren müşterilere satılması (üretim, paketleme ve testler) genellikle 6 ay sürüyor, ancak bu durum henüz doğrulanmadı.
Yarı iletken endüstrisinden emekli bir profesyonel, gofret üretim kapasitesinin TSMC'nin darboğazı olmadığını, ancak asıl darboğazın yukarıda bahsedilen CoWoS'de (üç boyutlu istifleme) yattığını belirtti.
CoWoS (Alt Tabaka üzerinde gofret üzerinde çip, üç boyutlu istifleme):
TSMC'nin 2.5D entegre üretim teknolojisidir.Önce çip CoW (Chip on Gofret) paketleme işlemi ile silikon gofrete bağlanır ve ardından CoW çip alt tabakaya (Substrat) bağlanır ve CoWoS'a entegre edilir .
DigiTimes'a göre TSMC, CoWoS üretim kapasitesini artırmaya başladı ve CoWoS üretim kapasitesini 2023'ün sonuna kadar ayda 8.000 gofretten ayda 11.000 gofrete ve 2023'ün sonuna kadar ayda yaklaşık 14.500'den 16.600 gofrete çıkarmayı planlıyor. 2024. NVIDIA, Amazon, Broadcom, Cisco ve Xilinx gibi büyük teknoloji devlerinin tümü, TSMC'nin gelişmiş CoWoS paketine olan talebi artırdı.
H100 Bellek
**Memory Type (Memory Bype), Memory Bus Width (Memory Bus Width) ve Memory Clock Speed (Memory Clock Speed), GPU'nun bellek bant genişliğini birlikte etkiler. **NVIDIA, H100'ün veri yolu genişliğini ve saat hızını GPU mimarisinin bir parçası olarak tasarlamıştır. HBM3 bellek ağırlıklı olarak H100 SXM'de kullanılır ve HBM2e ağırlıklı olarak H100 PCIe'de kullanılır.
HBM'nin üretilmesi zordur ve tedarik çok sınırlıdır, bu nedenle HBM üretmek bir kabustur. Ancak HBM bir kez üretildiğinde, tasarımın geri kalanı kolaylaşır.
——Bir Deepl Learning araştırmacısı
**Bellek türü, bellek veri yolu genişliği ve bellek saat hızı, bilgisayar belleğinin üç önemli göstergesidir. **
Bellek Veriyolu Genişliği:
Bellek modülü ile ana kart arasındaki veri iletim kanalının genişliğini ifade eder.Daha geniş bir bellek veri yolu genişliği, daha büyük bir veri yolu sağlayabilir, böylece bellek ile işlemci arasındaki veri aktarım hızını artırabilir.
Bellek Saat Hızı:
Bellek modülünün çalışma saati frekansını ifade eder.Daha yüksek bellek saat hızı, belleğin okuma ve yazma işlemlerini daha hızlı gerçekleştirebileceği ve daha yüksek veri iletim hızı sağlayabileceği anlamına gelir.
HBM (Yüksek Bant Genişliğine Sahip Bellek):
Grafik işlem birimlerinde (GPU'lar) ve diğer yüksek performanslı bilgi işlem cihazlarında hızlı bellek erişim hızları sağlamak için kullanılan yüksek bant genişliğine sahip bir bellek teknolojisidir. Geleneksel grafik kartlarında ve bilgi işlem cihazlarında kullanılan bellek teknolojisi, genellikle performans ve güç tüketimi arasında belirli bir dengeye sahip olan GDDR (Grafik Çift Veri Hızı) tasarımına dayalıdır. HBM teknolojisi, bellek yığınlarını GPU yongalarına yerleştirerek ve birden çok DRAM yongasını yüksek hızlı dikey bağlantılar (TSV'ler) aracılığıyla bir araya getirerek daha yüksek bant genişliği ve daha düşük güç tüketimi sağlar.
HBM3 belleği için NVIDIA, SK Hynix'in tamamını veya büyük ölçüde kullanabilir. NVIDIA'nın H100'ünün Samsung'un hafızasını kullanıp kullanmadığı kesin değil ama NVIDIA'nın şu anda Micron'un hafızasını kullanmadığı kesin.
HBM3 söz konusu olduğunda, genel olarak konuşursak, SK Hynix en büyük çıktıya sahip, onu Samsung takip ediyor ve üçüncü sıradaki Micron, önceki ikisiyle büyük bir çıktı açığına sahip. Görünüşe göre SK Hynix üretimi hızlandırdı, ancak NVIDIA hala daha fazlasını üretmelerini istiyor, Samsung ve Micron ise henüz üretimi artırmayı başaramadı.
**GPU üretiminde başka neler kullanılıyor? **
Ek olarak, GPU üretimi de çok fazla metal malzeme ve parça içerecektir.Bu bağlantılardaki hammadde eksikliği, GPU'nun tedarik darboğazına da neden olacaktır, örneğin:
**• Metaller ve kimyasallar: **Silikon Yuvarlak üretiminden GPU'nun son montajına kadar üretimin çeşitli aşamalarında kullanılan bakır, tantal, altın, alüminyum, nikel, kalay, indiyum ve paladyum gibi silikonu (metaloidler) içerir silikon, nadir toprak vb. gibi;
**• Bileşenler ve paketleme malzemeleri: **GPU'nun çeşitli bileşenlerinin montajını ve bağlantısını tamamlamak için kullanılan ve GPU'nun çalışması için kritik olan alt tabakalar, lehim topları ve teller, ısı dağıtma bileşikleri vb. GPU;
**• Enerji Tüketimi:**GPU yongalarının üretim sürecinde yüksek hassasiyetli mekanik ekipman kullanılması nedeniyle büyük miktarda elektrik gereklidir.
**NVIDIA, H100 eksikliğini nasıl gideriyor? **
NVIDIA, bu yılın ikinci yarısında arzı artıracaklarını açıkladı.NVIDIA CFO'su mali raporda şirketin tedarik sorununu çözmek için elinden gelenin en iyisini yaptığını ancak bunun dışında herhangi bir bilgi iletmediklerini ve sağlamadıklarını da açıkladı. H100 ile ilgili belirli rakamları var.
"Çeyrek için tedarik sorunlarımız üzerinde çalışıyoruz, ancak yılın ikinci yarısı için de çok fazla hisse senedi satın aldık."
Yılın ikinci yarısındaki arzın, ilk yarıdaki arzın önemli ölçüde üzerinde olacağına inanıyoruz” dedi.
-- Nvidia'nın CFO'su Colette Kress, Şubat-Nisan 2023 kazanç çağrısı hakkında
Özel bir bulut şirketi yöneticisi, **daha sonra piyasada bir kısır döngünün ortaya çıkabileceğine inanıyor, yani kıtlık, GPU kapasitesinin AI şirketleri için bir hendek olarak görülmesine neden oluyor, bu da daha fazla GPU istifine yol açıyor ve bu da kıtlığı daha da şiddetlendiriyor GPU sayısı. **
NVIDIA'nın farklı mimarileri piyasaya sürmesi arasındaki tarihsel aralığa göre, H100'ün yeni nesil modeli 2024'ün sonuna kadar (2024 ortasından 2025'in başına kadar) piyasaya sürülmeyebilir. Bundan önce, H100 her zaman NVIDIA GPU'nun en üst düzey ürünü olacaktır (GH200 ve DGX GH200 sayılmaz, saf GPU değildirler ve her ikisi de GPU olarak H100 kullanır).
Ayrıca gelecekte daha büyük belleğe sahip 120 GB'lık bir versiyonun da çıkması bekleniyor.
04. H100 nasıl alınır
H100 satıcısı
Dell, HPE, Lenovo, Supermicro ve Quanta gibi Orijinal Ekipman Üreticileri (OEM'ler), H100 ve HGX H100'ü satarken, InfiniBand siparişinin NVIDIA Mellanox aracılığıyla yapılması gerekiyor.
Mellanox dünyanın en büyük InfiniBand tedarikçilerinden biridir. 2015 yılında Mellanox'un küresel IB pazarındaki payı %80'e ulaştı. 2019'da NVIDIA, Mellanox'u hisse başına 125 ABD Doları karşılığında, toplam işlem değeri yaklaşık 6,9 milyar ABD Doları karşılığında satın aldı. Bu satın alma, NVIDIA'nın yüksek performanslı bilgi işlem ve veri merkezlerindeki pazar payını daha da genişletmesini sağlar ve NVIDIA'nın yapay zeka alanındaki rekabet gücünü güçlendirir.
Mellanox'un yüksek hızlı ara bağlantı teknolojisini NVIDIA'nın GPU hızlandırıcılarıyla birleştiren NVIDIA, veri merkezlerine daha yüksek bant genişliği ve daha düşük gecikme süresi çözümleri sağlayabilir. Mellanox'a ek olarak, IB alanındaki bir başka tedarikçi olan QLogic'in IB teknolojisi, 2012 yılında Intel Corporation tarafından satın alındı.
CoreWeave ve Lambda gibi GPU bulutları, OEM'lerden GPU satın alır ve onları Startup'lara kiralar. Hiper ölçekli bulut oynatıcıları (Azure, GCP, AWS, Oracle) NVIDIA ile daha doğrudan satın alabilir, ancak bazen OEM'lerle de çalışırlar.
DGX için satın alma, OEM aracılığıyla da yapılır. Müşteriler, satın alma gereksinimleri konusunda NVIDIA ile iletişim kurabilse de, satın alma, doğrudan NVIDIA ile bir satın alma siparişi vermek yerine OEM aracılığıyla gerçekleştirilir.
8 GPU HGX sunucularının teslimat süreleri korkunç ve 4 GPU HGX sunucuları oldukça iyi, ancak gerçek şu ki herkes 8 GPU sunucusu istiyor.
**** Bir siparişin verilmesinden H100'ün konuşlandırılmasına kadar geçen süre ne kadardır? **
Dağıtım aşamalı bir süreçtir. 5.000 GPU'luk bir sipariş diyelim, 4-5 ayda 2.000 veya 4.000 GPU'ya, 6 ay gibi bir sürede kalan GPU'lara erişim sağlayabilirler.
Startup için, bir GPU satın almak istiyorsanız, bir OEM'den veya bayiden sipariş vermezsiniz. Genellikle Oracle gibi genel bulut hizmetlerini seçerler veya Lambda gibi özel bulutlara erişim hakları kiralarlar ve CoreWeave veya FluidStack ve OEM'ler gibi hizmetleri kullanın ve veri merkezleriyle çalışan sağlayıcılar erişimi kiralayın.
**• İşletme kendi veri merkezini mi yoksa ortak yerleşimi mi oluşturmalı? **
Bir veri merkezinin kurulması için, veri merkezinin kurulma süresi, donanım konusunda yetenek ve deneyim olup olmadığı ve sermaye yatırımının ölçeği göz önünde bulundurulması gereken faktörler arasında yer alır.
Bir sunucu kiralamak ve barındırmak çok daha kolaydır. Kendi veri merkezinizi kurmak istiyorsanız, internete bağlanmak için bulunduğunuz yere karanlık bir fiber hat çekmeniz gerekir ve fiberin maliyeti kilometre başına 10.000 ABD dolarıdır. İnternet patlaması sırasında, altyapının çoğu zaten inşa edilmiş ve bedeli ödenmişti. Şimdi, sadece kiralayabilirsiniz ve oldukça ucuzdur.
—— Özel bir bulut yöneticisi
Bir veri merkezini kiralamayı veya inşa etmeyi seçmek, bir ya da bu karardır.Gerçek ihtiyaçlara göre, işletmeler aşağıdaki farklı seçeneklere sahip olabilir:
İsteğe bağlı bulut: yalnızca kiralama için bulut hizmetlerini kullanın;
Ayrılmış bulut;
Barındırma (sunucu satın almak, sunucuyu barındırmak ve yönetmek için bir sağlayıcıyla işbirliği yapmak);
Kendi kendine barındırma (bir sunucuyu kendiniz satın alma ve barındırma).
Çok fazla H100'e ihtiyaç duyan çoğu Başlangıç, ayrılmış bulut veya ortak yerleşimi tercih edecektir.
**İşletmeler bir bulut hizmeti şirketini nasıl seçer? **
Oracle'ın altyapısının üç ana bulut kadar güvenilir olmadığına dair bir görüş var, ancak müşteri teknik desteğine daha fazla zaman ayırmaya istekli. Bazı özel bulut şirketi uygulayıcıları, %100'ünün Oracle tabanlı hizmetlerden çok sayıda memnun olmayan müşterisi olacağını söyledi ve diğer şirketlerin bazı CEO'ları, Oracle'ın ağ oluşturma yeteneklerinin daha güçlü olduğuna inanıyor.
**Genel olarak Startup, hizmet desteği, fiyat ve kapasitenin en güçlü kombinasyonuna sahip şirketi seçecektir. **
Birkaç büyük bulut hizmeti şirketi arasındaki temel farklar şunlardır:
**• Ağ oluşturma: **AWS ve Google Cloud, kendi yaklaşımları olduğundan InfiniBand'i benimseme konusunda daha yavaş davrandılar, ancak büyük A100/H100 kümeleri arayan çoğu girişim InfiniBand'i arıyor;
**• Kullanılabilirlik: **Örneğin, Azure'un H100 bilgi işlem gücünün çoğu OpenAI tarafından kullanılır; bu, diğer müşteriler için çok fazla bilgi işlem gücü bulunmayabileceği anlamına gelir.
**Olgusal bir temel olmamasına rağmen, NVIDIA'nın rakip makine öğrenimi yongaları geliştirmemiş bulut hizmeti sağlayıcıları için GPU tedarikine öncelik verme eğiliminde olduğuna dair spekülasyonlar var. **Üç büyük bulut hizmeti sağlayıcısı da şu anda kendi makine öğrenimi yongalarını geliştiriyor, ancak AWS ve Google'ın NVIDIA alternatifleri zaten piyasada ve NVIDIA'dan pazar payının bir kısmını çalıyor. Bu ayrıca, NVIDIA'nın bu nedenle Oracel ile işbirliği yapmaya daha istekli olduğuna dair bazı pazar spekülasyonlarına yol açtı.
Bazı büyük bulut şirketlerinin fiyatları diğerlerinden daha iyi. Bir özel bulut yöneticisinin belirttiği gibi, "Örneğin, AWS/AZURE üzerinde A100, GCP'den çok daha pahalıdır."
Oracle, bu yıl içinde "onbinlerce H100" hizmete gireceklerini söyledi. Ancak fiyat açısından diğer firmalara göre daha yüksektir. Bana H100 için fiyat vermediler, ancak A100 80GB için bana yaklaşık 4 $/saat fiyat verdiler; bu, GCP'nin teklif ettiğinden neredeyse 2 kat daha fazla ve aynı güç tüketimi ve çabayla.
— anonim
Büyük bulut şirketlerinden birinin öz sermaye karşılığında tuhaf bir anlaşma yapabileceği bazı durumlar dışında, daha küçük bulutların fiyatlandırma açısından bir avantajı vardır.
Yani genel olarak, NVIDIA, Oracle ve Azure > GCP ve AWS ile işbirliğinin yakınlığı açısından, ancak bu sadece bir tahmin.
Oracle, yine bir Azure müşterisi olan Nvidia ile ortaklaşa A100'lere öncülük etti ve Nvidia tabanlı kümelere ev sahipliği yaptı.
**• Hangi büyük bulut şirketi en iyi ağ performansına sahiptir? **
Azure, CoreWeave ve Lambda'nın tümü InfiniBand kullanır. Oracle'ın ağ performansı 3200 Gbps'de iyidir, ancak InfiniBand yerine Ethernet kullanır ve yüksek parametreli LLM eğitimi gibi kullanım durumları için IB'den yaklaşık %15-20 daha yavaş olabilir. AWS ve GCP ağları o kadar iyi değil.
**• İşletmeler şu anda bulut hizmetlerini nasıl seçiyor? **
15 şirket için istatistiksel bir veri, ankete katılan 15 şirketin tamamının AWS, GCP veya Azure'u seçeceğini ve Oracle'ın aralarında olmadığını gösteriyor.
Çoğu işletme mevcut bulutlarını kullanma eğilimindedir. Ancak girişimci ekipler için seçimleri daha çok gerçeğe dayalıdır: Kim bilgi işlem gücü sağlayabilirse, hangisini seçecek.
**** NVIDIA, DGX Cloud üzerinde kiminle çalışıyor? **
"Nvidia, Oracle Bulut Altyapısı ile başlayarak DGX Bulut Altyapısını barındırmak için önde gelen bulut hizmeti sağlayıcılarıyla ortaklık kuruyor" - Nvidia ile satış yapın, ancak mevcut bulut sağlayıcıları aracılığıyla kiralayın (önce Oracle, ardından Azure ve ardından Google Cloud ile çalışmadı) AWS).
NVIDIA CEO'su Jensen Huang, NVIDIA'nın kazanç çağrısıyla ilgili olarak "ideal karışımın %10 NVIDIA DGX bulutu ve %90 CSP bulutu olduğunu" söyledi.
**** Bulut devlerinin H100 programı:**
CoreWeave ilklerden biriydi. CoreWeave'in bir yatırımcısı olarak ve büyük bulut şirketleri arasındaki rekabeti güçlendirmek için NVIDIA, CoreWeave teslimatını ilk tamamlayan şirket oldu.
Diğer bulut hizmeti şirketlerinin H100 takvimi şu şekilde:
• Azure, 13 Mart'ta önizleme için H100'ün kullanılabilir olduğunu duyurdu;
• Oracle, 21 Mart'ta sınırlı H100 arzını duyurdu;
• Lambda Labs, 21 Mart'ta H100'ü Nisan başında piyasaya süreceğini duyurdu;
• AWS, 21 Mart'ta H100'ün birkaç hafta içinde ön izlemede olacağını duyurdu;
• Google Cloud, 10 Mayıs'ta H100 özel önizlemesinin başladığını duyurdu.
**• Farklı şirketler hangi bulut hizmetlerini kullanıyor? **
• OpenAI: Azure
• Bükülme: Azure ve CoreWeave
• Antropik: AWS ve Google Cloud
• Tutarlı: AWS ve Google Cloud
• Sarılan Yüz: AWS
• Kararlılık AI: CoreWeave ve AWS
• Character.ai: Google Bulut
• X.ai: Oracle
• NVIDIA: Azure
**Daha fazla GPU kotası nasıl alınır? **
Son darboğaz, hesaplama gücü dağıtımının NVIDIA'dan elde edilip edilemeyeceğidir.
**** NVIDIA müşterileri nasıl seçer? **
NVIDIA genellikle her müşteriye belirli sayıda GPU tahsis eder ve bu süreçte **NVIDIA en çok "son müşterinin kim olduğu" ile ilgilenir, örneğin Azure, "Inflection'ı desteklemek için 10.000 H100 satın almak istiyoruz" dedi ve Azure'un "Azure için 10.000 H100 satın aldık" demesine karşılık gelen sonuç farklıdır. **NVIDIA belirli bir son müşteriyle ilgilenirse, bulut şirketinin ek GPU kotası alması mümkündür. Bu nedenle NVIDIA, son müşterilerin kim olduğunu olabildiğince çok bilmeyi umuyor ve onlar büyük işletmelere veya güçlü onaylara sahip yeni kurulan şirketlere daha yatkın olacaklar.
Evet, görünüşe göre durum bu. Nvidia, AI girişimlerine (çoğunun Nvidia ile yakın bağları olan) GPU erişimi vermeyi sever. Nvidia'nın yatırım yaptığı bir AI şirketi olan Inflection, CoreWeave üzerinde devasa bir H100 kümesini test ediyor.
—— Özel bir bulut yöneticisi
Belirli bir bulut şirketi bir son müşteriyi NVIDIA'ya getirirse ve belirli bir miktarda H100 satın almaya hazır olduğunu ifade ederse ve NVIDIA bu son müşteriyle ilgilenirse, NVIDIA genellikle belirli bir kota verir ve bu da aslında NVIDIA'nın satın aldığı miktarı artıracaktır. bulut şirketinin toplam kapasitesi, çünkü bu dağıtım NVIDIA tarafından bulut şirketine başlangıçta verilen kotadan bağımsızdır.
NVIDIA'nın özel bulutlara büyük kapasite tahsis etmesi özel bir durumdur: **CoreWeave, GCP'den daha fazla H100'e sahiptir. NVIDIA, kendisiyle doğrudan rekabet etmeye çalışan şirketlere (AWS Inferentia ve Tranium, Google TPU'lar, Azure Project Athena) önemli kaynaklar ayırma konusunda isteksizdir. **
Ancak günün sonunda, NVIDIA'ya bir satın alma emri ve para gönderirseniz, daha fazla peşin finansmanla daha büyük bir anlaşmaya varırsanız ve düşük riskli profilinizi belirtirseniz, herkesten daha fazla GPU kotası almanız kaçınılmazdır.
05. Özet
Sam Altman'ın dediği gibi "büyük model kullanma devri sona eriyor" olsa da, şu anda hala GPU ile sınırlıyız. Bir yandan, OpenAI gibi şirketlerin zaten ChatGPT gibi mükemmel PMF ürünleri var, ancak bunlar GPU'larla sınırlı oldukları için büyük miktarda bilgi işlem gücü satın almaları gerekiyor.Diğer yandan, birçok ekip katılım olasılığı üzerinde çalışıyor. Gelecekte LLM'de ChatGPT gibi bir şey yaratma potansiyellerinden bağımsız olarak GPU'ları İstifleme.
Ancak NVIDIA'nın söz hakkının sarsılmayacağına şüphe yok.
Bu aşamada, PMF'nin yaptığı en iyi LLM ürünü ChatGPT'dir. Aşağıda, neden GPU eksikliği olduğunu açıklamak için örnek olarak ChatGPT kullanılmıştır:
ChatGPT, kullanıcılar arasında çok popüler olduğundan, ARR'si (yıllık yinelenen gelir) 500 milyon ABD dolarını aşabilir;
ChatGPT, GPT-4 ve GPT-3.5'in API'sinde çalışır;
GPT-4 ve GPT-3.5 API'lerinin çalışması için bir GPU gerekir ve çok sayıda GPU gerekir.OpenAI, ChatGPT ve API'si için daha fazla işlev yayınlamayı umar, ancak sınırlı sayıdan dolayı gerçekleştirilemez. GPU'lar;
OpenAI, Microsoft (Azure) aracılığıyla çok sayıda NVIDIA GPU satın aldı;
NVIDIA, H100 SXM GPU'yu üretmek için üretim için TSMC'yi kullanır ve TSMC'nin CoWoS paketleme teknolojisini ve esas olarak SK Hynix'ten gelen HBM3'ü kullanır.
OpenAI'ye ek olarak, piyasada kendi büyük modellerini eğiten birçok şirket var, LLM'de kaç tane balon olduğunu ve PMF ürünlerinin sonunda ortaya çıkma olasılığını bir kenara bırakalım, ancak genel olarak LLM rekabeti, piyasanın GPU'lara olan talebini artırdı. Ayrıca, şu an için GPU'lara ihtiyaçları olmasa bile, gelecek endişesi nedeniyle önceden stoklamaya başlayacak bazı şirketler var. Yani bu, "arz eksikliği beklentisi arz eksikliğini şiddetlendiriyor"** gibi bir şey.
Bu nedenle, GPU'lara olan talebi artıran bir diğer güç, yeni LLM'ler oluşturmak veya gelecekte yapay zekaya katılmak isteyen kurumsal şirketlerdir:
Büyük modellerin önemi bir fikir birliği haline geldi: eğer olgun bir kuruluşsa, LLM'yi kendi verileri üzerinde eğitmeyi umuyor ve daha fazla iş değeri getireceğini umuyor; yeni kurulan bir şirket olarak, LLM'ye sahip olun ve bunu ticari değere dönüştürün. GPU, yalnızca büyük modelleri eğitmek için gereklidir;
Yeterli H100 elde etmeye çalışan bu kuruluşlar ve büyük bulut satıcıları (Azure, Google Cloud, AWS) arasındaki iletişim;
İşlem sırasında, bulut satıcılarının tahsis etmek için yeterli H100'e sahip olmadığını ve bazı bulut satıcılarının da kusurlu ağ yapılandırmalarına sahip olduğunu gördüler, bu nedenle CoreWeave, Oracle, Lambda ve FluidStack de GPU satın aldı ve onlara sahip oldu, belki de tartışıyorlar OEM ve NVIDIA ile;
Sonunda çok sayıda GPU aldılar;
Şimdi ürünlerini piyasaya uydurmaya çalışıyorlar;
Halihazırda net değilse, yol kolay değildir - OpenAI'nin ürün-pazar uyumunu daha küçük bir modelde başardığını ve ardından onu büyüttüğünü unutmayın. Ancak şimdi, ürün-pazar uyumu elde etmek için, kullanıcınızın kullanım durumuna OpenAI'nin modelinden daha iyi uymanız gerekiyor, bu nedenle başlangıç için OpenAI'den daha fazla GPU'ya ihtiyacınız var.
**En azından 2023'ün sonuna kadar yüzlerce hatta binlerce H100 kullanan işletmelerde eksiklikler olacak, belki 2023'ün sonunda durum netleşecek ama görünen o ki GPU sıkıntısı 2024'e kadar devam edebilir. **
Referans
İşletmeler için özel LLM'ler başlangıç kurucusundan yorum
Bir bulut sağlayıcısından mesaj
Bulut şirketlerinde ve GPU sağlayıcılarında s ile görüşmeler
Tesla Q1 2023 (1 Ocak 2023 - 31 Mart 2023'ü kapsar) kazanç çağrısı
Bir bulut şirketinden bir yorum
Bir bulut şirketinden tahmin edilen bir basketbol sahası
︎