📢 Gate廣場 #MBG任务挑战# 發帖贏大獎活動火熱開啓!
想要瓜分1,000枚MBG?現在就來參與,展示你的洞察與實操,成爲MBG推廣達人!
💰️ 本期將評選出20位優質發帖用戶,每人可輕鬆獲得50枚MBG!
如何參與:
1️⃣ 調研MBG項目
對MBG的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與MBG相關活動(包括CandyDrop、Launchpool或現貨交易),並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是現貨行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
MBG熱門活動(帖文需附下列活動連結):
Gate第287期Launchpool:MBG — 質押ETH、MBG即可免費瓜分112,500 MBG,每小時領取獎勵!參與攻略見公告:https://www.gate.com/announcements/article/46230
Gate CandyDrop第55期:CandyDrop x MBG — 通過首次交易、交易MBG、邀請好友註冊交易即可分187,500 MBG!參與攻略見公告:https://www.gate.com/announcements
H100 供需分析:芯片戰爭將持續多久?
作者:Clay Pascal
編譯:wenli, Lavida, yunhao
推薦人:Cage, Huaiwei
來源:海外獨角獸
大模型的突破是以硬件算力和雲計算能力的提升作為土壤的,被視為GPU “核彈”的NVIDIA H100 正面臨有史以來最嚴重的缺貨。 Sam Altman 就直接表示,GPU 的短缺限制了OpenAI 在微調、專用容量、32K 上下文窗口、多模態等方面的技術升級速度。
本文編譯自GPU Utils,作者主要從供需兩個視角的分析探討了GPU(尤其是NVIDIA H100)會持續多久。
需求視角下,NVIDIA H100 毋庸置疑是訓練大模型的剛需,根據估算,目前市場上對H100 的需求在43.2 萬張左右,若按每張約3.5 萬美元計算,這是相當於總價值約為150 億美元的GPU,這43.2 萬的數字尚未包括像字節跳動(TikTok)、百度和騰訊這樣需要大量H800 的企業。
站在供給側,H100 的短缺直接受限於台積電產能,且短期內, NVIDIA 並沒有其他可選擇的芯片工廠。因為出貨量有限, NVIDIA 對於如何分配這些GPU 也有自己的策略,對於NVIDIA 來說,如何保證這些有限的GPU 流向AI 黑馬而非Google、微軟、AWS 這些潛在競爭者相當重要。
這場圍繞著H100 的AI 軍火競賽要持續多久?答案尚不明朗。雖然NVIDIA 表示下半年會增加供給,但目前看來GPU 的短缺可能會持續到2024 年。
圍繞著H100 的短缺,接下來市場上或許會進入一種“惡性循環”:稀缺性導致GPU 容量被視為AI 公司的護城河,從而導致了更多的GPU 囤積,而這又進一步加劇了GPU 的稀缺。
**以下為本文目錄,建議結合要點進行針對性閱讀。 **
👇
01 背景
02 H100 的需求分析
03 H100 供給側分析
04 如何獲得H100
05 總結
01.背景
直到2023 年8 月,人工智能領域的發展一直受到GPU 供應瓶頸的製約。
“人工智能熱潮被低估的原因之一是GPU/TPU 短缺。GPU 和TPU 的短缺限制了產品推廣速度和模型訓練進度,但這些限制很隱蔽。我們看到的主要是NVIDIA 的股價飆升,而非研發進度受限。當供需達到平衡時,情況會有所好轉。
—— Adam D'Angelo,Quora、Poe.com 首席執行官,前Facebook 首席技術官
Sam Altman 則表示,GPU 的短缺限制了OpenAI 的項目進展,例如微調、專用容量、32K 上下文窗口、多模態等。
小型和大型雲提供商的大規模H100 集群容量即將消耗殆盡。
“每個人都希望NVIDIA 能生產更多的A/H100”。
—— 來自云提供商執行人員的信息
“由於當下GPU 短缺的情況,對OpenAI 來說,使用我們產品的人越少, 對我們反而越好”;
“如果大家因為我們缺乏足夠GPU 而減少對OpenAI 產品的使用,我們實際上會很高興”。
—— Sam Altman,OpenAI 首席執行官
Sam Altman 這句話一方面巧妙地展現了OpenAI 的產品已經深受全球用戶的喜歡,但同時也說明了另外一個事實,即OpenAI 確實需要更多的GPU 來進一步推廣、升級其功能。
Azure 和微軟方面也面臨類似情況,有匿名人士提到:
• 公司內部正在限制員工使用GPU,大家必須像20 世紀70 年代的大學生為了使用電腦那樣排隊申請算力。從我的角度來看,OpenAI 當下正在吸走所有GPU 資源;
• 今年6 月,微軟和CoreWeave 的合作本質上是為了增強微軟的GPU/算力供給。
核心編織:
雲算力服務供應商,據CoreWeave 官網宣傳,他們的服務比傳統雲計算廠商便宜80%。 2023 年4 月,CoreWeave 獲得NVIDIA 的B 輪投資,並獲得了大量H100 新卡,6 月,微軟也與CoreWeave 簽訂協議,微軟會在未來數年內投資數十億美元,用於雲計算基礎設施建設。
7 月,CoreWeave 推出了與NVIDIA 合作打造的世界上最快的AI 超級計算機項目,以及Inflection AI 使用支持MLPerf 提交的基礎設施在CoreWeave Cloud 上創建世界上最複雜的大型語言模型之一。此外,CoreWeave 利用手中的NVIDIA H100 加速卡作為抵押,於8 月宣布完成23 億美元的債務融資。
總結來說, H100 GPU 的供應已經相當短缺。甚至有傳言說,**Azure 和GCP 的容量實際上已經用完,AWS 的容量也快用盡。 **
而之所以短缺,是因為NVIDIA 給到這些雲供應商的H100 GPU 供給也就這麼多,隨著NVIDIA 的H100 GPU 產量無法滿足需求,這些雲供應商可以提供的算力自然也開始出現短缺。
如果要理解算力瓶頸,可以圍繞以下幾個問題展開:
• 造成這種情況的具體原因有哪些? :
需求量有多大?如哪些領域的人工智能需求量增加相對迅速;
供應量有多大? NVIDIA 等GPU 生產商的產能是否足夠滿足需求;
• 這種短缺情況會持續多久? GPU 的供需何時會逐漸達到平衡點?
• 有哪些方式可以有效緩解這種短缺局面?
02.H100 的需求分析
從需求端分析算力瓶頸的關鍵問題:
具體來說,人們想購買卻難以買到的是什麼?
目前市場上對GPU 的需求有多大?
為什麼企業更偏好NVIDIA H100 而不是採用不同的GPU ?
目前市場上的GPU 有哪些類型?
企業能夠在哪裡買到GPU ?它們的價格如何?
**H100 的需求方都是誰? **
對H100 或A100 的需求量在1,000 個以上的企業:
• 訓練LLM 的初創公司:
OpenAI(通過Azure 獲得)、Anthropic、Inflection(通過Azure 和CoreWeave)、Mistral AI;
• 雲服務提供商(CSPs):
除了Azure、GCP、AWS 三巨頭外,還有Oracle,以及CoreWeave、Lambda 這樣的GPU 雲供應商;
• 其他科技巨頭:
例如Tesla (**拾象注:**原作者在此處未提及的Meta、Apple 等巨頭也對GPU 存有大量需求,Google 主要使用TPU 處理計算,對H100 的需求主要是Google Cloud Platform) 。
除了上述企業外,如果企業需要對LLM 進行大量微調,也需要儲備至少100 張以上的H100 或A100。
對於採用私有云(CoreWeave、Lambda)的公司、以及H100 存量在幾百到上千的公司來說,它們面臨的幾乎主要都是LLM 和一些擴散模型( Diffusion Model )方面的工作。有些公司選擇對現有模型進行微調,但更多AI 領域的初創公司正在從0 開始構建自己的新的大模型。 **這些公司和私有云服務商簽訂的合同金額通常在在1,000 萬至5,000 萬美元之間,合同期為3 年,並使用幾百到幾千個GPU。 **
對於那些只使用少量按需的H100 GPU 的公司來說,與LLM 相關的任務佔據了他們GPU 用量的大頭,LLM 對GPU 的使用率可能超過了50%。
當前,私有云正受到企業的青睞,儘管這些企業通常會選擇默認的大型雲服務提供商,但他們也面臨被淘汰的風險。
**• 大型人工智能實驗室更受限於推理任務還是訓練任務? **
這個問題取決於他們的產品吸引力有多大。也就是說,公司的產品吸引力對決定資源分配非常重要,在資源有限的情況下,推理和訓練的優先級往往各有側重。 Sam Altman 的觀點是,如果一定要做選擇的話,OpenAI 更傾向於增強推理能力,但目前OpenAI 在這兩方面都受到了限制。
為什麼H100 是訓練LLM 的剛需
目前市場上大部分使用的是NVIDIA H100 GPU。這是因為在LLM 的推理和訓練方面,H100 GPU 的速度是最快的,也具有最佳的推理性價比。具體來說,大部分企業選擇使用8-GPU HGX H100 SXM 服務器。
根據我的分析,相同的工作,H100 在成本方面更具優勢。如果可以找到二手設備,V100 GPU 是一個不錯的選擇,但這通常是不可能的。
—— 某匿名人士
在推理方面,我們發現A10G GPU 已經綽綽有餘,而且便宜得多。
—— 某私有云高管
我們注意到了Falcon 40b 和llama2 70b 這兩個模型也正在被大量使用,在這兩個模型的使用中,這種說法就不再準確了。因此,互聯速度對推理任務非常重要。
—— (另一位)私有云高管
獵鷹40b:
Falcon 是具有400 億參數的基礎大語言模型,Falcon 40b 旨在使用更少的訓練計算能力達到更優的效果,該模型僅佔GPT-3 訓練計算的75%、Chinchilla 的40% 以及PaLM-62B訓練的80%。 2023 年5 月25 日,阿聯酋技術創新研究所宣布將Falcon 9 開源,供研究和商業使用,發布後一度登上Hugging Face 開源LLM 榜首。
**• LLM 創業團隊的共同需求是什麼? **
**對於LLM 創業公司,在LLM 訓練上,它們往往會選擇配備3.2Tb/s InfiniBand 的H100 GPU。雖然在訓練環節,幾乎所有人都偏好H100,但在推理環節,這些企業則更看重性價比,即每美元創造的性能。 **
與A100 相比,H100 GPU 的每美元性能仍然存在一些問題,但H100 之所以依舊更受青睞,是因為它們更好的拓展性,以及更快的訓練時間,而速度/壓縮啟動、訓練或改進模型的時間對於初創公司來說是至關重要的。
“對於多節點訓練,他們都要求使用帶有InfiniBand 網絡的A100 或H100 GPU。我們觀察到唯一的非A/H100 要求是用於推理,其工作負載是單GPU 或單節點”。
—— 某私有云高管
影響LLM 訓練的因素主要有:
**• 內存帶寬:**面對大量從內存加載數據的情況,更高的內存帶寬可以加速數據加載;
**• 模型計算力(FLOPS,floating point operations per second):**張量內核或等效矩陣乘法單元,主要影響的是計算速度;
**• 高速缓存和高速缓存延迟:**高速缓存可以暂存数据以重复访问,对性能影响显著;
**• 附加功能:**如FP8 (8 位浮點數) 等,低精度數值格式可加速訓練和推理;
**• 計算性能:**與GPU CUDA 內核數量相關,主要影響的是可並行執行的任務數目;
**• 互連速度:**如InfiniBand 等快速節點間互聯帶寬,該因素會影響分佈式訓練速度。
**H100 之所以比A100 更受青睞,部分原因在於H100 具有更低的緩存延遲和FP8 計算能力。 **
H100 確實是首選,因為它的效率高達A100 的3 倍,但成本僅為A100 的1.5 - 2 倍。如何考慮到整個系統的成本,H100 的每美元性能也要高得多,如果考慮系統性能,每美元性能可能要高出4-5 倍。
—— 某深度學習研究員
**數值精度為何如此重要? **
低精度浮點數能夠提升訓練和推理速度,如FP16 比FP32 低一半內存佔用量,並在計算速度上比FP32 快三倍。在LLM 訓練過程中,為保證速度和精度的均衡,會使用混合精度、自適應精度等方法對大語言模型進行加速,因而多種精度支持對大語言模型訓練是重要考量之一。 Google 提出了BFP16 數值格式,擴大了數值範圍的同時,降低了精度,也比FP 32 的性能要好。
**• 除了GPU 之外, LLM 訓練和運營中還有哪些成本環節? **
目前GPU 是整個LLM 訓練基礎設施中最昂貴的配件,但其他方面的成本也不低,同樣對LLM 的訓練和運營成本產生影響:
系統內存和NVMe 固態硬盤價格昂貴:大模型需要大量的高速內存和高速固態硬盤來緩存和加載數據,這兩種組件的價格都很高;
高速網絡成本高昂:如InfiniBand 這樣的高速網絡(用於節點間通信) 價格非常昂貴,大型、分佈式訓練尤甚。
運行一個群集的總成本中,**10%-15% 可能用於電力和託管,兩者之間大致平分。電力成本包含電力、數據中心建築成本、土地成本和員工等,約為5%-8%;託管成本包含土地、建築、員工等,約為5%-10%。 **
我們主要考量的是網絡和可靠的數據中心。由於網絡限制和不可靠的硬件,AWS 並不適合。
—— 深度學習研究員
**• GPUDirect 技術在LLM 訓練中提供了什麼樣的幫助? **
NVIDIA 推出的GPUDirect 雖然並非LLM 訓練中的必需,但也能對性能有所幫助:
GPUDirect 技術可以提高性能, 但未必是一個超臨界的差異。這主要取決於你的系統瓶頸在哪裡。對於某些架構/軟件實現來說,系統瓶頸不一定在於網絡。 **但如果是網絡,GPUDirect 能夠使性能提高10%-20%,這對於昂貴的訓練運行成本來說是相當可觀的數字。 **
儘管如此,GPUDirect RDMA 現在已經無處不在,其受歡迎程度幾乎不言而喻。我認為,對於非Infiniband 網絡,GPUDirect 的支持力度較弱,但大多數為神經網絡訓練而優化的GPU 集群都有Infiniband 網絡/卡。對性能影響更大的因素可能是NVLink,因為它比Infiniband 更罕見,但它也只有在你採用特定的並行化策略時才至關重要。
因此,強大的網絡和GPUDirect 等功能可以讓那些不夠成熟的軟件開箱即用。但如果考慮成本或原有的基礎設施,GPUDirect 並非嚴格要求。
—— 某深度學習研究員
GPU直連:
NVIDIA 推出的名為GPUDirect 存儲(GPUDirect Storage)的數據傳輸技術,主要用於加快位在各種存儲的數據傳輸到GPU 內存的速度,可以將帶寬增加至原本的2 到8 倍,並且還能降低端到端的延遲,達3.8 倍。過去將數據從存儲器載入到GPU,都是由CPU 負責,這會大大限制硬件性能。
数据从 NVMe 磁盘传输到 GPU 內存的标准路径,是使用系统內存中的回弹缓存(Bounce Buffer),即额外的数据拷贝。GPUDirect 存储技术的核心是避免使用回弹缓存以减少额外的数据副本,并使用直接內存存取引擎(Direct Memory Access,DMA)将数据直接放到 GPU 内存中。
**為什麼LLM 公司不能使用AMD 的GPU? **
某私有云公司的高管表示,購買AMD GPU 從理論上是可行的,但設備從購買到實際真正運轉都需要一定時間,即便只是2 個月左右的開發和調試時間都意味著比競爭對手更晚進入市場。也因此,CUDA 是英偉達目前的護城河。
MosaicML 的一篇研究中則提到,AMD GPU 同樣也適用於大模型訓練任務。他們對基於PyTorch 的簡單訓練任務進行了實驗,相較於在NVIDIA 上運行,無需進行任何代碼修改。作者表明,只要代碼庫是基於PyTorch 構建的,那麼可以直接在AMD 上使用,無需額外的適配。未來,作者計劃將在更大規模計算集群上驗證AMD 系統的性能表現。
與此同時,也有觀點認為,考慮到一個模型訓練的成本接近3 億美元,所以沒有人會冒險去大規模依賴AMD 或其他初創公司的芯片,尤其是當芯片需求在1 萬張以上的數量級時。
一位半導體行業的退休人士也提到,AMD 的供貨情況也並不樂觀,台積電CoWoS 的產能已經被NVIDIA 吸走了,所以,雖然MI250 也許是一個可行的替代方案,但同樣很難獲得。
H100 VS A100
NVIDIA A100:
NVIDIA V100 的升級,相較於V100,A100 的性能提升了20 倍,非常適合於AI 、數據分析等任務。 A100 由540 億個晶體管組成,集成了第三代Tensor 核心,並具有針對稀疏矩陣運算的加速功能,對於AI 推理和訓練來說特別有用。此外,採用NVIDIA NVLink 互連技術可以將多個A100 GPU 用於更大的AI 推理工作負載。
NVIDIA H100:
A100 的下一代產品,是最新款的、針對大模型專門優化過的芯片。它基於Hopper 架構,使用台積電5nm 定製版本製程(4N)打造,單張芯片包含800 億晶體管。具體來說,NVIDIA 提出了Transformer Engine,集成了多種精度計算和Transformer 神經網絡動態處理能力,使得H100 GPU 能夠大大縮短模型訓練時間。基於H100,NVIDIA 還推出了機器學習工作站、超級計算機等一系列產品,如8 張H100 和4 個NVLink 結合組成一個巨型GPU——DGX H100。
相較於A100,H100 的16 位推理速度快約3.5 倍,16 位的訓練速度快約2.3 倍。
大多數人傾向於購買H100 用於模型訓練和推理,而將A100 主要用於模型推理。但是也有人可能會考慮以下幾個因素:
**• 成本:**H100 較A100 更昂貴;
**• 容量:**A100 和H100 在計算能力和內存不同;
**• 使用新硬件:**採用H100 需要在軟件和工作流上做相應調整;
**• 風險:**設置H100 存在更多未知風險;
**• 軟件已優化:**有的軟件已經針對A100 進行了優化。
總的來說, 儘管H100 的性能更高,但有些時候選擇A100 也十分合理,**這使得是否從A100 升級到H100 不是一個簡單決策,需要考量到很多因素。 **
事實上,A100 將在幾年後成為今天的V100。考慮到性能限制,我認為現在幾乎沒有誰會在V100 上訓練LLM。但V100 仍被用於推理和其他任務。同樣的,隨著越來越多的人工智能公司轉向H100 來訓練新模型,A100 的價格可能會下降,但對A100 需求始終存在,尤其是在推理方面。
—— 私有云執行官
我認為,由於一些獲得巨額融資的初創公司終將倒閉,可能導致市場上又出現大量A100 。
—— (另一位)私有云執行官
不過隨著時間的推移, **人們會將A100 用於越來越多的推理任務, 而不再用於訓練最新、更大型的模型。 **而V100 的性能已經無法支持大型模型的訓練, 高顯存顯卡更適合大機型,因此尖端團隊更青睞H100 或A100。
不使用V100 的主要原因是缺少brainfloat16(bfloat16, BF16)數據類型。沒有這種數據類型,就很難輕鬆地訓練模型。 OPT 和BLOOM 性能不佳的主要原因就是沒有這種數據類型(OPT 是在float16 中訓練的,BLOOM 的原型設計主要是在FP16 中完成的,這就無法將數據推廣到在BF16 中完成的訓練運行)。
—— 深度學習研究員
**• Nvida 的GPU H100、GH200、DGX GH200、HGX H100 和DGX H100 之間的區別? **
• H100 = 1x H100 GPU;
• HGX H100 = NVIDIA 服務器參照平台。 OEM 廠商用於構建4 GPU 或8 GPU 服務器,由Supermicro 等第三方OEM 製造;
• DGX H100 = NVIDIA 官方H100 服務器,配備8x H100,NVIDIA 是其唯一供應商;
• GH200 = 1x H100 GPU 加上1x Grace CPU;
• DGX GH200 = 256x GH200,將於2023 年底上市,可能僅由NVIDIA 供應;
• 針對大型雲計算公司的MGX。
其中,大多數公司選擇購買8-GPU HGX H100,而非DGX H100 或4-GPU HGX H100 服務器。
**這些GPU 分別的成本如何? **
1x DGX H100 (SXM) 配備8x H100 GPU 的價格為46 萬美元,其中包括所需的支持服務等,約10 萬美元。 Startups 可以獲得Inception 折扣,折扣約為5 萬美元,最多可用於8x DGX H100 盒子,共計64 個H100。
GPU 具體規格如下:
1x HGX H100 (SXM) 配備8x H100 GPU 的價格在30 萬至38 萬美元之間,具體價格取決於規格(網絡、存儲、內存、CPU)以及銷售商的利潤和支持水平。如果規格與DGX H100 完全相同,則企業可能需要支付較高的價格,即36 萬至38 萬美元(包括支持費用)。
1x HGX H100(PCIe)配備8x H100 GPU,包括支持費用在內約為30 萬美元,具體價格取決於規格。
PCIe 卡的市場價格約在3 萬至3.2 萬美元之間。
SXM 顯卡並不作為單卡銷售,因此很難給出定價。一般只作為4GPU 和8GPU 服務器銷售。
市場上大約70-80% 的需求是SXM H100,其餘的是PCIe H100。 SXM 部分的需求呈上升趨勢,因為前幾個月只有PCIe 卡可用。鑑於大多數公司購買的是8GPU HGX H100(SXM),包括其他服務器組件在內,每8 個H100 的大致花費為36 萬至38 萬美元。
DGX GH200 包含256x GH200,而每個GH200 包含1x H100 GPU 和1x Grace CPU。根據估算,DGX GH200 的成本可能在1500 萬- 2500 萬美元之間。
**市場對GPU 的需求到底是多少? **
• GPT-4 的訓練可能是在1,0000 至2,5000 張A100 基礎上完成的;
• Meta 大約有2,1000 張A100,Tesla 大約有7000 張A100,Stability AI 大約有5000 張A100;
• Falcon 40B 的訓練是在384 張A100 上進行的;
• Inflection 在其GPT-3.5 等效模型中使用了3500 張H100。
到12 月,我們將有2.2 萬個GPU 投入使用,而目前投入使用的設備也已遠遠超過3500 張。
—— Inflection AI 首席執行官Mustafa Suleyman
**根據Elon Musk 的說法,GPT-5 的訓練可能會用到3-5 萬張H100。 **Morgan Stanley 在2023 年2 月提出過,GPT-5 將使用2.5 萬個GPU,並且他們在當時也提出GPT-5 已經投入訓練中,不過Sam Altman 隨後在今年5 月否認了這一點,表示OpenAI 並未進行GPT-5 的訓練,所以Morgan Stanley 的信息或許並不准確。
GCP 大約有2.5 萬張H100,Azure 可能有1- 4 萬張H100。甲骨文(Oracle)的情況應該類似。此外,Azure 的大部分容量將被供應至OpenAI。
CoreWeave 大約保有3.5 至4 萬個H100 ,但這是根據訂單情況得出的,而非實際情況。
**Startup 訂購了多少張H100? **如果用於LLM 微調任務,通常訂購幾十或幾百張;若用於LLM 訓練,則需要數千張。
**LLM 領域內的公司可能需要多少H100? **
• OpenAI 可能需要5 萬個,Inflection 需要2.4 萬個,Meta 可能要2.5 萬個(也有說法認為Meta 實際上要10 萬或更多);
• 大型雲服務商,如Azure、Google Cloud、AWS 和Oracle 可能各需要3 萬;
• 私有云服務商,如Lambda 和CoreWeave 以及其他私有云可能加起來共需要10 萬;
• Anthropic、Helsing、Mistral、Character 可能各需要1 萬。
上面的數字都是估算和猜測,其中有些可能是被重複計算的,例如租用雲的客戶。 **總體上,按照目前的測算,H100 的數量約為43.2 萬張,若按每張約3.5 萬美元計算,這就是總量價值約150 億美元的GPU。此外,這43.2 萬的數字尚未包括像字節跳動(TikTok)、百度和騰訊這樣需要大量H800 的中國公司。 **
此外,一些金融公司也在部署從數百到數千張規模不等的A100 /H100 :如Jane Street、JP Morgan、Two Sigma 和Citadel。
**這與NVIDIA 數據中心收入相比如何? **2023 年2 月至4 月,NVIDIA 數據中心收入為42.8 億美元。 2023 年5 月25 日至7 月,數據中心收入可能在80 億美元左右。 **這主要是基於以下假設:NVIDIA 對該季度收入指引較高,主要原因是數據中心業務的收入增加,而非其他業務領域的收入增加。 **
因此,供應短缺情況可能需要一段時間才能緩解。但有可能算力短缺的情況被誇大了,首先,大部分公司都不是立刻購買所有自己需求的H100,而是逐步升級;此外,NVIDIA 也正在積極提升產能。
整個市場上擁有40 萬張H100 並非遙不可及,尤其是考慮到現在每個人都在大量部署4 或5 位數H100 的情況。
—— 某私有云高管
總結
• 大多數大型CSP(Azure、AWS、GCP 和Oracle)和私有云(CoreWeave、Lambda 和其他各種雲)更希望獲得更多的H100 GPU,而不僅僅是能夠訪問它們,大多數大型人工智能產品公司也追求更多的H100 GPU。
• 一般來說,這些公司需要配備SXM 卡的8GPU HGX H100 機箱。根據規格和支持情況,每台8GPU 服務器的成本大約在300 到400 萬美元之間。可能會有對數十萬個H100 GPU 的過剩需求,這部分總價值超過150 億美元;
• 在供應有限的情況下,NVIDIA 完全可以通過提高價格來找到一個市場均衡價格,並且在某種程度上也確實這樣做了。總而言之,最終決定如何分配H100 GPU ,取決於NVIDIA 自身更傾向於將其分配給哪些客戶。
03.H100 供給側分析
來自TSMC 的瓶頸
H100s 是由TSMC(台積電)生產的, **NVIDIA 能否選擇其他芯片工廠生產更多的H100 呢?至少現在這種可能尚未出現。 **
NVIDIA 過去曾與三星有過合作,但三星還不能滿足他們對尖端GPU 的需求,所以目前英偉達只能使用台積電生產的H100s GPU 和其他5nm GPU 。 **也許在未來,NVIDIA 會與英特爾合作,或者繼續與三星在相關技術上合作,但短期內這兩種情況都不會發生,因而也不會對H100 的供應緊張情況有所緩解。 **
台積電(TSMC)的5 納米(N5)技術在2020 年進入量產。 N5 技術是TSMC 的第二種EUV 工藝技術,提供了比之前的N7 技術更快的速度和更低的功耗。此外,TSMC 還計劃推出4 納米(N4)技術,它是N5 技術的增強版本,將進一步提升性能和功耗,併計劃於2022 年開始量產。
H100 是基於TSMC 4N 工藝生產的,4N 屬於5nm 系列中的增強型5nm,而非真正的4nm 工藝。 **除了NVIDIA,Apple 也在使用這個技術,但他們已主要轉向N3,並保留了大部分N3 容量。 **另外,高通和AMD 是N5 系列的大客戶。
A100 使用的是台積電的N7 工藝。
7納米(N7 )是台積電2019 年投入量產的製程節點。在N7 基礎上,台積電還推出了N7+工藝,即採用EUV(極紫外光刻)的7nm 製造工藝,把晶體管密度提升了15%~20% 同時降低芯片功耗。
一般情況下,前端製程容量(Fab Capacity)會提前12 個月以上就被規劃好。有觀點指出,TSMC 和其大客戶會共同計劃下一年的生產需求,因此當下H100 的供給短缺一定程度上是因為TSMC 和NVIDIA 在前一年對今年H100 需求的錯誤判斷。
前端製程容量(Fab Capacity):
在半導體芯片工藝流程中,Fab 為FABRICATION(加工,製造)的簡稱,Fab Capacity 可以認為是產能容量。
另據消息,H100 從開始生產到可以出售給客戶(生產、包裝和測試完畢)一般需要6 個月,不過這個情況有待得到證實。
一位半導體行業退休專業人員指出,晶圓產能並非台積電的瓶頸,真正的瓶頸其實在於前面提到的CoWoS(三維堆疊)。
CoWoS (Chip on wafer on Substrate,三維堆疊):
是台積電的一種2.5 D的整合生產技術,先將芯片通過CoW(Chip on Wafer)的封裝製程連接至矽晶圓,再把CoW 芯片與基板(Substrate)連接,整合成CoWoS。
根據DigiTimes 的報導,TSMC 已經開始擴充自己的CoWoS 產能,計劃在2023 年底前將CoWoS 產能從每月8,000 片晶圓提升至11,000 片,並在2024 年底之前增加到每月14,500 至16,600 片左右。 NVIDIA、Amazon、博通、Cisco 和賽靈思等主要科技巨頭都增加了對TSMC 先進CoWoS 封裝的需求。
H100 內存
**內存類型(Memory Bype)、內存總線寬度(Memory Bus Width)和內存時鐘速度(Memory Clock Speed)共同影響了GPU 的內存帶寬。 **作為GPU 架構的一部分,NVIDIA 設計了H100 的總線寬度和時鐘速度。 H100 SXM 上主要使用HBM3 內存, H100 PCIe 上,主要使用HBM2e。
HBM 很難生產,供給也非常有限,因此生產HBM 是一場噩夢。但是一旦生產出了HBM,其他部分的設計將變得簡單。
—— 某Deepl Learning 研究員
**內存類型、內存總線寬度和內存時鐘速度是計算機內存的三個重要指標。 **
內存總線寬度:
指的是內存模塊與主板之間的數據傳輸通道的寬度,較寬的內存總線寬度可以提供更大的數據通路,從而提高內存與處理器之間的數據傳輸速度。
內存時鐘速度:
指的是內存模塊的工作時鐘頻率,較高的內存時鐘速度意味著內存可以更快地進行讀寫操作,提供更高的數據傳輸速度。
HBM(高帶寬內存):
是一種高帶寬內存技術,用於在圖形處理器(GPU)和其他高性能計算設備中提供快速的內存訪問速度。傳統的圖形卡和計算設備使用的內存技術通常是基於GDDR(Graphics Double Data Rate)的設計,它在性能和功耗之間存在一定的平衡。而HBM 技術通過在GPU 芯片上放置內存堆棧,以及通過高速垂直連接(TSVs)將多個DRAM 芯片堆疊在一起,實現了更高的帶寬和更低的功耗。
對於HBM3 內存,NVIDIA 可能全部或者主要使用SK Hynix。目前並不確定NVIDIA 的H100 是否使用了三星的內存,但可以確定的是,NVIDIA 目前沒有使用美光的內存。
就HBM3 而言,一般來說,SK Hynix 的產量最大,隨後是三星,第三名的美光和前兩者的產量差距較大。看起來,SK Hynix 已經提高了產量,但NVIDIA 仍希望他們生產更多,而三星和美光還沒有成功提高產量。
**製造GPU 時還會用到什麼? **
此外,GPU 的生產還會涉及到很多金屬材料及零部件,這些環節原料的短缺也帶來引發GPU 的供給瓶頸,例如:
**• 金屬和化學品:**包括銅、鉭、金、鋁、鎳、錫、銦和鈀等矽(類金屬)等,這些金屬和化學品被用於生產的各個階段,從矽晶圓的製造到GPU 的最終組裝,例如矽、稀土等;
**• 組件和封裝材料:**例如基板、焊球和銲線、散熱化合物等,它們被用來完成GPU 各個部件的組裝和鏈接,對GPU 的運行至關重要;
**• 能源消耗:**在GPU 芯片的製造過程中,由於使用了高精度的機械設備,因此需要大量的電力。
**NVIDIA 如何解決H100 短缺? **
NVIDIA 方面透露他們將在今年下半年增加供應量,NVIDIA CFO 在財報會上表示公司正在全力解決供給問題,但除此之外,他們沒有傳達更多信息,也沒有任何具體的和H100 相關的數字。
“我們正在努力解決本季度的供應問題,但我們也已經為下半年採購了大量庫存。”
“我們相信,下半年的供應量將大大超過上半年。”
—— 英偉達首席財務官科萊特-克雷斯(Colette Kress)在2023 年2 月至4 月財報電話會議上的發言
某私有云公司高管認為,**接下來市場上可能會出現一種惡性循環,即,稀缺性導致GPU 容量被視為AI 公司的護城河,從而導致了更多的GPU 囤積,而這又進一步加劇了GPU 的稀缺。 **
根據歷史上NVIDIA 推出不同架構的間隔時間,H100 的下一代機型可能要到2024 年底(2024 年中到2025 年初)才會發布。在此之前,H100 將會一直是NVIDIA GPU 的Top 級產品(GH200 和DGX GH200 不算,它們不是純GPU,都使用H100 作為GPU)。
此外,預期未來也會有更大顯存的120GB 版本。
04.如何獲得H100
H100 的賣家
戴爾、HPE、聯想、超微(Supermicro)和廣達(Quanta)等原始設備製造商(OEMs)都在銷售H100 和HGX H100,而訂購InfiniBand 需要通過NVIDIA Mellanox 完成。
Mellanox 是全球InfiniBand 主要供應商之一,2015 年,Mellanox 在全球IB 市場上的佔有率達到80%。 2019 年,NVIDIA 以每股125 美元的價格收購了Mellanox,總交易價值達約69 億美元。這項收購使NVIDIA 能夠進一步擴展在高性能計算和數據中心領域的市場份額,並且加強了NVIDIA 在AI 領域的競爭力。
通過整合Mellanox 的高速互連技術和NVIDIA 的GPU 加速器,NVIDIA 能夠為數據中心提供更高帶寬和更低延遲的解決方案。 Mellanox 之外,IB 領域另一家供應商QLogic 的IB 技術在2012 年被英特爾公司出資收購。
CoreWeave 和Lambda 等GPU 雲從OEM 那裡購買GPU,然後再租給Startup。超大規模的雲廠商(Azure、GCP、AWS、甲骨文)能夠更直接地與NVIDIA 合作購買,但他們有時候也會和OEM 合作。
對於DGX,也要通過OEM 完成購買。客戶雖然可以和NVIDIA 溝通採購需求,但購買則是通過OEM ,而非直接向NVIDIA 下採購訂單。
交付時間上,8 GPU HGX 服務器的交付時間非常糟糕,而4 GPU HGX 服務器的交付時間還不錯,但現實是每個人都想要8 GPU 服務器。
**• 從下單到部署H100 需要多久? **
部署是一個分階段的過程。比如說一個5000 GPU 的訂單,他們可能會在4-5 個月內獲得2,000 或4,000 GPU 的訪問權限,然後在6 個月左右獲得剩餘的GPU 的訪問權限。
對於Startup,如果要購買GPU,並不是從OEM 或者經銷商那裡下訂單,他們一般會選擇Oracle 等公有云服務,或向Lambda 和CoreWeave 等私有云租用訪問權,或向FluidStack 等與OEM 和數據中心合作的提供商租用訪問權。
**• 企業應該自建數據中心還是主機託管? **
對於建立數據中心,需要考慮的因素包括建立數據中心的時間、是否擁有硬件方面的人才和經驗,以及資本投入規模。
租用和託管服務器要容易得多。如果你想建立自己的數據中心,就必須鋪設一條暗光纖線路到你所在的位置,以連接互聯網,光纖的造價是每公里1 萬美元。在互聯網繁榮時期,大部分基礎設施已經建成並支付了費用。現在,您只需租用即可,而且相當便宜。
—— 某私有云高管
選擇租用或自建數據中心並為一個非此即彼的決策,企業根據實際需求,可以有以下不同選擇:
按需雲:純粹使用雲服務進行租賃;
預留雲;
主機託管(購買服務器,與提供商合作託管和管理服務器);
自助託管(自己購買和託管服務器)。
大多數需要大量H100 的Startup 會選擇預留雲或主機託管。
**企業如何選擇雲服務公司? **
有觀點認為,Oracle 的基礎設施可靠性不如三大雲,但它願意在客戶技術支持上花更多時間。有私有云公司從業者表示, 100% 會有對基於Oracle 的服務一大批不滿意的客戶,也有其他公司CEO 認為Oracle 的聯網能力更強。
**一般來說,Startup 會選擇在服務支持、價格和容量方面綜合實力最強的公司。 **
幾個大型雲服務公司之間的主要區別在於:
**• 網絡:**AWS 和Google Cloud 採用InfiniBand 的速度較慢,因為它們有自己的方法,不過大多數尋求大型A100/H100 集群的初創公司都在尋求InfiniBand;
**• 可用性:**例如,Azure 的H100 算力大部分被OpenAI 所使用,這就意味著可供其他客戶使用的算力可能並不多。
**雖然還沒有事實依據,但有猜測認為,NVIDIA 更傾向於為那些沒有開發競爭性機器學習芯片的雲服務商優先分配GPU 供給。 **目前所有三大雲服務商都在開發自己的機器學習芯片,但AWS 和Google 的NVIDIA 替代產品已經上市,並搶走了NVIDIA 的一些市場份額。因而也引發了一些市場猜測,認為NVIDIA 之所以更願意和Oracel 合作就是因為這點。
一些大型雲公司的價格比其他雲更優惠。正如一位私有云執行官所指出的,“例如,AWS/AZURE 上的A100 比GCP 要貴得多。”
Oracle 告訴我,今年晚些時候他們將有“數以萬計的H100”投入使用。但在定價方面,他們比其他公司都要高。他們沒有給我H100 的定價,但對於A100 80GB,他們給我的報價接近4 美元/小時,這比GCP 的報價高出近2 倍,而且是在相同的功耗和投入的情況下。
—— 匿名人士
較小的雲在定價方面更有優勢,除非在某些情況下,其中一個大型雲公司可能會進行奇怪的交易來換取股權。
所以綜合來看, 就和NVIDIA 的合作親密度而言,Oracle 和Azure > GCP 和AWS,不過這一點只是猜測。
甲骨文率先推出了A100s,並與英偉達合作託管了基於英偉達的集群,英偉達也是Azure 的客戶。
**• 哪種大型雲公司的網絡性能最好? **
Azure、CoreWeave 和Lambda 都使用InfiniBand。 Oracle 的網絡性能很好,達到3200 Gbps,但使用的是以太網而不是InfiniBand,對於高參數LLM 訓練等使用情況下,可能比IB 慢15-20% 左右。 AWS 和GCP 的網絡沒有那麼好。
**• 目前企業是如何選擇雲服務的? **
一份面向15 家企業的統計數據顯示,所有被調研的15 家企業都會選擇AWS、GCP 或Azure,其中並沒有Oracle 。
大多數企業傾向於使用現有的雲。但對於創業團隊來說,他們的選擇則更基於現實:哪家可以提供算力,就會選擇哪家。
**• 關於DGX Cloud、NVIDIA 正在與誰合作? **
“英偉達正與領先的雲服務提供商合作託管DGX 雲基礎架構,首先從甲骨文云基礎架構開始”——與英偉達進行銷售,但通過現有的雲提供商進行租賃(首先與甲骨文合作,然後是Azure,之後是Google Cloud,沒有與AWS 合作)。
NVIDIA CEO 黃仁勳在NVIDIA 的財報電話會議上說過“理想的組合是10% 的NVIDIA DGX 雲和90% 的CSP 雲”。
• 雲服務巨頭們的H100 時間表:
CoreWeave 是最早的一家。作為CoreWeave 的投資人,並且大概率為了加強大型雲公司之間的競爭,NVIDIA 最早為CoreWeave 完成交付。
其他雲服務公司的H100 時間表如下:
• Azure 於3 月13 日宣布H100 可供預覽;
• 甲骨文於3 月21 日宣布限量供應H100;
• Lambda Labs 於3 月21 日宣布將於4 月初推出H100;
• AWS 於3 月21 日宣布H100 將在幾週後開始預覽;
• Google Cloud 於5 月10 日宣布開始H100 私有預覽。
**• 不同公司分別在使用哪些雲服務? **
• OpenAI:Azure
• Inflection: Azure 和CoreWeave
• 人擇:AWS 和 Google Cloud
• Cohere:AWS 和谷歌云
• 擁抱臉:AWS
• Stability AI: CoreWeave 和AWS
•Character.ai:谷歌云
• X.ai:甲骨文
• NVIDIA:Azure
**如何獲得更多的GPU 配額? **
最終的瓶頸在於是否可以從NVIDIA 方面獲得算力分配。
**• NVIDIA 是如何選擇客戶的? **
NVIDIA 通常會給每個客戶都分配一定的GPU ,而這一過程中**NVIDIA 最關心的是“終端客戶是誰”,舉例來說,Azure 說“我們想購買一萬張H100 來支持Inflection” ,與Azure 說“我們為Azure 購買一萬張H100” 對應的結果是不同的。 **如果NVIDIA 對某個特定的終端客戶感興趣,那麼雲公司就有可能獲得額外的GPU 配額。所以,NVIDIA 很希望盡可能了解終端客戶是誰,他們會更傾向於大企業或擁有強大背書的初創公司。
是的,情況看起來就是這樣。英偉達喜歡為AI startups 提供GPU 的使用權(其中許多公司與英偉達關係密切)。英偉達投資的AI 公司Inflection 正在CoreWeave 上測試一個巨大的H100 集群。
—— 某私有云執行官
如果某個雲公司給NVIDIA 帶來了一個終端客戶,並表示他們準備購買一定數量級的H100,且NVIDIA 對該終端客戶感興趣,NVIDIA 一般就會給予一定配額,這實際上會提高NVIDIA 分配給該雲公司的總容量,因為這部分配額是獨立於NVIDIA 最初給到該雲公司配額之外。
NVIDIA 向私有云分配大容量的情況比較特殊:**CoreWeave 擁有比GCP 更多的H100。 NVIDIA 不願意將大量資源分配給那些試圖與其直接競爭的公司(AWS Inferentia 和Tranium、Google TPUs、Azure Project Athena)。 **
但歸根結底,如果你向NVIDIA 提交採購訂單和資金,承諾更大的交易和更多的前期資金,並表明你的低風險狀況,那麼你一定會獲得比別人更多的GPU 配額。
05.總結
即便如Sam Altman 所說,“使用大模型的時代即將結束”,但目前我們仍然受到GPU 的限制。一方面,像OpenAI 這類公司,已經擁有ChatGPT 這種極佳PMF 的產品,但因為受限於GPU 所以需要大量採買算力,另一方面,也有不少團隊在為未來參與LLM 的可能性而囤積GPU,不論他們是否有可能創造出ChatGPT 這樣的產品。
但毫無疑問,NVIDIA 的話語權不會動搖。
現階段PMF 做得最好的LLM 產品是ChatGPT,以下以ChatGPT 為例來說明GPU 為什麼短缺:
因為ChatGPT 深受用戶喜愛,它的ARR(年度經常性收入)有可能超過5 億美元;
ChatGPT 在GPT-4 和GPT-3.5 的API 之上運行;
GPT-4 和GPT-3.5 的API 需要GPU 才能運行,並且需要大量GPU,OpenAI 希望為ChatGPT 及其API 發布更多功能,但受限於GPU 的數量而無法實現;
OpenAI 通過微軟(Azure) 購買了大量NVIDIA GPU;
為了製造H100 SXM GPU,NVIDIA 使用台積電進行製造,並使用台積電的CoWoS 封裝技術和主要來自SK Hynix 的HBM3。
除了OpenAI,市場上還有很多公司都在訓練自己的大模型,先拋開LLM 當中存在有多少泡沫存在、最終又有多大概率出現PMF 的產品,但總體上LLM 競賽已經推高了市場對GPU的需求。此外,還有一些公司即使暫時還不需要GPU,但由於擔心未來,所以他們也會開始提前儲備。因此,這就有點像**“對供應短缺的預期加重了供應短缺”**。
所以,推高GPU 需求的另外一股力量是哪些希望在創建新的LLMs、或者在未來參與AI 的企業公司:
大模型重要性已經成為一種共識:如果是成熟企業,則希望在自己的數據上訓練LLM 並寄希望其帶來更多商業價值;作為初創公司,則希望建立自己的LLM 並轉化為商業價值。而GPU 是用來訓練大模型的剛需;
這些企業和大型雲廠商(Azure、Google Cloud、AWS)的溝通,試圖來獲得足夠的的H100;
在此過程中,他們發現雲廠商也沒有足量的H100 進行分配,並且一些雲廠商的網絡配置也存在瑕疵,於是,CoreWeave、Oracle、Lambda 和FluidStack 也成為,與此同時如果他們想自己購買GPU 並擁有它們,也許他們還會與OEM 和NVIDIA 討論;
最終,他們獲得了大量GPU;
現在,他們正在嘗試讓自己的產品與市場相匹配;
如果還不清楚的話,這條路並不好走——請記住,OpenAI 是在更小的模型上實現產品與市場的契合,然後再將其放大。但是,現在要實現產品與市場的匹配,你必須比OpenAI 的模型更適合你的用戶的使用案例,因此在一開始時你需要比OpenAI 更多的GPU。
**至少到2023 年底,對於要部署數百或數千的H100 的企業都會面臨短缺問題,也許到2023 年底,情況會更加明朗,但目前看來,GPU 的短缺可能會持續到2024 年。 **
參考
來自企業定制法學碩士初創公司創始人的評論
來自云提供商的消息
與雲公司和 GPU 提供商的對話
特斯拉 2023 年第一季度(涵蓋 2023 年 1 月 1 日至 2023 年 3 月 31 日)財報電話會議
來自某雲公司的評論
一家云公司的猜測
︎