H100 の需要と供給の分析: チップ戦争はいつまで続くでしょうか?

著者: クレイ・パスカル

編集者: ウェンリー、ラヴィダ、ユンハオ

推薦者: ケージ、淮偉

出典:海外ユニコーン企業

画像ソース: Unbounded AI によって生成

大型モデルの躍進はハードウェアの演算能力とクラウドコンピューティング能力の向上が基盤となっており、GPUの「核爆弾」とされるNVIDIA H100は史上最も深刻な不足に直面している。 Sam Altman 氏は、GPU の不足により、微調整、専用容量、32K コンテキスト ウィンドウ、およびマルチモダリティの点で OpenAI のテクノロジー アップグレードの速度が制限されていると直接述べました。

この記事は GPU Utils から編集されたもので、主に需要と供給の観点から GPU (特に NVIDIA H100) がどれくらい長持ちするかについて論じています。

需要の観点から見ると、NVIDIA H100 は大規模モデルのトレーニング用として厳しい需要があることは間違いなく、推定によると、現在の市場における H100 の需要は約 432,000 枚で、これは 1 枚あたり約 35,000 米ドルに相当します。 150 億ドルの GPU** では、432,000 という数字には、大量の H800 を必要とする ByteDance (TikTok)、Baidu、Tencent などの企業は含まれていません。

供給面では、H100 の不足は TSMC の生産能力によって直接制限されており、短期的には、NVIDIA には他の代替チップ工場がありません。出荷台数が限られているため、NVIDIA はこれらの GPU をどのように割り当てるかについて独自の戦略を持っており、NVIDIA にとって、これらの限られた GPU を Google、Microsoft、AWS などの潜在的な競合他社ではなく AI ダークホースに確実に供給する方法が非常に重要です。

H100を巡るこのAI軍拡競争はいつまで続くのだろうか?答えはまだ明らかではありません。 NVIDIAは今年下半期に供給を増やすとしているが、GPU不足は2024年まで続く可能性があるようだ。

H100 の不足をめぐって、市場は「悪循環」に陥る可能性があります: 不足により GPU 容量が AI 企業の堀とみなされ、さらなる GPU の買いだめにつながり、GPU の不足がさらに深刻になります。

**以下はこの記事の目次ですので、要点と合わせて読むことをお勧めします。 **

👇

01 背景

02 H100の要件分析

03 H100 サプライサイド分析

04 H100の入手方法

05 まとめ

01.背景

2023 年 8 月まで、人工知能分野の発展は GPU 供給のボトルネックによって制約を受けてきました。

「AI ブームが過小評価されている理由の 1 つは、GPU/TPU の不足です。GPU と TPU の不足により、製品の導入とモデルのトレーニングの進行速度が制限されますが、これらの制約は隠れています。主に NVIDIA の株価の高騰が見られます」研究開発の進歩が制約されるわけではなく、需要と供給のバランスが取れれば状況は改善します。

—アダム ディアンジェロ、Quora、Poe.com CEO、元 Facebook CTO

これらは、GPU の需要と需要と AI にとって最も重要な CEO と企業です

Sam Altman氏は、GPU不足により、微調整、専用キャパシティ、32Kコンテキストウィンドウ、マルチモダリティなどのOpenAIプロジェクトの進捗が制限されていると述べた。

大小のクラウド プロバイダーによる大規模な H100 クラスターの容量が不足しています。

「誰もが NVIDIA にもっと A/H100 を作ってもらいたいと思っています。」

  • クラウドプロバイダー幹部からの情報

「現在 GPU が不足しているため、当社の製品を使用する人が少ない方が OpenAI にとって良いことです。」

「十分な GPU がないため、人々が OpenAI 製品を使用することが減れば、実際にうれしいです。」

—サム・アルトマン、OpenAI CEO

Sam Altman 氏の言葉は、OpenAI の製品が世界中のユーザーに愛されていることをさりげなく示している一方で、OpenAI の機能をさらに推進しアップグレードするにはさらに多くの GPU が必要であるという事実も示しています。

Azure と Microsoft も同様の状況に直面しており、匿名の人物は次のように述べています。

• 会社は従業員による GPU の使用を制限しており、コンピューターを使用するには、1970 年代の大学生のように計算能力の申請に全員が列にならなければなりません。私の観点から見ると、OpenAI は現在、すべての GPU リソースを吸い取っています。

• 今年 6 月に行われた Microsoft と CoreWeave の協力は、基本的に Microsoft の GPU/コンピューティング電源を強化することを目的としています。

コアウィーブ:

CoreWeave の公式 Web サイトによると、クラウド コンピューティングのパワー サービス プロバイダーは、そのサービスが従来のクラウド コンピューティング ベンダーより 80% 安いとのことです。 2023年4月にCoreWeaveはNVIDIAのBラウンド投資を受け、多数の新しいH100カードを入手、6月にはMicrosoftもCoreWeaveと契約を締結し、今後数年間で数十億ドルをクラウドコンピューティングインフラ構築に投資する予定です。

7 月、CoreWeave は NVIDIA と提携して世界最速の AI スーパーコンピューター プロジェクトを立ち上げ、Inflection AI は MLPerf 提出をサポートするインフラストラクチャを使用して、世界で最も複雑な大規模言語モデルの 1 つを CoreWeave クラウド上に作成しました。さらにCoreWeaveは、保有していたNVIDIA H100アクセラレータカードを担保として使用し、8月には23億ドルの負債調達を完了したと発表した。

要約すると、H100 GPU の供給はすでにかなり不足しています。 **Azure と GCP は実質的に容量が不足しており、AWS も容量が不足しているという噂さえあります。 **

不足の理由は、NVIDIA がこれらのクラウド プロバイダーに提供できる H100 GPU の数が限られているためであり、NVIDIA の H100 GPU の出力では需要を満たせないため、これらのクラウド プロバイダーが提供できるコンピューティング パワーは当然ながら不足し始めます。

コンピューティング能力のボトルネックを理解したい場合は、次の質問に焦点を当てることができます。

• この状況の具体的な理由は何ですか? :

  • 需要はどれくらいですか?たとえば、人工知能の需要が比較的急速に増加している分野は何か。

  • 供給量はどれくらいですか? NVIDIA などの GPU メーカーの生産能力が需要を満たすのに十分であるかどうか。

• この不足はいつまで続くのでしょうか? GPU の需要と供給が徐々に均衡点に達するのはいつですか?

• この不足を効果的に軽減できる方法は何ですか?

02.H100 要件分析

コンピューティング能力のボトルネックに関する主要な問題を需要側から分析します。

  1. 具体的に、人々が買いたいのになかなか手に入らないものは何ですか?

  2. 現在の市場における GPU の需要はどれくらいですか?

  3. 企業がさまざまな GPU よりも NVIDIA H100 を好むのはなぜですか?

  4. 現在市場にはどのような種類の GPU がありますか?

  5. 企業はどこで GPU を購入できますか?価格はいくらですか?

**H100 の要求者は誰ですか? **

H100 または A100 の需要が 1,000 件を超える企業:

スタートアップ トレーニング LLM:

OpenAI (Azure 経由)、Anthropic、Inflection (Azure および CoreWeave 経由)、Mistral AI;

クラウド サービス プロバイダー (CSP):

Azure、GCP、AWS の 3 つの巨人に加えて、Oracle、CoreWeave や Lambda などの GPU クラウド プロバイダーもあります。

その他の大手テクノロジー企業:

たとえば、Tesla (**重要な注記: **元の著者がここで触れなかったメタ、Apple、その他の大手企業も GPU に対する需要が高く、Google は主に TPU を使用して計算を処理しており、H100 の需要は主にGoogleクラウドプラットフォーム)。

上記の企業に加えて、LLM を大幅に微調整する必要がある場合は、少なくとも 100 個の H100 または A100 を予約する必要があります。

プライベート クラウド (CoreWeave、Lambda) を採用する企業や、数百から数千の H100 株を保有する企業の場合、ほぼ主に LLM と一部の拡散モデル (Diffusion Model) の作業に直面することになります。一部の企業は既存のモデルを微調整することを選択していますが、より多くの AI スタートアップは独自の新しい大規模モデルをゼロから構築しています。 **これらの企業は通常、プライベート クラウド サービス プロバイダーと 3 年間で 1,000 万ドルから 5,000 万ドルの範囲で契約を結び、数百から数千の GPU を使用します。 **

少数のオンデマンド H100 GPU のみを使用する企業の場合、LLM 関連のタスクが GPU 使用量の大部分を占めており、LLM が GPU の 50% 以上を使用する可能性があります。

現在、プライベート クラウドは企業に好まれており、これらの企業は通常、デフォルトの大規模クラウド サービス プロバイダーを選択しますが、淘汰されるリスクにも直面しています。

**• 大規模な AI ラボでは、推論タスクやトレーニング タスクによる制約が多くなりますか? **

この質問は、その製品がどれほど魅力的であるかによって決まります。つまり、企業の製品の魅力はリソースの配分を決定する上で非常に重要であり、リソースが限られている場合には、推論とトレーニングの優先順位がそれぞれに重要視されることがよくあります。 Sam Altman 氏の見解では、選択が必要な場合、OpenAI は推論機能を強化する傾向があるが、現時点では OpenAI は両方の面で制限されています。

LLM のトレーニングに H100 が必要な理由

現在の市場のほとんどは NVIDIA H100 GPU を使用しています。これは、H100 GPU が LLM 推論とトレーニングの点で最も高速であり、推論のコストパフォーマンスも最高であるためです。具体的には、ほとんどの企業は 8 GPU HGX H100 SXM サーバーの使用を選択します。

私の分析では、同じ作業であればH100の方がコスト的に有利です。中古ユニットを見つけることができれば、V100 GPU が良い選択肢になりますが、それが不可能な場合もよくあります。

—— 匿名の人

推論の観点からは、A10G GPU が十分以上であり、はるかに安価であることがわかりました。

—— プライベート クラウドの幹部

Falcon 40b と llama2 70b も頻繁に使用されていることに気付きましたが、この記述はもはや正確ではありません。したがって、相互接続速度は推論タスクにとって非常に重要です。

— (別の) プライベート クラウド エグゼクティブ

ファルコン 40b :

Falcon は 400 億のパラメータを持つ基本的な大規模言語モデルです。Falcon 40b は、より少ないトレーニング コンピューティング能力を使用してより良い結果を達成することを目指しています。このモデルは、GPT-3 トレーニング コンピューティングの 75% のみを占め、Chinchilla の 40%、PaLM-62B の 80% を占めます。トレーニングの。 2023 年 5 月 25 日、UAE 工科大学イノベーション研究所は、Falcon 9 を研究および商用目的でオープンソース化すると発表し、リリース後、一時は Hugging Face オープンソース LLM リストのトップになりました。

**• LLM 起業家チームに共通のニーズは何ですか? **

**LLM スタートアップの場合、LLM トレーニング用に 3.2Tb/s InfiniBand を備えた H100 GPU を選択することがよくあります。トレーニング セッションではほぼ全員が H100 を好みますが、推論セッションでは、これらの企業はコスト パフォーマンス、つまり 1 ドルあたりのパフォーマンスを重視します。 **

A100 と比較して、H100 GPU の 1 ドルあたりのパフォーマンスにはまだいくつかの問題がありますが、H100 はスケーリングが優れており、トレーニング時間が速いため依然として好まれていますが、速度/圧縮の開始、トレーニング、改善はモデルのタイミングが重要です。スタートアップ。

「マルチノード トレーニングの場合、すべて InfiniBand ネットワーキングを備えた A100 または H100 GPU が必要です。私たちが観察した唯一の A/H100 以外の要件は推論であり、ワークロードは単一 GPU または単一ノードでした。」

—— プライベート クラウドの幹部

LLM トレーニングに影響を与える主な要因は次のとおりです。

**• メモリ帯域幅: **メモリから大量のデータがロードされる場合、メモリ帯域幅が大きいほどデータのロード速度が向上します。

**• モデルの計算能力 (FLOPS、1 秒あたりの浮動小数点演算): ** テンソル コアまたは同等の行列乗算ユニット。主に計算速度に影響します。

**• キャッシュとキャッシュ遅延: **キャッシュは、繰り返しアクセスするためにデータを一時的に保存することができ、これはパフォーマンスに大きな影響を与えます。

**• 追加機能: **FP8 (8 ビット浮動小数点数) などの低精度数値形式により、トレーニングと推論を高速化できます。

**• コンピューティング パフォーマンス: ** は GPU CUDA コアの数に関連しており、主に並列実行できるタスクの数に影響します。

**• 相互接続速度: **InfiniBand などの高速ノード間相互接続帯域幅の場合、この要素は分散トレーニングの速度に影響します。

**H100 は、キャッシュ レイテンシが低く、FP8 コンピューティング能力が高いため、A100 よりも H100 が推奨されます。 **

H100 は、A100 よりも最大 3 倍効率的であるにもかかわらず、A100 の 1.5 ~ 2 倍のコストしかかからないため、実際に最初の選択肢となります。システム全体のコストを考慮すると、1 ドルあたりのパフォーマンスも H100 の方がはるかに高く、システムのパフォーマンスを考慮すると、1 ドルあたりのパフォーマンスは 4 ~ 5 倍高い可能性があります。

—— ディープラーニング研究者

**数値精度がそれほど重要なのはなぜですか? **

低精度浮動小数点数を使用すると、トレーニングと推論の速度が向上します。たとえば、FP16 のメモリ使用量は FP32 の半分で、計算速度の点では FP32 の 3 倍です。 LLM トレーニング プロセスでは、速度と精度のバランスを確保するために、混合精度や適応精度などの手法を使用して大規模な言語モデルを高速化します。そのため、複数精度のサポートは、大規模な言語モデルのトレーニングにおける重要な考慮事項の 1 つです。 Google は、精度を下げながら数値範囲を拡大する BFP16 数値形式を提案し、FP 32 よりもパフォーマンスが優れています。

**• GPU のほかに、LLM のトレーニングと運用におけるコストの関係は何ですか? **

GPU は現在、LLM トレーニング インフラストラクチャ全体の中で最も高価なコンポーネントですが、コストの他の側面も低くなく、LLM のトレーニングおよび運用コストにも影響します。

  1. システム メモリと NVMe SSD は高価です。大規模モデルでは、データのキャッシュとロードに大量の高速メモリと高速 SSD が必要であり、どちらのコンポーネントも高価です。

  2. 高速ネットワークは高価です: InfiniBand (ノード間の通信に使用される) などの高速ネットワークは、特に大規模な分散トレーニングの場合、非常に高価です。

おそらく、クラスターの総実行コストの 10% ~ 15% が電力とホスティングに費やされ、この 2 つがほぼ均等に分割されます。電力コストには電気代、データセンター建設費、土地代、従業員などが含まれ、約5%~8%、ホスティングコストには土地、建物、従業員などが含まれ、約5%~10%です。 **

私たちの主な関心事は、ネットワークと信頼性の高いデータセンターです。 AWS は、ネットワークの制限と信頼性の低いハードウェアのため、適切ではありませんでした。

——ディープラーニング研究者

**• GPUDirect テクノロジーは LLM トレーニングにどのように役立ちますか? **

NVIDIA の GPUDirect は LLM トレーニングには必要ありませんが、パフォーマンスの向上にも役立ちます:

GPUDirect テクノロジーはパフォーマンスを向上させることができますが、必ずしも超臨界的な違いが生じるわけではありません。それは主に、システムのボトルネックがどこにあるかによって異なります。一部のアーキテクチャ/ソフトウェア実装では、システムのボトルネックは必ずしもネットワークではありません。 **ただし、ネットワークの場合、GPUDirect はパフォーマンスを 10% ~ 20% 向上させることができます。これは、高価なトレーニングのランニング コストとしてはかなりの数字です。 **

それにもかかわらず、GPUDirect RDMA は現在非常に普及しており、その人気はほとんどそれ自体を物語っています。 GPUDirect のサポートは非 Infiniband ネットワークには弱いと思いますが、ニューラル ネットワーク トレーニング用に最適化されたほとんどの GPU クラスターには Infiniband ネットワーク/カードがあります。 Infiniband よりもまれであるため、パフォーマンスにとってより大きな要素はおそらく NVLink ですが、これも重要なのは特定の並列化戦略を採用している場合に限られます。

そのため、強力なネットワークや GPUDirect などの機能を使用すると、あまり洗練されていないソフトウェアをそのまま使用できるようになります。ただし、コストやレガシー インフラストラクチャを考慮する場合、GPUDirect は厳密には必須ではありません。

—— ディープラーニング研究者

GPUDirect:

NVIDIA が導入した GPUDirect Storage (GPUDirect Storage) と呼ばれるデータ転送テクノロジは、主にさまざまなストレージに保存されているデータの GPU メモリへの転送を高速化するために使用され、帯域幅を 2 ~ 8 倍に増加させることができ、また、帯域幅を削減することもできます。ツーエンド遅延は最大 3.8 倍です。以前は、CPU がメモリから GPU へのデータのロードを担当していたため、ハードウェアのパフォーマンスが大幅に制限されていました。

NVMe ディスクから GPU メモリへのデータ転送の標準パスは、追加のデータ コピーであるシステム メモリ内のバウンス バッファ (Bounce Buffer) を使用することです。 GPUDirect ストレージ テクノロジの中核は、追加のデータ コピーを削減するためにリバウンド キャッシュの使用を回避し、ダイレクト メモリ アクセス エンジン (Direct Memory Access、DMA) を使用してデータを GPU メモリに直接配置することです。

**LLM 社はなぜ AMD の GPU を使用できないのですか? **

あるプライベートクラウド会社幹部は「AMD製GPUの購入は理論上は可能だが、購入から実際に機器が稼働するまでにある程度の時間がかかる。市場参入が遅れる」と述べた。したがって、CUDA は NVIDIA の現在の堀です。

MosaicML の調査では、AMD GPU は大規模なモデルのトレーニング タスクにも適していると述べられています。彼らは、NVIDIA で実行する場合と比較してコードを変更することなく、PyTorch に基づく単純なトレーニング タスクを実験しました。著者らは、コードベースが PyTorch 上に構築されている限り、追加の調整なしで AMD 上で直接使用できることを示しています。将来的には、著者はより大規模なコンピューティング クラスタ上で AMD システムのパフォーマンスを検証する予定です。

同時に、モデルのトレーニングにかかるコストが 3 億米ドル近くであることを考慮すると、特にチップの需要が高まっている場合には、AMD やその他の新興企業のチップに大規模に依存する危険を冒す人はいないだろうという見方もあります。 10,000以上のオーダーで。

半導体業界の退職者は、AMDの供給状況は楽観的ではなく、TSMCのCoWoS生産能力はNVIDIAに吸収されているため、MI250は有力な代替品かもしれないが、入手も難しいと述べた。

H100 VS A100

NVIDIA A100:

NVIDIA V100 のアップグレードにより、V100 と比較して、A100 のパフォーマンスが 20 倍向上し、AI やデータ分析などのタスクに非常に適しています。 540 億個のトランジスタで構成される A100 は、特に AI の推論とトレーニングに役立つ、疎行列演算のアクセラレーションを備えた第 3 世代 Tensor コアを統合しています。さらに、NVIDIA NVLink 相互接続テクノロジーにより、複数の A100 GPU を利用して大規模な AI 推論ワークロードを実行できます。

NVIDIA H100:

次世代の A100 は、大型モデルに最適化された最新のチップです。これはTSMCの5nmカスタムバージョンプロセス(4N)を使用して構築されたHopperアーキテクチャに基づいており、単一チップには800億個のトランジスタが含まれています。具体的には、NVIDIA は、多精度計算と Transformer ニューラル ネットワークの動的処理機能を統合する Transformer エンジンを提案し、H100 GPU でモデルのトレーニング時間を大幅に短縮できるようにしました。 NVIDIA は、H100 に基づいて、8 つの H100 と 4 つの NVLink を組み合わせて巨大な GPU - DGX H100 を形成するなど、機械学習ワークステーションやスーパーコンピューターなどの一連の製品も発売しました。

A100と比較して、H100の16ビット推論速度は約3.5倍、16ビットトレーニング速度は約2.3倍高速です。

A100とH100の速度比較

H100トレーニングMoE

大規模な H100 スピードアップ

ほとんどの人は、モデルのトレーニングと推論のために H100 を購入し、主にモデル推論に A100 を使用する傾向があります。ただし、次の要因も考慮することができます。

**• コスト: **H100 は A100 よりも高価です。

**• 容量: **A100 と H100 は、計算能力とメモリが異なります。

**• 新しいハードウェアの使用: **H100 の採用には、ソフトウェアとワークフローの対応する調整が必要です。

**• リスク: ** H100 の設定にはさらに未知のリスクがあります。

**• ソフトウェアの最適化: **一部のソフトウェアは A100 用に最適化されています。

全体として、H100 の方がパフォーマンスが高いにもかかわらず、A100 を選択することが合理的な場合もあります**。そのため、A100 から H100 へのアップグレードは、考慮すべき要素が多く、簡単な決定ではありません。 **

実際、A100 は数年後には現在の V100 になるでしょう。パフォーマンスの制約を考慮すると、現在 V100 で LLM をトレーニングする人はほとんどいないと思います。ただし、V100 は依然として推論やその他のタスクに使用されています。同様に、より多くの AI 企業が新しいモデルをトレーニングするために H100 に注目するにつれて、A100 の価格は下がる可能性がありますが、A100、特に推論に対する需要は常に存在します。

  • プライベート クラウド エグゼクティブ

そうなると、巨額の資金を集めた新興企業の一部が廃業に追い込まれ、市場に再びA100が氾濫する可能性があると思います。

— (別の) プライベート クラウド エグゼクティブ

しかし、時間の経過とともに、人々は最新のより大きなモデルをトレーニングする代わりに、ますます多くの推論タスクに A100 を使用するようになるでしょう。 **V100 のパフォーマンスは大規模モデルのトレーニングをサポートできなくなり、大規模モデルにはハイメモリ グラフィックス カードの方が適しているため、最先端のチームは H100 または A100 を好みます。

V100 を使用しない主な理由は、brainfloat16 (bfloat16、BF16) データ型がないことです。このタイプのデータがなければ、モデルを簡単にトレーニングすることは困難です。 OPT と BLOOM のパフォーマンスが低い主な理由は、このデータ型が存在しないことです (OPT は float16 でトレーニングされ、BLOOM は主に FP16 でプロトタイピングが行われたため、 BF16 で行われたトレーニング実行にデータを一般化することができませんでした)。

——ディープラーニング研究者

**• Nvida の GPU H100、GH200、DGX GH200、HGX H100、DGX H100 の違いは何ですか? **

• H100 = 1x H100 GPU;

• HGX H100 = NVIDIA サーバー リファレンス プラットフォーム。 OEM が Supermicro などのサードパーティ OEM によって製造された 4 GPU または 8 GPU サーバーを構築するために使用されます。

• DGX H100 = 8x H100 を搭載した公式 NVIDIA H100 サーバー。NVIDIA が唯一のサプライヤーです。

• GH200 = 1x H100 GPU と 1x Grace CPU。

• DGX GH200 = 256x GH200、2023 年後半に登場、おそらく NVIDIA のみから発売。

• 大規模なクラウド コンピューティング企業向けの MGX。

このうち、ほとんどの企業は、DGX H100 または 4 GPU HGX H100 サーバーの代わりに 8 GPU HGX H100 を購入することを選択しました。

**これらの GPU の個別の費用はいくらですか? **

8x H100 GPU を搭載した 1x DGX H100 (SXM) の価格は 460,000 ドルで、必要なサポート サービスなどを含めると約 100,000 ドルになります。スタートアップ企業は、最大 8 台の DGX H100 ボックス、合計 64 台の H100 に対して約 50,000 ドルのインセプション割引を受けることができます。

GPUの具体的な仕様は以下の通りです。

DGX H100の仕様

8 基の H100 GPU を搭載した 1 基の HGX H100 (SXM) の価格は、仕様 (ネットワーク、ストレージ、メモリ、CPU)、ベンダーのマージン、サポート レベルに応じて 300,000 ~ 380,000 ドルになります。仕様が DGX H100 とまったく同じである場合、企業はサポートを含めて 36 万ドルから 38 万ドルというより高い価格を支払う可能性があります。

8x H100 GPU を搭載した 1x HGX H100 (PCIe) は、仕様に応じてサポートを含めて約 30 万ドルです。

PCIe カードの市場価格は約 30,000 ドルから 32,000 ドルです。

SXM グラフィックス カードは単体で販売されていないため、価格設定が困難です。通常は 4GPU および 8GPU サーバーとしてのみ販売されます。

市場の需要の約 70 ~ 80% は SXM H100 に対するもので、残りは PCIe H100 に対するものです。前月までは PCIe カードのみが利用可能であったため、SXM セグメントの需要が増加しています。ほとんどの企業が 8GPU HGX H100 (SXM) を購入していることを考えると、他のサーバー コンポーネントを含めると、8 H100 あたりおよそ 360,000 ~ 380,000 ドルになります。

DGX GH200 には 256x GH200 が含まれており、各 GH200 には 1x H100 GPU と 1x Grace CPU が含まれています。推定によると、DGX GH200 の価格は 1,500 万~2,500 万米ドルになる可能性があります。

** GPU に対する市場の需要は何ですか? **

• GPT-4 トレーニングは、10,000 ~ 25,000 枚の A100 シートで実行できます。

• Meta には約 21,000 台の A100 があり、Tesla には約 7,000 台の A100 があり、Stability AI には約 5,000 台の A100 があります。

• Falcon 40B 訓練は 384 機の A100 で実施されました。

• Inflection は、GPT-3.5 同等モデルで 3500 枚の H100 シートを使用します。

12 月までに 22,000 個の GPU が使用され、現在では 3,500 個をはるかに超えるユニットが使用される予定です。

— ムスタファ・スレイマン氏、Inflection AI CEO

**Elon Musk によると、GPT-5 トレーニングでは 30,000 ~ 50,000 個の H100 が使用される可能性があります。 **モルガン・スタンレーは2023年2月にGPT-5が25,000個のGPUを使用することを提案し、その時点でGPT-5がすでにトレーニング中であるとも提案したが、後にサム・アルトマン氏は今年5月にこれを否定し、OpenAIはトレーニングしていないと述べたGPT-5 であるため、モルガン・スタンレーの情報は正確ではない可能性があります。

GCP には約 25,000 の H100 があり、Azure には 10,000 ~ 40,000 の H100 がある可能性があります。 Oracle についても同様であるはずです。さらに、Azure の容量のほとんどは OpenAI にプロビジョニングされます。

CoreWeave は約 35,000 ~ 40,000 の H100 を維持していますが、これは実際の数ではなく注文に基づいています。

**Startup は H100 を何台注文しましたか? **LLM 微調整タスクに使用する場合は、通常、数十または数百枚のシートを注文します。LLM トレーニングに使用する場合は、数千枚のシートが必要です。

**LLM セクターの企業はどれくらいの H100 を必要としますか? **

• OpenAI には 50,000、Inflection には 24,000、Meta には 25,000 が必要になる可能性があります (Meta には実際には 100,000 以上が必要であるという説もあります)。

• Azure、Google Cloud、AWS、Oracle などの大規模なクラウド サービス プロバイダーでは、それぞれ 30,000 が必要になる場合があります。

• Lambda や CoreWeave などのプライベート クラウド サービス プロバイダーとその他のプライベート クラウドを合計すると、最大 100,000 になる可能性があります。

• Anthropic、Helsing、Mistral、Character はそれぞれ 10,000 かかる場合があります。

上記の数字は推定と推測であり、クラウドをリースしている顧客など、一部の数字は二重にカウントされる可能性があります。 **一般に、現在の計算によると、H100 の数は約 432,000 であり、1 台あたり約 35,000 ドルで計算すると、総額約 150 億ドルの GPU となります。また、この43万2000という数字には、大量のH800を必要とするバイトダンス(TikTok)、百度、テンセントなどの中国企業は含まれていない。 **

さらに、Jane Street、JP Morgan、Two Sigma、Citadel など、一部の金融会社も数百から数千の A100/H100 を導入しています。

**これを NVIDIA データセンターの収益と比較するとどうですか? **2023 年 2 月から 4 月までの NVIDIA データセンターの収益は 42 億 8,000 万ドル。 2023 年 5 月 25 日から 7 月までのデータセンターの収益は約 80 億ドルになる可能性があります。 **これは主に、NVIDIA の当四半期の収益増加見通しは、他のビジネス分野からの収益の増加ではなく、データセンターの収益の増加によるものであるという仮定に基づいています。 **

このため、供給不足の解消にはしばらく時間がかかる可能性があります。しかし、コンピューティング能力の不足が誇張されている可能性があり、まず第一に、ほとんどの企業は必要なすべての H100 をすぐに購入するのではなく、徐々にアップグレードしており、さらに、NVIDIA も積極的に生産能力を増強しています。

市場全体で 400,000 台の H100 を保有することは、特に最近では誰もが 4 桁または 5 桁の H100 を大量に導入していることを考えると、手の届かない話ではありません。

—— プライベート クラウドの幹部

要約

• ほとんどの大規模な CSP (Azure、AWS、GCP、Oracle) とプライベート クラウド (CoreWeave、Lambda、その他さまざま) は、大規模な AI 製品にアクセスできるだけでなく、より多くの H100 GPU を好みます。同社はさらに多くの H100 GPU を追求しています。 。

• 通常、これらの企業は、SXM カードを備えた 8GPU HGX H100 シャーシを望んでいます。仕様とサポートに応じて、各 8GPU サーバーの費用は約 300 ~ 400 万ドルです。数十万個の H100 GPU に対する過剰需要があり、その総額は 150 億ドルを超える可能性があります。

• 供給が限られているため、NVIDIA は市場の均衡価格を見つけるために価格を引き上げることもできましたが、ある程度はそうしました。全体として、H100 GPU をどのように割り当てるかに関する最終的な決定は、NVIDIA 自体がどの顧客に H100 GPU を割り当てることを希望するかによって決まります。

03.H100 供給側分析

TSMC によるボトルネック

H100 は TSMC (TSMC) によって生産されています。**NVIDIA は、より多くの H100 を生産するために他のチップ工場を選択できますか?少なくともまだです。 **

NVIDIA は過去に Samsung と協力していましたが、Samsung は最先端の GPU に対するニーズに応えることができず、現在 NVIDIA は H100s GPU と TSMC 製のその他の 5nm GPU のみを使用できます。 **おそらく将来、NVIDIA は関連技術に関して Intel と協力するか、Samsung と協力し続けるでしょうが、どちらの状況も短期的には起こらないため、H100 の供給不足は緩和されません。 **

TSMCの5ナノメートル(N5)技術は2020年に量産開始となる。 N5 テクノロジーは TSMC の 2 番目の EUV プロセス テクノロジーであり、以前の N7 テクノロジーよりも高速で低消費電力を実現します。さらにTSMCは、性能と消費電力をさらに向上させるN5技術の強化版である4ナノメートル(N4)技術の投入も計画しており、2022年に量産を開始する予定だ。

H100 は、実際の 4nm プロセスではなく、5nm シリーズの拡張 5nm に属する TSMC 4N プロセスに基づいて製造されています。 **NVIDIA に加えて、Apple もこのテクノロジーを使用していますが、主に N3 に移行し、N3 容量のほとんどを維持しています。 **また、Qualcomm と AMD は N5 シリーズの大顧客です。

A100 は TSMC の N7 プロセスを使用します。

7ナノメートル(N7)はTSMCが2019年に量産を開始するプロセスノードだ。 TSMCは、N7に基づいて、EUV(極端紫外線リソグラフィー)を使用した7nm製造プロセスであるN7+プロセスも導入しました。これにより、チップの消費電力を削減しながらトランジスタ密度を15%から20%増加させます。

通常、フロントエンド プロセスのキャパシティ (Fab Capacity) は 12 か月以上前に計画されます。 TSMCとその主要顧客は来年の生産需要を共同で計画すると指摘されており、現在のH100の供給不足は、TSMCとNVIDIAが前年に今年のH100需要を誤って判断したことも一因であると指摘されている。

製造能力:

半導体チップのプロセスフローにおいて、FabとはFABRICATION(加工、製造)の略であり、Fab Capacityは生産能力と考えることができます。

別の情報筋によると、H100 が生産開始から顧客に販売されるまで(生産、梱包、テスト)には通常 6 か月かかるとのことですが、この状況はまだ確認されていません。

半導体業界の退職専門家は、TSMCのボトルネックはウェハ生産能力ではなく、本当のボトルネックは前述のCoWoS(三次元積層)にあると指摘した。

CoWoS (チップ・オン・ウェーハ・オン・サブストレート、三次元積層):

TSMCの2.5D一貫生産技術で、まずCoW(Chip on Wafer)パッケージングプロセスを通じてチップをシリコンウェーハに接続し、次にCoWチップを基板(Substrate)に接続してCoWoSに統合します。 。

DigiTimes によると、TSMC は CoWoS 生産能力の拡大に着手しており、CoWoS 生産能力を 2023 年末までに月あたり 8,000 枚のウェハから 11,000 枚まで、そして年末までに月あたり約 14,500 ~ 16,600 枚のウェハに増加する予定であるとのことです。 2024年。 NVIDIA、Amazon、Broadcom、Cisco、Xilinx などの大手テクノロジー企業はいずれも、TSMC の高度な CoWoS パッケージングに対する需要を高めています。

H100 メモリ

**メモリ タイプ (メモリ バイト)、メモリ バス幅 (メモリ バス幅)、およびメモリ クロック速度 (メモリ クロック速度) は、共同して GPU のメモリ帯域幅に影響します。 **NVIDIA は、H100 のバス幅とクロック速度を GPU アーキテクチャの一部として設計しました。 HBM3 メモリは主に H100 SXM で使用され、HBM2e は主に H100 PCIe で使用されます。

HBM は生産が難しく、供給が非常に限られているため、HBM の生産は悪夢です。ただし、HBM が作成されれば、残りの設計は簡単になります。

——Deepl Learning研究者

**メモリ タイプ、メモリ バス幅、メモリ クロック速度は、コンピュータ メモリの 3 つの重要な指標です。 **

メモリバス幅:

これはメモリモジュールとマザーボード間のデータ伝送チャネルの幅を指し、メモリバス幅が広いほどより大きなデータパスが提供され、メモリとプロセッサ間のデータ伝送速度が向上します。

メモリクロック速度:

メモリ モジュールの動作クロック周波数を指します。メモリ クロック速度が高いほど、メモリの読み取りおよび書き込み操作がより速く実行され、より高いデータ転送速度が提供されることを意味します。

HBM(高帯域幅メモリ):

グラフィックス プロセッシング ユニット (GPU) やその他の高性能コンピューティング デバイスで高速なメモリ アクセス速度を提供するために使用される高帯域幅メモリ テクノロジです。従来のグラフィックス カードやコンピューティング デバイスで使用されるメモリ テクノロジは、通常、パフォーマンスと消費電力の間に一定のバランスを持つ GDDR (グラフィックス ダブル データ レート) 設計に基づいています。 HBM テクノロジーは、GPU チップ上にメモリ スタックを配置し、高速垂直接続 (TSV) を通じて複数の DRAM チップをスタックすることで、より高い帯域幅とより低い消費電力を実現します。

HBM3 メモリの場合、NVIDIA はすべてまたは主に SK Hynix を使用する可能性があります。 NVIDIAのH100がSamsungのメモリを使用しているかどうかは不明ですが、NVIDIAが現在Micronのメモリを使用していないことは確かです。

HBM3 に関しては、一般的に SK Hynix が最大の生産量を誇り、次に Samsung が続き、3 位の Micron は前者 2 社との生産量の差が大きい。 SK Hynix は生産を増やしたようですが、NVIDIA は依然として生産を増やしてほしいと考えていますが、Samsung と Micron はまだ生産を増やすことができていません。

**GPU の製造には他に何が使用されますか? **

さらに、GPUの製造には多くの金属材料や部品が必要となるため、これらのリンクにおける原材料の不足は、次のようなGPUの供給ボトルネックも引き起こす可能性があります。

**• 金属および化学物質: **銅、タンタル、金、アルミニウム、ニッケル、錫、インジウム、パラジウムなどのシリコン (半金属) が含まれます。これらは、シリコンのラウンド製造から GPU の最終組み立てまで、さまざまな製造段階で使用されます。 、シリコン、レアアースなど。

**• コンポーネントとパッケージ材料: **基板、はんだボールとワイヤ、放熱化合物など。これらは、GPU のさまざまなコンポーネントの組み立てとリンクを完了するために使用され、GPU の動作に重要です。 GPU;

**• エネルギー消費量:**GPU チップの製造プロセスでは高精度の機械設備が使用されるため、大量の電力が必要です。

**NVIDIA は H100 不足にどのように対処していますか? **

NVIDIAは、今年下半期に供給を増やすことを明らかにしており、NVIDIAの最高財務責任者(CFO)は決算報告で、同社は供給問題の解決に全力を尽くしていると述べたが、それ以外には、それ以上の情報は伝えず、また、何も伝えなかった。 H100 に関連する具体的な数値はあります。

「私たちは今四半期の供給問題に取り組んでいますが、今年下半期に向けて大量の株式も購入しています。」

「今年下半期の供給は上半期よりも大幅に増加すると考えています。」

-- Nvidia の CFO、Colette Kress 氏、2023 年 2 月から 4 月の決算会見で

プライベート クラウド会社の幹部は、**次は市場に悪循環が起こる可能性があると考えています。つまり、不足により GPU 容量が AI 企業の堀とみなされ、それがさらなる GPU の買い占めにつながり、さらに不足が悪化するということです。 GPUの。 **

NVIDIA によるさまざまなアーキテクチャの発売間隔によると、H100 の次世代モデルは 2024 年末 (2024 年半ばから 2025 年初め) までリリースされない可能性があります。それ以前は、H100 が常に NVIDIA GPU のトップレベルの製品になります (GH200 と DGX GH200 はカウントされず、純粋な GPU ではなく、両方とも GPU として H100 を使用します)。

さらに、将来的にはメモリを増やした 120GB バージョンも登場する予定です。

04. H100を取得する方法

H100の販売者

Dell、HPE、Lenovo、Supermicro、Quanta などの相手先ブランド供給メーカー (OEM) が H100 および HGX H100 を販売していますが、InfiniBand の注文は NVIDIA Mellanox を通じて行う必要があります。

Mellanox は世界の主要な InfiniBand サプライヤーの 1 つであり、2015 年には世界の IB 市場における Mellanox のシェアは 80% に達しました。 2019 年、NVIDIA は Mellanox を 1 株あたり 125 ドルで買収し、取引総額は約 69 億ドルになりました。この買収により、NVIDIA はハイ パフォーマンス コンピューティングおよびデータ センターにおける市場シェアをさらに拡大することができ、AI 分野における NVIDIA の競争力が強化されます。

Mellanox の高速インターコネクト テクノロジと NVIDIA の GPU アクセラレータを組み合わせることで、NVIDIA はデータ センターに高帯域幅で低遅延のソリューションを提供できます。 Mellanox に加えて、IB 分野のもう 1 つのサプライヤーである QLogic の IB テクノロジーは、2012 年に Intel Corporation に買収されました。

CoreWeave や Lambda などの GPU クラウドは、OEM から GPU を購入し、スタートアップにリースします。ハイパースケール クラウド プレーヤー (Azure、GCP、AWS、Oracle) は、NVIDIA から直接購入することができますが、OEM と連携することもあります。

DGX の場合は、OEM を通じて購入も行われます。お客様は購入要件について NVIDIA とやり取りできますが、購入は NVIDIA に直接発注するのではなく、OEM を通じて行われます。

8 GPU HGX サーバーの納期は非常に長く、4 GPU HGX サーバーはかなり良好ですが、現実には誰もが 8 GPU サーバーを望んでいます。

**• H100 の注文から導入までどれくらい時間がかかりますか? **

導入は段階的なプロセスです。 5,000 GPU を注文した場合、4 ~ 5 か月以内に 2,000 または 4,000 GPU にアクセスできるようになり、その後、残りの GPU に 6 か月程度かかる可能性があります。

スタートアップの場合、GPU を購入する場合、OEM や再販業者に注文することはありません。通常、Oracle などのパブリック クラウド サービスを選択するか、Lambda などのプライベート クラウドへのアクセス権をレンタルします。 CoreWeave を利用するか、FluidStack やデータ センターと連携する OEM やプロバイダーなどのサービスを使用してアクセスをリースします。

**• 企業は独自のデータセンターまたはコロケーションを構築する必要がありますか? **

データセンターの設立には、データセンターの設立時期、ハードウェアに関する人材や経験の有無、設備投資の規模などを考慮する必要があります。

サーバーのレンタルとホスティングははるかに簡単です。独自のデータセンターを構築したい場合は、インターネットに接続するためにダークファイバー回線を自分の場所に敷設する必要があり、ファイバーのコストは 1 キロメートルあたり 10,000 ドルかかります。インターネット ブームの時代、インフラストラクチャのほとんどはすでに構築され、料金も支払われていました。今ならレンタルするだけで、かなり安くなります。

—— プライベート クラウドの幹部

データセンターを借りるか構築するかは二者択一であり、実際のニーズに応じて、企業は次のようなさまざまなオプションを選択できます。

  1. オンデマンド クラウド: 純粋にクラウド サービスをリース目的で使用します。

  2. 予約済みクラウド。

  3. ホスティング(サーバーを購入し、プロバイダーと協力してサーバーをホストおよび管理します)。

  4. セルフホスティング (サーバーを自分で購入してホスティングする)。

大量の H100 を必要とするほとんどのスタートアップは、予約済みクラウドまたはコロケーションを選択します。

**企業はクラウド サービス会社をどのように選択しますか? **

オラクルのインフラは3大クラウドに比べて信頼性が低いとの見方もあるが、顧客へのテクニカルサポートにもっと時間を費やしたいとしている。プライベートクラウド企業の専門家の中には、100%の企業がOracleベースのサービスに不満を持つ顧客を大量に抱えているだろうと述べた人もいるし、他社のCEOの中にはOracleのネットワーキング機能の方が強力であると信じている人もいる。

**通常、スタートアップはサービス サポート、価格、容量の組み合わせが最も優れている会社を選択します。 **

いくつかの大手クラウド サービス会社の主な違いは次のとおりです。

**• ネットワーキング: **AWS と Google Cloud は独自のアプローチを採用しているため、InfiniBand の導入が遅れていますが、大規模な A100/H100 クラスターを探しているほとんどのスタートアップは InfiniBand を探しています。

**• 可用性: **たとえば、Azure の H100 コンピューティング能力のほとんどは OpenAI によって使用されます。これは、他の顧客が利用できるコンピューティング能力があまりない可能性があることを意味します。

**事実に基づく根拠はありませんが、NVIDIA は競合する機械学習チップを開発していないクラウド サービス プロバイダーへの GPU 供給を優先する傾向があるのではないかとの憶測があります。 **大手クラウド サービス プロバイダー 3 社は現在、独自の機械学習チップを開発中ですが、AWS と Google の NVIDIA 代替チップはすでに市場に出ており、NVIDIA の市場シェアの一部を奪っています。これにより、市場では NVIDIA が Oracel との協力にさらに意欲を示すのではないかという憶測も生まれています。

大手クラウド会社の中には、他の会社よりも安い価格を設定している会社もあります。あるプライベート クラウド幹部は、「たとえば、AWS/AZURE の A100 は GCP よりもはるかに高価です」と述べています。

オラクルは私に、今年後半には「数万台の H100」が稼働する予定だと語った。ただし、価格面では他社に比べて高めです。彼らは H100 の価格を教えてくれませんでしたが、A100 80GB については 1 時間あたり 4 ドル近くの見積もりを出しました。これは、同じ消費電力と労力で、GCP の見積もりのほぼ 2 倍です。

  • 匿名

大手クラウド企業の 1 つが株式と引き換えに奇妙な取引を行う場合を除いて、小規模なクラウドは価格設定の点で有利です。

全体として、NVIDIA、Oracle、Azure との連携の緊密さという点では、GCP と AWS となりますが、これは単なる推測です。

Oracle は A100s の先駆者であり、Azure の顧客でもある Nvidia と提携して Nvidia ベースのクラスターをホストしました。

**• ネットワーク パフォーマンスが最高の大手クラウド会社はどれですか? **

Azure、CoreWeave、Lambda はすべて InfiniBand を使用します。 Oracle のネットワーク パフォーマンスは 3200 Gbps と優れていますが、InfiniBand の代わりに Ethernet を使用するため、高パラメータの LLM トレーニングなどの使用例では IB よりも約 15 ~ 20% 遅くなる可能性があります。 AWS や GCP のネットワークはそれほど良くありません。

**• 現在、企業はクラウドサービスをどのように選択しているのでしょうか? **

15 社の統計データによると、調査対象の 15 社すべてが AWS、GCP、または Azure を選択し、その中に Oracle は含まれていません。

ほとんどの企業は既存のクラウドを使用する傾向があります。しかし、起業家チームの場合、その選択はより現実に基づいています。コンピューティング能力を提供できる人がどちらかを選択することになります。

**• NVIDIA は DGX Cloud で誰と協力していますか? **

「Nvidia は、Oracle Cloud Infrastructure を皮切りに、DGX Cloud Infrastructure をホストするために主要なクラウド サービス プロバイダーと提携しています。」 - Nvidia と販売しますが、既存のクラウド プロバイダーを通じてリースします (最初は Oracle、次に Azure、次に Google Cloud と連携しませんでした) AWS)。

NVIDIA CEO の Jensen Huang 氏は、NVIDIA の決算会見で、「理想的な組み合わせは、NVIDIA DGX クラウドが 10%、CSP クラウドが 90% である」と述べました。

• クラウド大手の H100 スケジュール:

CoreWeave はその最初の 1 つでした。 CoreWeave の投資家として、また大手クラウド企業間の競争を強化するために、NVIDIA は最初に CoreWeave の提供を完了しました。

他のクラウドサービス会社のH100スケジュールは以下の通りです。

• Azure は、3 月 13 日に H100 のプレビューが利用可能になったことを発表しました。

• Oracle は 3 月 21 日に H100 の限定供給を発表しました。

• Lambda Labs は 3 月 21 日、H100 を 4 月初旬に発売すると発表した。

• AWS は 3 月 21 日、H100 が数週間以内にプレビュー版になると発表しました。

• Google Cloud は、5 月 10 日に H100 プライベート プレビューの開始を発表しました。

**• さまざまな企業がどのクラウド サービスを使用していますか? **

• OpenAI: Azure

• 変化: Azure と CoreWeave

• 人間性: AWS と Google Cloud

• Cohere:AWS と Google Cloud

• ハグフェイス: AWS

• 安定性 AI: CoreWeave と AWS

• Character.ai: Google Cloud

• X.ai: オラクル

• NVIDIA: アジュール

**GPU クォータを増やすにはどうすればよいですか? **

最後のボトルネックは、コンピューティングパワーの配分をNVIDIAから得られるかどうかだ。

**• NVIDIA はどのようにして顧客を選択しますか? **

NVIDIA は通常、各顧客に特定の数の GPU を割り当てます。このプロセスでは **NVIDIA が最も懸念しているのは「エンド カスタマーが誰であるか」です。たとえば、Azure は「Inflection をサポートするために 10,000 台の H100 を購入したい」と述べました。 「Azure 用に H100 を 10,000 台購入しました」という Azure に対応する結果は異なります。 **NVIDIA が特定のエンド顧客に関心がある場合、クラウド会社は追加の GPU クォータを取得することが可能です。したがって、NVIDIA は最終顧客が誰なのかをできる限り知りたいと考えており、彼らは強力な支持を得ている大企業や新興企業を好むことになるでしょう。

はい、そのようです。 Nvidia は、AI スタートアップ (その多くは Nvidia と密接な関係にあります) に GPU アクセスを提供することを好みます。 Nvidia が投資した AI 企業 Inflection は、CoreWeave 上の巨大な H100 クラスターをテストしています。

—— プライベート クラウドの幹部

特定のクラウド会社がエンド顧客を NVIDIA に連れてきて、一定量の H100 を購入する用意があると表明し、NVIDIA がこのエンド顧客に興味を持っている場合、通常、NVIDIA は一定の割り当てを与え、実際に NVIDIA が購入する金額が増加します。エンド カスタマーに割り当てるクラウド会社の総容量 (この割り当ては、NVIDIA によってクラウド会社に元々与えられた割り当てとは独立しているため)。

NVIDIA によるプライベート クラウドへの大容量の割り当ては特殊なケースです。**CoreWeave には GCP よりも多くの H100 があります。 NVIDIA は、NVIDIA と直接競合しようとする企業 (AWS Inferentia および Tranium、Google TPU、Azure Project Athena) に大量のリソースを割り当てることに消極的です。 **

しかし、結局のところ、NVIDIA に発注書と資金を提出し、より多くの前払い資金でより大きな取引にコミットし、リスクの低いプロフィールを示した場合、他の誰よりも多くの GPU クォータを獲得できるはずです。

05. まとめ

Sam Altman 氏が言ったように、「大規模なモデルを使用する時代は終わりに近づいています」とはいえ、現時点ではまだ GPU による制限を受けています。 OpenAI のような企業は、ChatGPT などの優れた PMF 製品をすでに持っていますが、GPU による制限があるため、大量のコンピューティング パワーを購入する必要がある一方で、多くのチームが参加の可能性に取り組んでいます。将来的には LLM で ChatGPT のようなものを作成する可能性に関係なく GPU を蓄えます。

しかし、NVIDIA の発言権が揺るがれないことは間違いありません。

現時点で、PMF が行う最良の LLM 製品は ChatGPT です。以下では、GPU が不足している理由を説明する例として ChatGPT を使用しています。

  1. ChatGPT はユーザーに非常に人気があるため、ARR (年間経常収益) は 5 億米ドルを超える可能性があります。

  2. ChatGPT は GPT-4 および GPT-3.5 の API 上で動作します。

  3. GPT-4 と GPT-3.5 の API は動作するために GPU を必要とし、多数の GPU が必要です OpenAI は ChatGPT とその API の機能をさらにリリースしたいと考えていますが、GPU の数が限られているため実現できません。 GPU;

  4. OpenAI は、Microsoft (Azure) を通じて多数の NVIDIA GPU を購入しました。

  5. H100 SXM GPU を製造するために、NVIDIA は製造に TSMC を使用し、TSMC の CoWoS パッケージング テクノロジと主に SK Hynix の HBM3 を使用します。

OpenAI に加えて、市場には独自の大規模モデルをトレーニングしている企業が数多くあります。LLM にどれだけのバブルが存在するのか、そして最終的に PMF 製品が登場する可能性がどのくらいあるのかはさておきますが、一般的に、LLM の競争は市場の GPU 需要を押し上げました。また、当面はGPUが必要なくても、将来が不安なので事前に備蓄を始める企業も出てきています。つまり、「供給不足の予想が供給不足を悪化させる」ようなものです**。

したがって、GPU の需要を押し上げるもう 1 つの要因は、新しい LLM を作成したり、将来的に AI に参加したいと考えているエンタープライズ企業です。

  1. 大規模モデルの重要性はコンセンサスになっています。成熟した企業であれば、自社のデータに基づいて LLM をトレーニングし、それがより多くのビジネス価値をもたらすことを望んでいますが、新興企業としては、 LLM を独自に開発し、それを商業的価値に変換します。 GPU は大規模なモデルをトレーニングする場合にのみ必要です。

  2. 十分な H100 を獲得しようとする、これらの企業と大手クラウド ベンダー (Azure、Google Cloud、AWS) 間のコミュニケーション。

  3. その過程で、クラウド ベンダーには割り当てるのに十分な H100 がないことが判明し、一部のクラウド ベンダーにもネットワーク構成に欠陥があることが判明したため、CoreWeave、Oracle、Lambda、FluidStack も GPU を購入して所有するようになりました。おそらく彼らも議論するでしょう。 OEM および NVIDIA との提携。

  4. 最終的に、彼らは大量の GPU を手に入れました。

  5. 現在、彼らは自社の製品を市場に適合させようとしています。

  6. まだ明確でない場合のために説明しますが、この道は簡単ではありません。OpenAI はより小規模なモデルで製品市場への適合を達成し、その後それをスケールアップしたことを思い出してください。しかし現在、プロダクトマーケットフィットを達成するには、OpenAI のモデルよりもユーザーのユースケースに適合する必要があるため、そもそも OpenAI よりも多くの GPU が必要です。

**少なくとも 2023 年末までは、数百または数千の H100 を導入する企業では不足が発生するでしょう。おそらく 2023 年末までには状況がより明確になるでしょうが、GPU の不足は 2024 年まで続く可能性があるようです。 **

GPU の需要と供給の推移

参照

エンタープライズ向けカスタム LLM スタートアップの創設者からのコメント

クラウドプロバイダーからのメッセージ

クラウド企業やGPUプロバイダーの方々との会話

Tesla 2023 年第 1 四半期 (2023 年 1 月 1 日から 2023 年 3 月 31 日までを対象) 決算説明会

クラウド企業のコメント

クラウド企業からの推測の概略

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)