تحليل العرض والطلب H100: إلى متى ستستمر حرب الرقائق؟

المؤلف: كلاي باسكال

بقلم: وينلي ، لافيدا ، يونهاو

تم ترشيحها بواسطة: Cage ، Huaiwei

المصدر: ما وراء البحار يونيكورن

مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI

يعتمد الاختراق الذي حققته النماذج الكبيرة على تحسين قوة حوسبة الأجهزة وقدرات الحوسبة السحابية ، حيث تواجه NVIDIA H100 ، التي تعتبر "القنبلة النووية" لوحدة معالجة الرسومات ، أخطر نقص في التاريخ. صرح Sam Altman مباشرة أن النقص في وحدات معالجة الرسومات يحد من سرعة ترقيات تقنية OpenAI من حيث الضبط الدقيق والسعة المخصصة ونوافذ السياق 32K والوسائط المتعددة.

تم تجميع هذه المقالة من GPU Utils. يناقش المؤلف بشكل أساسي المدة التي ستستغرقها وحدات معالجة الرسومات (خاصة NVIDIA H100) من منظور العرض والطلب.

من منظور الطلب ، فإن NVIDIA H100 بلا شك طلب صارم لتدريب النماذج الكبيرة ، وفقًا للتقديرات ، يبلغ الطلب الحالي على H100 في السوق حوالي 432000 ورقة ، وهو ما يعادل إجمالي قيمة حوالي 35000 دولار أمريكي لكل ورقة. بسعر 15 مليار دولار أمريكي لوحدة معالجة الرسومات ** ، لا يشمل الرقم 432 ألفًا شركات مثل ByteDance (TikTok) و Baidu و Tencent التي تحتاج إلى الكثير من H800.

على جانب العرض ، فإن النقص في H100 مقيد بشكل مباشر بالقدرة الإنتاجية لشركة TSMC ، وعلى المدى القصير ، لا يوجد لدى NVIDIA مصانع شرائح بديلة أخرى. بسبب الشحنات المحدودة ، تمتلك NVIDIA أيضًا إستراتيجيتها الخاصة حول كيفية تخصيص وحدات معالجة الرسومات هذه. بالنسبة إلى NVIDIA ، فإن كيفية ضمان تدفق وحدات معالجة الرسومات المحدودة هذه إلى الخيول المظلمة للذكاء الاصطناعي بدلاً من المنافسين المحتملين مثل Google و Microsoft و AWS أمر مهم للغاية.

ما هي المدة التي سيستغرقها سباق تسلح الذكاء الاصطناعي حول H100؟ الجواب ليس واضحا بعد. على الرغم من أن NVIDIA قالت إنها ستزيد العرض في النصف الثاني من العام ، يبدو أن النقص في وحدات معالجة الرسومات قد يستمر حتى عام 2024.

محيطة بنقص H100 ، قد يدخل السوق في "حلقة مفرغة": تؤدي الندرة إلى اعتبار سعة وحدة معالجة الرسومات بمثابة خندق لشركات الذكاء الاصطناعي ، مما يؤدي إلى المزيد من اكتناز وحدة معالجة الرسومات ، مما يزيد من حدة النقص في وحدة معالجة الرسومات.

** فيما يلي جدول محتويات هذه المقالة ، ويوصى بقراءته مع النقاط الرئيسية. **

** 👇 **

01 خلفية

02 تحليل متطلبات H100

03 H100 تحليل جانب العرض

04 كيف تحصل على H100

05 ملخص

** 01. خلفية **

حتى أغسطس 2023 ، كان تطوير مجال الذكاء الاصطناعي مقيدًا باختناق إمداد وحدة معالجة الرسومات.

"أحد أسباب التقليل من ازدهار الذكاء الاصطناعي هو نقص GPU / TPU. يحد النقص في وحدات معالجة الرسومات (GPU) و (TPU) من سرعة تقديم المنتج والتقدم في تدريب النموذج ، ولكن هذه القيود مخفية. نحن نشهد بشكل أساسي ارتفاع سعر سهم NVIDIA ، وليس التقدم في البحث والتطوير مقيد ، وستتحسن الأمور عندما يكون العرض والطلب متوازنين.

—آدم دانجيلو ، الرئيس التنفيذي لشركة Quora ، Poe.com ، كبير مسؤولي التكنولوجيا السابقين في Facebook

* هؤلاء هم الرؤساء التنفيذيون والشركات الأكثر أهمية في العرض والطلب لوحدة معالجة الرسومات والذكاء الاصطناعي *

قال Sam Altman إن النقص في وحدات معالجة الرسومات قد حد من تقدم مشاريع OpenAI ، مثل الضبط الدقيق ، والسعة المخصصة ، ونوافذ السياق 32K ، والوسائط المتعددة ، وما إلى ذلك.

مجموعات H100 واسعة النطاق من مزودي الخدمات السحابية الصغيرة والكبيرة تنفد من السعة.

"الكل يريد NVIDIA لإنتاج المزيد من A / H100s."

  • معلومات من المديرين التنفيذيين لمزود الخدمات السحابية

"نظرًا للنقص الحالي في وحدة معالجة الرسومات (GPU) ، من الأفضل لشركة OpenAI أن يستخدم عدد أقل من الأشخاص منتجاتنا" ؛

"سنكون سعداء حقًا إذا استخدم الناس منتجات OpenAI بشكل أقل لأننا لا نملك عددًا كافيًا من وحدات معالجة الرسومات".

—سام التمان ، الرئيس التنفيذي لشركة OpenAI

من ناحية أخرى ، تُظهر كلمات Sam Altman بمهارة أن منتجات OpenAI كانت محبوبة من قبل المستخدمين في جميع أنحاء العالم ، ولكنها في الوقت نفسه توضح أيضًا حقيقة أن OpenAI تحتاج إلى المزيد من وحدات معالجة الرسومات لزيادة تعزيز وظائفها وترقيتها.

يواجه Azure و Microsoft أيضًا موقفًا مشابهًا ، وذكر شخص مجهول:

• تمنع الشركة الموظفين من استخدام وحدات معالجة الرسومات ، ويتعين على الجميع الوقوف في طوابير للتقدم للحصول على قوة الحوسبة مثل طلاب الجامعات في السبعينيات من أجل استخدام أجهزة الكمبيوتر. من وجهة نظري ، تقوم OpenAI حاليًا بامتصاص جميع موارد وحدة معالجة الرسومات ؛

• في يونيو من هذا العام ، كان التعاون بين Microsoft و CoreWeave أساسًا لتعزيز تزويد وحدة معالجة الرسومات / الحوسبة الخاصة بشركة Microsoft.

** كور نسج : **

موفرو خدمات الحوسبة السحابية ، وفقًا لموقع CoreWeave الرسمي ، فإن خدماتهم أرخص بنسبة 80 ٪ من بائعي الحوسبة السحابية التقليدية. في أبريل 2023 ، تلقت CoreWeave استثمار NVIDIA في الجولة B وحصلت على عدد كبير من بطاقات H100 الجديدة. وفي يونيو ، وقعت Microsoft أيضًا اتفاقية مع CoreWeave. ستستثمر Microsoft مليارات الدولارات في السنوات القليلة المقبلة لبناء البنية التحتية للحوسبة السحابية.

في يوليو ، أطلقت CoreWeave أسرع مشروع كمبيوتر عملاق للذكاء الاصطناعي في العالم بالشراكة مع NVIDIA ، وأنشأت Inflection AI واحدًا من أكثر النماذج اللغوية واسعة النطاق تعقيدًا في العالم على CoreWeave Cloud باستخدام البنية التحتية التي تدعم عمليات إرسال MLPerf. بالإضافة إلى ذلك ، استخدمت CoreWeave بطاقة تسريع NVIDIA H100 في يديها كضمان ، وأعلنت في أغسطس أنها أكملت تمويل ديون بقيمة 2.3 مليار دولار.

باختصار ، فإن المعروض من وحدات معالجة الرسومات H100 قصير جدًا بالفعل. حتى أن هناك شائعات تفيد بأن سعة ** Azure و GCP تنفد عمليًا ، وأن AWS تنفد سعتها. **

سبب النقص هو أن NVIDIA توفر فقط عددًا كبيرًا جدًا من وحدات معالجة الرسومات H100 لموفري الخدمات السحابية ، نظرًا لأن إخراج وحدة معالجة الرسومات H100 من NVIDIA لا يمكنه تلبية الطلب ، فإن قوة الحوسبة التي يمكن لمزودي الخدمات السحابية توفيرها ستبدأ بشكل طبيعي في نقص المعروض.

** إذا كنت تريد فهم عنق الزجاجة في قوة الحوسبة ، يمكنك التركيز على الأسئلة التالية: **

• ما هي الأسباب المحددة لهذا الموقف؟ :

  • ما هو حجم الطلب؟ على سبيل المثال ، في المجالات التي يتزايد فيها الطلب على الذكاء الاصطناعي بسرعة نسبية ؛

  • ما هو حجم العرض؟ ما إذا كانت الطاقة الإنتاجية لمصنعي وحدة معالجة الرسومات مثل NVIDIA كافية لتلبية الطلب ؛

• إلى متى سيستمر هذا النقص؟ متى سيصل العرض والطلب لوحدات معالجة الرسومات تدريجياً إلى نقطة التوازن؟

• ما هي السبل التي يمكن بها التخفيف من هذا النقص بشكل فعال؟

** 02.H100 تحليل متطلبات **

** حلل المشكلات الرئيسية المتعلقة باختناقات طاقة الحوسبة من جانب الطلب: **

  1. على وجه التحديد ، ما هو الشيء الذي يرغب الناس في شرائه ولكن يواجهون صعوبة في الحصول عليه؟

  2. ما هو حجم الطلب على GPU في السوق الحالية؟

  3. لماذا تفضل الشركات NVIDIA H100 على وحدات معالجة الرسومات المختلفة؟

  4. ما هي أنواع وحدات معالجة الرسومات الموجودة حاليًا في السوق؟

  5. أين يمكن للمؤسسات شراء وحدات معالجة الرسومات؟ ما هي أسعارها؟

** من هم طالبو H100؟ **

** الشركات التي يزيد طلبها عن 1000 H100 أو A100: **

• ** تدريب الشركات الناشئة ماجستير: **

OpenAI (عبر Azure) ، و Anthropic ، و Inflection (عبر Azure و CoreWeave) ، و Mistral AI ؛

• ** مقدمو الخدمات السحابية (CSPs): **

بالإضافة إلى الشركات العملاقة الثلاثة لـ Azure و GCP و AWS ، هناك أيضًا موفرو سحابة Oracle و GPU مثل CoreWeave و Lambda ؛

• ** عمالقة التكنولوجيا الآخرون: **

على سبيل المثال ، Tesla (** ملاحظة: ** Meta و Apple وغيرها من الشركات العملاقة التي لم يذكرها المؤلف الأصلي هنا لديها أيضًا الكثير من الطلب على وحدات معالجة الرسومات ، تستخدم Google بشكل أساسي TPU لمعالجة الحسابات ، والطلب على H100 بشكل أساسي منصة جوجل السحابية).

بالإضافة إلى الشركات المذكورة أعلاه ، إذا احتاجت الشركة إلى إجراء الكثير من الضبط الدقيق لـ LLM ، فإنها تحتاج أيضًا إلى الاحتفاظ بما لا يقل عن 100 H100 أو A100.

بالنسبة للشركات التي تتبنى السحب الخاصة (CoreWeave و Lambda) والشركات التي لديها مئات إلى آلاف من أسهم H100 ، فإنها تواجه بشكل أساسي تقريبًا عمل LLM وبعض نماذج الانتشار (نموذج الانتشار). تختار بعض الشركات ضبط النماذج الحالية ، لكن المزيد من الشركات الناشئة في مجال الذكاء الاصطناعي تبني نماذج كبيرة جديدة خاصة بها من الصفر. ** عادة ما توقع هذه الشركات عقودًا مع مزودي خدمة سحابية خاصة تتراوح قيمتها بين 10 و 50 مليون دولار لمدة 3 سنوات وتستخدم بضع مئات إلى بضعة آلاف من وحدات معالجة الرسومات. **

بالنسبة للشركات التي تستخدم عددًا صغيرًا فقط من وحدات معالجة الرسومات H100 عند الطلب ، فإن المهام المتعلقة بـ LLM تشكل جزءًا كبيرًا من استخدام GPU ، ويمكن لـ LLM استخدام أكثر من 50٪ من وحدة معالجة الرسومات.

في الوقت الحالي ، تفضل المؤسسات السحابة الخاصة ، وعلى الرغم من أن هذه المؤسسات عادةً ما تختار مزودي الخدمات السحابية الكبيرة الافتراضية ، إلا أنها تواجه أيضًا خطر الاستبعاد.

** • هل معامل الذكاء الاصطناعي الكبيرة مقيدة بمهام الاستدلال أو مهام التدريب؟ **

يعتمد هذا السؤال على مدى جاذبية منتجهم. بعبارة أخرى ، فإن جاذبية منتجات الشركة مهمة جدًا في تحديد تخصيص الموارد ، وفي حالة الموارد المحدودة ، غالبًا ما يكون لأولويات التفكير والتدريب تركيزها الخاص. يرى Sam Altman أنه إذا كان لا بد من اتخاذ قرار ، فإن OpenAI تميل أكثر لتعزيز قدرات التفكير ، ولكن OpenAI حاليًا محدود في كلا الجانبين.

** لماذا نحتاج H100 فقط لتدريب ماجستير في القانون **

يستخدم معظم السوق الحالي وحدات معالجة الرسومات NVIDIA H100. وذلك لأن H100 GPU هي الأسرع من حيث الاستدلال والتدريب في LLM ، ولديها أيضًا أفضل أداء لتكلفة الاستدلال. على وجه التحديد ، تختار معظم الشركات استخدام خادم 8-GPU HGX H100 SXM.

وفقًا لتحليلي ، لنفس الوظيفة ، فإن H100 أكثر فائدة من حيث التكلفة. تعد وحدة معالجة الرسومات V100 خيارًا جيدًا إذا كان بإمكانك العثور على وحدة مستخدمة ، ولكن هذا غير ممكن في كثير من الأحيان.

—— شخص مجهول

من حيث الاستدلال ، وجدنا أن وحدة معالجة الرسومات A10G أكثر من كافية وأقل تكلفة بكثير.

—— مدير تنفيذي خاص بالسحابة الإلكترونية

لاحظنا أيضًا استخدام Falcon 40b و llama2 70b بكثافة ، حيث لم يعد هذا البيان دقيقًا. لذلك ، تعد سرعة الاتصال البيني مهمة جدًا لمهام الاستدلال.

  • (آخر) مدير السحابة الخاصة

** فالكون 40 ب **

Falcon هو نموذج أساسي للغة كبيرة مع 40 مليار معلمة ، فالكون 40b يهدف إلى استخدام قوة حوسبة تدريب أقل لتحقيق نتائج أفضل ، ويمثل النموذج 75٪ فقط من حوسبة التدريب GPT-3 ، و 40٪ من Chinchilla و PaLM-62B 80٪ تحت التدريب. في 25 مايو 2023 ، أعلن معهد الإمارات للابتكار التكنولوجي أنه سيفتح المصدر Falcon 9 للبحث والاستخدام التجاري ، وبعد إطلاقه ، تصدّر مرة واحدة قائمة Hugging Face مفتوحة المصدر LLM.

** • ما هي الاحتياجات المشتركة لفرق ريادة الأعمال في LLM؟ **

** بالنسبة للشركات الناشئة LLM ، غالبًا ما يختارون H100 GPU مع 3.2 تيرابايت / ثانية InfiniBand لتدريب LLM. على الرغم من أن الجميع تقريبًا يفضل H100 في الجلسة التدريبية ، إلا أن هذه الشركات في جلسة الاستدلال تولي اهتمامًا أكبر لأداء التكلفة ، أي الأداء الناتج لكل دولار. **

لا تزال هناك بعض المشكلات المتعلقة بالأداء مقابل كل دولار لوحدات معالجة الرسومات H100 مقارنةً بـ A100 ، ولكن لا تزال وحدات H100 مفضلة بسبب تحجيمها الأفضل وأوقات التدريب الأسرع ، بينما تبدأ السرعة / الضغط أو القطارات أو تحسين توقيت النموذج أمر بالغ الأهمية بالنسبة الشركات الناشئة.

"بالنسبة للتدريب متعدد العقد ، فإنهم جميعًا يحتاجون إلى وحدة معالجة رسومات A100 أو H100 مع شبكة InfiniBand. والشرط الوحيد غير A / H100 الذي لاحظناه كان للاستدلال ، حيث كان عبء العمل عبارة عن وحدة معالجة رسومات واحدة أو عقدة واحدة."

—— مدير تنفيذي خاص بالسحابة الإلكترونية

** العوامل الرئيسية التي تؤثر على تدريب LLM هي: **

** • عرض النطاق الترددي للذاكرة: ** في مواجهة كمية كبيرة من البيانات المحملة من الذاكرة ، يمكن للنطاق الترددي الأعلى للذاكرة تسريع تحميل البيانات ؛

** • قوة الحوسبة النموذجية (FLOPS ، عمليات الفاصلة العائمة في الثانية): ** نواة Tensor أو وحدة ضرب مصفوفة مكافئة ، والتي تؤثر بشكل أساسي على سرعة الحساب ؛

** • ذاكرة التخزين المؤقت وذاكرة التخزين المؤقت: ** يمكن لذاكرة التخزين المؤقت تخزين البيانات مؤقتًا للوصول المتكرر ، مما يؤثر بشكل كبير على الأداء ؛

** • ميزات إضافية: ** مثل FP8 (رقم فاصلة عائمة 8 بت) ، وما إلى ذلك ، يمكن للتنسيقات الرقمية منخفضة الدقة تسريع التدريب والاستدلال ؛

** • أداء الحوسبة: ** يرتبط بعدد نوى GPU CUDA ، ويؤثر بشكل أساسي على عدد المهام التي يمكن تنفيذها بالتوازي ؛

** • سرعة الاتصال البيني: ** لعرض النطاق الترددي السريع للتوصيل البيني بين العقد مثل InfiniBand ، سيؤثر هذا العامل على سرعة التدريب الموزع.

** يُفضل H100 على A100 ويرجع ذلك جزئيًا إلى انخفاض زمن انتقال ذاكرة التخزين المؤقت في H100 وإمكانية حوسبة FP8. **

إن H100 هو الخيار الأول حقًا لأنه أكثر كفاءة بثلاث مرات من A100 ولكنه يكلف فقط 1.5 - 2x من A100. كيف تفكر في تكلفة النظام بأكمله ، فإن الأداء لكل دولار من H100 أعلى أيضًا ، إذا كنت تفكر في أداء النظام ، فقد يكون الأداء لكل دولار أعلى 4-5 مرات.

—— باحث عميق التعلم

** ما سبب أهمية الدقة العددية؟ **

يمكن لأرقام الفاصلة العائمة منخفضة الدقة تحسين التدريب وسرعة الاستدلال. على سبيل المثال ، FP16 لديها نصف مساحة ذاكرة FP32 وهي أسرع بثلاث مرات من FP32 من حيث سرعة الحساب. في عملية تدريب LLM ، من أجل ضمان التوازن بين السرعة والدقة ، يتم استخدام طرق مثل الدقة المختلطة والدقة التكيفية لتسريع نماذج اللغة الكبيرة.لذلك ، يعد دعم الدقة المتعددة أحد الاعتبارات المهمة لتدريب النماذج اللغوية الكبيرة. اقترحت Google التنسيق العددي BFP16 ، والذي يوسع النطاق العددي مع تقليل الدقة ، والأداء أفضل من FP 32.

** • إلى جانب وحدة معالجة الرسومات ، ما هي روابط التكلفة في تدريب LLM وتشغيله؟ **

** تعد وحدة معالجة الرسومات حاليًا أغلى مكون في البنية التحتية لتدريب LLM بالكامل ، ولكن الجوانب الأخرى للتكلفة ليست منخفضة ، والتي لها تأثير أيضًا على تكاليف التدريب والتشغيل لـ LLM: **

  1. تعد ذاكرة النظام ومحركات أقراص الحالة الصلبة NVMe SSD باهظة الثمن: تتطلب النماذج الكبيرة الكثير من الذاكرة عالية السرعة ومحركات أقراص الحالة الصلبة عالية السرعة لتخزين البيانات وتحميلها ، وكلا المكونين باهظ الثمن ؛

  2. الشبكات عالية السرعة باهظة الثمن: تعد الشبكات عالية السرعة مثل InfiniBand (المستخدمة للاتصال بين العقد) باهظة الثمن ، خاصة بالنسبة للتدريب الكبير الموزع.

ربما تذهب 10٪ -15٪ من التكلفة الإجمالية لتشغيل مجموعة ما إلى الكهرباء والاستضافة ، مقسمة بالتساوي تقريبًا بين الاثنين. تشمل تكاليف الكهرباء الكهرباء ، وتكاليف بناء مركز البيانات ، وتكاليف الأرض والموظفين ، وما إلى ذلك ، حوالي 5٪ -8٪ ؛ وتشمل تكاليف الاستضافة الأرض والمباني والموظفين ، وما إلى ذلك ، حوالي 5٪ -10٪. **

شاغلنا الرئيسي هو الشبكة ومركز البيانات الموثوق. لم تكن AWS مناسبة بشكل جيد بسبب قيود الشبكة والأجهزة غير الموثوق بها.

—— باحث التعلم العميق

** • كيف تساعد تقنية GPUDirect في تدريب LLM؟ **

** GPUDirect من NVIDIA ليس مطلوبًا لتدريب LLM ، ولكنه يمكن أن يساعد أيضًا في الأداء: **

يمكن لتقنية GPUDirect تحسين الأداء ، ولكن ليس بالضرورة الاختلاف فوق الحرج. يعتمد الأمر في الغالب على مكان عنق الزجاجة في نظامك. بالنسبة لبعض البنى / تطبيقات البرامج ، فإن عنق الزجاجة في النظام ليس بالضرورة الشبكة. ** ولكن في حالة الشبكات ، يمكن لـ GPUDirect تحسين الأداء بنسبة 10٪ -20٪ ، وهو رقم كبير مقابل تكاليف تشغيل التدريب الباهظة. **

ومع ذلك ، فإن GPUDirect RDMA منتشر في كل مكان الآن لدرجة أن شعبيته تتحدث عن نفسها تقريبًا. أعتقد أن دعم GPUDirect ضعيف للشبكات غير Infiniband ، لكن معظم مجموعات GPU المحسّنة لتدريب الشبكة العصبية بها شبكات / بطاقات Infiniband. ربما يكون NVLink هو العامل الأكبر للأداء ، لأنه نادر من Infiniband ، ولكنه مهم أيضًا فقط إذا كنت تستخدم استراتيجية موازاة محددة.

لذلك ، يمكن لميزات مثل الشبكات القوية و GPUDirect أن تجعل البرامج الأقل تعقيدًا تعمل خارج الصندوق. ومع ذلك ، فإن GPUDirect ليس مطلوبًا بشكل صارم إذا تم النظر في التكلفة أو البنية التحتية القديمة.

—— باحث عميق التعلم

** GPUDirect **

تُستخدم تقنية نقل البيانات المسماة GPUDirect Storage (GPUDirect Storage) التي قدمتها NVIDIA بشكل أساسي لتسريع نقل البيانات المخزنة في مخازن مختلفة إلى ذاكرة GPU ، والتي يمكن أن تزيد من عرض النطاق الترددي بمقدار 2 إلى 8 مرات ، ويمكن أيضًا تقليل النهاية- يصل التأخير حتى 3.8 مرة. في الماضي ، كانت وحدة المعالجة المركزية مسؤولة عن تحميل البيانات من الذاكرة إلى وحدة معالجة الرسومات ، مما حد بشكل كبير من أداء الأجهزة.

المسار القياسي لنقل البيانات من قرص NVMe إلى ذاكرة وحدة معالجة الرسومات هو استخدام المخزن المؤقت للارتداد (Bounce Buffer) في ذاكرة النظام ، وهو نسخة بيانات إضافية. يتمثل جوهر تقنية تخزين GPUDirect في تجنب استخدام ذاكرة التخزين المؤقت للارتداد لتقليل نسخ البيانات الإضافية ، واستخدام محرك الوصول المباشر للذاكرة (الوصول المباشر للذاكرة ، DMA) لوضع البيانات مباشرة في ذاكرة وحدة معالجة الرسومات.

** لماذا لا تستطيع شركة LLM استخدام وحدة معالجة الرسومات AMD؟ **

قال مسؤول تنفيذي لشركة سحابية خاصة أنه من الممكن نظريًا شراء وحدات معالجة الرسومات AMD ، لكن الأمر يستغرق وقتًا معينًا من الشراء إلى التشغيل الفعلي للمعدات. أدخل السوق متأخرًا. لذلك ، CUDA هو الخندق الحالي لـ NVIDIA.

ذكرت دراسة MosaicML أن وحدات معالجة الرسومات AMD مناسبة أيضًا لمهام التدريب النموذجية الكبيرة. لقد جربوا مهمة تدريب بسيطة تعتمد على PyTorch دون أي تعديل للكود مقارنة بالتشغيل على NVIDIA. يوضح المؤلفون أنه طالما أن قاعدة الشفرة مبنية على PyTorch ، فيمكن استخدامها مباشرة على AMD دون تعديل إضافي. في المستقبل ، يخطط المؤلف للتحقق من أداء نظام AMD على مجموعة حوسبة أكبر.

في الوقت نفسه ، هناك أيضًا وجهة نظر مفادها أنه بالنظر إلى أن تكلفة التدريب النموذجي تقترب من 300 مليون دولار أمريكي ، فلن يخاطر أحد بالاعتماد على رقائق من AMD أو غيرها من الشركات الناشئة على نطاق واسع ، خاصة عندما يكون الطلب على الرقائق بأمر من أكثر من 10000.

ذكر أحد المتقاعدين في صناعة أشباه الموصلات أيضًا أن حالة إمداد AMD ليست متفائلة ، وقد تم استيعاب قدرة إنتاج TSMC CoWoS بواسطة NVIDIA ، لذلك على الرغم من أن MI250 قد يكون بديلاً قابلاً للتطبيق ، إلا أنه من الصعب الحصول عليه أيضًا.

** H100 VS A100 **

** نفيديا A100 : **

ترقية NVIDIA V100 ، مقارنة بـ V100 ، تم تحسين أداء A100 بمقدار 20 مرة ، وهو مناسب جدًا لمهام مثل الذكاء الاصطناعي وتحليل البيانات. يتألف A100 من 54 مليار ترانزستور ، وهو يدمج نوى Tensor من الجيل الثالث مع تسريع عمليات المصفوفة المتفرقة ، وهو مفيد بشكل خاص لاستدلال الذكاء الاصطناعي والتدريب. بالإضافة إلى ذلك ، يمكن الاستفادة من وحدات معالجة الرسومات A100 المتعددة لأعباء عمل استدلال الذكاء الاصطناعي الأكبر باستخدام تقنية NVIDIA NVLink للتوصيل البيني.

** نفيديا H100 : **

الجيل التالي من A100 هو أحدث شريحة مُحسّنة للطرازات الكبيرة. وهو يعتمد على بنية Hopper ، التي تم بناؤها باستخدام عملية الإصدار المخصص 5nm من TSMC (4N) ، وتحتوي شريحة واحدة على 80 مليار ترانزستور. على وجه التحديد ، اقترحت NVIDIA محرك Transformer ، الذي يدمج حسابات دقيقة متعددة وقدرات المعالجة الديناميكية لشبكة Transformer العصبية ، مما يمكّن وحدة معالجة الرسومات H100 من تقليل وقت تدريب النموذج بشكل كبير. استنادًا إلى H100 ، أطلقت NVIDIA أيضًا سلسلة من المنتجات مثل محطات عمل التعلم الآلي والحواسيب الفائقة ، مثل 8 H100s و 4 NVLinks مجتمعة لتشكيل GPU عملاق - DGX H100.

بالمقارنة مع A100 ، فإن سرعة الاستدلال 16 بت في H100 أسرع بحوالي 3.5 مرة ، وسرعة التدريب 16 بت أسرع بنحو 2.3 مرة.

* مقارنة سرعة A100 و H100 *

* H100 Training MoE *

* تسريع H100 على نطاق واسع *

يميل معظم الناس إلى شراء H100 للتدريب على النموذج والاستدلال ، ويستخدمون A100 أساسًا لاستدلال النموذج. ومع ذلك ، يمكن للمرء أيضًا مراعاة العوامل التالية:

** • التكلفة: ** H100 أغلى من A100 ؛

** • السعة: ** تختلف A100 و H100 في قوة الحوسبة والذاكرة ؛

** • استخدام أجهزة جديدة: ** يتطلب اعتماد H100 تعديلات مقابلة في البرامج وسير العمل.

** • المخاطر: ** هناك المزيد من المخاطر غير المعروفة في وضع H100 ؛

** • تم تحسين البرنامج: ** تم تحسين بعض البرامج لـ A100.

بشكل عام ، على الرغم من الأداء العالي لـ H100 ، هناك أوقات يكون من المنطقي فيها اختيار A100 ، ** مما يجعل الترقية من A100 إلى H100 ليس قرارًا سهلاً مع العديد من العوامل التي يجب مراعاتها. **

في الواقع ، سيصبح A100 هو V100 كما هو عليه اليوم في غضون سنوات قليلة. بالنظر إلى قيود الأداء ، أعتقد أنه لن يقوم أحد تقريبًا بتدريب ماجستير على V100 الآن. لكن لا يزال V100 مستخدمًا للاستدلال والمهام الأخرى. وبالمثل ، قد ينخفض سعر A100 مع لجوء المزيد من شركات الذكاء الاصطناعي إلى H100 لتدريب طرز جديدة ، ولكن سيكون هناك دائمًا طلب على A100 ، خاصة للاستدلال.

  • تنفيذي السحابة الخاصة

أعتقد أن هذا قد يؤدي إلى تدفق A100s في السوق مرة أخرى حيث ينتهي الأمر ببعض الشركات الناشئة الممولة بشكل كبير إلى الخروج من العمل.

  • (آخر) مدير السحابة الخاصة

ولكن بمرور الوقت ، سيستخدم الأشخاص A100 في المزيد والمزيد من مهام الاستدلال بدلاً من تدريب أحدث وأكبر الطرز. ** لم يعد بإمكان أداء V100 دعم تدريب الطرز الكبيرة ، كما أن بطاقات الرسومات عالية الذاكرة أكثر ملاءمة للموديلات الكبيرة ، لذا تفضل الفرق المتطورة H100 أو A100.

السبب الرئيسي لعدم استخدام V100 هو عدم وجود أنواع بيانات brainfloat16 (bfloat16، BF16). بدون هذا النوع من البيانات ، من الصعب تدريب النماذج بسهولة. السبب الرئيسي لضعف أداء OPT و BLOOM هو عدم وجود هذا النوع من البيانات (تم تدريب OPT في float16 ، وكان BLOOM في الغالب عبارة عن نماذج أولية تم إجراؤها في FP16 ، مما جعل من المستحيل تعميم البيانات على عمليات التدريب التي تم إجراؤها في BF16).

—— باحث التعلم العميق

** • ما الفرق بين وحدات معالجة الرسومات H100 و GH200 و DGX GH200 و HGX H100 و DGX H100 من Nvida؟ **

• H100 = 1x H100 GPU ;

• HGX H100 = منصة مرجعية لخادم NVIDIA. تستخدم من قبل الشركات المصنعة للمعدات الأصلية لإنشاء خوادم 4-GPU أو 8-GPU ، المصنعة من قبل جهات خارجية مثل Supermicro ؛

• DGX H100 = خادم NVIDIA H100 الرسمي مع 8x H100 ، NVIDIA هي المورد الوحيد لها ؛

• GH200 = 1x H100 GPU بالإضافة إلى 1x Grace CPU ؛

• DGX GH200 = 256x GH200 ، قادمة أواخر عام 2023 ، ربما من NVIDIA فقط ؛

• MGX لشركات الحوسبة السحابية الكبيرة.

من بين هؤلاء ، اختارت معظم الشركات شراء 8-GPU HGX H100 بدلاً من خوادم DGX H100 أو 4-GPU HGX H100.

** ما تكلفة وحدات معالجة الرسومات هذه بشكل منفصل؟ **

تبلغ تكلفة 1x DGX H100 (SXM) مع 8x H100 GPU 460.000 دولار ، بما في ذلك خدمات الدعم المطلوبة ، وما إلى ذلك ، حوالي 100000 دولار. يمكن للشركات الناشئة الحصول على خصم مبدئي يبلغ حوالي 50000 دولار أمريكي لما يصل إلى 8 صناديق DGX H100 ، بإجمالي 64 H100s.

المواصفات المحددة لوحدة معالجة الرسومات هي كما يلي:

* مواصفات DGX H100 *

1x HGX H100 (SXM) مع 8x H100 GPU يمكن أن تكلف ما بين 300000-380000 دولار حسب المواصفات (الشبكة والتخزين والذاكرة ووحدة المعالجة المركزية) وهوامش البائع ومستويات الدعم. إذا كانت المواصفات هي نفسها تمامًا مثل DGX H100 ، فقد تدفع الشركات سعرًا أعلى يتراوح بين 360 ألف دولار و 380 ألف دولار بما في ذلك الدعم.

1x HGX H100 (PCIe) مع 8x H100 GPU حوالي 300 ألف دولار بما في ذلك الدعم ، اعتمادًا على المواصفات.

يتراوح سعر السوق لبطاقة PCIe بين 30 ألف دولار و 32 ألف دولار.

لا تُباع بطاقات رسومات SXM كبطاقات مفردة ، لذا فإن التسعير صعب. تباع بشكل عام فقط كخوادم 4GPU و 8GPU.

حوالي 70-80٪ من الطلب في السوق على SXM H100 ، والباقي PCIe H100. يتزايد الطلب على شريحة SXM ، حيث كانت بطاقات PCIe فقط متاحة في الأشهر السابقة. نظرًا لأن معظم الشركات تشتري 8GPU HGX H100s (SXMs) ، فهذا يتراوح ما بين 360 ألف دولار إلى 380 ألف دولار لكل 8 ساعات من H100 ، بما في ذلك مكونات الخادم الأخرى.

يحتوي DGX GH200 على 256x GH200 ، ويحتوي كل GH200 على 1x H100 GPU و 1x Grace CPU. وفقا للتقديرات ، قد تتراوح تكلفة DGX GH200 بين 15 مليون - 25 مليون دولار أمريكي.

** ما هو طلب السوق على وحدة معالجة الجرافيكس؟ **

• يمكن إجراء تدريب GPT-4 على 10000 إلى 25000 ورقة A100 ؛

• تمتلك Meta حوالي 21000 A100s ، و Tesla لديها حوالي 7000 A100s ، و Stability AI لديها حوالي 5000 A100s ؛

• تم إجراء تدريب Falcon 40B على 384 طائرة من طراز A100 ؛

• يستخدم Inflection 3500 ورقة H100 في طراز GPT-3.5 المكافئ.

سيكون لدينا 22000 وحدة معالجة رسومات مستخدمة بحلول ديسمبر ، وأكثر من 3500 وحدة قيد الاستخدام اليوم.

  • مصطفى سليمان ، الرئيس التنفيذي لشركة Inflection AI

** وفقًا لإيلون ماسك ، قد يستخدم تدريب GPT-5 ما بين 30،000-50،000 H100. ** اقترح Morgan Stanley في فبراير 2023 أن GPT-5 ستستخدم 25000 وحدة معالجة رسومات ، واقترحوا أيضًا في ذلك الوقت أن GPT-5 كان بالفعل في التدريب ، لكن Sam Altman نفى ذلك لاحقًا في مايو من هذا العام ، قائلاً إن OpenAI لم يتدرب GPT-5 ، لذلك قد لا تكون معلومات Morgan Stanley دقيقة.

يحتوي GCP على حوالي 25000 H100s ، وقد يحتوي Azure على 10000-40.000 H100. يجب أن يكون مشابهًا لـ Oracle. بالإضافة إلى ذلك ، سيتم توفير معظم سعة Azure لـ OpenAI.

تحافظ CoreWeave على ما يقرب من 35.000 إلى 40.000 H100s ، ولكن هذا يعتمد على الطلبات ، وليس القيم الفعلية.

** كم عدد H100s طلب بدء التشغيل؟ ** إذا تم استخدامها لمهمة ضبط LLM ، فعادة ما يتم طلب عشرات أو مئات الأوراق ؛ إذا تم استخدامها لتدريب LLM ، يلزم الآلاف من الأوراق.

** ما مقدار H100 الذي قد تحتاجه شركة في قطاع ماجستير إدارة الأعمال؟ **

• قد تحتاج OpenAI إلى 50000 ، وقد تحتاج Inflection إلى 24000 ، وقد تحتاج Meta إلى 25000 (هناك أيضًا أقوال مفادها أن Meta تحتاج بالفعل إلى 100000 أو أكثر) ؛

• قد يحتاج مقدمو الخدمات السحابية الكبيرة ، مثل Azure و Google Cloud و AWS و Oracle إلى 30000 ؛

• قد يضيف مقدمو الخدمات السحابية الخاصة ، مثل Lambda و CoreWeave ، والسحابات الخاصة الأخرى ما يصل إلى 100000 ؛

• أنثروبي ، هيلسينج ، ميسترال ، شخصية قد تكلف 10 آلاف لكل منها.

الأرقام المذكورة أعلاه هي تقديرات وتخمينات ، وقد يتم احتساب بعضها مرتين ، مثل العملاء الذين يؤجرون السحابة. ** بشكل عام ، وفقًا للحسابات الحالية ، يبلغ عدد H100 حوالي 432000. إذا تم حسابها بحوالي 35000 دولارًا أمريكيًا لكل منها ، فهذه وحدة معالجة رسومات تبلغ قيمتها الإجمالية حوالي 15 مليار دولار أمريكي. أيضًا ، لا يشمل الرقم 432،000 الشركات الصينية مثل ByteDance (TikTok) و Baidu و Tencent التي تتطلب الكثير من H800s. **

بالإضافة إلى ذلك ، تقوم بعض الشركات المالية أيضًا بنشر A100 / H100 تتراوح من مئات إلى آلاف: مثل Jane Street و JP Morgan و Two Sigma و Citadel.

** كيف يقارن هذا بإيرادات مركز بيانات NVIDIA؟ ** بلغت عائدات مركز بيانات NVIDIA 4.28 مليار دولار في الفترة من فبراير إلى أبريل 2023. بين 25 مايو ويوليو 2023 ، قد تصل عائدات مراكز البيانات إلى حوالي 8 مليارات دولار. ** يعتمد هذا في المقام الأول على افتراض أن توجيه الإيرادات الأعلى لـ NVIDIA للربع يرجع أساسًا إلى زيادة عائدات مراكز البيانات بدلاً من زيادة الإيرادات من مجالات الأعمال الأخرى. **

لذلك ، قد يستغرق الأمر بعض الوقت لتخفيف نقص العرض. لكن من الممكن أن يكون النقص في قوة الحوسبة مبالغًا فيه ، أولاً وقبل كل شيء ، لا تشتري معظم الشركات كل H100 التي تحتاجها على الفور ، ولكنها تقوم بالترقية تدريجياً ؛ بالإضافة إلى ذلك ، تعمل NVIDIA أيضًا على زيادة الطاقة الإنتاجية بنشاط.

إن وجود 400000 H100 في السوق ككل ليس بعيد المنال ، لا سيما بالنظر إلى أن الجميع ينشر 4 أو 5 أرقام H100 بأعداد كبيرة هذه الأيام.

—— مدير تنفيذي خاص بالسحابة الإلكترونية

لخص

• تفضل معظم CSPs (Azure و AWS و GCP و Oracle) والسحابات الخاصة (CoreWeave و Lambda وغيرهما) عددًا أكبر من وحدات معالجة الرسومات H100 بدلاً من مجرد القدرة على الوصول إليها ، ومعظم عروض الذكاء الاصطناعي الكبيرة تسعى الشركة أيضًا إلى متابعة المزيد من وحدات معالجة الرسومات H100 .

• عادةً ما تريد هذه الشركات هيكلًا 8GPU HGX H100 مزودًا ببطاقات SXM. اعتمادًا على المواصفات والدعم ، يكلف كل خادم 8GPU حوالي 3-4 ملايين دولار. قد يكون هناك طلب زائد على مئات الآلاف من وحدات معالجة الرسومات H100 ، بقيمة إجمالية تزيد عن 15 مليار دولار ؛

• مع العرض المحدود ، كان من الممكن أن ترفع NVIDIA الأسعار لإيجاد سعر توازن السوق ، وقد فعلت ذلك إلى حد ما. بشكل عام ، يعتمد القرار النهائي بشأن كيفية تخصيص وحدة معالجة الرسومات H100 على العملاء الذين تفضل NVIDIA نفسها تخصيصها لهم.

** 03.H100 تحليل جانب العرض **

** عنق الزجاجة من TSMC **

يتم إنتاج H100s بواسطة TSMC (TSMC) ، ** هل تستطيع NVIDIA اختيار مصانع شرائح أخرى لإنتاج المزيد من H100s؟ على الأقل ليس بعد. **

تعاونت NVIDIA مع Samsung في الماضي ، لكن Samsung لم تتمكن من تلبية احتياجاتها من وحدات معالجة الرسومات المتطورة ، لذلك لا يمكن حاليًا لـ NVIDIA استخدام سوى وحدات معالجة الرسومات H100s وغيرها من وحدات معالجة الرسومات 5 نانومتر التي تنتجها TSMC. ** ربما في المستقبل ، ستتعاون NVIDIA مع Intel ، أو تواصل التعاون مع Samsung بشأن التقنيات ذات الصلة ، ولكن لن تحدث أي من هذه المواقف على المدى القصير ، لذلك لن يتم تخفيف نقص المعروض من H100. **

ستدخل تقنية TSMC ذات 5 نانومتر (N5) الإنتاج الضخم في عام 2020. تقنية N5 هي تقنية معالجة EUV الثانية من TSMC ، حيث توفر سرعة أكبر واستهلاكًا أقل للطاقة مقارنة بتقنية N7 السابقة. بالإضافة إلى ذلك ، تخطط TSMC أيضًا لإطلاق تقنية 4 نانومتر (N4) ، وهي نسخة محسنة من تقنية N5 التي ستعمل على تحسين الأداء واستهلاك الطاقة ، وتخطط لبدء الإنتاج الضخم في عام 2022.

يتم إنتاج H100 بناءً على عملية TSMC 4N ، والتي تنتمي إلى تقنية 5 نانومتر المحسّنة في سلسلة 5 نانومتر ، وليس عملية 4 نانومتر الحقيقية. ** بالإضافة إلى NVIDIA ، تستخدم Apple هذه التقنية أيضًا ، لكنها انتقلت بشكل أساسي إلى N3 واحتفظت بمعظم سعة N3. ** أيضًا ، تعد Qualcomm و AMD عملاء كبار لسلسلة N5.

يستخدم A100 عملية TSMC N7.

7 نانومتر (N7) هي عقدة العملية التي سيضعها TSMC في الإنتاج الضخم في عام 2019. على أساس N7 ، قدمت TSMC أيضًا عملية N7 + ، وهي عملية تصنيع 7 نانومتر باستخدام EUV (الطباعة الحجرية فوق البنفسجية الشديدة) ، مما يزيد من كثافة الترانزستور بنسبة 15٪ إلى 20٪ مع تقليل استهلاك طاقة الرقاقة.

بشكل عام ، سيتم التخطيط لقدرة عملية الواجهة الأمامية (Fab Capacity) أكثر من 12 شهرًا مقدمًا. يشار إلى أن TSMC وعملائها الرئيسيين سيخططون بشكل مشترك لطلب الإنتاج للعام المقبل ، وبالتالي فإن نقص العرض H100 الحالي يرجع جزئيًا إلى سوء تقدير TSMC و NVIDIA لطلب H100 لهذا العام في العام السابق.

** سعة فاب: **

في تدفق عملية رقاقة أشباه الموصلات ، Fab هو اختصار لـ FABRICATION (المعالجة ، التصنيع) ، ويمكن اعتبار Fab Capacity كسعة سعة.

وفقًا لمصدر آخر ، عادةً ما يستغرق بيع H100 للعملاء (الإنتاج والتعبئة والاختبار) 6 أشهر من بداية الإنتاج ، ولكن لم يتم تأكيد هذا الوضع بعد.

أشار أحد المحترفين المتقاعدين في صناعة أشباه الموصلات إلى أن الطاقة الإنتاجية للرقائق ليست عنق الزجاجة لـ TSMC ، ولكن العقبة الحقيقية تكمن في CoWoS المذكورة أعلاه (التكديس ثلاثي الأبعاد).

** CoWoS (رقاقة على رقاقة على الركيزة ، التراص ثلاثي الأبعاد): **

إنها تقنية إنتاج متكاملة 2.5D لـ TSMC. أولاً ، يتم توصيل الشريحة برقاقة السيليكون من خلال عملية تغليف CoW (رقاقة على رقاقة) ، ثم يتم توصيل رقاقة CoW بالركيزة (الركيزة) ، ودمجها في CoWoS .

وفقًا لـ DigiTimes ، بدأت TSMC في توسيع طاقتها الإنتاجية لـ CoWoS ، وتخطط لزيادة قدرة إنتاج CoWoS من 8000 رقاقة في الشهر إلى 11000 رقاقة في الشهر بحلول نهاية عام 2023 ، وإلى حوالي 14500 إلى 16600 قطعة في الشهر بنهاية 2024. لقد زاد عمالقة التكنولوجيا الكبرى مثل NVIDIA و Amazon و Broadcom و Cisco و Xilinx من الطلب على تغليف CoWoS المتقدم من TSMC.

** ذاكرة H100 **

** يؤثر نوع الذاكرة (نوع الذاكرة) وعرض ناقل الذاكرة (عرض ناقل الذاكرة) وسرعة ساعة الذاكرة (سرعة ساعة الذاكرة) على عرض النطاق الترددي لذاكرة وحدة معالجة الرسومات. ** صممت NVIDIA عرض الناقل وسرعة الساعة في H100 كجزء من بنية وحدة معالجة الرسومات. تُستخدم ذاكرة HBM3 بشكل أساسي في H100 SXM ، وتستخدم HBM2e بشكل أساسي في H100 PCIe.

يصعب إنتاج HBM والعرض محدود للغاية ، لذا فإن إنتاج HBM هو كابوس. ولكن بمجرد إنتاج HBM ، يصبح باقي التصميم سهلاً.

—— باحث Deepl Learning

** يعد نوع الذاكرة وعرض ناقل الذاكرة وسرعة ساعة الذاكرة ثلاثة مؤشرات مهمة لذاكرة الكمبيوتر. **

** عرض ناقل الذاكرة: **

يشير إلى عرض قناة نقل البيانات بين وحدة الذاكرة واللوحة الأم ، ويمكن أن يوفر عرض ناقل الذاكرة الأوسع مسارًا أكبر للبيانات ، وبالتالي زيادة سرعة نقل البيانات بين الذاكرة والمعالج.

** سرعة ساعة الذاكرة: **

يشير إلى تردد ساعة العمل لوحدة الذاكرة. تعني سرعة ساعة الذاكرة الأعلى أن الذاكرة يمكنها إجراء عمليات القراءة والكتابة بشكل أسرع وتوفير سرعة نقل بيانات أعلى.

** HBM (ذاكرة النطاق الترددي العالي) : **

هي تقنية ذاكرة ذات نطاق ترددي عالٍ تُستخدم لتوفير سرعات وصول سريعة للذاكرة في وحدات معالجة الرسومات (GPUs) وغيرها من أجهزة الحوسبة عالية الأداء. عادةً ما تعتمد تقنية الذاكرة المستخدمة في بطاقات الرسومات وأجهزة الحوسبة التقليدية على تصميم GDDR (معدل بيانات الرسومات المزدوجة) ، والذي يتمتع بتوازن معين بين الأداء واستهلاك الطاقة. تحقق تقنية HBM نطاقًا تردديًا أعلى واستهلاكًا أقل للطاقة من خلال وضع مكدسات الذاكرة على شرائح وحدة معالجة الرسومات وتكديس شرائح DRAM المتعددة معًا من خلال التوصيلات الرأسية عالية السرعة (TSVs).

بالنسبة لذاكرة HBM3 ، قد تستخدم NVIDIA SK Hynix بالكامل أو بشكل أساسي. ليس من المؤكد ما إذا كانت H100 من NVIDIA تستخدم ذاكرة Samsung ، ولكن من المؤكد أن NVIDIA لا تستخدم ذاكرة Micron حاليًا.

وبقدر ما يتعلق الأمر بـ HBM3 ، بشكل عام ، تمتلك SK Hynix أكبر إنتاج ، تليها Samsung ، ويوجد لدى Micron المصنف الثالث فجوة إنتاجية كبيرة مقارنة بالاثنين السابقين. يبدو أن SK Hynix قد عززت الإنتاج ، لكن NVIDIA لا تزال تريدها لإنتاج المزيد ، بينما لم تتمكن Samsung و Micron من زيادة الإنتاج حتى الآن.

** ما الذي يستخدم أيضًا في تصنيع وحدات معالجة الرسومات؟ **

بالإضافة إلى ذلك ، سيشمل إنتاج وحدة معالجة الرسومات أيضًا الكثير من المواد والأجزاء المعدنية.سيؤدي نقص المواد الخام في هذه الروابط أيضًا إلى اختناق العرض في وحدة معالجة الرسومات ، مثل:

** • المعادن والمواد الكيميائية: ** تشمل السيليكون (الفلزات) مثل النحاس والتنتالوم والذهب والألمنيوم والنيكل والقصدير والإنديوم والبلاديوم ، والتي تُستخدم في مراحل الإنتاج المختلفة ، بدءًا من تصنيع السيليكون الدائري وحتى التجميع النهائي لوحدة معالجة الرسومات ، مثل السيليكون والأتربة النادرة وما إلى ذلك ؛

** • المكونات ومواد التغليف: ** مثل الركائز وكرات اللحام والأسلاك ومركبات تبديد الحرارة وما إلى ذلك ، والتي تُستخدم لإكمال تجميع المكونات المختلفة لوحدة معالجة الرسومات وربطها ، وهي ضرورية لتشغيل وحدة معالجة الرسومات GPU.

** • استهلاك الطاقة: ** نظرًا لاستخدام معدات ميكانيكية عالية الدقة أثناء عملية تصنيع شرائح وحدة معالجة الرسومات ، يلزم توفير قدر كبير من الكهرباء.

** كيف تعالج NVIDIA النقص في H100؟ **

كشفت NVIDIA أنها ستزيد العرض في النصف الثاني من هذا العام.وقال المدير المالي لشركة NVIDIA في التقرير المالي إن الشركة تبذل قصارى جهدها لحل مشكلة التوريد ، لكن بخلاف ذلك ، لم ينقلوا أي معلومات أخرى ، ولم يفعلوا ذلك. لديهم أي أرقام محددة تتعلق H100.

"نحن نعمل على حل مشكلات التوريد الخاصة بنا للربع ، لكننا اشترينا أيضًا الكثير من الأسهم للنصف الثاني من العام."

"نعتقد أن المعروض في النصف الثاني من العام سيكون أعلى بكثير مما كان عليه في النصف الأول."

  • كوليت كريس ، المدير المالي لشركة Nvidia ، في مكالمة الأرباح من فبراير إلى أبريل 2023

يعتقد مسؤول تنفيذي لشركة سحابية خاصة أن ** قد تظهر حلقة مفرغة في السوق بعد ذلك ، أي أن الندرة تؤدي إلى اعتبار قدرة وحدة معالجة الرسومات بمثابة خندق لشركات الذكاء الاصطناعي ، مما يؤدي إلى المزيد من اكتناز وحدة معالجة الرسومات ، مما يؤدي بدوره إلى تفاقم الندرة. من وحدات معالجة الرسومات. **

وفقًا للفاصل الزمني التاريخي بين إطلاق NVIDIA للمعماريات المختلفة ، قد لا يتم إصدار طراز الجيل التالي من H100 حتى نهاية عام 2024 (منتصف عام 2024 إلى أوائل عام 2025). قبل ذلك ، سيكون H100 دائمًا المنتج عالي المستوى لوحدة معالجة الرسومات NVIDIA (لم يتم احتساب GH200 و DGX GH200 ، فهما ليسا GPU خالصين ، وكلاهما يستخدم H100 كوحدة معالجة رسومات).

بالإضافة إلى ذلك ، من المتوقع أن يكون هناك إصدار بحجم 120 جيجابايت مع ذاكرة أكبر في المستقبل.

** 04. كيفية الحصول على H100 **

** بائع H100 **

يقوم مصنعو المعدات الأصلية (OEMs) مثل Dell و HPE و Lenovo و Supermicro و Quanta ببيع H100 و HGX H100 ، بينما يجب أن يتم طلب InfiniBand من خلال NVIDIA Mellanox.

** Mellanox ** هي واحدة من أكبر موردي InfiniBand العالميين ، وفي عام 2015 ، بلغت حصة Mellanox في سوق IB العالمية 80٪. في عام 2019 ، استحوذت NVIDIA على Mellanox مقابل 125 دولارًا للسهم الواحد ، بقيمة إجمالية للمعاملات تقارب 6.9 مليار دولار. يمكّن هذا الاستحواذ NVIDIA من توسيع حصتها في السوق في الحوسبة عالية الأداء ومراكز البيانات ، ويعزز القدرة التنافسية لـ NVIDIA في مجال الذكاء الاصطناعي.

من خلال الجمع بين تقنية الربط عالي السرعة من Mellanox ومسرعات GPU من NVIDIA ، يمكن أن توفر NVIDIA لمراكز البيانات نطاق ترددي أعلى وحلول زمن انتقال أقل. بالإضافة إلى Mellanox ، استحوذت شركة Intel على تقنية IB الخاصة بـ QLogic ، وهو مورد آخر في مجال IB ، في عام 2012.

تشتري سحابات GPU مثل CoreWeave و Lambda وحدات معالجة الرسومات من مصنعي المعدات الأصلية وتؤجرها للشركات الناشئة. يمكن لمشغلي السحابة فائقة النطاقات (Azure و GCP و AWS و Oracle) الشراء بشكل مباشر أكثر باستخدام NVIDIA ، لكنهم يعملون أيضًا في بعض الأحيان مع مصنعي المعدات الأصلية.

بالنسبة إلى DGX ، يتم الشراء أيضًا من خلال OEM. على الرغم من أنه يمكن للعملاء التواصل مع NVIDIA بشأن متطلبات الشراء ، فإن الشراء يتم من خلال OEM بدلاً من تقديم أمر شراء مباشرةً مع NVIDIA.

أوقات التسليم لخوادم 8 GPU HGX سيئة وخوادم 4 GPU HGX جيدة جدًا ، ولكن الحقيقة هي أن الجميع يريد 8 خوادم GPU.

** • كم من الوقت يستغرق من تقديم طلب لنشر H100؟ **

النشر هو عملية مرحلية. لنفترض طلب 5000 وحدة معالجة رسومات ، فقد يحصلون على 2000 أو 4000 وحدة معالجة رسومات في 4-5 أشهر ، ثم وحدات معالجة الرسومات المتبقية في 6 أشهر أو نحو ذلك.

** بالنسبة إلى بدء التشغيل ، إذا كنت ترغب في شراء وحدة معالجة الرسومات (GPU) ، فأنت لا تقدم طلبًا من أحد مصنعي المعدات الأصلية أو بائع التجزئة **. يختارون عمومًا خدمات السحابة العامة مثل Oracle ، أو يؤجرون حقوق الوصول إلى السحابات الخاصة مثل Lambda و CoreWeave ، أو استخدم خدمات مثل FluidStack و OEMs وموفري الخدمة الذين يعملون مع مراكز البيانات حق الوصول المؤجر.

** • هل يجب على المؤسسة بناء مركز بيانات خاص بها أو موقع مشترك؟ **

لإنشاء مركز بيانات ، تشمل العوامل التي يجب مراعاتها وقت إنشاء مركز البيانات ، وما إذا كانت هناك مواهب وخبرات في الأجهزة ، وحجم الاستثمار الرأسمالي.

استئجار واستضافة الخادم أسهل بكثير. إذا كنت ترغب في إنشاء مركز بيانات خاص بك ، فيجب عليك وضع خط ألياف داكن في موقعك للاتصال بالإنترنت ، وتبلغ تكلفة الألياف 10000 دولار لكل كيلومتر. خلال طفرة الإنترنت ، تم بالفعل بناء معظم البنية التحتية ودفع ثمنها. الآن ، يمكنك الاستئجار فقط ، وهي رخيصة جدًا.

—— مدير تنفيذي خاص بالسحابة الإلكترونية

يعد اختيار استئجار أو بناء مركز بيانات إما قرارًا أو قرارًا. ووفقًا للاحتياجات الفعلية ، يمكن أن يكون لدى المؤسسات الخيارات المختلفة التالية:

  1. السحابة عند الطلب: استخدام الخدمات السحابية فقط للتأجير ؛

  2. سحابة محجوزة.

  3. الاستضافة (شراء خادم ، التعاون مع مزود لاستضافة وإدارة الخادم) ؛

  4. الاستضافة الذاتية (شراء واستضافة السيرفر بنفسك).

معظم الشركات الناشئة التي تحتاج إلى الكثير من H100 ستختار السحابة المحجوزة أو الموقع المشترك.

** كيف تختار المؤسسات شركة خدمات سحابية؟ **

هناك رأي مفاده أن البنية التحتية لشركة Oracle ليست موثوقة مثل السحابات الرئيسية الثلاث ، ولكنها على استعداد لقضاء المزيد من الوقت في الدعم الفني للعملاء. قال بعض ممارسي شركات السحابة الخاصة إن 100٪ منهم سيكون لديهم عدد كبير من العملاء غير الراضين عن الخدمات المستندة إلى Oracle ، ويعتقد بعض الرؤساء التنفيذيين لشركات أخرى أن قدرات شبكة Oracle أقوى.

** بشكل عام ، ستختار شركة Startup الشركة التي تتمتع بأقوى مجموعة من دعم الخدمة والسعر والسعة. **

الاختلافات الرئيسية بين العديد من شركات الخدمات السحابية الكبيرة هي:

** • الشبكات: ** كانت AWS و Google Cloud أبطأ في اعتماد InfiniBand نظرًا لأن لديهما أساليبهما الخاصة ، لكن معظم الشركات الناشئة التي تبحث عن مجموعات كبيرة من A100 / H100 تبحث عن InfiniBand ؛

** • التوفر: ** على سبيل المثال ، يتم استخدام معظم طاقة حوسبة Azure H100 بواسطة OpenAI ، مما يعني أنه قد لا يتوفر الكثير من قوة الحوسبة للعملاء الآخرين.

** على الرغم من عدم وجود أساس واقعي ، إلا أن هناك تكهنات بأن NVIDIA تميل أكثر إلى إعطاء الأولوية لتوريد وحدة معالجة الرسومات لموفري الخدمات السحابية الذين لم يطوروا شرائح تعلم الآلة المنافسة. ** يعمل جميع مزودي الخدمات السحابية الثلاثة الرئيسيين حاليًا على تطوير شرائح التعلم الآلي الخاصة بهم ، ولكن AWS وبدائل NVIDIA من Google موجودة بالفعل في السوق وتسرق بعضًا من حصة NVIDIA في السوق. وقد أدى هذا أيضًا إلى بعض التكهنات في السوق بأن NVIDIA أكثر استعدادًا للتعاون مع Oracel بسبب هذا.

بعض الشركات السحابية الكبيرة لديها أسعار أفضل من غيرها. كما لاحظ أحد التنفيذيين السحابيين الخاصين ، "على سبيل المثال ، A100 على AWS / AZURE أغلى بكثير من GCP."

أخبرتني شركة Oracle أنها ستستخدم "عشرات الآلاف من H100s" في وقت لاحق من هذا العام. لكن من حيث التسعير ، فهي أعلى من الشركات الأخرى. لم يعطوني تسعيرًا لـ H100 ، ولكن بالنسبة لـ A100 80 غيغابايت ، نقلوا عني ما يقرب من 4 دولارات في الساعة ، وهو ما يقرب من ضعف ما يقتبس GCP ، وبنفس استهلاك الطاقة والجهد.

  • مجهول

تتمتع السحب الصغيرة بميزة من حيث التسعير ، إلا في بعض الحالات التي قد تعقد فيها إحدى الشركات السحابية الكبيرة صفقة فردية مقابل الأسهم.

بشكل عام ، من حيث قرب التعاون مع NVIDIA و Oracle و Azure> GCP و AWS ، لكن هذا مجرد تخمين.

كانت Oracle رائدة في A100s واستضافت مجموعات مستندة إلى Nvidia بالشراكة مع Nvidia ، والتي تعد أيضًا أحد عملاء Azure.

** • ما هي الشركة السحابية الكبيرة التي تمتلك أفضل أداء للشبكة؟ **

تستخدم كل من Azure و CoreWeave و Lambda InfiniBand. أداء شبكة Oracle جيد عند 3200 جيجابت في الثانية ، ولكنه يستخدم Ethernet بدلاً من InfiniBand ، ويمكن أن يكون أبطأ بحوالي 15-20٪ من IB لحالات الاستخدام مثل تدريب LLM عالي المعلمات. شبكات AWS و GCP ليست جيدة.

** • كيف تختار المؤسسات الخدمات السحابية في الوقت الحالي؟ **

تُظهر بيانات إحصائية لـ 15 شركة أن جميع الشركات الـ 15 التي شملها الاستطلاع ستختار AWS أو GCP أو Azure ، وأن Oracle ليست من بينها.

تميل معظم الشركات إلى استخدام السحابة الحالية. لكن بالنسبة لفرق ريادة الأعمال ، فإن اختياراتهم تعتمد بشكل أكبر على الواقع: أي شخص يمكنه توفير قوة الحوسبة سيختار أيهما.

** • مع من تعمل NVIDIA على DGX Cloud؟ **

"تشارك Nvidia مع كبار مزودي الخدمات السحابية لاستضافة DGX Cloud Infrastructure ، بدءًا من Oracle Cloud Infrastructure" - قم بالبيع مع Nvidia ، ولكن التأجير من خلال موفري السحابة الحاليين (أولاً مع Oracle ، ثم Azure ، تليها Google Cloud ، التي لم تعمل مع AWS).

قال الرئيس التنفيذي لشركة NVIDIA Jensen Huang في مكالمة أرباح NVIDIA أن "المزيج المثالي هو 10٪ NVIDIA DGX cloud و 90٪ CSP cloud".

** • جدول H100 لعمالقة السحابة: **

كان CoreWeave واحدًا من أوائل. كمستثمر في CoreWeave ، ومن أجل تعزيز المنافسة بين الشركات السحابية الكبيرة ، كانت NVIDIA أول من أكمل تسليم CoreWeave.

جدول H100 لشركات الخدمات السحابية الأخرى كما يلي:

• أعلنت شركة Azure عن توفر H100 للمعاينة في 13 مارس ؛

• أعلنت أوراكل عن إمداد محدود من H100 في 21 مارس.

• أعلنت Lambda Labs في 21 مارس أنها ستطلق H100 في أوائل أبريل.

• أعلنت AWS في 21 مارس أن H100 ستكون قيد المعاينة في غضون أسابيع قليلة ؛

• أعلنت Google Cloud عن بدء المعاينة الخاصة لـ H100 في العاشر من مايو.

** • ما هي الخدمات السحابية التي تستخدمها الشركات المختلفة؟ **

• أوبن إيه آي: أزور

• انعكاس: Azure و CoreWeave

• أنثروبي: AWS 和 Google Cloud

• Cohere AWS 和 Google Cloud

• تعانق الوجه: AWS

• الذكاء الاصطناعي للثبات: CoreWeave و AWS

• Character.ai: Google Cloud

• X.ai: Oracle

• نفيديا: أزور

** كيف تحصل على المزيد من حصص GPU؟ **

العقبة الأخيرة هي ما إذا كان يمكن الحصول على توزيع قوة الحوسبة من NVIDIA.

** • كيف تختار NVIDIA العملاء؟ **

تخصص NVIDIA عادةً عددًا معينًا من وحدات معالجة الرسومات لكل عميل ، وفي هذه العملية ** تهتم NVIDIA بشكل أكبر بـ "من هو العميل النهائي" ، على سبيل المثال ، قال Azure "نريد شراء 10000 H100s لدعم Inflection" ، و النتيجة المقابلة لـ Azure تقول "اشترينا 10000 H100s لـ Azure" مختلفة. ** إذا كانت NVIDIA مهتمة بعميل نهائي معين ، فمن الممكن أن تحصل الشركة السحابية على حصة GPU إضافية. لذلك ، تأمل NVIDIA في معرفة أكبر قدر ممكن من العملاء النهائيين ، وسيكونون أكثر ميلًا إلى المؤسسات الكبيرة أو الشركات الناشئة ذات التأييد القوي.

نعم ، يبدو أن هذا هو الحال. تحب Nvidia منح GPU إمكانية الوصول إلى الشركات الناشئة في مجال الذكاء الاصطناعي (العديد منها لها علاقات وثيقة مع Nvidia). تقوم شركة Inflection ، وهي شركة ذكاء اصطناعي تستثمرها Nvidia ، باختبار كتلة H100 ضخمة على CoreWeave.

—— مدير تنفيذي خاص بالسحابة الإلكترونية

إذا قامت شركة سحابية معينة بإحضار عميل نهائي إلى NVIDIA وأعربت عن استعدادها لشراء كمية معينة من H100 ، وكانت NVIDIA مهتمة بهذا العميل النهائي ، فإن NVIDIA ستعطي عمومًا حصة معينة ، مما سيزيد فعليًا من المبلغ الذي توفره NVIDIA مخصص للعميل النهائي. السعة الإجمالية للشركة السحابية ، لأن هذا التخصيص مستقل عن الحصة الممنوحة أصلاً لشركة السحابة من قبل NVIDIA.

يعد تخصيص NVIDIA للسعة الكبيرة للسحابات الخاصة حالة خاصة: ** يحتوي CoreWeave على H100s أكثر من GCP. تحجم NVIDIA عن تخصيص موارد كبيرة للشركات التي تحاول التنافس معها بشكل مباشر (AWS Inferentia و Tranium و Google TPUs و Azure Project Athena). **

ولكن في نهاية اليوم ، إذا قدمت طلب شراء وأموالًا إلى NVIDIA ، والتزمت بصفقة أكبر مع مزيد من التمويل المسبق ، وأشارت إلى ملفك الشخصي منخفض المخاطر ، فأنت ملزم بالحصول على حصة GPU أكثر من أي شخص آخر.

** 05. ملخص **

على الرغم من ذلك ، كما قال Sam Altman ، فإن "عصر استخدام النماذج الكبيرة يقترب من نهايته" ، إلا أننا في الوقت الحالي لا نزال مقيدًا بوحدة معالجة الرسومات (GPU). من ناحية أخرى ، تمتلك شركات مثل OpenAI بالفعل منتجات PMF ممتازة مثل ChatGPT ، ولكن نظرًا لأنها محدودة بوحدات معالجة الرسومات ، فإنها تحتاج إلى شراء قدر كبير من قوة الحوسبة.من ناحية أخرى ، تعمل العديد من الفرق على إمكانية المشاركة في LLM في المستقبل اكتناز وحدات معالجة الرسومات بغض النظر عن قدرتها على إنشاء شيء مثل ChatGPT.

ولكن ليس هناك شك في أن حق NVIDIA في التحدث لن يتزعزع.

** في هذه المرحلة ، أفضل منتج LLM تقوم به PMF هو ChatGPT. فيما يلي يستخدم ChatGPT كمثال لشرح سبب نقص وحدات معالجة الرسومات: **

  1. نظرًا لأن ChatGPT يحظى بشعبية كبيرة بين المستخدمين ، فقد يتجاوز ARR (الإيرادات السنوية المتكررة) 500 مليون دولار أمريكي ؛

  2. يعمل ChatGPT على API لـ GPT-4 و GPT-3.5 ؛

  3. تتطلب واجهات برمجة التطبيقات الخاصة بـ GPT-4 و GPT-3.5 تشغيل وحدة معالجة الرسومات ، ويلزم تشغيل عدد كبير من وحدات معالجة الرسومات. وتأمل OpenAI في إصدار المزيد من الوظائف لـ ChatGPT وواجهة برمجة التطبيقات الخاصة بها ، ولكن لا يمكن تحقيقها بسبب العدد المحدود من وحدات معالجة الرسومات.

  4. اشترت شركة OpenAI عددًا كبيرًا من وحدات معالجة الرسومات NVIDIA من خلال Microsoft (Azure) ؛

  5. لتصنيع وحدة معالجة الرسومات H100 SXM ، تستخدم NVIDIA TSMC للتصنيع وتستخدم تقنية التغليف CoWoS من TSMC و HBM3 بشكل أساسي من SK Hynix.

بالإضافة إلى OpenAI ، هناك العديد من الشركات في السوق التي تدرب نماذجها الكبيرة الخاصة. دعنا نضع جانبًا عدد الفقاعات الموجودة في LLM ، ومدى احتمالية ظهور منتجات PMF في النهاية ، ولكن بشكل عام ، فإن مسابقة LLM لها أدى إلى ارتفاع طلب السوق على وحدات معالجة الرسومات (GPU). بالإضافة إلى ذلك ، هناك بعض الشركات التي حتى لو لم تكن بحاجة إلى وحدات معالجة الرسومات في الوقت الحالي ، فإنها ستبدأ في تخزينها مسبقًا لأنهم قلقون بشأن المستقبل. لذا فإن الأمر يشبه إلى حد ما "توقع نقص في العرض يؤدي إلى تفاقم نقص العرض" **.

لذلك ، هناك قوة أخرى تدفع الطلب على وحدات معالجة الرسومات وهي شركات المؤسسات التي ترغب في إنشاء LLMs جديدة ، أو المشاركة في الذكاء الاصطناعي في المستقبل:

  1. أصبحت أهمية النماذج الكبيرة إجماعًا: إذا كانت مؤسسة ناضجة ، فهي تأمل في تدريب LLM على بياناتها الخاصة وتأمل أن تجلب المزيد من القيمة التجارية ؛ كشركة ناشئة ، فإنها تأمل في بناء تملك LLM وتحويلها إلى قيمة تجارية. هناك حاجة لوحدة معالجة الرسومات فقط لتدريب النماذج الكبيرة ؛

  2. الاتصال بين هذه المؤسسات وبائعي السحابة الكبار (Azure و Google Cloud و AWS) ، في محاولة للحصول على H100 كافٍ ؛

  3. أثناء العملية ، اكتشفوا أن موردي السحابة لم يكن لديهم ما يكفي من H100 لتخصيصه ، كما أن بعض موردي السحابة لديهم أيضًا تكوينات معيبة للشبكات ، لذلك أصبحت CoreWeave و Oracle و Lambda و FluidStack أيضًا تشتري وحدات معالجة الرسومات ويمتلكونها ، وربما يناقشونها أيضًا مع OEM و NVIDIA ؛

  4. في النهاية ، حصلوا على الكثير من وحدات معالجة الرسومات ؛

  5. الآن ، يحاولون مطابقة منتجاتهم بالسوق ؛

  6. في حال لم يكن الأمر واضحًا بالفعل ، فإن المسار ليس سهلاً - تذكر أن OpenAI حققت ملاءمة لسوق المنتج مع نموذج أصغر ثم توسعته. ولكن الآن لتحقيق توافق المنتج مع السوق ، عليك أن تناسب حالة استخدام المستخدم بشكل أفضل من نموذج OpenAI ، لذلك تحتاج إلى وحدات معالجة رسومات أكثر من OpenAI لتبدأ بها.

** على الأقل حتى نهاية عام 2023 ، سيكون هناك نقص في المؤسسات التي تنشر مئات أو آلاف أجهزة H100 ، ربما بحلول نهاية عام 2023 ، سيصبح الوضع أكثر وضوحًا ، ولكن يبدو أن النقص في وحدات معالجة الرسومات قد يستمر حتى عام 2024. **

* رحلة العرض والطلب على وحدة معالجة الرسومات *

مرجع

تعليق من مؤسس بدء تشغيل LLMs مخصص للمؤسسات

رسالة من مزود خدمة السحابة

محادثات مع s في الشركات السحابية وموفري GPU

Tesla Q1 2023 (يغطي من 1 يناير 2023 إلى 31 مارس 2023) مكالمة الأرباح

تعليق من شركة سحابية

ملعب كرة قدم تخميني من شركة سحابية

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت