Прорыв больших моделей основан на повышении вычислительной мощности оборудования и возможностей облачных вычислений.Nvidia H100, которая считается «ядерной бомбой» графического процессора, сталкивается с самой серьезной нехваткой в истории. Сэм Альтман прямо заявил, что нехватка графических процессоров ограничивает скорость обновления технологии OpenAI с точки зрения тонкой настройки, выделенной емкости, 32-тысячных контекстных окон и мультимодальности.
Эта статья составлена из GPU Utils. Автор в основном обсуждает, как долго прослужат графические процессоры (особенно NVIDIA H100) с точки зрения спроса и предложения.
С точки зрения спроса, NVIDIA H100, несомненно, является жестким спросом для обучения больших моделей.По оценкам, текущий спрос на H100 на рынке составляет около 432 000 листов, что эквивалентно общей стоимости около 35 000 долларов США за лист. При цене графического процессора 15 млрд. долл. США** в число 432 000 не входят такие компании, как ByteDance (TikTok), Baidu и Tencent, которым требуется много H800.
Что касается предложения, то нехватка H100 напрямую ограничена производственными мощностями TSMC, и в краткосрочной перспективе у NVIDIA нет других альтернативных заводов по производству чипов. Из-за ограниченных поставок у NVIDIA также есть собственная стратегия распределения этих графических процессоров.Для NVIDIA очень важно, как гарантировать, что эти ограниченные графические процессоры переходят к темным лошадям ИИ, а не к потенциальным конкурентам, таким как Google, Microsoft и AWS.
Как долго продлится эта гонка ИИ вокруг H100? Ответ пока не ясен. Хотя NVIDIA заявила, что увеличит поставки во второй половине года, похоже, нехватка графических процессоров может сохраниться до 2024 года.
Из-за нехватки H100 рынок может войти в «порочный круг»: из-за нехватки мощности графических процессоров они будут рассматриваться как ров для компаний, занимающихся искусственным интеллектом, что приводит к увеличению запасов графических процессоров, что еще больше усугубляет нехватку графических процессоров.
**Ниже приводится оглавление этой статьи, и рекомендуется читать его в сочетании с основными пунктами. **
👇
01 фон
02 Анализ требований для H100
03 H100 Анализ предложения
04 Как получить H100
05 Резюме
01.Фон
До августа 2023 года развитие области искусственного интеллекта сдерживалось узким местом в поставках графических процессоров.
"Одной из причин недооценки бума ИИ является нехватка GPU/TPU. Нехватка GPU и TPU ограничивает скорость внедрения продукта и прогресс обучения модели, но эти ограничения скрыты. В основном мы наблюдаем стремительный рост цен на акции NVIDIA. , а не прогресс НИОКР ограничен. Ситуация улучшится, когда спрос и предложение будут сбалансированы.
— Адам Д'Анджело, генеральный директор Quora, Poe.com, бывший технический директор Facebook.
Это руководители и компании, которые больше всего влияют на спрос и предложение графических процессоров и ИИ
Сэм Альтман сказал, что нехватка графических процессоров ограничила прогресс проектов OpenAI, таких как тонкая настройка, выделенная емкость, контекстные окна 32 КБ, мультимодальность и т. д.
Крупномасштабные кластеры H100 от мелких и крупных облачных провайдеров исчерпывают свою емкость.
«Все хотят, чтобы NVIDIA производила больше A/H100».
Информация от руководителей облачных провайдеров
«Из-за текущей нехватки графических процессоров для OpenAI лучше, чтобы меньше людей использовали наши продукты»;
«На самом деле мы были бы счастливы, если бы люди меньше использовали продукты OpenAI, потому что у нас недостаточно графических процессоров».
— Сэм Альтман, генеральный директор OpenAI
С одной стороны, слова Сэма Альтмана тонко показывают, что продукты OpenAI нравятся пользователям во всем мире, но в то же время они также иллюстрируют тот факт, что OpenAI действительно нуждается в большем количестве графических процессоров для дальнейшего продвижения и обновления своих функций.
Azure и Microsoft также столкнулись с похожей ситуацией, и аноним упомянул:
• Компания запрещает сотрудникам использовать графические процессоры, и каждый должен стоять в очереди, чтобы подать заявку на вычислительную мощность, как студенты колледжей в 1970-х годах, чтобы использовать компьютеры. С моей точки зрения, OpenAI в настоящее время поглощает все ресурсы графического процессора;
• В июне этого года сотрудничество между Microsoft и CoreWeave, по сути, направлено на улучшение питания Microsoft GPU/вычислений.
Основное плетение:
Поставщики услуг облачных вычислений, согласно официальному сайту CoreWeave, их услуги на 80% дешевле, чем у традиционных поставщиков облачных вычислений. В апреле 2023 года CoreWeave получила инвестиции NVIDIA в раунде B и приобрела большое количество новых карт H100. В июне Microsoft также подписала соглашение с CoreWeave. Microsoft в ближайшие несколько лет инвестирует миллиарды долларов в строительство инфраструктуры облачных вычислений.
В июле CoreWeave запустила самый быстрый в мире проект суперкомпьютера с искусственным интеллектом в партнерстве с NVIDIA, а Inflection AI создала одну из самых сложных в мире крупномасштабных языковых моделей в облаке CoreWeave, используя инфраструктуру, поддерживающую отправку MLPerf. Кроме того, CoreWeave использовала находящуюся в руках ускорительную карту NVIDIA H100 в качестве залога и в августе объявила о завершении долгового финансирования на сумму 2,3 миллиарда долларов.
Подводя итог, можно сказать, что поставки графических процессоров H100 уже довольно ограничены. Ходят даже слухи, что у **Azure и GCP практически не хватает мощности, а у AWS — нехватка. **
Причина дефицита заключается в том, что NVIDIA поставляет этим облачным провайдерам ограниченное количество графических процессоров H100.
Если вы хотите понять узкое место вычислительной мощности, вы можете сосредоточиться на следующих вопросах:
• Каковы конкретные причины этой ситуации? :
Насколько велик спрос? Например, в каких областях относительно быстро растет спрос на искусственный интеллект;
Насколько велик запас? Достаточно ли производственных мощностей производителей графических процессоров, таких как NVIDIA, для удовлетворения спроса;
• Как долго продлится этот дефицит? Когда спрос и предложение на графические процессоры постепенно достигнут точки равновесия?
• Какими способами можно эффективно уменьшить эту нехватку?
02.H100 Анализ требований
Проанализируйте ключевые проблемы узких мест вычислительной мощности со стороны спроса:
Что именно люди хотят купить, но не могут получить?
Насколько велик спрос на GPU на текущем рынке?
Почему предприятия предпочитают NVIDIA H100 другим графическим процессорам?
Какие типы графических процессоров в настоящее время представлены на рынке?
Где предприятия могут покупать графические процессоры? Каковы их цены?
Помимо трех гигантов Azure, GCP и AWS, существуют также поставщики облачных услуг Oracle и GPU, такие как CoreWeave и Lambda;
• Другие технологические гиганты:
Например, Tesla (**примечание: **Meta, Apple и другие гиганты, о которых первоначальный автор здесь не упомянул, также имеют большой спрос на графические процессоры, Google в основном использует TPU для обработки вычислений, а спрос на H100 в основном облачная платформа Google).
В дополнение к вышеперечисленным компаниям, если компании необходимо произвести большую доводку LLM, ей также необходимо зарезервировать не менее 100 H100 или A100.
Компании, использующие частные облака (CoreWeave, Lambda), и компании с сотнями и тысячами акций H100 почти в основном сталкиваются с работой LLM и некоторыми диффузионными моделями (Diffusion Model). Некоторые компании предпочитают дорабатывать существующие модели, но все больше стартапов в области искусственного интеллекта создают свои собственные большие модели с нуля. **Эти компании обычно подписывают контракты с поставщиками частных облачных услуг на сумму от 10 до 50 миллионов долларов на 3 года и используют от нескольких сотен до нескольких тысяч графических процессоров. **
Для компаний, которые используют только небольшое количество графических процессоров H100 по требованию, задачи, связанные с LLM, составляют большую часть их использования графического процессора, а LLM может использовать более 50% графического процессора.
В настоящее время предприятия отдают предпочтение частным облакам, и хотя эти предприятия обычно выбирают крупных поставщиков облачных услуг по умолчанию, они также сталкиваются с риском исключения.
**• Большие лаборатории искусственного интеллекта больше ограничены задачами логического вывода или задачами обучения? **
Этот вопрос зависит от того, насколько привлекателен их продукт. Другими словами, привлекательность продуктов компании очень важна при определении распределения ресурсов.В случае ограниченных ресурсов приоритеты рассуждений и обучения часто имеют свои собственные акценты. По мнению Сэма Альтмана, если необходимо сделать выбор, OpenAI более склонен к расширению возможностей рассуждений, но в настоящее время OpenAI ограничен в обоих аспектах.
Почему H100 просто необходим для обучения LLM
Большая часть текущего рынка использует графические процессоры NVIDIA H100. Это связано с тем, что графический процессор H100 является самым быстрым с точки зрения вывода и обучения LLM, а также имеет наилучшую производительность по стоимости вывода. В частности, большинство предприятий предпочитают использовать сервер HGX H100 SXM с 8 графическими процессорами.
По моему анализу, для той же работы Н100 выгоднее по стоимости. Графический процессор V100 — хороший вариант, если вы можете найти подержанный блок, но часто это невозможно.
—— анонимное лицо
С точки зрения выводов, мы обнаружили, что графический процессор A10G более чем адекватен и намного дешевле.
—— Руководитель частного облака
Мы заметили, что Falcon 40b и llama2 70b также активно используются, где это утверждение уже не соответствует действительности. Поэтому скорость соединения очень важна для задач логического вывода.
— (Другой) Руководитель частного облака
Сокол 40b :
Falcon — это базовая большая языковая модель с 40 миллиардами параметров, Falcon 40b стремится использовать меньшую обучающую вычислительную мощность для достижения лучших результатов, на модель приходится только 75% обучающих вычислений GPT-3, 40% Chinchilla и PaLM-62B 80%. обучения. 25 мая 2023 года Институт технологических инноваций ОАЭ объявил, что откроет исходный код Falcon 9 для исследований и коммерческого использования.После его выпуска он однажды возглавил список LLM с открытым исходным кодом Hugging Face.
**• Каковы общие потребности предпринимательских команд LLM? **
** Стартапы LLM часто выбирают графический процессор H100 с InfiniBand 3,2 Тбит/с для обучения LLM. Хотя почти все предпочитают H100 на сеансе обучения, на сеансе логического вывода эти компании уделяют больше внимания эффективности затрат, то есть производительности, созданной на доллар. **
По-прежнему существуют некоторые проблемы с производительностью на доллар графических процессоров H100 по сравнению с A100, но H100 по-прежнему предпочтительнее из-за их лучшего масштабирования и более быстрого времени обучения, в то время как скорость/сжатие запускается, обучается или улучшается. Время моделирования имеет решающее значение для стартапы.
«Для многоузлового обучения им всем требуется графический процессор A100 или H100 с сетью InfiniBand. Единственное требование, отличное от A/H100, которое мы наблюдали, — это вывод, когда рабочая нагрузка представляла собой один графический процессор или один узел».
—— Руководитель частного облака
Основными факторами, влияющими на обучение LLM, являются:
**• Пропускная способность памяти: **При большом объеме данных, загружаемых из памяти, более высокая пропускная способность памяти может ускорить загрузку данных;
**• Вычислительная мощность модели (FLOPS, операций с плавающей запятой в секунду): ** Тензорное ядро или аналогичный модуль умножения матриц, который в основном влияет на скорость вычислений;
**• Кэш и задержка кеша: **Кэш может временно хранить данные для повторного доступа, что оказывает значительное влияние на производительность;
**• Дополнительные функции: **Такие как FP8 (8-битное число с плавающей запятой) и т. д., числовые форматы низкой точности могут ускорить обучение и логические выводы;
**• Вычислительная производительность: ** связана с количеством ядер GPU CUDA и в основном влияет на количество задач, которые могут выполняться параллельно;
**• Скорость соединения: **Для высокой пропускной способности межузлового соединения, такой как InfiniBand, этот фактор будет влиять на скорость распределенного обучения.
**H100 предпочтительнее A100 отчасти из-за более низкой задержки кэша H100 и вычислительных возможностей FP8. **
H100 действительно лучший выбор, поскольку он в 3 раза эффективнее A100, но стоит всего в 1,5–2 раза дороже A100. Как считать стоимость всей системы, производительность на доллар у H100 тоже гораздо выше, если учитывать производительность системы, то производительность на доллар может быть в 4-5 раз выше.
—— Исследователь глубокого обучения
**Почему так важна числовая точность? **
Числа с плавающей запятой низкой точности могут повысить скорость обучения и вывода.Например, FP16 занимает вдвое меньше памяти, чем FP32, и в три раза быстрее, чем FP32, с точки зрения скорости вычислений. В процессе обучения LLM, чтобы обеспечить баланс между скоростью и точностью, для ускорения больших языковых моделей используются такие методы, как смешанная точность и адаптивная точность, поэтому поддержка множественной точности является одним из важных соображений при обучении больших языковых моделей. Google предложил числовой формат BFP16, который расширяет числовой диапазон при снижении точности, а производительность выше, чем у FP 32.
**• Помимо графического процессора, каковы затраты на обучение и эксплуатацию LLM? **
GPU в настоящее время является самым дорогим компонентом всей инфраструктуры обучения LLM, но другие аспекты стоимости не являются низкими, что также влияет на обучение и эксплуатационные расходы LLM:
Системная память и твердотельные накопители NVMe дороги: для больших моделей требуется много высокоскоростной памяти и высокоскоростных твердотельных накопителей для кэширования и загрузки данных, и оба компонента дороги;
Высокоскоростные сети дороги. Высокоскоростные сети, такие как InfiniBand (используемые для связи между узлами), очень дороги, особенно для больших распределенных тренировок.
Возможно, 10-15% от общей стоимости работы кластера приходится на электричество и хостинг, примерно поровну распределяя между ними. Затраты на электроэнергию включают в себя электроэнергию, затраты на строительство центра обработки данных, затраты на землю и сотрудников и т. д., около 5%-8%; расходы на хостинг включают землю, здания, сотрудников и т. д., около 5%-10%. **
Нашей главной заботой является сеть и надежный центр обработки данных. AWS не подходил из-за сетевых ограничений и ненадежного оборудования.
—— Исследователь глубокого обучения
**• Как технология GPUDirect помогает в обучении LLM? **
GPUDirect от NVIDIA не требуется для обучения LLM, но также может повысить производительность:
Технология GPUDirect может повысить производительность, но не обязательно сверхкритическую разницу. Это в основном зависит от того, где находится узкое место вашей системы. Для некоторых архитектур/реализаций программного обеспечения узким местом системы не обязательно является сеть. ** Но в случае с сетью GPUDirect может повысить производительность на 10-20%, что является значительным показателем для дорогостоящих текущих затрат на обучение. **
Тем не менее, GPUDirect RDMA сейчас настолько распространен, что его популярность почти говорит сама за себя. Я думаю, что поддержка GPUDirect слаба для сетей, отличных от Infiniband, но большинство кластеров GPU, оптимизированных для обучения нейронных сетей, имеют сети/карты Infiniband. Более важным фактором производительности, вероятно, является NVLink, поскольку он встречается реже, чем Infiniband, но он также имеет решающее значение только в том случае, если вы используете определенную стратегию распараллеливания.
Таким образом, такие функции, как мощные сетевые возможности и GPUDirect, могут сделать менее сложное программное обеспечение готовым к работе. Однако GPUDirect не является строго обязательным, если рассматривается стоимость или устаревшая инфраструктура.
—— Исследователь глубокого обучения
GPUDirect:
Технология передачи данных под названием GPUDirect Storage (GPUDirect Storage), представленная NVIDIA, в основном используется для ускорения передачи данных, хранящихся в различных хранилищах, в память GPU, что позволяет увеличить пропускную способность от 2 до 8 раз, а также может снизить конечную производительность. до конца задержки до 3,8 раза. Раньше ЦП отвечал за загрузку данных из памяти в ГП, что сильно ограничивало производительность оборудования.
Стандартный путь передачи данных с NVMe-диска в память GPU — использование буфера отскока (Bounce Buffer) в системной памяти, который является дополнительной копией данных. Суть технологии хранения GPUDirect заключается в том, чтобы избежать использования обратного кэша для уменьшения количества дополнительных копий данных и использовать механизм прямого доступа к памяти (Direct Memory Access, DMA) для помещения данных непосредственно в память графического процессора.
**Почему компания LLM не может использовать GPU AMD? **
Руководитель частной облачной компании заявил, что приобрести графические процессоры AMD теоретически возможно, но от покупки до фактической эксплуатации оборудования проходит определенное время, выход на рынок происходит поздно. Таким образом, CUDA является текущим рвом для NVIDIA.
В исследовании MosaicML упоминается, что графические процессоры AMD также подходят для задач обучения больших моделей. Они экспериментировали с простой обучающей задачей на основе PyTorch без какой-либо модификации кода по сравнению с запуском на NVIDIA. Авторы показывают, что пока кодовая база построена на PyTorch, ее можно использовать напрямую на AMD без дополнительной адаптации. В будущем автор планирует проверить производительность системы AMD на более крупном вычислительном кластере.
В то же время существует мнение, что, учитывая, что стоимость обучения модели приближается к 300 миллионам долларов США, никто не рискнет массово полагаться на чипы AMD или других стартапов, особенно когда спрос на чипы высок. при заказе более 10000.
Пенсионер из полупроводниковой отрасли также упомянул, что ситуация с поставками AMD не оптимистична, а производственные мощности CoWoS TSMC были поглощены NVIDIA, поэтому, хотя MI250 может быть жизнеспособной альтернативой, его также трудно получить.
H100 VS A100
NVIDIA A100:
Обновление NVIDIA V100, по сравнению с V100, производительность A100 была улучшена в 20 раз, что очень подходит для таких задач, как ИИ и анализ данных. Состоящий из 54 миллиардов транзисторов, A100 объединяет тензорные ядра третьего поколения с ускорением для операций с разреженными матрицами, что особенно полезно для рассуждений и обучения ИИ. Кроме того, несколько графических процессоров A100 можно использовать для более крупных рабочих нагрузок ИИ с помощью технологии межсоединений NVIDIA NVLink.
NVIDIA H100:
Следующее поколение A100 — это новейший чип, оптимизированный для больших моделей. Он основан на архитектуре Hopper, построенной с использованием 5-нанометрового техпроцесса TSMC (4N), и один чип содержит 80 миллиардов транзисторов. В частности, NVIDIA предложила Transformer Engine, который объединяет вычисления с высокой точностью и возможности динамической обработки нейронной сети Transformer, что позволяет графическому процессору H100 значительно сократить время обучения модели. На основе H100 NVIDIA также выпустила серию продуктов, таких как рабочие станции машинного обучения и суперкомпьютеры, например, 8 H100 и 4 NVLink, объединенных в гигантский графический процессор — DGX H100.
По сравнению с A100 скорость 16-разрядного логического вывода H100 примерно в 3,5 раза выше, а скорость обучения 16-разрядного — примерно в 2,3 раза выше.
Сравнение скоростей A100 и H100
H100 Обучение MoE
Ускорение H100 в масштабе
Большинство людей, как правило, покупают H100 для обучения модели и логического вывода, а A100 используют в основном для логического вывода модели. Однако можно также учитывать следующие факторы:
**• Стоимость: **H100 дороже, чем A100;
**• Емкость: **A100 и H100 отличаются вычислительной мощностью и памятью;
**• Использование нового оборудования: **Внедрение H100 требует соответствующих корректировок в программном обеспечении и рабочем процессе;
**• Риск: ** В настройке H100 больше неизвестных рисков;
**• ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ОПТИМИЗИРОВАНО: **Некоторое программное обеспечение оптимизировано для A100.
В целом, несмотря на более высокую производительность H100, бывают случаи, когда имеет смысл выбрать A100**, что делает переход с A100 на H100 непростым решением, учитывая множество факторов. **
Фактически, через несколько лет A100 станет V100, которым он является сегодня. Учитывая ограничения по производительности, думаю, LLM сейчас на V100 почти никто не будет обучать. Но V100 по-прежнему используется для логических выводов и других задач. Точно так же цена A100 может упасть по мере того, как все больше ИИ-компаний будут использовать H100 для обучения новых моделей, но спрос на A100 всегда будет, особенно для логического вывода.
Руководитель частного облака
Я думаю, что это может снова привести к потоку A100 на рынке, поскольку некоторые стартапы с огромным финансированием в конечном итоге обанкротятся.
— (Другой) Руководитель частного облака
Но со временем люди будут использовать A100 для все большего числа задач логического вывода вместо обучения новейшим и более крупным моделям. ** Производительность V100 больше не может поддерживать обучение больших моделей, а видеокарты с большим объемом памяти больше подходят для больших моделей, поэтому передовые команды предпочитают H100 или A100.
Основной причиной отказа от использования V100 является отсутствие типов данных brainfloat16 (bfloat16, BF16). Без этого типа данных сложно легко обучать модели. Основной причиной низкой производительности OPT и BLOOM является отсутствие этого типа данных (OPT обучался на float16, BLOOM в основном прототипировался в FP16, что делало невозможным обобщение данных на обучающие прогоны, выполненные в BF16).
—— Исследователь глубокого обучения
**• В чем разница между графическими процессорами Nvida H100, GH200, DGX GH200, HGX H100 и DGX H100? **
• H100 = 1 графический процессор H100;
• HGX H100 = эталонная серверная платформа NVIDIA. Используется OEM-производителями для создания серверов с 4 или 8 GPU, производимых сторонними OEM-производителями, такими как Supermicro;
• DGX H100 = официальный сервер NVIDIA H100 с 8 серверами H100, единственным поставщиком которого является NVIDIA;
• GH200 = 1x H100 GPU плюс 1x Grace CPU;
• DGX GH200 = 256x GH200, выйдет в конце 2023 г., вероятно, только от NVIDIA;
• MGX для крупных компаний, занимающихся облачными вычислениями.
Из них большинство компаний решили приобрести 8-GPU HGX H100 вместо серверов DGX H100 или 4-GPU HGX H100.
**Сколько эти графические процессоры стоят отдельно? **
1x DGX H100 (SXM) с 8 графическими процессорами H100 стоит 460 000 долларов США, включая необходимые услуги поддержки и т. д., около 100 000 долларов США. Стартапы могут получить начальную скидку в размере около 50 000 долларов США на установку до 8 блоков DGX H100, всего 64 устройства H100.
Конкретные характеристики графического процессора следующие:
Технические характеристики DGX H100
1x HGX H100 (SXM) с 8-ю графическими процессорами H100 может стоить от 300 000 до 380 000 долларов в зависимости от характеристик (сеть, хранилище, память, ЦП), маржи поставщика и уровня поддержки. Если характеристики точно такие же, как у DGX H100, предприятия могут заплатить более высокую цену от 360 000 до 380 000 долларов США, включая поддержку.
1x HGX H100 (PCIe) с 8x графическими процессорами H100 стоит примерно 300 тысяч долларов, включая поддержку, в зависимости от спецификаций.
Рыночная цена карты PCIe составляет от 30 000 до 32 000 долларов.
Видеокарты SXM не продаются по отдельности, поэтому определить цену сложно. Обычно продаются только как серверы 4GPU и 8GPU.
Около 70-80% спроса на рынке приходится на SXM H100, остальное — на PCIe H100. Спрос на сегмент SXM растет, поскольку в предыдущие месяцы были доступны только карты PCIe. Учитывая, что большинство компаний покупают 8GPU HGX H100 (SXM), это примерно 360 000–380 000 долларов за 8 H100, включая другие серверные компоненты.
DGX GH200 содержит 256x GH200, и каждый GH200 содержит 1x H100 GPU и 1x Grace CPU. По оценкам, стоимость DGX GH200 может составлять от 15 до 25 миллионов долларов США.
**Каков рыночный спрос на GPU? **
• Обучение GPT-4 можно проводить на 10 000–25 000 листов формата A100;
• У Meta около 21 000 A100, у Tesla около 7 000 A100, а у Stability AI около 5 000 A100;
• Тренировка Falcon 40B проведена на 384 самолетах A100;
• Inflection использует 3500 листов H100 в эквивалентной модели GPT-3.5.
К декабрю у нас будет 22 000 графических процессоров, а сегодня — более 3 500 единиц.
— Мустафа Сулейман, генеральный директор Inflection AI
** По словам Илона Маска, для обучения GPT-5 может потребоваться 30 000–50 000 H100. ** Morgan Stanley предложил в феврале 2023 года, что GPT-5 будет использовать 25 000 графических процессоров, и в то время они также предположили, что GPT-5 уже проходил обучение, но Сэм Альтман позже опроверг это в мае этого года, заявив, что OpenAI не обучал GPT-5, поэтому информация Morgan Stanley может быть неточной.
GCP имеет около 25 000 H100, а Azure может иметь от 10 000 до 40 000 H100. Это должно быть похоже на Oracle. Кроме того, большая часть ресурсов Azure будет предоставлена OpenAI.
CoreWeave обслуживает от 35 000 до 40 000 H100, но это количество основано на заказах, а не на фактических данных.
**Сколько H100 заказал Startup? **При использовании для тонкой настройки LLM обычно заказываются десятки или сотни листов; при использовании для обучения LLM требуются тысячи листов.
** Сколько H100 может понадобиться компании в секторе LLM? **
• OpenAI может потребоваться 50 000, Inflection — 24 000, а Meta — 25 000 (есть также поговорка, что Meta на самом деле нужно 100 000 или больше);
• Крупным поставщикам облачных услуг, таким как Azure, Google Cloud, AWS и Oracle, может потребоваться по 30 000;
• Поставщики услуг частного облака, такие как Lambda и CoreWeave, а также другие частные облака могут доходить до 100 000;
• Антропик, Хельсинг, Мистраль, Персонаж могут стоить 10к каждый.
Приведенные выше цифры являются оценками и предположениями, и некоторые из них могут быть учтены дважды, например, клиенты, арендующие облако. **В целом, согласно текущим подсчетам, количество H100 составляет около 432 000. Если рассчитать примерно по 35 000 долларов США за каждый, это GPU общей стоимостью около 15 миллиардов долларов США. Кроме того, в число 432 000 не входят китайские компании, такие как ByteDance (TikTok), Baidu и Tencent, которым требуется много H800. **
Кроме того, некоторые финансовые компании также внедряют A100/H100 в диапазоне от сотен до тысяч: например, Jane Street, JP Morgan, Two Sigma и Citadel.
**Как это соотносится с доходами центров обработки данных NVIDIA? ** Выручка центров обработки данных NVIDIA в размере 4,28 млрд долларов США за февраль-апрель 2023 года. В период с 25 мая по июль 2023 года доход центра обработки данных может составить около 8 миллиардов долларов. **В основном это основано на предположении, что более высокие прогнозы выручки NVIDIA на квартал в первую очередь связаны с увеличением доходов от бизнеса центров обработки данных, а не от других областей бизнеса. **
Поэтому может пройти некоторое время, прежде чем дефицит предложения уменьшится. Но не исключено, что нехватка вычислительных мощностей преувеличена, во-первых, большинство компаний не закупают все необходимые им H100 сразу, а модернизируют постепенно, кроме того, NVIDIA также активно наращивает производственные мощности.
Наличие 400 000 H100 на рынке в целом вполне достижимо, особенно если учесть, что в наши дни все развертывают четырех- или пятизначные H100 в больших количествах.
—— Руководитель частного облака
Подведем итог
• Большинство крупных CSP (Azure, AWS, GCP и Oracle) и частных облаков (CoreWeave, Lambda и другие) предпочитают больше графических процессоров H100, чем просто возможность доступа к ним, большинство крупных предложений ИИ. Компания также стремится увеличить количество графических процессоров H100. .
• Обычно этим компаниям требуется шасси HGX H100 с 8 графическими процессорами и картами SXM. В зависимости от спецификаций и поддержки каждый сервер с 8 графическими процессорами стоит примерно 3-4 миллиона долларов. Может возникнуть избыточный спрос на сотни тысяч графических процессоров H100 общей стоимостью более 15 миллиардов долларов;
• При ограниченном предложении NVIDIA могла поднять цены, чтобы найти рыночную равновесную цену, и в какой-то степени это произошло. В общем, окончательное решение о том, как выделить GPU H100, зависит от того, каким клиентам сама NVIDIA предпочитает его выделять.
03.H100 Анализ предложения
Узкое место от TSMC
H100 производятся TSMC (TSMC). **Может ли NVIDIA выбрать другие фабрики чипов для производства большего количества H100? По крайней мере, пока. **
В прошлом NVIDIA сотрудничала с Samsung, но Samsung не смогла удовлетворить их потребности в передовых графических процессорах, поэтому в настоящее время NVIDIA может использовать только графические процессоры H100s и другие 5-нм графические процессоры, произведенные TSMC. **Возможно, в будущем NVIDIA будет сотрудничать с Intel или продолжит сотрудничество с Samsung по связанным технологиям, но ни одна из этих ситуаций не произойдет в краткосрочной перспективе, поэтому нехватка поставок H100 не уменьшится. **
5-нанометровая технология TSMC (N5) будет запущена в массовое производство в 2020 году. Технология N5 — это вторая технология TSMC EUV, предлагающая более высокую скорость и меньшее энергопотребление, чем предыдущая технология N7. Кроме того, TSMC также планирует запустить 4-нанометровую (N4) технологию, которая является усовершенствованной версией технологии N5, которая еще больше улучшит производительность и энергопотребление, и планирует начать массовое производство в 2022 году.
H100 производится на основе техпроцесса TSMC 4N, который относится к расширенному 5-нм техпроцессу в 5-нм серии, а не к реальному 4-нм техпроцессу. **Помимо NVIDIA, Apple также использует эту технологию, но они в основном перешли на N3 и сохранили большую часть емкости N3. **Кроме того, Qualcomm и AMD являются крупными покупателями серии N5.
A100 использует процесс TSMC N7.
7 нанометров (N7) — это техпроцесс, который TSMC запустит в массовое производство в 2019 году. На основе N7 TSMC также представила процесс N7+, который представляет собой 7-нм производственный процесс с использованием EUV (литография в экстремальном ультрафиолете), который увеличивает плотность транзисторов на 15-20% при одновременном снижении энергопотребления чипа.
Как правило, начальная производственная мощность (производственная мощность) планируется более чем на 12 месяцев вперед. Отмечается, что TSMC и ее основные клиенты будут совместно планировать производственный спрос на следующий год, поэтому нынешний дефицит H100 частично связан с тем, что TSMC и NVIDIA неверно оценили спрос на H100 в этом году по сравнению с предыдущим годом.
Потрясающая вместимость:
В технологическом потоке полупроводниковых микросхем Fab — это аббревиатура от FABRICATION (обработка, производство), а Fab Capacity можно рассматривать как пропускную способность.
Согласно другому источнику, обычно требуется 6 месяцев для продажи H100 клиентам (производство, упаковка и тестирование) с момента начала производства, но эта ситуация еще не подтверждена.
Вышедший на пенсию специалист в области полупроводников указал, что мощности по производству пластин не являются узким местом TSMC, а реальное узкое место кроется в вышеупомянутом CoWoS (трехмерное стекирование).
CoWoS (чип на пластине на подложке, трехмерная укладка):
Это интегрированная технология производства 2.5D TSMC.Сначала чип подключается к кремниевой пластине посредством процесса упаковки CoW (Chip on Wafer), а затем чип CoW подключается к подложке (Substrate) и интегрируется в CoWoS. .
Согласно DigiTimes, TSMC начала расширять свои производственные мощности CoWoS и планирует увеличить производственную мощность CoWoS с 8 000 пластин в месяц до 11 000 пластин в месяц к концу 2023 года и примерно с 14 500 до 16 600 пластин в месяц к концу 2023 года. 2024. Крупные технологические гиганты, такие как NVIDIA, Amazon, Broadcom, Cisco и Xilinx, имеют повышенный спрос на усовершенствованную упаковку CoWoS от TSMC.
Память H100
**Тип памяти (Memory Bype), ширина шины памяти (Memory Bus Width) и тактовая частота памяти (Memory Clock Speed) совместно влияют на пропускную способность памяти графического процессора. **NVIDIA разработала ширину шины и тактовую частоту H100 как часть архитектуры графического процессора. Память HBM3 в основном используется в H100 SXM, а HBM2e — в H100 PCIe.
HBM трудно производить, а поставки очень ограничены, поэтому производство HBM - это кошмар. Но как только HBM произведен, остальная часть конструкции становится легкой.
—— Исследователь глубокого обучения
**Тип памяти, ширина шины памяти и тактовая частота памяти являются тремя важными показателями памяти компьютера. **
Ширина шины памяти:
Это относится к ширине канала передачи данных между модулем памяти и материнской платой.Более широкая ширина шины памяти может обеспечить больший путь данных, тем самым увеличивая скорость передачи данных между памятью и процессором.
Тактовая частота памяти:
Относится к рабочей тактовой частоте модуля памяти.Более высокая тактовая частота памяти означает, что память может выполнять операции чтения и записи быстрее и обеспечивает более высокую скорость передачи данных.
**HBM (память с высокой пропускной способностью): **
Технология памяти с высокой пропускной способностью, используемая для обеспечения высокой скорости доступа к памяти в графических процессорах (GPU) и других высокопроизводительных вычислительных устройствах. Технология памяти, используемая в традиционных графических картах и вычислительных устройствах, обычно основана на дизайне GDDR (Graphics Double Data Rate), который имеет определенный баланс между производительностью и энергопотреблением. Технология HBM обеспечивает более высокую пропускную способность и более низкое энергопотребление за счет размещения стеков памяти на чипах графического процессора и объединения нескольких чипов DRAM вместе через высокоскоростные вертикальные соединения (TSV).
Для памяти HBM3 NVIDIA может использовать полностью или в основном SK Hynix. Неизвестно, использует ли NVIDIA H100 память Samsung, но точно известно, что NVIDIA в настоящее время не использует память Micron.
Что касается HBM3, то, вообще говоря, у SK Hynix самый большой объем производства, за которым следует Samsung, а у Micron, занявшего третье место, большой разрыв с первыми двумя. Похоже, что SK Hynix нарастила производство, но NVIDIA по-прежнему хочет, чтобы они производили больше, в то время как Samsung и Micron пока не смогли нарастить производство.
**Что еще используется при производстве графических процессоров? **
Кроме того, в производстве ГПА также будет задействовано много металлических материалов и деталей.Нехватка сырья в этих звеньях также вызовет узкие места в поставках ГПА, такие как:
**• Металлы и химические вещества: **Включает кремний (металлоиды), такие как медь, тантал, золото, алюминий, никель, олово, индий и палладий, которые используются на различных этапах производства, от производства кремния до окончательной сборки графического процессора. , такие как кремний, редкоземельные элементы и т.д.;
**• Компоненты и упаковочные материалы: **такие как подложки, шарики припоя и проволоки, теплорассеивающие составы и т. д., которые используются для завершения сборки и соединения различных компонентов графического процессора и имеют решающее значение для работы графического процессора. графический процессор;
**• Энергопотребление:**Из-за использования высокоточного механического оборудования в процессе производства чипов GPU требуется большое количество электроэнергии.
**Как NVIDIA справляется с нехваткой H100? **
NVIDIA объявила, что они увеличат поставки во второй половине этого года.Финансовый директор NVIDIA сказал в финансовом отчете, что компания делает все возможное, чтобы решить проблему с поставками, но кроме этого, они не передали никакой дополнительной информации и не предоставили у них есть какие-то конкретные цифры, связанные с H100.
«Мы работаем над проблемами с поставками на квартал, но мы также купили много акций на вторую половину года».
«Мы считаем, что предложение во второй половине года будет значительно выше, чем в первой половине».
-- Колетт Кресс, финансовый директор Nvidia, о звонке о прибылях и убытках за февраль-апрель 2023 г.
Руководитель частной облачной компании считает, что **в следующий раз на рынке может возникнуть порочный круг, то есть нехватка ресурсов графического процессора будет рассматриваться как ров для компаний, занимающихся искусственным интеллектом, что приведет к еще большему накоплению графического процессора, что, в свою очередь, еще больше усугубит дефицит графических процессоров. **
Согласно историческому интервалу между запуском NVIDIA различных архитектур, модель H100 следующего поколения может быть выпущена не раньше конца 2024 года (с середины 2024 года до начала 2025 года). До этого H100 всегда будет топовым продуктом NVIDIA GPU (GH200 и DGX GH200 не в счет, они не являются чистыми GPU, и оба используют H100 в качестве GPU).
Кроме того, ожидается, что в будущем появится версия на 120 ГБ с большей памятью.
04. Как получить H100
Продавец H100
Производители оригинального оборудования (OEM), такие как Dell, HPE, Lenovo, Supermicro и Quanta, продают H100 и HGX H100, а заказывать InfiniBand необходимо через NVIDIA Mellanox.
Mellanox — один из крупнейших мировых поставщиков InfiniBand.В 2015 году доля Mellanox на мировом рынке IB достигла 80%. В 2019 году NVIDIA приобрела Mellanox по цене 125 долларов за акцию, а общая стоимость сделки составила примерно 6,9 миллиарда долларов. Это приобретение позволит NVIDIA еще больше увеличить свою долю на рынке высокопроизводительных вычислений и центров обработки данных, а также укрепит конкурентоспособность NVIDIA в области искусственного интеллекта.
Объединив технологию высокоскоростного соединения Mellanox с ускорителями графических процессоров NVIDIA, NVIDIA может предоставить центрам обработки данных решения с более высокой пропускной способностью и меньшими задержками. Помимо Mellanox, в 2012 году корпорация Intel приобрела технологию IB компании QLogic, еще одного поставщика в области IB.
Облака графических процессоров, такие как CoreWeave и Lambda, покупают графические процессоры у OEM-производителей и сдают их в аренду стартапам. Гипермасштабные облачные игроки (Azure, GCP, AWS, Oracle) могут покупать больше напрямую у NVIDIA, но иногда они также работают с OEM-производителями.
Для DGX покупка также осуществляется через OEM. Хотя клиенты могут обращаться к NVIDIA по поводу требований к покупке, покупка осуществляется через OEM, а не напрямую через NVIDIA.
Сроки доставки серверов HGX с 8 GPU ужасны, а серверы HGX с 4 GPU довольно хороши, но реальность такова, что всем нужны серверы с 8 GPU.
**• Сколько времени проходит от размещения заказа до развертывания H100? **
Развертывание — поэтапный процесс. Скажем, порядка 5000 графических процессоров, они могут получить доступ к 2000 или 4000 графическим процессорам через 4-5 месяцев, а затем к остальным графическим процессорам примерно через 6 месяцев.
Для стартапа, если вы хотите купить GPU, вы не размещаете заказ у OEM-производителя или торгового посредника.Они обычно выбирают общедоступные облачные сервисы, такие как Oracle, или арендуют права доступа к частным облакам, таким как Lambda и CoreWeave или используйте такие сервисы, как FluidStack, OEM-производители и поставщики, которые работают с доступом к аренде центров обработки данных.
**• Стоит ли предприятию строить собственный дата-центр или колокейшн? **
При создании центра обработки данных необходимо учитывать такие факторы, как время на создание центра обработки данных, наличие талантов и опыта в области аппаратного обеспечения, а также масштаб капитальных вложений.
Арендовать и разместить сервер намного проще. Если вы хотите построить свой собственный центр обработки данных, вам нужно проложить темную оптоволоконную линию до вашего местоположения для подключения к Интернету, а стоимость оптоволокна составляет 10 000 долларов за километр. Во время интернет-бума большая часть инфраструктуры уже была построена и оплачена. Теперь вы можете просто арендовать, и это довольно дешево.
—— Руководитель частного облака
Выбор между арендой или строительством центра обработки данных — это решение «или-или».В зависимости от реальных потребностей у предприятий могут быть следующие варианты:
Облако по требованию: используйте исключительно облачные сервисы для аренды;
Зарезервированное облако;
Хостинг (покупка сервера, сотрудничество с провайдером для размещения и управления сервером);
Самостоятельный хостинг (покупка и размещение сервера самостоятельно).
Большинство стартапов, которым нужно много H100, выберут зарезервированное облако или совместное размещение.
**Как предприятия выбирают компанию, предоставляющую облачные услуги? **
Есть мнение, что инфраструктура Oracle не так надежна, как три основных облака, но она готова уделять больше времени технической поддержке клиентов. Некоторые специалисты-практики частных облачных компаний заявили, что 100% из них будут иметь большое количество недовольных клиентов услугами на базе Oracle, а некоторые руководители других компаний считают, что сетевые возможности Oracle сильнее.
**Как правило, Startup выбирает компанию с лучшим сочетанием сервисной поддержки, цены и возможностей. **
Основные различия между несколькими крупными компаниями, предоставляющими облачные услуги, заключаются в следующем:
**• Сеть: **AWS и Google Cloud медленнее внедряют InfiniBand, поскольку у них есть свои собственные подходы, но большинство стартапов, которым нужны большие кластеры A100/H100, ищут InfiniBand;
**• Доступность: **Например, большая часть вычислительной мощности Azure H100 используется OpenAI, что означает, что другим клиентам может быть не так много вычислительной мощности.
**Хотя нет никаких фактических оснований, есть предположения, что NVIDIA более склонна отдавать приоритет поставкам графических процессоров поставщикам облачных услуг, которые не разработали конкурирующие чипы машинного обучения. ** Все три основных поставщика облачных услуг в настоящее время разрабатывают свои собственные чипы машинного обучения, но альтернативы AWS и NVIDIA от Google уже представлены на рынке и отнимают часть доли рынка у NVIDIA. Это также привело к некоторым рыночным предположениям о том, что из-за этого NVIDIA более охотно сотрудничает с Oracel.
У некоторых крупных облачных компаний цены ниже, чем у других. Как заметил один руководитель частного облака: «Например, A100 на AWS/AZURE намного дороже, чем GCP».
Oracle сообщила мне, что в конце этого года у них будут в эксплуатации «десятки тысяч H100». Но с точки зрения ценообразования они выше, чем у других компаний. Они не дали мне цены на H100, но для A100 80 ГБ они назвали около 4 долларов в час, что почти в 2 раза больше, чем у GCP, при том же энергопотреблении и усилиях.
— Аноним
Облака меньшего размера имеют преимущество с точки зрения ценообразования, за исключением некоторых случаев, когда одна из крупных облачных компаний может заключить странную сделку в обмен на акции.
Так что в целом по тесноте сотрудничества с NVIDIA, Oracle и Azure > GCP и AWS, но это только предположение.
Oracle стала пионером A100 и разместила кластеры на базе Nvidia в партнерстве с Nvidia, которая также является клиентом Azure.
**• У какой крупной облачной компании лучшая производительность сети? **
Azure, CoreWeave и Lambda используют InfiniBand. Производительность сети Oracle составляет 3200 Гбит/с, но вместо InfiniBand используется Ethernet, что может быть примерно на 15-20% медленнее, чем у IB, для таких случаев использования, как обучение LLM с высокими параметрами. Сети AWS и GCP не так хороши.
**• Как предприятия выбирают облачные сервисы в настоящее время? **
Статистические данные по 15 компаниям показывают, что все 15 опрошенных компаний выберут AWS, GCP или Azure, а Oracle среди них нет.
Большинство предприятий, как правило, используют существующее облако. Но для предпринимательских команд их выбор больше основан на реальности: тот, кто может предоставить вычислительную мощность, выберет любую.
**• С кем NVIDIA работает над DGX Cloud? **
«Nvidia сотрудничает с ведущими поставщиками облачных услуг для размещения облачной инфраструктуры DGX, начиная с облачной инфраструктуры Oracle» — продавайте с Nvidia, но сдавайте в аренду через существующих облачных провайдеров (сначала с Oracle, затем с Azure, а затем с Google Cloud, который не работал с АВС).
Генеральный директор NVIDIA Дженсен Хуанг сказал, что «идеальное сочетание — это 10 % облака NVIDIA DGX и 90 % облака CSP».
• Расписание облачных гигантов H100:
CoreWeave был одним из первых. В качестве инвестора CoreWeave и в целях усиления конкуренции среди крупных облачных компаний NVIDIA первой завершила поставку CoreWeave.
График H100 других компаний, предоставляющих облачные услуги, выглядит следующим образом:
• Azure объявила о доступности H100 для предварительной версии 13 марта;
• 21 марта Oracle объявила об ограниченных поставках H100;
• Lambda Labs объявила 21 марта, что выпустит H100 в начале апреля;
• 21 марта AWS объявила, что предварительная версия H100 появится через несколько недель;
• Google Cloud объявила о начале закрытой предварительной версии H100 10 мая.
**• Какие облачные сервисы используют разные компании? **
• OpenAI: Azure
• Перегиб: Azure и CoreWeave
• Антропный: AWS или Google Cloud.
• Cohere:AWS и Google Cloud
• Обнимающее лицо: AWS
• Стабильность ИИ: CoreWeave и AWS
• Персонаж.ai: Облако Google
• X.ai: Оракул
• NVIDIA: Azure
**Как получить больше квоты GPU? **
Последнее узкое место заключается в том, можно ли получить распределение вычислительной мощности от NVIDIA.
**• Как NVIDIA выбирает клиентов? **
NVIDIA обычно выделяет определенное количество графических процессоров каждому клиенту, и в этом процессе **NVIDIA больше всего беспокоит, «кто является конечным покупателем», например, Azure сказал: «Мы хотим купить 10 000 H100 для поддержки Inflection», и результат, соответствующий заявлению Azure «Мы приобрели 10 000 H100 для Azure», отличается. **Если NVIDIA заинтересована в конкретном конечном потребителе, облачная компания может получить дополнительную квоту на GPU. Поэтому NVIDIA надеется узнать как можно больше, кто является конечными потребителями, и они будут более склонны к крупным предприятиям или стартапам с сильной поддержкой.
Да, похоже, это так. Nvidia любит предоставлять доступ к графическим процессорам стартапам в области ИИ (многие из которых имеют тесные связи с Nvidia). Inflection, компания, занимающаяся искусственным интеллектом, в которую инвестировала Nvidia, тестирует огромный кластер H100 на CoreWeave.
—— Руководитель частного облака
Если некая облачная компания приводит в NVIDIA конечного клиента и заявляет, что готова приобрести определенное количество H100, и NVIDIA заинтересована в этом конечном покупателе, NVIDIA, как правило, выделяет определенную квоту, которая фактически увеличивает сумму, которую NVIDIA выделяет конечному потребителю общую мощность облачной компании, поскольку это распределение не зависит от квоты, изначально предоставленной облачной компании NVIDIA.
Выделение NVIDIA большой емкости частным облакам — особый случай: **CoreWeave имеет больше H100, чем GCP. NVIDIA неохотно выделяет значительные ресурсы компаниям, которые пытаются конкурировать с ней напрямую (AWS Inferentia и Tranium, Google TPU, Azure Project Athena). **
Но, в конце концов, если вы отправите NVIDIA заказ на покупку и деньги, заключите более крупную сделку с большим авансовым финансированием и укажете свой профиль с низким уровнем риска, вы обязательно получите больше квот на GPU, чем кто-либо другой.
05. Резюме
Несмотря на то, что, как сказал Сэм Альтман, «эпоха использования больших моделей подходит к концу», пока мы все еще ограничены GPU. С одной стороны, такие компании, как OpenAI, уже имеют отличные продукты PMF, такие как ChatGPT, но поскольку они ограничены графическими процессорами, им необходимо покупать большое количество вычислительной мощности.С другой стороны, многие команды работают над возможностью участия в LLM в будущем Накопление графических процессоров независимо от их потенциала для создания чего-то вроде ChatGPT.
Но можно не сомневаться, что право голоса NVIDIA не будет поколеблено.
На данном этапе лучшим продуктом LLM, который делает PMF, является ChatGPT. Ниже используется ChatGPT в качестве примера, чтобы объяснить, почему существует нехватка графических процессоров:
Поскольку ChatGPT так популярен среди пользователей, его ARR (годовой регулярный доход) может превышать 500 миллионов долларов США;
ChatGPT работает на API GPT-4 и GPT-3.5;
Для работы API GPT-4 и GPT-3.5 требуется графический процессор, а требуется большое количество графических процессоров.OpenAI надеется выпустить больше функций для ChatGPT и его API, но это невозможно реализовать из-за ограниченного количества графические процессоры;
OpenAI приобрела большое количество графических процессоров NVIDIA через Microsoft (Azure);
Для производства графического процессора H100 SXM NVIDIA использует TSMC для производства и использует технологию упаковки TSMC CoWoS и HBM3 в основном от SK Hynix.
Помимо OpenAI, на рынке еще много компаний, которые обучают свои большие модели.Оставим в стороне, сколько пузырей существует в LLM, и насколько велика вероятность появления в итоге продуктов PMF, но в целом конкуренция LLM подтолкнул спрос рынка на графические процессоры. Кроме того, есть компании, которые даже если им пока не нужны графические процессоры, они начнут заранее их запасать, потому что беспокоятся о будущем. Так что это вроде как «ожидание дефицита предложения усугубляет дефицит предложения»**.
Таким образом, еще одной силой, повышающей спрос на графические процессоры, являются корпоративные компании, которые хотят создавать новые LLM или участвовать в ИИ в будущем:
Важность больших моделей стала общепризнанной: если это зрелое предприятие, оно надеется обучать LLM на своих собственных данных и надеется, что это принесет больше пользы для бизнеса; как начинающая компания, оно надеется построить свою собственный LLM и превратить его в коммерческую ценность. GPU как раз нужен для обучения больших моделей;
Связь между этими предприятиями и крупными облачными вендорами (Azure, Google Cloud, AWS), пытающимися получить достаточное количество H100;
В ходе процесса они обнаружили, что поставщики облачных услуг не имеют достаточного количества H100 для выделения, а некоторые поставщики облачных услуг также имеют несовершенные сетевые конфигурации, поэтому CoreWeave, Oracle, Lambda и FluidStack также стали покупать графические процессоры и владеть ими, возможно, они также обсуждают с OEM и NVIDIA;
В итоге получили много графических процессоров;
Теперь они пытаются сопоставить свой продукт с рынком;
Если это еще не ясно, путь будет непростым — помните, что OpenAI достиг соответствия продукта рынку на меньшей модели, а затем масштабировал ее. Но теперь, чтобы добиться соответствия продукта рынку, вы должны лучше соответствовать варианту использования вашего пользователя, чем модель OpenAI, поэтому для начала вам нужно больше графических процессоров, чем OpenAI.
**По крайней мере, до конца 2023 года будет нехватка для предприятий, развертывающих сотни или тысячи H100, возможно, к концу 2023 года ситуация прояснится, но похоже, что нехватка графических процессоров может продолжаться до 2024 года. **
Путешествие по спросу и предложению графических процессоров
Ссылка
Комментарий от основателя стартапа LLMs-for-enterprises
Сообщение от поставщика облачных услуг
Беседы с сотрудниками облачных компаний и поставщиками графических процессоров
Tesla Q1 2023 (с 1 января 2023 г. по 31 марта 2023 г.) отчет о прибылях и убытках
Комментарий сотрудника облачной компании
Предположительный пример от облачной компании
︎
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Анализ спроса и предложения H100: как долго продлится война чипов?
Автор: Клэй Паскаль
Составители: Вэньли, Лавида, Юнхао
Рекомендовано: Кейдж, Хуайвэй
Источник: зарубежные единороги.
Прорыв больших моделей основан на повышении вычислительной мощности оборудования и возможностей облачных вычислений.Nvidia H100, которая считается «ядерной бомбой» графического процессора, сталкивается с самой серьезной нехваткой в истории. Сэм Альтман прямо заявил, что нехватка графических процессоров ограничивает скорость обновления технологии OpenAI с точки зрения тонкой настройки, выделенной емкости, 32-тысячных контекстных окон и мультимодальности.
Эта статья составлена из GPU Utils. Автор в основном обсуждает, как долго прослужат графические процессоры (особенно NVIDIA H100) с точки зрения спроса и предложения.
С точки зрения спроса, NVIDIA H100, несомненно, является жестким спросом для обучения больших моделей.По оценкам, текущий спрос на H100 на рынке составляет около 432 000 листов, что эквивалентно общей стоимости около 35 000 долларов США за лист. При цене графического процессора 15 млрд. долл. США** в число 432 000 не входят такие компании, как ByteDance (TikTok), Baidu и Tencent, которым требуется много H800.
Что касается предложения, то нехватка H100 напрямую ограничена производственными мощностями TSMC, и в краткосрочной перспективе у NVIDIA нет других альтернативных заводов по производству чипов. Из-за ограниченных поставок у NVIDIA также есть собственная стратегия распределения этих графических процессоров.Для NVIDIA очень важно, как гарантировать, что эти ограниченные графические процессоры переходят к темным лошадям ИИ, а не к потенциальным конкурентам, таким как Google, Microsoft и AWS.
Как долго продлится эта гонка ИИ вокруг H100? Ответ пока не ясен. Хотя NVIDIA заявила, что увеличит поставки во второй половине года, похоже, нехватка графических процессоров может сохраниться до 2024 года.
Из-за нехватки H100 рынок может войти в «порочный круг»: из-за нехватки мощности графических процессоров они будут рассматриваться как ров для компаний, занимающихся искусственным интеллектом, что приводит к увеличению запасов графических процессоров, что еще больше усугубляет нехватку графических процессоров.
**Ниже приводится оглавление этой статьи, и рекомендуется читать его в сочетании с основными пунктами. **
👇
01 фон
02 Анализ требований для H100
03 H100 Анализ предложения
04 Как получить H100
05 Резюме
01.Фон
До августа 2023 года развитие области искусственного интеллекта сдерживалось узким местом в поставках графических процессоров.
"Одной из причин недооценки бума ИИ является нехватка GPU/TPU. Нехватка GPU и TPU ограничивает скорость внедрения продукта и прогресс обучения модели, но эти ограничения скрыты. В основном мы наблюдаем стремительный рост цен на акции NVIDIA. , а не прогресс НИОКР ограничен. Ситуация улучшится, когда спрос и предложение будут сбалансированы.
— Адам Д'Анджело, генеральный директор Quora, Poe.com, бывший технический директор Facebook.
Сэм Альтман сказал, что нехватка графических процессоров ограничила прогресс проектов OpenAI, таких как тонкая настройка, выделенная емкость, контекстные окна 32 КБ, мультимодальность и т. д.
Крупномасштабные кластеры H100 от мелких и крупных облачных провайдеров исчерпывают свою емкость.
«Все хотят, чтобы NVIDIA производила больше A/H100».
«Из-за текущей нехватки графических процессоров для OpenAI лучше, чтобы меньше людей использовали наши продукты»;
«На самом деле мы были бы счастливы, если бы люди меньше использовали продукты OpenAI, потому что у нас недостаточно графических процессоров».
— Сэм Альтман, генеральный директор OpenAI
С одной стороны, слова Сэма Альтмана тонко показывают, что продукты OpenAI нравятся пользователям во всем мире, но в то же время они также иллюстрируют тот факт, что OpenAI действительно нуждается в большем количестве графических процессоров для дальнейшего продвижения и обновления своих функций.
Azure и Microsoft также столкнулись с похожей ситуацией, и аноним упомянул:
• Компания запрещает сотрудникам использовать графические процессоры, и каждый должен стоять в очереди, чтобы подать заявку на вычислительную мощность, как студенты колледжей в 1970-х годах, чтобы использовать компьютеры. С моей точки зрения, OpenAI в настоящее время поглощает все ресурсы графического процессора;
• В июне этого года сотрудничество между Microsoft и CoreWeave, по сути, направлено на улучшение питания Microsoft GPU/вычислений.
Основное плетение:
Поставщики услуг облачных вычислений, согласно официальному сайту CoreWeave, их услуги на 80% дешевле, чем у традиционных поставщиков облачных вычислений. В апреле 2023 года CoreWeave получила инвестиции NVIDIA в раунде B и приобрела большое количество новых карт H100. В июне Microsoft также подписала соглашение с CoreWeave. Microsoft в ближайшие несколько лет инвестирует миллиарды долларов в строительство инфраструктуры облачных вычислений.
В июле CoreWeave запустила самый быстрый в мире проект суперкомпьютера с искусственным интеллектом в партнерстве с NVIDIA, а Inflection AI создала одну из самых сложных в мире крупномасштабных языковых моделей в облаке CoreWeave, используя инфраструктуру, поддерживающую отправку MLPerf. Кроме того, CoreWeave использовала находящуюся в руках ускорительную карту NVIDIA H100 в качестве залога и в августе объявила о завершении долгового финансирования на сумму 2,3 миллиарда долларов.
Подводя итог, можно сказать, что поставки графических процессоров H100 уже довольно ограничены. Ходят даже слухи, что у **Azure и GCP практически не хватает мощности, а у AWS — нехватка. **
Причина дефицита заключается в том, что NVIDIA поставляет этим облачным провайдерам ограниченное количество графических процессоров H100.
Если вы хотите понять узкое место вычислительной мощности, вы можете сосредоточиться на следующих вопросах:
• Каковы конкретные причины этой ситуации? :
Насколько велик спрос? Например, в каких областях относительно быстро растет спрос на искусственный интеллект;
Насколько велик запас? Достаточно ли производственных мощностей производителей графических процессоров, таких как NVIDIA, для удовлетворения спроса;
• Как долго продлится этот дефицит? Когда спрос и предложение на графические процессоры постепенно достигнут точки равновесия?
• Какими способами можно эффективно уменьшить эту нехватку?
02.H100 Анализ требований
Проанализируйте ключевые проблемы узких мест вычислительной мощности со стороны спроса:
Что именно люди хотят купить, но не могут получить?
Насколько велик спрос на GPU на текущем рынке?
Почему предприятия предпочитают NVIDIA H100 другим графическим процессорам?
Какие типы графических процессоров в настоящее время представлены на рынке?
Где предприятия могут покупать графические процессоры? Каковы их цены?
**Кто является потребителем H100? **
Предприятия со спросом более 1000 H100 или A100:
• Обучение стартапам LLM:
OpenAI (через Azure), Anthropic, Inflection (через Azure и CoreWeave), Mistral AI;
• Поставщики облачных услуг (CSP):
Помимо трех гигантов Azure, GCP и AWS, существуют также поставщики облачных услуг Oracle и GPU, такие как CoreWeave и Lambda;
• Другие технологические гиганты:
Например, Tesla (**примечание: **Meta, Apple и другие гиганты, о которых первоначальный автор здесь не упомянул, также имеют большой спрос на графические процессоры, Google в основном использует TPU для обработки вычислений, а спрос на H100 в основном облачная платформа Google).
В дополнение к вышеперечисленным компаниям, если компании необходимо произвести большую доводку LLM, ей также необходимо зарезервировать не менее 100 H100 или A100.
Компании, использующие частные облака (CoreWeave, Lambda), и компании с сотнями и тысячами акций H100 почти в основном сталкиваются с работой LLM и некоторыми диффузионными моделями (Diffusion Model). Некоторые компании предпочитают дорабатывать существующие модели, но все больше стартапов в области искусственного интеллекта создают свои собственные большие модели с нуля. **Эти компании обычно подписывают контракты с поставщиками частных облачных услуг на сумму от 10 до 50 миллионов долларов на 3 года и используют от нескольких сотен до нескольких тысяч графических процессоров. **
Для компаний, которые используют только небольшое количество графических процессоров H100 по требованию, задачи, связанные с LLM, составляют большую часть их использования графического процессора, а LLM может использовать более 50% графического процессора.
В настоящее время предприятия отдают предпочтение частным облакам, и хотя эти предприятия обычно выбирают крупных поставщиков облачных услуг по умолчанию, они также сталкиваются с риском исключения.
**• Большие лаборатории искусственного интеллекта больше ограничены задачами логического вывода или задачами обучения? **
Этот вопрос зависит от того, насколько привлекателен их продукт. Другими словами, привлекательность продуктов компании очень важна при определении распределения ресурсов.В случае ограниченных ресурсов приоритеты рассуждений и обучения часто имеют свои собственные акценты. По мнению Сэма Альтмана, если необходимо сделать выбор, OpenAI более склонен к расширению возможностей рассуждений, но в настоящее время OpenAI ограничен в обоих аспектах.
Почему H100 просто необходим для обучения LLM
Большая часть текущего рынка использует графические процессоры NVIDIA H100. Это связано с тем, что графический процессор H100 является самым быстрым с точки зрения вывода и обучения LLM, а также имеет наилучшую производительность по стоимости вывода. В частности, большинство предприятий предпочитают использовать сервер HGX H100 SXM с 8 графическими процессорами.
По моему анализу, для той же работы Н100 выгоднее по стоимости. Графический процессор V100 — хороший вариант, если вы можете найти подержанный блок, но часто это невозможно.
—— анонимное лицо
С точки зрения выводов, мы обнаружили, что графический процессор A10G более чем адекватен и намного дешевле.
—— Руководитель частного облака
Мы заметили, что Falcon 40b и llama2 70b также активно используются, где это утверждение уже не соответствует действительности. Поэтому скорость соединения очень важна для задач логического вывода.
— (Другой) Руководитель частного облака
Сокол 40b :
Falcon — это базовая большая языковая модель с 40 миллиардами параметров, Falcon 40b стремится использовать меньшую обучающую вычислительную мощность для достижения лучших результатов, на модель приходится только 75% обучающих вычислений GPT-3, 40% Chinchilla и PaLM-62B 80%. обучения. 25 мая 2023 года Институт технологических инноваций ОАЭ объявил, что откроет исходный код Falcon 9 для исследований и коммерческого использования.После его выпуска он однажды возглавил список LLM с открытым исходным кодом Hugging Face.
**• Каковы общие потребности предпринимательских команд LLM? **
** Стартапы LLM часто выбирают графический процессор H100 с InfiniBand 3,2 Тбит/с для обучения LLM. Хотя почти все предпочитают H100 на сеансе обучения, на сеансе логического вывода эти компании уделяют больше внимания эффективности затрат, то есть производительности, созданной на доллар. **
По-прежнему существуют некоторые проблемы с производительностью на доллар графических процессоров H100 по сравнению с A100, но H100 по-прежнему предпочтительнее из-за их лучшего масштабирования и более быстрого времени обучения, в то время как скорость/сжатие запускается, обучается или улучшается. Время моделирования имеет решающее значение для стартапы.
«Для многоузлового обучения им всем требуется графический процессор A100 или H100 с сетью InfiniBand. Единственное требование, отличное от A/H100, которое мы наблюдали, — это вывод, когда рабочая нагрузка представляла собой один графический процессор или один узел».
—— Руководитель частного облака
Основными факторами, влияющими на обучение LLM, являются:
**• Пропускная способность памяти: **При большом объеме данных, загружаемых из памяти, более высокая пропускная способность памяти может ускорить загрузку данных;
**• Вычислительная мощность модели (FLOPS, операций с плавающей запятой в секунду): ** Тензорное ядро или аналогичный модуль умножения матриц, который в основном влияет на скорость вычислений;
**• Кэш и задержка кеша: **Кэш может временно хранить данные для повторного доступа, что оказывает значительное влияние на производительность;
**• Дополнительные функции: **Такие как FP8 (8-битное число с плавающей запятой) и т. д., числовые форматы низкой точности могут ускорить обучение и логические выводы;
**• Вычислительная производительность: ** связана с количеством ядер GPU CUDA и в основном влияет на количество задач, которые могут выполняться параллельно;
**• Скорость соединения: **Для высокой пропускной способности межузлового соединения, такой как InfiniBand, этот фактор будет влиять на скорость распределенного обучения.
**H100 предпочтительнее A100 отчасти из-за более низкой задержки кэша H100 и вычислительных возможностей FP8. **
H100 действительно лучший выбор, поскольку он в 3 раза эффективнее A100, но стоит всего в 1,5–2 раза дороже A100. Как считать стоимость всей системы, производительность на доллар у H100 тоже гораздо выше, если учитывать производительность системы, то производительность на доллар может быть в 4-5 раз выше.
—— Исследователь глубокого обучения
**Почему так важна числовая точность? **
Числа с плавающей запятой низкой точности могут повысить скорость обучения и вывода.Например, FP16 занимает вдвое меньше памяти, чем FP32, и в три раза быстрее, чем FP32, с точки зрения скорости вычислений. В процессе обучения LLM, чтобы обеспечить баланс между скоростью и точностью, для ускорения больших языковых моделей используются такие методы, как смешанная точность и адаптивная точность, поэтому поддержка множественной точности является одним из важных соображений при обучении больших языковых моделей. Google предложил числовой формат BFP16, который расширяет числовой диапазон при снижении точности, а производительность выше, чем у FP 32.
**• Помимо графического процессора, каковы затраты на обучение и эксплуатацию LLM? **
GPU в настоящее время является самым дорогим компонентом всей инфраструктуры обучения LLM, но другие аспекты стоимости не являются низкими, что также влияет на обучение и эксплуатационные расходы LLM:
Системная память и твердотельные накопители NVMe дороги: для больших моделей требуется много высокоскоростной памяти и высокоскоростных твердотельных накопителей для кэширования и загрузки данных, и оба компонента дороги;
Высокоскоростные сети дороги. Высокоскоростные сети, такие как InfiniBand (используемые для связи между узлами), очень дороги, особенно для больших распределенных тренировок.
Возможно, 10-15% от общей стоимости работы кластера приходится на электричество и хостинг, примерно поровну распределяя между ними. Затраты на электроэнергию включают в себя электроэнергию, затраты на строительство центра обработки данных, затраты на землю и сотрудников и т. д., около 5%-8%; расходы на хостинг включают землю, здания, сотрудников и т. д., около 5%-10%. **
Нашей главной заботой является сеть и надежный центр обработки данных. AWS не подходил из-за сетевых ограничений и ненадежного оборудования.
—— Исследователь глубокого обучения
**• Как технология GPUDirect помогает в обучении LLM? **
GPUDirect от NVIDIA не требуется для обучения LLM, но также может повысить производительность:
Технология GPUDirect может повысить производительность, но не обязательно сверхкритическую разницу. Это в основном зависит от того, где находится узкое место вашей системы. Для некоторых архитектур/реализаций программного обеспечения узким местом системы не обязательно является сеть. ** Но в случае с сетью GPUDirect может повысить производительность на 10-20%, что является значительным показателем для дорогостоящих текущих затрат на обучение. **
Тем не менее, GPUDirect RDMA сейчас настолько распространен, что его популярность почти говорит сама за себя. Я думаю, что поддержка GPUDirect слаба для сетей, отличных от Infiniband, но большинство кластеров GPU, оптимизированных для обучения нейронных сетей, имеют сети/карты Infiniband. Более важным фактором производительности, вероятно, является NVLink, поскольку он встречается реже, чем Infiniband, но он также имеет решающее значение только в том случае, если вы используете определенную стратегию распараллеливания.
Таким образом, такие функции, как мощные сетевые возможности и GPUDirect, могут сделать менее сложное программное обеспечение готовым к работе. Однако GPUDirect не является строго обязательным, если рассматривается стоимость или устаревшая инфраструктура.
—— Исследователь глубокого обучения
GPUDirect:
Технология передачи данных под названием GPUDirect Storage (GPUDirect Storage), представленная NVIDIA, в основном используется для ускорения передачи данных, хранящихся в различных хранилищах, в память GPU, что позволяет увеличить пропускную способность от 2 до 8 раз, а также может снизить конечную производительность. до конца задержки до 3,8 раза. Раньше ЦП отвечал за загрузку данных из памяти в ГП, что сильно ограничивало производительность оборудования.
Стандартный путь передачи данных с NVMe-диска в память GPU — использование буфера отскока (Bounce Buffer) в системной памяти, который является дополнительной копией данных. Суть технологии хранения GPUDirect заключается в том, чтобы избежать использования обратного кэша для уменьшения количества дополнительных копий данных и использовать механизм прямого доступа к памяти (Direct Memory Access, DMA) для помещения данных непосредственно в память графического процессора.
**Почему компания LLM не может использовать GPU AMD? **
Руководитель частной облачной компании заявил, что приобрести графические процессоры AMD теоретически возможно, но от покупки до фактической эксплуатации оборудования проходит определенное время, выход на рынок происходит поздно. Таким образом, CUDA является текущим рвом для NVIDIA.
В исследовании MosaicML упоминается, что графические процессоры AMD также подходят для задач обучения больших моделей. Они экспериментировали с простой обучающей задачей на основе PyTorch без какой-либо модификации кода по сравнению с запуском на NVIDIA. Авторы показывают, что пока кодовая база построена на PyTorch, ее можно использовать напрямую на AMD без дополнительной адаптации. В будущем автор планирует проверить производительность системы AMD на более крупном вычислительном кластере.
В то же время существует мнение, что, учитывая, что стоимость обучения модели приближается к 300 миллионам долларов США, никто не рискнет массово полагаться на чипы AMD или других стартапов, особенно когда спрос на чипы высок. при заказе более 10000.
Пенсионер из полупроводниковой отрасли также упомянул, что ситуация с поставками AMD не оптимистична, а производственные мощности CoWoS TSMC были поглощены NVIDIA, поэтому, хотя MI250 может быть жизнеспособной альтернативой, его также трудно получить.
H100 VS A100
NVIDIA A100:
Обновление NVIDIA V100, по сравнению с V100, производительность A100 была улучшена в 20 раз, что очень подходит для таких задач, как ИИ и анализ данных. Состоящий из 54 миллиардов транзисторов, A100 объединяет тензорные ядра третьего поколения с ускорением для операций с разреженными матрицами, что особенно полезно для рассуждений и обучения ИИ. Кроме того, несколько графических процессоров A100 можно использовать для более крупных рабочих нагрузок ИИ с помощью технологии межсоединений NVIDIA NVLink.
NVIDIA H100:
Следующее поколение A100 — это новейший чип, оптимизированный для больших моделей. Он основан на архитектуре Hopper, построенной с использованием 5-нанометрового техпроцесса TSMC (4N), и один чип содержит 80 миллиардов транзисторов. В частности, NVIDIA предложила Transformer Engine, который объединяет вычисления с высокой точностью и возможности динамической обработки нейронной сети Transformer, что позволяет графическому процессору H100 значительно сократить время обучения модели. На основе H100 NVIDIA также выпустила серию продуктов, таких как рабочие станции машинного обучения и суперкомпьютеры, например, 8 H100 и 4 NVLink, объединенных в гигантский графический процессор — DGX H100.
По сравнению с A100 скорость 16-разрядного логического вывода H100 примерно в 3,5 раза выше, а скорость обучения 16-разрядного — примерно в 2,3 раза выше.
Большинство людей, как правило, покупают H100 для обучения модели и логического вывода, а A100 используют в основном для логического вывода модели. Однако можно также учитывать следующие факторы:
**• Стоимость: **H100 дороже, чем A100;
**• Емкость: **A100 и H100 отличаются вычислительной мощностью и памятью;
**• Использование нового оборудования: **Внедрение H100 требует соответствующих корректировок в программном обеспечении и рабочем процессе;
**• Риск: ** В настройке H100 больше неизвестных рисков;
**• ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ОПТИМИЗИРОВАНО: **Некоторое программное обеспечение оптимизировано для A100.
В целом, несмотря на более высокую производительность H100, бывают случаи, когда имеет смысл выбрать A100**, что делает переход с A100 на H100 непростым решением, учитывая множество факторов. **
Фактически, через несколько лет A100 станет V100, которым он является сегодня. Учитывая ограничения по производительности, думаю, LLM сейчас на V100 почти никто не будет обучать. Но V100 по-прежнему используется для логических выводов и других задач. Точно так же цена A100 может упасть по мере того, как все больше ИИ-компаний будут использовать H100 для обучения новых моделей, но спрос на A100 всегда будет, особенно для логического вывода.
Я думаю, что это может снова привести к потоку A100 на рынке, поскольку некоторые стартапы с огромным финансированием в конечном итоге обанкротятся.
— (Другой) Руководитель частного облака
Но со временем люди будут использовать A100 для все большего числа задач логического вывода вместо обучения новейшим и более крупным моделям. ** Производительность V100 больше не может поддерживать обучение больших моделей, а видеокарты с большим объемом памяти больше подходят для больших моделей, поэтому передовые команды предпочитают H100 или A100.
Основной причиной отказа от использования V100 является отсутствие типов данных brainfloat16 (bfloat16, BF16). Без этого типа данных сложно легко обучать модели. Основной причиной низкой производительности OPT и BLOOM является отсутствие этого типа данных (OPT обучался на float16, BLOOM в основном прототипировался в FP16, что делало невозможным обобщение данных на обучающие прогоны, выполненные в BF16).
—— Исследователь глубокого обучения
**• В чем разница между графическими процессорами Nvida H100, GH200, DGX GH200, HGX H100 и DGX H100? **
• H100 = 1 графический процессор H100;
• HGX H100 = эталонная серверная платформа NVIDIA. Используется OEM-производителями для создания серверов с 4 или 8 GPU, производимых сторонними OEM-производителями, такими как Supermicro;
• DGX H100 = официальный сервер NVIDIA H100 с 8 серверами H100, единственным поставщиком которого является NVIDIA;
• GH200 = 1x H100 GPU плюс 1x Grace CPU;
• DGX GH200 = 256x GH200, выйдет в конце 2023 г., вероятно, только от NVIDIA;
• MGX для крупных компаний, занимающихся облачными вычислениями.
Из них большинство компаний решили приобрести 8-GPU HGX H100 вместо серверов DGX H100 или 4-GPU HGX H100.
**Сколько эти графические процессоры стоят отдельно? **
1x DGX H100 (SXM) с 8 графическими процессорами H100 стоит 460 000 долларов США, включая необходимые услуги поддержки и т. д., около 100 000 долларов США. Стартапы могут получить начальную скидку в размере около 50 000 долларов США на установку до 8 блоков DGX H100, всего 64 устройства H100.
Конкретные характеристики графического процессора следующие:
1x HGX H100 (SXM) с 8-ю графическими процессорами H100 может стоить от 300 000 до 380 000 долларов в зависимости от характеристик (сеть, хранилище, память, ЦП), маржи поставщика и уровня поддержки. Если характеристики точно такие же, как у DGX H100, предприятия могут заплатить более высокую цену от 360 000 до 380 000 долларов США, включая поддержку.
1x HGX H100 (PCIe) с 8x графическими процессорами H100 стоит примерно 300 тысяч долларов, включая поддержку, в зависимости от спецификаций.
Рыночная цена карты PCIe составляет от 30 000 до 32 000 долларов.
Видеокарты SXM не продаются по отдельности, поэтому определить цену сложно. Обычно продаются только как серверы 4GPU и 8GPU.
Около 70-80% спроса на рынке приходится на SXM H100, остальное — на PCIe H100. Спрос на сегмент SXM растет, поскольку в предыдущие месяцы были доступны только карты PCIe. Учитывая, что большинство компаний покупают 8GPU HGX H100 (SXM), это примерно 360 000–380 000 долларов за 8 H100, включая другие серверные компоненты.
DGX GH200 содержит 256x GH200, и каждый GH200 содержит 1x H100 GPU и 1x Grace CPU. По оценкам, стоимость DGX GH200 может составлять от 15 до 25 миллионов долларов США.
**Каков рыночный спрос на GPU? **
• Обучение GPT-4 можно проводить на 10 000–25 000 листов формата A100;
• У Meta около 21 000 A100, у Tesla около 7 000 A100, а у Stability AI около 5 000 A100;
• Тренировка Falcon 40B проведена на 384 самолетах A100;
• Inflection использует 3500 листов H100 в эквивалентной модели GPT-3.5.
К декабрю у нас будет 22 000 графических процессоров, а сегодня — более 3 500 единиц.
— Мустафа Сулейман, генеральный директор Inflection AI
** По словам Илона Маска, для обучения GPT-5 может потребоваться 30 000–50 000 H100. ** Morgan Stanley предложил в феврале 2023 года, что GPT-5 будет использовать 25 000 графических процессоров, и в то время они также предположили, что GPT-5 уже проходил обучение, но Сэм Альтман позже опроверг это в мае этого года, заявив, что OpenAI не обучал GPT-5, поэтому информация Morgan Stanley может быть неточной.
GCP имеет около 25 000 H100, а Azure может иметь от 10 000 до 40 000 H100. Это должно быть похоже на Oracle. Кроме того, большая часть ресурсов Azure будет предоставлена OpenAI.
CoreWeave обслуживает от 35 000 до 40 000 H100, но это количество основано на заказах, а не на фактических данных.
**Сколько H100 заказал Startup? **При использовании для тонкой настройки LLM обычно заказываются десятки или сотни листов; при использовании для обучения LLM требуются тысячи листов.
** Сколько H100 может понадобиться компании в секторе LLM? **
• OpenAI может потребоваться 50 000, Inflection — 24 000, а Meta — 25 000 (есть также поговорка, что Meta на самом деле нужно 100 000 или больше);
• Крупным поставщикам облачных услуг, таким как Azure, Google Cloud, AWS и Oracle, может потребоваться по 30 000;
• Поставщики услуг частного облака, такие как Lambda и CoreWeave, а также другие частные облака могут доходить до 100 000;
• Антропик, Хельсинг, Мистраль, Персонаж могут стоить 10к каждый.
Приведенные выше цифры являются оценками и предположениями, и некоторые из них могут быть учтены дважды, например, клиенты, арендующие облако. **В целом, согласно текущим подсчетам, количество H100 составляет около 432 000. Если рассчитать примерно по 35 000 долларов США за каждый, это GPU общей стоимостью около 15 миллиардов долларов США. Кроме того, в число 432 000 не входят китайские компании, такие как ByteDance (TikTok), Baidu и Tencent, которым требуется много H800. **
Кроме того, некоторые финансовые компании также внедряют A100/H100 в диапазоне от сотен до тысяч: например, Jane Street, JP Morgan, Two Sigma и Citadel.
**Как это соотносится с доходами центров обработки данных NVIDIA? ** Выручка центров обработки данных NVIDIA в размере 4,28 млрд долларов США за февраль-апрель 2023 года. В период с 25 мая по июль 2023 года доход центра обработки данных может составить около 8 миллиардов долларов. **В основном это основано на предположении, что более высокие прогнозы выручки NVIDIA на квартал в первую очередь связаны с увеличением доходов от бизнеса центров обработки данных, а не от других областей бизнеса. **
Поэтому может пройти некоторое время, прежде чем дефицит предложения уменьшится. Но не исключено, что нехватка вычислительных мощностей преувеличена, во-первых, большинство компаний не закупают все необходимые им H100 сразу, а модернизируют постепенно, кроме того, NVIDIA также активно наращивает производственные мощности.
Наличие 400 000 H100 на рынке в целом вполне достижимо, особенно если учесть, что в наши дни все развертывают четырех- или пятизначные H100 в больших количествах.
—— Руководитель частного облака
Подведем итог
• Большинство крупных CSP (Azure, AWS, GCP и Oracle) и частных облаков (CoreWeave, Lambda и другие) предпочитают больше графических процессоров H100, чем просто возможность доступа к ним, большинство крупных предложений ИИ. Компания также стремится увеличить количество графических процессоров H100. .
• Обычно этим компаниям требуется шасси HGX H100 с 8 графическими процессорами и картами SXM. В зависимости от спецификаций и поддержки каждый сервер с 8 графическими процессорами стоит примерно 3-4 миллиона долларов. Может возникнуть избыточный спрос на сотни тысяч графических процессоров H100 общей стоимостью более 15 миллиардов долларов;
• При ограниченном предложении NVIDIA могла поднять цены, чтобы найти рыночную равновесную цену, и в какой-то степени это произошло. В общем, окончательное решение о том, как выделить GPU H100, зависит от того, каким клиентам сама NVIDIA предпочитает его выделять.
03.H100 Анализ предложения
Узкое место от TSMC
H100 производятся TSMC (TSMC). **Может ли NVIDIA выбрать другие фабрики чипов для производства большего количества H100? По крайней мере, пока. **
В прошлом NVIDIA сотрудничала с Samsung, но Samsung не смогла удовлетворить их потребности в передовых графических процессорах, поэтому в настоящее время NVIDIA может использовать только графические процессоры H100s и другие 5-нм графические процессоры, произведенные TSMC. **Возможно, в будущем NVIDIA будет сотрудничать с Intel или продолжит сотрудничество с Samsung по связанным технологиям, но ни одна из этих ситуаций не произойдет в краткосрочной перспективе, поэтому нехватка поставок H100 не уменьшится. **
5-нанометровая технология TSMC (N5) будет запущена в массовое производство в 2020 году. Технология N5 — это вторая технология TSMC EUV, предлагающая более высокую скорость и меньшее энергопотребление, чем предыдущая технология N7. Кроме того, TSMC также планирует запустить 4-нанометровую (N4) технологию, которая является усовершенствованной версией технологии N5, которая еще больше улучшит производительность и энергопотребление, и планирует начать массовое производство в 2022 году.
H100 производится на основе техпроцесса TSMC 4N, который относится к расширенному 5-нм техпроцессу в 5-нм серии, а не к реальному 4-нм техпроцессу. **Помимо NVIDIA, Apple также использует эту технологию, но они в основном перешли на N3 и сохранили большую часть емкости N3. **Кроме того, Qualcomm и AMD являются крупными покупателями серии N5.
A100 использует процесс TSMC N7.
7 нанометров (N7) — это техпроцесс, который TSMC запустит в массовое производство в 2019 году. На основе N7 TSMC также представила процесс N7+, который представляет собой 7-нм производственный процесс с использованием EUV (литография в экстремальном ультрафиолете), который увеличивает плотность транзисторов на 15-20% при одновременном снижении энергопотребления чипа.
Как правило, начальная производственная мощность (производственная мощность) планируется более чем на 12 месяцев вперед. Отмечается, что TSMC и ее основные клиенты будут совместно планировать производственный спрос на следующий год, поэтому нынешний дефицит H100 частично связан с тем, что TSMC и NVIDIA неверно оценили спрос на H100 в этом году по сравнению с предыдущим годом.
Потрясающая вместимость:
В технологическом потоке полупроводниковых микросхем Fab — это аббревиатура от FABRICATION (обработка, производство), а Fab Capacity можно рассматривать как пропускную способность.
Согласно другому источнику, обычно требуется 6 месяцев для продажи H100 клиентам (производство, упаковка и тестирование) с момента начала производства, но эта ситуация еще не подтверждена.
Вышедший на пенсию специалист в области полупроводников указал, что мощности по производству пластин не являются узким местом TSMC, а реальное узкое место кроется в вышеупомянутом CoWoS (трехмерное стекирование).
CoWoS (чип на пластине на подложке, трехмерная укладка):
Это интегрированная технология производства 2.5D TSMC.Сначала чип подключается к кремниевой пластине посредством процесса упаковки CoW (Chip on Wafer), а затем чип CoW подключается к подложке (Substrate) и интегрируется в CoWoS. .
Согласно DigiTimes, TSMC начала расширять свои производственные мощности CoWoS и планирует увеличить производственную мощность CoWoS с 8 000 пластин в месяц до 11 000 пластин в месяц к концу 2023 года и примерно с 14 500 до 16 600 пластин в месяц к концу 2023 года. 2024. Крупные технологические гиганты, такие как NVIDIA, Amazon, Broadcom, Cisco и Xilinx, имеют повышенный спрос на усовершенствованную упаковку CoWoS от TSMC.
Память H100
**Тип памяти (Memory Bype), ширина шины памяти (Memory Bus Width) и тактовая частота памяти (Memory Clock Speed) совместно влияют на пропускную способность памяти графического процессора. **NVIDIA разработала ширину шины и тактовую частоту H100 как часть архитектуры графического процессора. Память HBM3 в основном используется в H100 SXM, а HBM2e — в H100 PCIe.
HBM трудно производить, а поставки очень ограничены, поэтому производство HBM - это кошмар. Но как только HBM произведен, остальная часть конструкции становится легкой.
—— Исследователь глубокого обучения
**Тип памяти, ширина шины памяти и тактовая частота памяти являются тремя важными показателями памяти компьютера. **
Ширина шины памяти:
Это относится к ширине канала передачи данных между модулем памяти и материнской платой.Более широкая ширина шины памяти может обеспечить больший путь данных, тем самым увеличивая скорость передачи данных между памятью и процессором.
Тактовая частота памяти:
Относится к рабочей тактовой частоте модуля памяти.Более высокая тактовая частота памяти означает, что память может выполнять операции чтения и записи быстрее и обеспечивает более высокую скорость передачи данных.
**HBM (память с высокой пропускной способностью): **
Технология памяти с высокой пропускной способностью, используемая для обеспечения высокой скорости доступа к памяти в графических процессорах (GPU) и других высокопроизводительных вычислительных устройствах. Технология памяти, используемая в традиционных графических картах и вычислительных устройствах, обычно основана на дизайне GDDR (Graphics Double Data Rate), который имеет определенный баланс между производительностью и энергопотреблением. Технология HBM обеспечивает более высокую пропускную способность и более низкое энергопотребление за счет размещения стеков памяти на чипах графического процессора и объединения нескольких чипов DRAM вместе через высокоскоростные вертикальные соединения (TSV).
Для памяти HBM3 NVIDIA может использовать полностью или в основном SK Hynix. Неизвестно, использует ли NVIDIA H100 память Samsung, но точно известно, что NVIDIA в настоящее время не использует память Micron.
Что касается HBM3, то, вообще говоря, у SK Hynix самый большой объем производства, за которым следует Samsung, а у Micron, занявшего третье место, большой разрыв с первыми двумя. Похоже, что SK Hynix нарастила производство, но NVIDIA по-прежнему хочет, чтобы они производили больше, в то время как Samsung и Micron пока не смогли нарастить производство.
**Что еще используется при производстве графических процессоров? **
Кроме того, в производстве ГПА также будет задействовано много металлических материалов и деталей.Нехватка сырья в этих звеньях также вызовет узкие места в поставках ГПА, такие как:
**• Металлы и химические вещества: **Включает кремний (металлоиды), такие как медь, тантал, золото, алюминий, никель, олово, индий и палладий, которые используются на различных этапах производства, от производства кремния до окончательной сборки графического процессора. , такие как кремний, редкоземельные элементы и т.д.;
**• Компоненты и упаковочные материалы: **такие как подложки, шарики припоя и проволоки, теплорассеивающие составы и т. д., которые используются для завершения сборки и соединения различных компонентов графического процессора и имеют решающее значение для работы графического процессора. графический процессор;
**• Энергопотребление:**Из-за использования высокоточного механического оборудования в процессе производства чипов GPU требуется большое количество электроэнергии.
**Как NVIDIA справляется с нехваткой H100? **
NVIDIA объявила, что они увеличат поставки во второй половине этого года.Финансовый директор NVIDIA сказал в финансовом отчете, что компания делает все возможное, чтобы решить проблему с поставками, но кроме этого, они не передали никакой дополнительной информации и не предоставили у них есть какие-то конкретные цифры, связанные с H100.
«Мы работаем над проблемами с поставками на квартал, но мы также купили много акций на вторую половину года».
«Мы считаем, что предложение во второй половине года будет значительно выше, чем в первой половине».
-- Колетт Кресс, финансовый директор Nvidia, о звонке о прибылях и убытках за февраль-апрель 2023 г.
Руководитель частной облачной компании считает, что **в следующий раз на рынке может возникнуть порочный круг, то есть нехватка ресурсов графического процессора будет рассматриваться как ров для компаний, занимающихся искусственным интеллектом, что приведет к еще большему накоплению графического процессора, что, в свою очередь, еще больше усугубит дефицит графических процессоров. **
Согласно историческому интервалу между запуском NVIDIA различных архитектур, модель H100 следующего поколения может быть выпущена не раньше конца 2024 года (с середины 2024 года до начала 2025 года). До этого H100 всегда будет топовым продуктом NVIDIA GPU (GH200 и DGX GH200 не в счет, они не являются чистыми GPU, и оба используют H100 в качестве GPU).
Кроме того, ожидается, что в будущем появится версия на 120 ГБ с большей памятью.
04. Как получить H100
Продавец H100
Производители оригинального оборудования (OEM), такие как Dell, HPE, Lenovo, Supermicro и Quanta, продают H100 и HGX H100, а заказывать InfiniBand необходимо через NVIDIA Mellanox.
Mellanox — один из крупнейших мировых поставщиков InfiniBand.В 2015 году доля Mellanox на мировом рынке IB достигла 80%. В 2019 году NVIDIA приобрела Mellanox по цене 125 долларов за акцию, а общая стоимость сделки составила примерно 6,9 миллиарда долларов. Это приобретение позволит NVIDIA еще больше увеличить свою долю на рынке высокопроизводительных вычислений и центров обработки данных, а также укрепит конкурентоспособность NVIDIA в области искусственного интеллекта.
Объединив технологию высокоскоростного соединения Mellanox с ускорителями графических процессоров NVIDIA, NVIDIA может предоставить центрам обработки данных решения с более высокой пропускной способностью и меньшими задержками. Помимо Mellanox, в 2012 году корпорация Intel приобрела технологию IB компании QLogic, еще одного поставщика в области IB.
Облака графических процессоров, такие как CoreWeave и Lambda, покупают графические процессоры у OEM-производителей и сдают их в аренду стартапам. Гипермасштабные облачные игроки (Azure, GCP, AWS, Oracle) могут покупать больше напрямую у NVIDIA, но иногда они также работают с OEM-производителями.
Для DGX покупка также осуществляется через OEM. Хотя клиенты могут обращаться к NVIDIA по поводу требований к покупке, покупка осуществляется через OEM, а не напрямую через NVIDIA.
Сроки доставки серверов HGX с 8 GPU ужасны, а серверы HGX с 4 GPU довольно хороши, но реальность такова, что всем нужны серверы с 8 GPU.
**• Сколько времени проходит от размещения заказа до развертывания H100? **
Развертывание — поэтапный процесс. Скажем, порядка 5000 графических процессоров, они могут получить доступ к 2000 или 4000 графическим процессорам через 4-5 месяцев, а затем к остальным графическим процессорам примерно через 6 месяцев.
Для стартапа, если вы хотите купить GPU, вы не размещаете заказ у OEM-производителя или торгового посредника.Они обычно выбирают общедоступные облачные сервисы, такие как Oracle, или арендуют права доступа к частным облакам, таким как Lambda и CoreWeave или используйте такие сервисы, как FluidStack, OEM-производители и поставщики, которые работают с доступом к аренде центров обработки данных.
**• Стоит ли предприятию строить собственный дата-центр или колокейшн? **
При создании центра обработки данных необходимо учитывать такие факторы, как время на создание центра обработки данных, наличие талантов и опыта в области аппаратного обеспечения, а также масштаб капитальных вложений.
Арендовать и разместить сервер намного проще. Если вы хотите построить свой собственный центр обработки данных, вам нужно проложить темную оптоволоконную линию до вашего местоположения для подключения к Интернету, а стоимость оптоволокна составляет 10 000 долларов за километр. Во время интернет-бума большая часть инфраструктуры уже была построена и оплачена. Теперь вы можете просто арендовать, и это довольно дешево.
—— Руководитель частного облака
Выбор между арендой или строительством центра обработки данных — это решение «или-или».В зависимости от реальных потребностей у предприятий могут быть следующие варианты:
Облако по требованию: используйте исключительно облачные сервисы для аренды;
Зарезервированное облако;
Хостинг (покупка сервера, сотрудничество с провайдером для размещения и управления сервером);
Самостоятельный хостинг (покупка и размещение сервера самостоятельно).
Большинство стартапов, которым нужно много H100, выберут зарезервированное облако или совместное размещение.
**Как предприятия выбирают компанию, предоставляющую облачные услуги? **
Есть мнение, что инфраструктура Oracle не так надежна, как три основных облака, но она готова уделять больше времени технической поддержке клиентов. Некоторые специалисты-практики частных облачных компаний заявили, что 100% из них будут иметь большое количество недовольных клиентов услугами на базе Oracle, а некоторые руководители других компаний считают, что сетевые возможности Oracle сильнее.
**Как правило, Startup выбирает компанию с лучшим сочетанием сервисной поддержки, цены и возможностей. **
Основные различия между несколькими крупными компаниями, предоставляющими облачные услуги, заключаются в следующем:
**• Сеть: **AWS и Google Cloud медленнее внедряют InfiniBand, поскольку у них есть свои собственные подходы, но большинство стартапов, которым нужны большие кластеры A100/H100, ищут InfiniBand;
**• Доступность: **Например, большая часть вычислительной мощности Azure H100 используется OpenAI, что означает, что другим клиентам может быть не так много вычислительной мощности.
**Хотя нет никаких фактических оснований, есть предположения, что NVIDIA более склонна отдавать приоритет поставкам графических процессоров поставщикам облачных услуг, которые не разработали конкурирующие чипы машинного обучения. ** Все три основных поставщика облачных услуг в настоящее время разрабатывают свои собственные чипы машинного обучения, но альтернативы AWS и NVIDIA от Google уже представлены на рынке и отнимают часть доли рынка у NVIDIA. Это также привело к некоторым рыночным предположениям о том, что из-за этого NVIDIA более охотно сотрудничает с Oracel.
У некоторых крупных облачных компаний цены ниже, чем у других. Как заметил один руководитель частного облака: «Например, A100 на AWS/AZURE намного дороже, чем GCP».
Oracle сообщила мне, что в конце этого года у них будут в эксплуатации «десятки тысяч H100». Но с точки зрения ценообразования они выше, чем у других компаний. Они не дали мне цены на H100, но для A100 80 ГБ они назвали около 4 долларов в час, что почти в 2 раза больше, чем у GCP, при том же энергопотреблении и усилиях.
— Аноним
Облака меньшего размера имеют преимущество с точки зрения ценообразования, за исключением некоторых случаев, когда одна из крупных облачных компаний может заключить странную сделку в обмен на акции.
Так что в целом по тесноте сотрудничества с NVIDIA, Oracle и Azure > GCP и AWS, но это только предположение.
Oracle стала пионером A100 и разместила кластеры на базе Nvidia в партнерстве с Nvidia, которая также является клиентом Azure.
**• У какой крупной облачной компании лучшая производительность сети? **
Azure, CoreWeave и Lambda используют InfiniBand. Производительность сети Oracle составляет 3200 Гбит/с, но вместо InfiniBand используется Ethernet, что может быть примерно на 15-20% медленнее, чем у IB, для таких случаев использования, как обучение LLM с высокими параметрами. Сети AWS и GCP не так хороши.
**• Как предприятия выбирают облачные сервисы в настоящее время? **
Статистические данные по 15 компаниям показывают, что все 15 опрошенных компаний выберут AWS, GCP или Azure, а Oracle среди них нет.
Большинство предприятий, как правило, используют существующее облако. Но для предпринимательских команд их выбор больше основан на реальности: тот, кто может предоставить вычислительную мощность, выберет любую.
**• С кем NVIDIA работает над DGX Cloud? **
«Nvidia сотрудничает с ведущими поставщиками облачных услуг для размещения облачной инфраструктуры DGX, начиная с облачной инфраструктуры Oracle» — продавайте с Nvidia, но сдавайте в аренду через существующих облачных провайдеров (сначала с Oracle, затем с Azure, а затем с Google Cloud, который не работал с АВС).
Генеральный директор NVIDIA Дженсен Хуанг сказал, что «идеальное сочетание — это 10 % облака NVIDIA DGX и 90 % облака CSP».
• Расписание облачных гигантов H100:
CoreWeave был одним из первых. В качестве инвестора CoreWeave и в целях усиления конкуренции среди крупных облачных компаний NVIDIA первой завершила поставку CoreWeave.
График H100 других компаний, предоставляющих облачные услуги, выглядит следующим образом:
• Azure объявила о доступности H100 для предварительной версии 13 марта;
• 21 марта Oracle объявила об ограниченных поставках H100;
• Lambda Labs объявила 21 марта, что выпустит H100 в начале апреля;
• 21 марта AWS объявила, что предварительная версия H100 появится через несколько недель;
• Google Cloud объявила о начале закрытой предварительной версии H100 10 мая.
**• Какие облачные сервисы используют разные компании? **
• OpenAI: Azure
• Перегиб: Azure и CoreWeave
• Антропный: AWS или Google Cloud.
• Cohere:AWS и Google Cloud
• Обнимающее лицо: AWS
• Стабильность ИИ: CoreWeave и AWS
• Персонаж.ai: Облако Google
• X.ai: Оракул
• NVIDIA: Azure
**Как получить больше квоты GPU? **
Последнее узкое место заключается в том, можно ли получить распределение вычислительной мощности от NVIDIA.
**• Как NVIDIA выбирает клиентов? **
NVIDIA обычно выделяет определенное количество графических процессоров каждому клиенту, и в этом процессе **NVIDIA больше всего беспокоит, «кто является конечным покупателем», например, Azure сказал: «Мы хотим купить 10 000 H100 для поддержки Inflection», и результат, соответствующий заявлению Azure «Мы приобрели 10 000 H100 для Azure», отличается. **Если NVIDIA заинтересована в конкретном конечном потребителе, облачная компания может получить дополнительную квоту на GPU. Поэтому NVIDIA надеется узнать как можно больше, кто является конечными потребителями, и они будут более склонны к крупным предприятиям или стартапам с сильной поддержкой.
Да, похоже, это так. Nvidia любит предоставлять доступ к графическим процессорам стартапам в области ИИ (многие из которых имеют тесные связи с Nvidia). Inflection, компания, занимающаяся искусственным интеллектом, в которую инвестировала Nvidia, тестирует огромный кластер H100 на CoreWeave.
—— Руководитель частного облака
Если некая облачная компания приводит в NVIDIA конечного клиента и заявляет, что готова приобрести определенное количество H100, и NVIDIA заинтересована в этом конечном покупателе, NVIDIA, как правило, выделяет определенную квоту, которая фактически увеличивает сумму, которую NVIDIA выделяет конечному потребителю общую мощность облачной компании, поскольку это распределение не зависит от квоты, изначально предоставленной облачной компании NVIDIA.
Выделение NVIDIA большой емкости частным облакам — особый случай: **CoreWeave имеет больше H100, чем GCP. NVIDIA неохотно выделяет значительные ресурсы компаниям, которые пытаются конкурировать с ней напрямую (AWS Inferentia и Tranium, Google TPU, Azure Project Athena). **
Но, в конце концов, если вы отправите NVIDIA заказ на покупку и деньги, заключите более крупную сделку с большим авансовым финансированием и укажете свой профиль с низким уровнем риска, вы обязательно получите больше квот на GPU, чем кто-либо другой.
05. Резюме
Несмотря на то, что, как сказал Сэм Альтман, «эпоха использования больших моделей подходит к концу», пока мы все еще ограничены GPU. С одной стороны, такие компании, как OpenAI, уже имеют отличные продукты PMF, такие как ChatGPT, но поскольку они ограничены графическими процессорами, им необходимо покупать большое количество вычислительной мощности.С другой стороны, многие команды работают над возможностью участия в LLM в будущем Накопление графических процессоров независимо от их потенциала для создания чего-то вроде ChatGPT.
Но можно не сомневаться, что право голоса NVIDIA не будет поколеблено.
На данном этапе лучшим продуктом LLM, который делает PMF, является ChatGPT. Ниже используется ChatGPT в качестве примера, чтобы объяснить, почему существует нехватка графических процессоров:
Поскольку ChatGPT так популярен среди пользователей, его ARR (годовой регулярный доход) может превышать 500 миллионов долларов США;
ChatGPT работает на API GPT-4 и GPT-3.5;
Для работы API GPT-4 и GPT-3.5 требуется графический процессор, а требуется большое количество графических процессоров.OpenAI надеется выпустить больше функций для ChatGPT и его API, но это невозможно реализовать из-за ограниченного количества графические процессоры;
OpenAI приобрела большое количество графических процессоров NVIDIA через Microsoft (Azure);
Для производства графического процессора H100 SXM NVIDIA использует TSMC для производства и использует технологию упаковки TSMC CoWoS и HBM3 в основном от SK Hynix.
Помимо OpenAI, на рынке еще много компаний, которые обучают свои большие модели.Оставим в стороне, сколько пузырей существует в LLM, и насколько велика вероятность появления в итоге продуктов PMF, но в целом конкуренция LLM подтолкнул спрос рынка на графические процессоры. Кроме того, есть компании, которые даже если им пока не нужны графические процессоры, они начнут заранее их запасать, потому что беспокоятся о будущем. Так что это вроде как «ожидание дефицита предложения усугубляет дефицит предложения»**.
Таким образом, еще одной силой, повышающей спрос на графические процессоры, являются корпоративные компании, которые хотят создавать новые LLM или участвовать в ИИ в будущем:
Важность больших моделей стала общепризнанной: если это зрелое предприятие, оно надеется обучать LLM на своих собственных данных и надеется, что это принесет больше пользы для бизнеса; как начинающая компания, оно надеется построить свою собственный LLM и превратить его в коммерческую ценность. GPU как раз нужен для обучения больших моделей;
Связь между этими предприятиями и крупными облачными вендорами (Azure, Google Cloud, AWS), пытающимися получить достаточное количество H100;
В ходе процесса они обнаружили, что поставщики облачных услуг не имеют достаточного количества H100 для выделения, а некоторые поставщики облачных услуг также имеют несовершенные сетевые конфигурации, поэтому CoreWeave, Oracle, Lambda и FluidStack также стали покупать графические процессоры и владеть ими, возможно, они также обсуждают с OEM и NVIDIA;
В итоге получили много графических процессоров;
Теперь они пытаются сопоставить свой продукт с рынком;
Если это еще не ясно, путь будет непростым — помните, что OpenAI достиг соответствия продукта рынку на меньшей модели, а затем масштабировал ее. Но теперь, чтобы добиться соответствия продукта рынку, вы должны лучше соответствовать варианту использования вашего пользователя, чем модель OpenAI, поэтому для начала вам нужно больше графических процессоров, чем OpenAI.
**По крайней мере, до конца 2023 года будет нехватка для предприятий, развертывающих сотни или тысячи H100, возможно, к концу 2023 года ситуация прояснится, но похоже, что нехватка графических процессоров может продолжаться до 2024 года. **
Ссылка
Комментарий от основателя стартапа LLMs-for-enterprises
Сообщение от поставщика облачных услуг
Беседы с сотрудниками облачных компаний и поставщиками графических процессоров
Tesla Q1 2023 (с 1 января 2023 г. по 31 марта 2023 г.) отчет о прибылях и убытках
Комментарий сотрудника облачной компании
Предположительный пример от облачной компании
︎