La percée des grands modèles repose sur l'amélioration de la puissance de calcul matérielle et des capacités de cloud computing.Nvidia H100, considéré comme la "bombe nucléaire" du GPU, fait face à la plus grave pénurie de l'histoire. Sam Altman a directement déclaré que la pénurie de GPU limite la vitesse des mises à niveau technologiques d'OpenAI en termes de réglage fin, de capacité dédiée, de fenêtres contextuelles 32K et de multimodalité.
Cet article est compilé à partir de GPU Utils.L'auteur discute principalement de la durée de vie des GPU (en particulier NVIDIA H100) du point de vue de l'offre et de la demande.
Du point de vue de la demande, NVIDIA H100 est sans aucun doute une demande rigide pour la formation de grands modèles.Selon les estimations, la demande actuelle de H100 sur le marché est d'environ 432 000 feuilles, ce qui équivaut à une valeur totale d'environ 35 000 dollars américains par feuille. Avec un GPU de 15 milliards de dollars **, le chiffre de 432 000 n'inclut pas des entreprises comme ByteDance (TikTok), Baidu et Tencent qui ont besoin de beaucoup de H800.
Côté offre, la pénurie de H100 est directement limitée par la capacité de production de TSMC, et à court terme, NVIDIA n'a pas d'autres usines de puces alternatives. En raison des expéditions limitées, NVIDIA a également sa propre stratégie sur la façon d'allouer ces GPU.Pour NVIDIA, comment s'assurer que ces GPU limités circulent vers les chevaux noirs de l'IA plutôt que vers des concurrents potentiels tels que Google, Microsoft et AWS est très important.
Combien de temps durera cette course à l'armement de l'IA autour du H100 ? La réponse n'est pas encore claire. Bien que NVIDIA ait déclaré qu'il augmenterait l'offre au second semestre, il semble que la pénurie de GPU pourrait se poursuivre jusqu'en 2024.
Entourant la pénurie de H100, le marché peut entrer dans un "cercle vicieux": la rareté fait que la capacité du GPU est considérée comme un fossé pour les entreprises d'IA, ce qui conduit à davantage de thésaurisation du GPU, ce qui intensifie encore la pénurie de GPU.
**Ce qui suit est la table des matières de cet article, et il est recommandé de le lire en combinaison avec les points principaux. **
👇
01 fond
02 Analyse des besoins pour H100
03 H100 Analyse côté offre
04 Comment obtenir H100
05 Sommaire
01.Contexte
Jusqu'en août 2023, le développement du domaine de l'intelligence artificielle a été contraint par le goulot d'étranglement de l'approvisionnement en GPU.
"L'une des raisons pour lesquelles le boom de l'IA est sous-estimé est la pénurie de GPU/TPU. La pénurie de GPU et de TPU limite la vitesse d'introduction des produits et la progression de la formation des modèles, mais ces contraintes sont cachées. Nous assistons principalement à la flambée du cours de l'action NVIDIA. , pas les progrès de la R & D. Les choses s'amélioreront lorsque l'offre et la demande seront équilibrées.
—Adam D'Angelo, PDG de Quora, Poe.com, ancien CTO de Facebook
Ce sont les PDG et les entreprises qui comptent le plus pour l'offre et la demande de GPU et l'IA
Sam Altman a déclaré que la pénurie de GPU a limité l'avancement des projets OpenAI, tels que le réglage fin, la capacité dédiée, les fenêtres de contexte 32K, la multimodalité, etc.
Les clusters H100 à grande échelle de petits et grands fournisseurs de cloud manquent de capacité.
"Tout le monde veut que NVIDIA fabrique plus d'A/H100."
Informations des dirigeants des fournisseurs de cloud
"En raison de la pénurie actuelle de GPU, il est préférable pour OpenAI que moins de personnes utilisent nos produits" ;
"Nous serions en fait heureux si les gens utilisaient moins les produits OpenAI parce que nous n'avons pas assez de GPU."
—Sam Altman, PDG, OpenAI
D'une part, les mots de Sam Altman montrent subtilement que les produits OpenAI ont été appréciés par les utilisateurs du monde entier, mais en même temps, cela illustre également le fait qu'OpenAI a besoin de plus de GPU pour promouvoir et mettre à niveau ses fonctions.
Azure et Microsoft sont également confrontés à une situation similaire, et une personne anonyme a mentionné :
• L'entreprise empêche les employés d'utiliser des GPU, et tout le monde doit faire la queue pour demander une puissance de calcul comme les étudiants des années 1970 afin d'utiliser des ordinateurs. De mon point de vue, OpenAI aspire actuellement toutes les ressources GPU ;
• En juin de cette année, la coopération entre Microsoft et CoreWeave porte essentiellement sur l'amélioration de l'alimentation GPU/informatique de Microsoft.
CoreWeave :
Selon le site officiel de CoreWeave, les fournisseurs de services de cloud computing sont 80 % moins chers que les fournisseurs traditionnels de cloud computing. En avril 2023, CoreWeave a reçu l'investissement du tour B de NVIDIA et a obtenu un grand nombre de nouvelles cartes H100.En juin, Microsoft a également signé un accord avec CoreWeave.Microsoft investira des milliards de dollars dans les prochaines années pour la construction d'infrastructures de cloud computing.
En juillet, CoreWeave a lancé le projet de supercalculateur d'IA le plus rapide au monde en partenariat avec NVIDIA, et Inflection AI a créé l'un des modèles de langage à grande échelle les plus complexes au monde sur le Cloud CoreWeave en utilisant une infrastructure qui prend en charge les soumissions MLPerf. De plus, CoreWeave a utilisé la carte accélératrice NVIDIA H100 en garantie et a annoncé en août qu'il avait réalisé un financement par emprunt de 2,3 milliards de dollars.
Pour résumer, l'offre de GPU H100 est déjà assez courte. Il y a même des rumeurs selon lesquelles **Azure et GCP manquent pratiquement de capacité, et AWS manque de capacité. **
La raison de la pénurie est que NVIDIA ne fournit qu'un nombre limité de GPU H100 à ces fournisseurs de cloud.Comme la sortie GPU H100 de NVIDIA ne peut pas répondre à la demande, la puissance de calcul que ces fournisseurs de cloud peuvent fournir commencera naturellement à se faire rare.
Si vous souhaitez comprendre le goulot d'étranglement de la puissance de calcul, vous pouvez vous concentrer sur les questions suivantes :
• Quelles sont les raisons précises de cette situation ? :
Quelle est la demande ? Par exemple, dans quels domaines la demande d'intelligence artificielle augmente relativement rapidement ;
Quelle est la taille de l'offre? Si la capacité de production des fabricants de GPU tels que NVIDIA est suffisante pour répondre à la demande ;
• Combien de temps durera cette pénurie ? Quand l'offre et la demande de GPU atteindront-elles progressivement un point d'équilibre ?
• Quels sont les moyens par lesquels cette pénurie peut être efficacement atténuée ?
02.H100 Analyse des besoins
Analyser les problèmes clés des goulots d'étranglement de la puissance de calcul du côté de la demande :
Plus précisément, qu'est-ce que les gens veulent acheter mais ont du mal à obtenir ?
Quelle est la demande de GPU sur le marché actuel ?
Pourquoi les entreprises préfèrent-elles NVIDIA H100 à d'autres GPU ?
Quels types de GPU sont actuellement sur le marché ?
Où les entreprises peuvent-elles acheter des GPU ? Quels sont leurs tarifs ?
**Qui sont les demandeurs de H100 ? **
Entreprises avec une demande supérieure à 1 000 H100 ou A100 :
• Formation LLM pour startups :
OpenAI (via Azure), Anthropic, Inflection (via Azure et CoreWeave), Mistral AI ;
• Fournisseurs de services cloud (CSP) :
Outre les trois géants d'Azure, GCP et AWS, il existe également Oracle et des fournisseurs de cloud GPU tels que CoreWeave et Lambda ;
• Autres géants de la technologie :
Par exemple, Tesla (**note de sélection : **Meta, Apple et d'autres géants que l'auteur original n'a pas mentionnés ici ont également une forte demande de GPU, Google utilise principalement le TPU pour traiter les calculs, et la demande de H100 est principalement Plate-forme Google Cloud).
En plus des entreprises ci-dessus, si l'entreprise doit effectuer de nombreux ajustements de LLM, elle doit également réserver au moins 100 H100 ou A100.
Pour les entreprises qui adoptent les clouds privés (CoreWeave, Lambda), et les entreprises ayant des centaines à des milliers d'actions H100, elles sont presque principalement confrontées au travail de LLM et à certains modèles de diffusion (Diffusion Model). Certaines entreprises choisissent d'affiner les modèles existants, mais de plus en plus de startups d'IA construisent leurs propres grands modèles à partir de zéro. ** Ces entreprises signent généralement des contrats avec des fournisseurs de services de cloud privé dans la fourchette de 10 à 50 millions de dollars pour 3 ans et utilisent quelques centaines à quelques milliers de GPU. **
Pour les entreprises qui n'utilisent qu'un petit nombre de GPU H100 à la demande, les tâches liées au LLM représentent une grande partie de leur utilisation du GPU, et le LLM peut utiliser plus de 50 % du GPU.
Actuellement, les clouds privés sont privilégiés par les entreprises, et bien que ces entreprises choisissent généralement les grands fournisseurs de services cloud par défaut, elles courent également le risque d'être éliminées.
**• Les grands laboratoires d'IA sont-ils plus contraints par les tâches d'inférence ou les tâches de formation ? **
Cette question dépend de l'attractivité de leur produit. En d'autres termes, l'attractivité des produits de l'entreprise est très importante dans la détermination de l'allocation des ressources.En cas de ressources limitées, les priorités de raisonnement et de formation ont souvent leur propre accent. L'opinion de Sam Altman est que si un choix doit être fait, OpenAI est plus enclin à améliorer les capacités de raisonnement, mais actuellement OpenAI est limité dans les deux aspects.
Pourquoi H100 est juste nécessaire pour la formation LLM
La plupart du marché actuel utilise des GPU NVIDIA H100. En effet, le GPU H100 est le plus rapide en termes d'inférence et de formation LLM, et il offre également les meilleures performances en matière de coût d'inférence. Plus précisément, la plupart des entreprises choisissent d'utiliser le serveur 8-GPU HGX H100 SXM.
Selon mon analyse, pour un même travail, le H100 est plus avantageux en termes de coût. Le GPU V100 est une bonne option si vous pouvez trouver une unité d'occasion, mais ce n'est souvent pas possible.
—— une personne anonyme
En termes d'inférence, nous avons trouvé que le GPU A10G était plus que suffisant et beaucoup moins cher.
—— Un dirigeant du cloud privé
Nous avons remarqué que le Falcon 40b et le llama2 70b sont également très utilisés, là où cette affirmation n'est plus exacte. Par conséquent, la vitesse d'interconnexion est très importante pour les tâches d'inférence.
— (Un autre) responsable du cloud privé
Faucon 40b :
Falcon est un grand modèle de langage de base avec 40 milliards de paramètres, Falcon 40b vise à utiliser moins de puissance de calcul de formation pour obtenir de meilleurs résultats, le modèle ne représente que 75% du calcul de formation GPT-3, 40% de Chinchilla et PaLM-62B 80% de la formation. Le 25 mai 2023, l'Institut d'innovation technologique des Émirats arabes unis a annoncé qu'il ouvrirait le Falcon 9 à des fins de recherche et d'utilisation commerciale. Après sa sortie, il a déjà été en tête de la liste LLM open source de Hugging Face.
**• Quels sont les besoins communs des équipes entrepreneuriales LLM ? **
**Pour les startups LLM, ils choisissent souvent le GPU H100 avec 3,2 To/s InfiniBand pour la formation LLM. Bien que presque tout le monde préfère le H100 lors de la session de formation, lors de la session d'inférence, ces entreprises accordent plus d'attention à la performance des coûts, c'est-à-dire à la performance créée par dollar. **
Il y a encore quelques problèmes avec les performances par dollar des GPU H100 par rapport à l'A100, mais les H100 sont toujours préférés en raison de leur meilleure mise à l'échelle et de leurs temps d'entraînement plus rapides, tandis que la vitesse/compression démarre, s'entraîne ou s'améliore. startups.
"Pour la formation multi-nœuds, ils nécessitent tous un GPU A100 ou H100 avec mise en réseau InfiniBand. La seule exigence non-A/H100 que nous avons observée concernait l'inférence, où la charge de travail était un seul GPU ou un seul nœud."
—— Un dirigeant du cloud privé
Les principaux facteurs affectant la formation LLM sont :
**• Bande passante mémoire : **Face à une grande quantité de données chargées depuis la mémoire, une bande passante mémoire plus élevée peut accélérer le chargement des données ;
**• Puissance de calcul du modèle (FLOPS, opérations en virgule flottante par seconde) : ** Noyau tenseur ou unité de multiplication matricielle équivalente, qui affecte principalement la vitesse de calcul ;
**• Cache et latence du cache : **Le cache peut temporairement stocker des données pour un accès répété, ce qui a un impact significatif sur les performances ;
**• Fonctionnalités supplémentaires : **Comme FP8 (nombre à virgule flottante 8 bits), etc., les formats numériques de faible précision peuvent accélérer la formation et l'inférence ;
**• Performances de calcul : ** est lié au nombre de cœurs GPU CUDA et affecte principalement le nombre de tâches pouvant être exécutées en parallèle ;
**• Vitesse d'interconnexion : **Pour une bande passante d'interconnexion inter-nœuds rapide telle qu'InfiniBand, ce facteur affectera la vitesse de formation distribuée.
** H100 est préféré à A100 en partie en raison de la latence de cache inférieure de H100 et de la capacité de calcul FP8. **
Le H100 est vraiment le premier choix car il est jusqu'à 3 fois plus efficace que le A100 mais ne coûte que 1,5 à 2 fois le A100. Comment considérer le coût de l'ensemble du système, les performances par dollar du H100 sont également beaucoup plus élevées, si l'on considère les performances du système, les performances par dollar peuvent être 4 à 5 fois plus élevées.
—— Un chercheur en apprentissage profond
**Pourquoi la précision numérique est-elle si importante ? **
Les nombres à virgule flottante de faible précision peuvent améliorer la vitesse d'entraînement et d'inférence. Par exemple, FP16 a la moitié de l'empreinte mémoire de FP32 et est trois fois plus rapide que FP32 en termes de vitesse de calcul. Dans le processus de formation LLM, afin d'assurer l'équilibre entre vitesse et précision, des méthodes telles que la précision mixte et la précision adaptative sont utilisées pour accélérer les grands modèles de langage. Par conséquent, la prise en charge de la précision multiple est l'une des considérations importantes pour la formation de grands modèles de langage. Google a proposé le format numérique BFP16, qui élargit la plage numérique tout en réduisant la précision, et les performances sont meilleures que FP 32.
**• Outre le GPU, quels sont les liens de coût entre la formation et le fonctionnement du LLM ? **
Le GPU est actuellement le composant le plus cher de toute l'infrastructure de formation LLM, mais d'autres aspects du coût ne sont pas faibles, ce qui a également un impact sur les coûts de formation et de fonctionnement du LLM :
La mémoire système et les SSD NVMe sont chers : les grands modèles nécessitent beaucoup de mémoire haute vitesse et de SSD haute vitesse pour mettre en cache et charger les données, et les deux composants sont chers ;
Les réseaux à haut débit sont coûteux : les réseaux à haut débit tels que InfiniBand (utilisés pour la communication entre les nœuds) sont très coûteux, en particulier pour les formations distribuées à grande échelle.
Peut-être 10 à 15 % du coût total de fonctionnement d'un cluster sont consacrés à l'électricité et à l'hébergement, répartis à peu près également entre les deux. Les coûts d'électricité comprennent l'électricité, les coûts de construction du centre de données, les coûts du terrain et des employés, etc., environ 5 % à 8 % ; les coûts d'hébergement comprennent le terrain, les bâtiments, les employés, etc., environ 5 % à 10 %. **
Notre principale préoccupation est le réseau et le centre de données fiable. AWS n'était pas un bon choix en raison des limitations du réseau et du matériel peu fiable.
——Chercheur en apprentissage profond
**• Comment la technologie GPUDirect aide-t-elle dans la formation LLM ? **
GPUDirect de NVIDIA n'est pas requis pour la formation LLM, mais il peut également améliorer les performances :
La technologie GPUDirect peut améliorer les performances, mais pas nécessairement une différence supercritique. Cela dépend principalement de l'endroit où se trouve le goulot d'étranglement de votre système. Pour certaines architectures/implémentations logicielles, le goulot d'étranglement du système n'est pas nécessairement le réseau. **Mais dans le cas de la mise en réseau, GPUDirect peut améliorer les performances de 10 % à 20 %, ce qui est un nombre considérable pour les coûts de fonctionnement élevés de la formation. **
Néanmoins, GPUDirect RDMA est maintenant si omniprésent que sa popularité parle presque d'elle-même. Je pense que la prise en charge de GPUDirect est faible pour les réseaux non Infiniband, mais la plupart des clusters GPU optimisés pour la formation de réseaux de neurones ont des réseaux/cartes Infiniband. Le plus grand facteur de performance est probablement NVLink, car il est plus rare qu'Infiniband, mais il n'est également critique que si vous utilisez une stratégie de parallélisation spécifique.
Ainsi, des fonctionnalités telles que la mise en réseau puissante et GPUDirect peuvent faire fonctionner des logiciels moins sophistiqués prêts à l'emploi. Cependant, GPUDirect n'est pas strictement requis si le coût ou l'infrastructure héritée est pris en compte.
—— Un chercheur en apprentissage profond
GPUDirect:
La technologie de transmission de données appelée GPUDirect Storage (GPUDirect Storage) introduite par NVIDIA est principalement utilisée pour accélérer la transmission des données stockées dans divers stockages vers la mémoire GPU, ce qui peut augmenter la bande passante de 2 à 8 fois, et peut également réduire la fin- le délai de fin est jusqu'à 3,8 fois. Dans le passé, le CPU était responsable du chargement des données de la mémoire vers le GPU, ce qui limitait considérablement les performances matérielles.
Le chemin standard pour le transfert de données du disque NVMe vers la mémoire GPU consiste à utiliser le tampon de rebond (Bounce Buffer) dans la mémoire système, qui est une copie de données supplémentaire. Le cœur de la technologie de stockage GPUDirect est d'éviter l'utilisation du cache de rebond pour réduire les copies de données supplémentaires et d'utiliser le moteur d'accès direct à la mémoire (Direct Memory Access, DMA) pour placer les données directement dans la mémoire GPU.
**Pourquoi la société LLM ne peut-elle pas utiliser le GPU d'AMD ? **
Un dirigeant d'une société de cloud privé a déclaré qu'il était théoriquement possible d'acheter des GPU AMD, mais qu'il faut un certain temps entre l'achat et le fonctionnement effectif de l'équipement. Par conséquent, CUDA est le fossé actuel de NVIDIA.
Une étude MosaicML a mentionné que les GPU AMD conviennent également aux tâches de formation de modèles volumineux. Ils ont expérimenté une tâche de formation simple basée sur PyTorch sans aucune modification de code par rapport à l'exécution sur NVIDIA. Les auteurs montrent que tant que la base de code est construite sur PyTorch, elle peut être utilisée directement sur AMD sans adaptation supplémentaire. À l'avenir, l'auteur prévoit de vérifier les performances du système AMD sur un cluster informatique plus important.
Dans le même temps, il y a aussi une opinion selon laquelle étant donné que le coût d'une formation de modèle est proche de 300 millions de dollars américains, personne ne risquera de s'appuyer sur des puces d'AMD ou d'autres startups à grande échelle, surtout lorsque la demande de puces est de l'ordre de plus de 10 000.
Un retraité de l'industrie des semi-conducteurs a également mentionné que la situation d'approvisionnement d'AMD n'est pas optimiste et que la capacité de production CoWoS de TSMC a été absorbée par NVIDIA, donc bien que le MI250 puisse être une alternative viable, il est également difficile à obtenir.
H100 CONTRE A100
NVIDIA A100:
La mise à niveau de NVIDIA V100, par rapport à V100, les performances de A100 ont été améliorées de 20 fois, ce qui est très approprié pour des tâches telles que l'IA et l'analyse de données. Composé de 54 milliards de transistors, l'A100 intègre des cœurs Tensor de troisième génération avec accélération pour les opérations de matrice clairsemée, particulièrement utile pour le raisonnement et la formation de l'IA. De plus, plusieurs GPU A100 peuvent être exploités pour des charges de travail d'inférence IA plus importantes avec la technologie d'interconnexion NVIDIA NVLink.
NVIDIA H100:
La prochaine génération de l'A100 est la dernière puce optimisée pour les grands modèles. Il est basé sur l'architecture Hopper, construite à l'aide du processus de version personnalisée 5 nm (4N) de TSMC, et une seule puce contient 80 milliards de transistors. Plus précisément, NVIDIA a proposé le Transformer Engine, qui intègre plusieurs calculs de précision et les capacités de traitement dynamique du réseau neuronal Transformer, permettant au GPU H100 de réduire considérablement le temps de formation du modèle. Basé sur H100, NVIDIA a également lancé une série de produits tels que des stations de travail d'apprentissage automatique et des superordinateurs, tels que 8 H100 et 4 NVLinks combinés pour former un GPU géant - DGX H100.
Par rapport à l'A100, la vitesse d'inférence 16 bits du H100 est environ 3,5 fois plus rapide et la vitesse d'entraînement 16 bits est environ 2,3 fois plus rapide.
Comparaison de vitesse A100 et H100
MoE de formation H100
Accélération H100 à l'échelle
La plupart des gens ont tendance à acheter le H100 pour la formation et l'inférence de modèles, et utilisent le A100 principalement pour l'inférence de modèles. Cependant, on peut également considérer les facteurs suivants :
**• Coût : **H100 est plus cher que A100 ;
**• Capacité : **A100 et H100 sont différents en termes de puissance de calcul et de mémoire ;
**• Utilisation de nouveau matériel : **L'adoption du H100 nécessite des ajustements correspondants dans le logiciel et le flux de travail ;
**• Risque : ** Il y a plus de risques inconnus dans le réglage H100 ;
**• LOGICIEL OPTIMISÉ : **Certains logiciels ont été optimisés pour A100.
Dans l'ensemble, malgré les performances supérieures du H100, il est parfois judicieux de choisir l'A100, ** ce qui rend la mise à niveau de l'A100 vers le H100 pas une décision facile avec de nombreux facteurs à prendre en compte. **
En fait, l'A100 deviendrait le V100 qu'il est aujourd'hui dans quelques années. Compte tenu des contraintes de performances, je pense que presque personne ne formera LLM sur V100 maintenant. Mais le V100 est toujours utilisé pour l'inférence et d'autres tâches. De même, le prix de l'A100 peut baisser à mesure que de plus en plus d'entreprises d'IA se tournent vers le H100 pour former de nouveaux modèles, mais il y aura toujours une demande pour l'A100, en particulier pour l'inférence.
Exécutif Cloud Privé
Je pense que cela pourrait entraîner à nouveau un flot d'A100 sur le marché, car certaines startups extrêmement financées finissent par faire faillite.
— (Un autre) responsable du cloud privé
Mais au fil du temps, les gens utiliseront l'A100 pour de plus en plus de tâches d'inférence au lieu de former les modèles les plus récents et les plus grands. ** Les performances du V100 ne peuvent plus prendre en charge la formation de grands modèles, et les cartes graphiques à haute mémoire sont plus adaptées aux grands modèles, donc les équipes de pointe préfèrent H100 ou A100.
La principale raison de ne pas utiliser V100 est le manque de types de données brainfloat16 (bfloat16, BF16). Sans ce type de données, il est difficile de former facilement des modèles. La principale raison des mauvaises performances d'OPT et de BLOOM est l'absence de ce type de données (OPT a été formé dans float16, BLOOM était principalement un prototypage effectué dans FP16, ce qui a rendu impossible la généralisation des données aux exécutions d'entraînement effectuées dans BF16).
——Chercheur en apprentissage profond
**• Quelle est la différence entre les GPU H100, GH200, DGX GH200, HGX H100 et DGX H100 de Nvida ? **
• H100 = 1x GPU H100;
• HGX H100 = plate-forme de référence de serveur NVIDIA. Utilisé par les OEM pour construire des serveurs 4 GPU ou 8 GPU, fabriqués par des OEM tiers tels que Supermicro ;
• DGX H100 = Serveur officiel NVIDIA H100 avec 8x H100, NVIDIA est son seul fournisseur ;
• GH200 = 1x GPU H100 plus 1x processeur Grace ;
• DGX GH200 = 256x GH200, à venir fin 2023, probablement uniquement de NVIDIA ;
• MGX pour les grandes entreprises de cloud computing.
Parmi ceux-ci, la plupart des entreprises ont choisi d'acheter le 8-GPU HGX H100 au lieu des serveurs DGX H100 ou 4-GPU HGX H100.
**Combien coûtent ces GPU séparément ? **
1x DGX H100 (SXM) avec 8x GPU H100 coûte 460 000 $, y compris les services de support requis, etc., environ 100 000 $. Les startups peuvent obtenir une remise Inception d'environ 50 000 $ pour un maximum de 8 boîtiers DGX H100, pour un total de 64 H100.
Les spécifications spécifiques du GPU sont les suivantes :
Spécifications DGX H100
1x HGX H100 (SXM) avec 8x GPU H100 coûte entre 300 000 et 380 000 $ selon les spécifications (réseau, stockage, mémoire, CPU) et les marges du fournisseur et les niveaux de support. Si les spécifications sont exactement les mêmes que celles du DGX H100, les entreprises peuvent payer un prix plus élevé de 360 000 $ à 380 000 $, support compris.
1x HGX H100 (PCIe) avec 8x GPU H100 coûte environ 300 000 $, support compris, selon les spécifications.
Le prix du marché pour une carte PCIe est d'environ 30 000 $ à 32 000 $.
Les cartes graphiques SXM ne sont pas vendues en tant que cartes individuelles, la tarification est donc difficile. Généralement vendu uniquement en tant que serveurs 4GPU et 8GPU.
Environ 70 à 80 % de la demande sur le marché concerne le SXM H100, et le reste concerne le PCIe H100. La demande pour le segment SXM est en hausse, car seules les cartes PCIe étaient disponibles les mois précédents. Étant donné que la plupart des entreprises achètent des 8GPU HGX H100 (SXM), cela représente environ 360 000 $ à 380 000 $ pour 8 H100, y compris les autres composants de serveur.
Le DGX GH200 contient 256x GH200, et chaque GH200 contient 1x GPU H100 et 1x Grace CPU. Selon les estimations, le coût du DGX GH200 pourrait se situer entre 15 et 25 millions de dollars américains.
**Quelle est la demande du marché pour les GPU ? **
• La formation GPT-4 peut être effectuée sur 10 000 à 25 000 feuilles A100 ;
• Meta a environ 21 000 A100, Tesla a environ 7 000 A100 et Stability AI a environ 5 000 A100 ;
• La formation Falcon 40B a été réalisée sur 384 A100 ;
• Inflection utilise 3500 feuilles H100 dans son modèle équivalent GPT-3.5.
Nous aurons 22 000 GPU en service d'ici décembre, et bien plus de 3 500 unités en service aujourd'hui.
— Mustafa Suleyman, PDG, Inflection AI
** Selon Elon Musk, la formation GPT-5 peut utiliser 30 000 à 50 000 H100. ** Morgan Stanley a proposé en février 2023 que GPT-5 utiliserait 25 000 GPU, et ils ont également proposé à l'époque que GPT-5 était déjà en formation, mais Sam Altman a ensuite nié cela en mai de cette année, affirmant qu'OpenAI ne s'était pas entraîné. GPT-5, donc les informations de Morgan Stanley peuvent ne pas être exactes.
GCP a environ 25 000 H100 et Azure peut avoir 10 000 à 40 000 H100. Cela devrait être similaire pour Oracle. De plus, la majeure partie de la capacité d'Azure sera provisionnée sur OpenAI.
CoreWeave gère environ 35 000 à 40 000 H100, mais cela est basé sur les commandes et non sur les chiffres réels.
**Combien de H100 Startup a-t-il commandé ? ** Si utilisé pour la tâche de mise au point LLM, des dizaines ou des centaines de feuilles sont généralement commandées ; s'il est utilisé pour la formation LLM, des milliers de feuilles sont nécessaires.
**De combien de H100 une entreprise du secteur LLM pourrait-elle avoir besoin ? **
• OpenAI peut avoir besoin de 50 000, Inflection peut avoir besoin de 24 000 et Meta peut avoir besoin de 25 000 (il y a aussi des dictons qui disent que Meta a besoin de 100 000 ou plus) ;
• Les grands fournisseurs de services cloud, tels qu'Azure, Google Cloud, AWS et Oracle peuvent chacun avoir besoin de 30 000 ;
• Les fournisseurs de services de cloud privé, tels que Lambda et CoreWeave, et d'autres clouds privés peuvent totaliser jusqu'à 100 000 ;
• Anthropic, Helsing, Mistral, Character peuvent coûter 10k chacun.
Les chiffres ci-dessus sont des estimations et des conjectures, et certains d'entre eux peuvent être comptés deux fois, comme les clients qui louent le cloud. **En général, selon les calculs actuels, le nombre de H100 est d'environ 432 000. Si le calcul est d'environ 35 000 USD chacun, il s'agit d'un GPU d'une valeur totale d'environ 15 milliards de dollars. De plus, le chiffre de 432 000 n'inclut pas les entreprises chinoises comme ByteDance (TikTok), Baidu et Tencent qui nécessitent beaucoup de H800. **
En outre, certaines sociétés financières déploient également des A100/H100 allant de centaines à des milliers : comme Jane Street, JP Morgan, Two Sigma et Citadel.
**Comment cela se compare-t-il aux revenus du centre de données NVIDIA ? ** Chiffre d'affaires du centre de données NVIDIA de 4,28 milliards de dollars pour février-avril 2023. Entre le 25 mai et juillet 2023, les revenus des centres de données pourraient être d'environ 8 milliards de dollars. ** Ceci est principalement basé sur l'hypothèse que les prévisions de revenus plus élevées de NVIDIA pour le trimestre sont principalement dues à des revenus plus élevés des centres de données plutôt qu'à des revenus plus élevés provenant d'autres secteurs d'activité. **
Par conséquent, il faudra peut-être un certain temps pour que la pénurie d'approvisionnement se résorbe. Mais il est possible que la pénurie de puissance de calcul ait été exagérée. Tout d'abord, la plupart des entreprises n'achètent pas tout le H100 dont elles ont besoin immédiatement, mais mettent à niveau progressivement ; de plus, NVIDIA augmente également activement la capacité de production.
Avoir 400 000 H100 sur le marché dans son ensemble n'est pas hors de portée, d'autant plus que tout le monde déploie des H100 à 4 ou 5 chiffres en grand nombre ces jours-ci.
—— Un dirigeant du cloud privé
Résumer
• La plupart des grands CSP (Azure, AWS, GCP et Oracle) et des clouds privés (CoreWeave, Lambda et divers autres) préfèrent plus de GPU H100 que de simplement pouvoir y accéder, la plupart des grandes offres d'IA La société recherche également plus de GPU H100 .
• Généralement, ces entreprises veulent un châssis 8GPU HGX H100 avec des cartes SXM. Selon les spécifications et le support, chaque serveur 8GPU coûte environ 3 à 4 millions de dollars. Il pourrait y avoir une demande excédentaire pour des centaines de milliers de GPU H100, d'une valeur totale de plus de 15 milliards de dollars ;
• Avec une offre limitée, NVIDIA aurait pu augmenter les prix pour trouver un prix d'équilibre du marché, et dans une certaine mesure, il l'a fait. Dans l'ensemble, la décision finale sur la manière d'allouer le GPU H100 dépend des clients auxquels NVIDIA lui-même préfère l'allouer.
03.H100 Analyse de l'offre
** Goulot d'étranglement de TSMC **
Les H100 sont produits par TSMC (TSMC), **Nvidia peut-il choisir d'autres usines de puces pour produire plus de H100 ? Au moins pas encore. **
NVIDIA a coopéré avec Samsung dans le passé, mais Samsung n'a pas été en mesure de répondre à leurs besoins en GPU de pointe, donc actuellement NVIDIA ne peut utiliser que des GPU H100 et d'autres GPU 5 nm produits par TSMC. **Peut-être qu'à l'avenir, NVIDIA coopérera avec Intel, ou continuera de coopérer avec Samsung sur des technologies connexes, mais aucune de ces situations ne se produira à court terme, de sorte que la pénurie d'approvisionnement en H100 ne sera pas atténuée. **
La technologie 5 nanomètres (N5) de TSMC entrera en production de masse en 2020. La technologie N5 est la deuxième technologie de processus EUV de TSMC, offrant une vitesse plus rapide et une consommation d'énergie inférieure à la technologie N7 précédente. En outre, TSMC prévoit également de lancer la technologie 4 nanomètres (N4), qui est une version améliorée de la technologie N5 qui améliorera encore les performances et la consommation d'énergie, et prévoit de démarrer la production de masse en 2022.
Le H100 est produit sur la base du processus TSMC 4N, qui appartient au 5 nm amélioré de la série 5 nm, et non au véritable processus 4 nm. ** En plus de NVIDIA, Apple utilise également cette technologie, mais ils sont principalement passés à N3 et ont conservé la majeure partie de la capacité N3. ** De plus, Qualcomm et AMD sont de gros clients de la série N5.
L'A100 utilise le processus N7 de TSMC.
7 nanomètres (N7) est le nœud de processus que TSMC mettra en production de masse en 2019. Sur la base de N7, TSMC a également introduit le procédé N7+, qui est un procédé de fabrication de 7 nm utilisant l'EUV (lithographie ultraviolette extrême), qui augmente la densité des transistors de 15 % à 20 % tout en réduisant la consommation d'énergie de la puce.
Généralement, la capacité du processus frontal (Fab Capacity) sera planifiée plus de 12 mois à l'avance. Il est souligné que TSMC et ses principaux clients planifieront conjointement la demande de production pour l'année prochaine, de sorte que la pénurie actuelle d'approvisionnement en H100 est en partie due à l'erreur d'appréciation de TSMC et de NVIDIA sur la demande de H100 de cette année l'année précédente.
Capacité Fab :
Dans le flux de processus des puces à semi-conducteurs, Fab est l'abréviation de FABRICATION (traitement, fabrication), et Fab Capacity peut être considérée comme une capacité de capacité.
Selon une autre source, il faut généralement 6 mois pour que le H100 soit vendu aux clients (production, emballage et test) à partir du début de la production, mais cette situation reste à confirmer.
Un professionnel à la retraite de l'industrie des semi-conducteurs a souligné que la capacité de production de plaquettes n'est pas le goulot d'étranglement de TSMC, mais que le véritable goulot d'étranglement réside dans le CoWoS (empilement tridimensionnel) susmentionné.
CoWoS (Chip on wafer on Substrate, empilement tridimensionnel):
Il s'agit d'une technologie de production intégrée 2.5D de TSMC.Tout d'abord, la puce est connectée à la plaquette de silicium via le processus d'emballage CoW (Chip on Wafer), puis la puce CoW est connectée au substrat (Substrate) et intégrée dans CoWoS .
Selon DigiTimes, TSMC a commencé à étendre sa capacité de production de CoWoS et prévoit d'augmenter la capacité de production de CoWoS de 8 000 wafers par mois à 11 000 wafers par mois d'ici la fin de 2023, et à environ 14 500 à 16 600 wafers par mois d'ici la fin de 2024. Les grands géants de la technologie tels que NVIDIA, Amazon, Broadcom, Cisco et Xilinx ont tous augmenté la demande pour les packages CoWoS avancés de TSMC.
Mémoire H100
** Le type de mémoire (mémoire bype), la largeur du bus mémoire (largeur du bus mémoire) et la vitesse d'horloge mémoire (vitesse d'horloge mémoire) affectent conjointement la bande passante mémoire du GPU. **NVIDIA a conçu la largeur de bus et la vitesse d'horloge du H100 dans le cadre de l'architecture GPU. La mémoire HBM3 est principalement utilisée sur H100 SXM et HBM2e est principalement utilisée sur H100 PCIe.
Le HBM est difficile à produire et l'offre est très limitée, donc produire du HBM est un cauchemar. Mais une fois le HBM produit, le reste de la conception devient facile.
——Un chercheur en Deepl Learning
**Le type de mémoire, la largeur du bus mémoire et la vitesse d'horloge de la mémoire sont trois indicateurs importants de la mémoire de l'ordinateur. **
Largeur du bus mémoire :
Il fait référence à la largeur du canal de transmission de données entre le module mémoire et la carte mère. Une largeur de bus mémoire plus large peut fournir un chemin de données plus grand, augmentant ainsi la vitesse de transmission des données entre la mémoire et le processeur.
Vitesse d'horloge de la mémoire :
Fait référence à la fréquence d'horloge de travail du module de mémoire. Une vitesse d'horloge de mémoire plus élevée signifie que la mémoire peut effectuer des opérations de lecture et d'écriture plus rapidement et fournir une vitesse de transmission de données plus élevée.
HBM(Mémoire à bande passante élevée):
Est une technologie de mémoire à large bande passante utilisée pour fournir des vitesses d'accès à la mémoire rapides dans les unités de traitement graphique (GPU) et d'autres appareils informatiques hautes performances. La technologie de mémoire utilisée dans les cartes graphiques et les appareils informatiques traditionnels est généralement basée sur la conception GDDR (Graphics Double Data Rate), qui présente un certain équilibre entre performances et consommation d'énergie. La technologie HBM permet d'obtenir une bande passante plus élevée et une consommation d'énergie réduite en plaçant des piles de mémoire sur des puces GPU et en empilant plusieurs puces DRAM ensemble via des connexions verticales à haut débit (TSV).
Pour la mémoire HBM3, NVIDIA peut utiliser tout ou principalement SK Hynix. Il n'est pas sûr que le H100 de NVIDIA utilise la mémoire de Samsung, mais il est certain que NVIDIA n'utilise pas actuellement la mémoire de Micron.
En ce qui concerne HBM3, d'une manière générale, SK Hynix a la plus grande production, suivie de Samsung, et le troisième Micron a un grand écart de production avec les deux premiers. Il semble que SK Hynix ait accéléré la production, mais NVIDIA veut toujours qu'ils produisent plus, tandis que Samsung et Micron n'ont pas encore réussi à augmenter la production.
** Quoi d'autre est utilisé dans la fabrication des GPU ? **
De plus, la production de GPU impliquera également beaucoup de matériaux et de pièces métalliques.La pénurie de matières premières dans ces maillons entraînera également le goulot d'étranglement de l'approvisionnement en GPU, tels que :
**• Métaux et produits chimiques : **Comprend le silicium (métalloïdes) tels que le cuivre, le tantale, l'or, l'aluminium, le nickel, l'étain, l'indium et le palladium, qui sont utilisés à différentes étapes de la production, de la fabrication du silicium rond à l'assemblage final du GPU , comme le silicium, les terres rares, etc. ;
**• Composants et matériaux d'emballage : **tels que les substrats, les billes et les fils de soudure, les composés de dissipation thermique, etc., qui sont utilisés pour compléter l'assemblage et la liaison des divers composants du GPU, et qui sont essentiels au fonctionnement du GPU ;
• Consommation d'énergie : En raison de l'utilisation d'équipements mécaniques de haute précision lors du processus de fabrication des puces GPU, une grande quantité d'électricité est nécessaire.
**Comment NVIDIA fait-il face à la pénurie de H100 ? **
NVIDIA a révélé qu'ils augmenteront l'offre au cours du second semestre de cette année.Le directeur financier de NVIDIA a déclaré lors du rapport financier que la société faisait de son mieux pour résoudre le problème d'approvisionnement, mais à part cela, ils n'ont pas transmis plus d'informations, ni n'ont ils ont des chiffres spécifiques liés à H100. .
"Nous travaillons sur nos problèmes d'approvisionnement pour le trimestre, mais nous avons également acheté beaucoup d'actions pour le second semestre."
"Nous pensons que l'offre au second semestre sera nettement plus élevée qu'au premier semestre."
Colette Kress, directrice financière de Nvidia, lors de l'appel aux résultats de février-avril 2023
Un dirigeant d'une société de cloud privé estime qu'** un cercle vicieux pourrait ensuite émerger sur le marché, c'est-à-dire que la rareté fait que la capacité du GPU est considérée comme un fossé pour les entreprises d'IA, ce qui conduit à davantage de thésaurisation du GPU, ce qui à son tour exacerbe encore la rareté de GPU. **
Selon l'intervalle historique entre le lancement par NVIDIA de différentes architectures, le modèle de nouvelle génération du H100 pourrait ne pas sortir avant la fin de 2024 (mi-2024 à début 2025). Avant cela, le H100 sera toujours le produit haut de gamme du GPU NVIDIA (GH200 et DGX GH200 ne sont pas comptés, ils ne sont pas du pur GPU, et tous deux utilisent le H100 comme GPU).
De plus, on s'attend à ce qu'il y ait une version de 120 Go avec une plus grande mémoire à l'avenir.
04. Comment obtenir H100
Vendeur de H100
Les fabricants d'équipement d'origine (OEM) tels que Dell, HPE, Lenovo, Supermicro et Quanta vendent les H100 et HGX H100, tandis que la commande d'InfiniBand doit être effectuée via NVIDIA Mellanox.
Mellanox est l'un des principaux fournisseurs mondiaux d'InfiniBand. En 2015, la part de Mellanox sur le marché mondial des IB a atteint 80 %. En 2019, NVIDIA a acquis Mellanox pour 125 dollars par action, pour une valeur de transaction totale d'environ 6,9 milliards de dollars. Cette acquisition permet à NVIDIA d'étendre encore sa part de marché dans le calcul haute performance et les centres de données, et renforce la compétitivité de NVIDIA dans le domaine de l'IA.
En combinant la technologie d'interconnexion haut débit de Mellanox avec les accélérateurs GPU de NVIDIA, NVIDIA peut fournir aux centres de données des solutions à bande passante plus élevée et à faible latence. En plus de Mellanox, la technologie IB de QLogic, un autre fournisseur dans le domaine IB, a été acquise par Intel Corporation en 2012.
Les clouds GPU comme CoreWeave et Lambda achètent des GPU auprès d'OEM et les louent à des startups. Les acteurs du cloud hyperscale (Azure, GCP, AWS, Oracle) peuvent acheter plus directement auprès de NVIDIA, mais ils travaillent aussi parfois avec des OEM.
Pour DGX, l'achat se fait également via OEM. Bien que les clients puissent communiquer avec NVIDIA sur les exigences d'achat, l'achat se fait via OEM au lieu de passer directement un bon de commande auprès de NVIDIA.
Les délais de livraison pour les serveurs 8 GPU HGX sont terribles et les 4 serveurs GPU HGX sont plutôt bons, mais la réalité est que tout le monde veut 8 serveurs GPU.
**• Combien de temps faut-il entre la passation d'une commande et le déploiement du H100 ? **
Le déploiement est un processus par étapes. Disons une commande de 5 000 GPU, ils pourraient avoir accès à 2 000 ou 4 000 GPU en 4 à 5 mois, puis aux GPU restants en 6 mois environ.
Pour les Startup, si vous souhaitez acheter un GPU, vous ne passez pas de commande auprès d'un OEM ou d'un revendeur. Ils choisissent généralement des services de cloud public tels qu'Oracle, ou louent des droits d'accès à des clouds privés tels que Lambda et CoreWeave, ou utilisez des services tels que FluidStack et les équipementiers et fournisseurs qui travaillent avec des centres de données louent l'accès.
**• L'entreprise doit-elle construire son propre centre de données ou une colocation ? **
Pour l'établissement d'un centre de données, les facteurs qui doivent être pris en compte incluent le temps nécessaire pour établir le centre de données, s'il y a des talents et de l'expérience dans le matériel, et l'ampleur de l'investissement en capital.
Louer et héberger un serveur est beaucoup plus facile. Si vous souhaitez construire votre propre centre de données, vous devez installer une ligne de fibre noire jusqu'à votre emplacement pour vous connecter à Internet, et le coût de la fibre est de 10 000 $ par kilomètre. Pendant le boom d'Internet, la plupart des infrastructures étaient déjà construites et payées. Maintenant, vous pouvez simplement louer, et c'est assez bon marché.
—— Un dirigeant du cloud privé
Choisir de louer ou de construire un centre de données est une décision alternative, selon les besoins réels, les entreprises peuvent avoir les différentes options suivantes :
Cloud à la demande : utilisez uniquement les services cloud pour la location ;
Nuage réservé ;
Hébergement (achat d'un serveur, coopération avec un fournisseur pour héberger et gérer le serveur) ;
Auto-hébergement (achat et hébergement d'un serveur vous-même).
La plupart des startups qui ont besoin de beaucoup de H100 opteront pour le cloud réservé ou la colocation.
**Comment les entreprises choisissent-elles une société de services cloud ? **
Certains pensent que l'infrastructure d'Oracle n'est pas aussi fiable que les trois principaux clouds, mais il est prêt à consacrer plus de temps au support technique des clients. Certains praticiens de sociétés de cloud privé ont déclaré que 100% d'entre eux auront un grand nombre de clients insatisfaits des services basés sur Oracle, et certains PDG d'autres sociétés pensent que les capacités de mise en réseau d'Oracle sont plus fortes.
**Généralement, Startup sélectionnera l'entreprise avec la meilleure combinaison de support de service, de prix et de capacité. **
Les principales différences entre plusieurs grandes sociétés de services cloud sont :
**• Mise en réseau : ** AWS et Google Cloud ont été plus lents à adopter InfiniBand car ils ont leurs propres approches, mais la plupart des startups à la recherche de grands clusters A100/H100 recherchent InfiniBand ;
**• Disponibilité : **Par exemple, la majeure partie de la puissance de calcul H100 d'Azure est utilisée par OpenAI, ce qui signifie qu'il n'y a peut-être pas beaucoup de puissance de calcul disponible pour les autres clients.
** Bien qu'il n'y ait aucune base factuelle, il y a des spéculations selon lesquelles NVIDIA est plus enclin à donner la priorité à la fourniture de GPU pour les fournisseurs de services cloud qui n'ont pas développé de puces d'apprentissage automatique concurrentes. **Les trois principaux fournisseurs de services cloud développent actuellement leurs propres puces d'apprentissage automatique, mais AWS et les alternatives NVIDIA de Google sont déjà sur le marché et volent une partie de la part de marché de NVIDIA. Cela a également conduit à des spéculations sur le marché selon lesquelles NVIDIA est plus disposé à coopérer avec Oracel à cause de cela.
Certaines des grandes entreprises du cloud ont de meilleurs prix que d'autres. Comme l'a noté un responsable du cloud privé : "Par exemple, A100 sur AWS/AZURE est beaucoup plus cher que GCP".
Oracle m'a dit qu'ils auraient "des dizaines de milliers de H100" en service plus tard cette année. Mais en termes de prix, ils sont plus élevés que les autres entreprises. Ils ne m'ont pas donné de prix pour le H100, mais pour l'A100 80 Go, ils m'ont cité près de 4 $/heure, soit presque 2 fois plus que ce que GCP citait, et pour la même consommation d'énergie et les mêmes efforts.
Anonyme
Les petits clouds ont un avantage en termes de prix, sauf dans certains cas où l'une des grandes sociétés de cloud peut conclure une transaction étrange en échange de capitaux propres.
Donc, dans l'ensemble, en termes de coopération étroite avec NVIDIA, Oracle et Azure > GCP et AWS, mais ce n'est qu'une supposition.
Oracle a été le pionnier des A100 et a hébergé des clusters basés sur Nvidia en partenariat avec Nvidia, qui est également un client Azure.
**• Quelle grande entreprise de cloud offre les meilleures performances réseau ? **
Azure, CoreWeave et Lambda utilisent tous InfiniBand. Les performances réseau d'Oracle sont bonnes à 3200 Gbps, mais utilisent Ethernet au lieu d'InfiniBand, et peuvent être environ 15 à 20% plus lentes qu'IB pour des cas d'utilisation tels que la formation LLM à paramètres élevés. Les réseaux d'AWS et de GCP ne sont pas aussi bons.
**• Comment les entreprises choisissent-elles actuellement les services cloud ? **
Des données statistiques pour 15 entreprises montrent que les 15 entreprises interrogées choisiront AWS, GCP ou Azure, et Oracle n'en fait pas partie.
La plupart des entreprises ont tendance à utiliser leur cloud existant. Mais pour les équipes entrepreneuriales, leurs choix sont davantage basés sur la réalité : celui qui peut fournir la puissance de calcul choisira celui qui le fera.
**• Avec qui NVIDIA travaille-t-il sur DGX Cloud ? **
"Nvidia s'associe aux principaux fournisseurs de services cloud pour héberger DGX Cloud Infrastructure, en commençant par Oracle Cloud Infrastructure" - vendre avec Nvidia, mais louer via des fournisseurs de cloud existants (d'abord avec Oracle, puis Azure, suivi de Google Cloud, qui ne fonctionnait pas avec AWS).
Le PDG de NVIDIA, Jensen Huang, a déclaré lors de l'appel aux résultats de NVIDIA que "le mélange idéal est de 10 % de cloud NVIDIA DGX et de 90 % de cloud CSP".
• Le calendrier H100 des géants du cloud :
CoreWeave a été l'un des premiers. En tant qu'investisseur de CoreWeave, et afin de renforcer la concurrence entre les grandes entreprises du cloud, NVIDIA a été le premier à finaliser la livraison pour CoreWeave.
Le calendrier H100 des autres sociétés de services cloud est le suivant :
• Azure a annoncé la disponibilité de H100 en préversion le 13 mars ;
• Oracle a annoncé une offre limitée de H100 le 21 mars ;
• Lambda Labs a annoncé le 21 mars qu'il lancera le H100 début avril ;
• AWS a annoncé le 21 mars que le H100 sera en avant-première dans quelques semaines ;
• Google Cloud a annoncé le lancement de la préversion privée du H100 le 10 mai.
**• Quels services cloud les différentes entreprises utilisent-elles ? **
• OpenAI : Azure
• Inflexion : Azure et CoreWeave
• Anthropique : AWS 和 Google Cloud
• Cohere :AWS et Google Cloud
• Visage étreignant : AWS
• IA de stabilité : CoreWeave et AWS
• Caractère.ai : Google Cloud
• X.ai : Oracle
• NVIDIA : Azur
**Comment obtenir plus de quota GPU ? **
Le dernier goulot d'étranglement est de savoir si la distribution de la puissance de calcul peut être obtenue auprès de NVIDIA.
**• Comment NVIDIA sélectionne-t-il ses clients ? **
NVIDIA alloue généralement un certain nombre de GPU à chaque client, et dans ce processus **NVIDIA est le plus préoccupé par "qui est le client final", par exemple, Azure a déclaré "nous voulons acheter 10 000 H100 pour prendre en charge Inflection" , et le le résultat correspondant à Azure disant "Nous avons acheté 10 000 H100 pour Azure" est différent. ** Si NVIDIA est intéressé par un client final particulier, il est possible pour la société de cloud d'obtenir un quota de GPU supplémentaire. Par conséquent, NVIDIA espère savoir autant que possible qui sont les clients finaux, et ils seront plus enclins aux grandes entreprises ou aux startups avec de fortes recommandations.
Oui, cela semble être le cas. Nvidia aime donner un accès GPU aux startups d'IA (dont beaucoup ont des liens étroits avec Nvidia). Inflection, une société d'intelligence artificielle investie par Nvidia, teste un énorme cluster H100 sur CoreWeave.
—— Un dirigeant du cloud privé
Si une certaine société de cloud apporte un client final à NVIDIA et exprime qu'elle est prête à acheter une certaine quantité de H100, et que NVIDIA est intéressé par ce client final, NVIDIA accordera généralement un certain quota, ce qui augmentera en fait le montant que NVIDIA alloue au client final La capacité totale de l'entreprise cloud, car cette allocation est indépendante du quota attribué à l'origine à l'entreprise cloud par NVIDIA.
L'allocation par NVIDIA d'une grande capacité aux clouds privés est un cas particulier : **CoreWeave a plus de H100 que GCP. NVIDIA hésite à allouer des ressources importantes aux entreprises qui tentent de lui faire directement concurrence (AWS Inferentia et Tranium, Google TPU, Azure Project Athena). **
Mais en fin de compte, si vous soumettez un bon de commande et de l'argent à NVIDIA, que vous vous engagez dans un accord plus important avec un financement initial plus important et que vous indiquez votre profil à faible risque, vous obtiendrez forcément plus de quota de GPU que n'importe qui d'autre.
05. Résumé
Même si, comme l'a dit Sam Altman, "l'ère de l'utilisation de grands modèles touche à sa fin", pour l'instant nous sommes toujours limités par le GPU. D'une part, des entreprises comme OpenAI disposent déjà d'excellents produits PMF comme ChatGPT, mais étant limités par les GPU, ils doivent acheter une grande puissance de calcul. D'autre part, de nombreuses équipes travaillent sur la possibilité de participer. dans LLM à l'avenir Thésauriser les GPU quel que soit leur potentiel à créer quelque chose comme ChatGPT.
Mais nul doute que le droit de parole de NVIDIA ne sera pas ébranlé.
À ce stade, le meilleur produit LLM proposé par PMF est ChatGPT. Ce qui suit utilise ChatGPT comme exemple pour expliquer pourquoi il y a une pénurie de GPU :
Parce que ChatGPT est si populaire auprès des utilisateurs, son ARR (revenu récurrent annuel) peut dépasser 500 millions de dollars américains ;
ChatGPT fonctionne sur l'API de GPT-4 et GPT-3.5 ;
Les API de GPT-4 et GPT-3.5 nécessitent un GPU pour fonctionner, et un grand nombre de GPU sont nécessaires. OpenAI espère libérer plus de fonctions pour ChatGPT et son API, mais cela ne peut pas être réalisé en raison du nombre limité de GPU ;
OpenAI a acheté un grand nombre de GPU NVIDIA via Microsoft (Azure) ;
Pour fabriquer le GPU H100 SXM, NVIDIA utilise TSMC pour la fabrication et utilise la technologie de conditionnement CoWoS de TSMC et HBM3 principalement de SK Hynix.
En plus d'OpenAI, il existe encore de nombreuses entreprises sur le marché qui forment leurs propres grands modèles. Mettons de côté le nombre de bulles existantes dans LLM et la probabilité que les produits PMF apparaissent à la fin, mais en général, la concurrence LLM a fait grimper la demande du marché pour les GPU. De plus, certaines entreprises, même si elles n'ont pas besoin de GPU pour le moment, commenceront à les stocker à l'avance car elles s'inquiètent pour l'avenir. C'est donc un peu comme "l'attente d'un déficit d'approvisionnement exacerbe le déficit d'approvisionnement"**.
Ainsi, une autre force qui stimule la demande de GPU sont les entreprises qui souhaitent créer de nouveaux LLM ou participer à l'IA à l'avenir :
L'importance des grands modèles est devenue un consensus : si c'est une entreprise mature, elle espère former le LLM sur ses propres données et espère que cela apportera plus de valeur commerciale ; en tant que start-up, elle espère construire son posséder LLM et le transformer en valeur commerciale. Le GPU est juste nécessaire pour former de grands modèles ;
Communication entre ces entreprises et les grands fournisseurs de cloud (Azure, Google Cloud, AWS), essayant d'obtenir suffisamment de H100 ;
Au cours du processus, ils ont constaté que les fournisseurs de cloud n'avaient pas assez de H100 à allouer, et certains fournisseurs de cloud avaient également des configurations réseau défectueuses, donc CoreWeave, Oracle, Lambda et FluidStack sont également devenus acheter des GPU et les posséder, peut-être qu'ils discutent également avec OEM et NVIDIA ;
Au final, ils ont eu beaucoup de GPU ;
Maintenant, ils essaient de faire correspondre leur produit au marché ;
Au cas où ce ne serait pas déjà clair, le chemin n'est pas facile - rappelez-vous qu'OpenAI a réussi à s'adapter au marché des produits sur un modèle plus petit, puis l'a mis à l'échelle. Mais maintenant, pour atteindre l'adéquation produit-marché, vous devez mieux adapter le cas d'utilisation de votre utilisateur que le modèle d'OpenAI, vous avez donc besoin de plus de GPU qu'OpenAI pour commencer.
** Au moins jusqu'à la fin de 2023, il y aura des pénuries pour les entreprises déployant des centaines ou des milliers de H100, peut-être que d'ici la fin de 2023, la situation deviendra plus claire, mais il semble que la pénurie de GPU pourrait se poursuivre jusqu'en 2024. **
Parcours de l'offre et de la demande de GPU
Référence
Commentaire d'un fondateur de startup personnalisé LLMs-for-enterprises
Message d'un fournisseur de cloud
Conversations avec des entreprises de cloud computing et des fournisseurs de GPU
Tesla Q1 2023 (couvre le 1er janvier 2023 au 31 mars 2023) appel sur les résultats
Un commentaire d'une entreprise cloud
Un stade approximatif d'une entreprise cloud
︎
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Analyse de l'offre et de la demande H100 : Combien de temps durera la guerre des puces ?
Auteur : Clay Pascal
Compilé par : wenli, Lavida, yunhao
Recommandé par : Cage, Huaiwei
Source: Licornes d'outre-mer
La percée des grands modèles repose sur l'amélioration de la puissance de calcul matérielle et des capacités de cloud computing.Nvidia H100, considéré comme la "bombe nucléaire" du GPU, fait face à la plus grave pénurie de l'histoire. Sam Altman a directement déclaré que la pénurie de GPU limite la vitesse des mises à niveau technologiques d'OpenAI en termes de réglage fin, de capacité dédiée, de fenêtres contextuelles 32K et de multimodalité.
Cet article est compilé à partir de GPU Utils.L'auteur discute principalement de la durée de vie des GPU (en particulier NVIDIA H100) du point de vue de l'offre et de la demande.
Du point de vue de la demande, NVIDIA H100 est sans aucun doute une demande rigide pour la formation de grands modèles.Selon les estimations, la demande actuelle de H100 sur le marché est d'environ 432 000 feuilles, ce qui équivaut à une valeur totale d'environ 35 000 dollars américains par feuille. Avec un GPU de 15 milliards de dollars **, le chiffre de 432 000 n'inclut pas des entreprises comme ByteDance (TikTok), Baidu et Tencent qui ont besoin de beaucoup de H800.
Côté offre, la pénurie de H100 est directement limitée par la capacité de production de TSMC, et à court terme, NVIDIA n'a pas d'autres usines de puces alternatives. En raison des expéditions limitées, NVIDIA a également sa propre stratégie sur la façon d'allouer ces GPU.Pour NVIDIA, comment s'assurer que ces GPU limités circulent vers les chevaux noirs de l'IA plutôt que vers des concurrents potentiels tels que Google, Microsoft et AWS est très important.
Combien de temps durera cette course à l'armement de l'IA autour du H100 ? La réponse n'est pas encore claire. Bien que NVIDIA ait déclaré qu'il augmenterait l'offre au second semestre, il semble que la pénurie de GPU pourrait se poursuivre jusqu'en 2024.
Entourant la pénurie de H100, le marché peut entrer dans un "cercle vicieux": la rareté fait que la capacité du GPU est considérée comme un fossé pour les entreprises d'IA, ce qui conduit à davantage de thésaurisation du GPU, ce qui intensifie encore la pénurie de GPU.
**Ce qui suit est la table des matières de cet article, et il est recommandé de le lire en combinaison avec les points principaux. **
👇
01 fond
02 Analyse des besoins pour H100
03 H100 Analyse côté offre
04 Comment obtenir H100
05 Sommaire
01.Contexte
Jusqu'en août 2023, le développement du domaine de l'intelligence artificielle a été contraint par le goulot d'étranglement de l'approvisionnement en GPU.
"L'une des raisons pour lesquelles le boom de l'IA est sous-estimé est la pénurie de GPU/TPU. La pénurie de GPU et de TPU limite la vitesse d'introduction des produits et la progression de la formation des modèles, mais ces contraintes sont cachées. Nous assistons principalement à la flambée du cours de l'action NVIDIA. , pas les progrès de la R & D. Les choses s'amélioreront lorsque l'offre et la demande seront équilibrées.
—Adam D'Angelo, PDG de Quora, Poe.com, ancien CTO de Facebook
Sam Altman a déclaré que la pénurie de GPU a limité l'avancement des projets OpenAI, tels que le réglage fin, la capacité dédiée, les fenêtres de contexte 32K, la multimodalité, etc.
Les clusters H100 à grande échelle de petits et grands fournisseurs de cloud manquent de capacité.
"Tout le monde veut que NVIDIA fabrique plus d'A/H100."
"En raison de la pénurie actuelle de GPU, il est préférable pour OpenAI que moins de personnes utilisent nos produits" ;
"Nous serions en fait heureux si les gens utilisaient moins les produits OpenAI parce que nous n'avons pas assez de GPU."
—Sam Altman, PDG, OpenAI
D'une part, les mots de Sam Altman montrent subtilement que les produits OpenAI ont été appréciés par les utilisateurs du monde entier, mais en même temps, cela illustre également le fait qu'OpenAI a besoin de plus de GPU pour promouvoir et mettre à niveau ses fonctions.
Azure et Microsoft sont également confrontés à une situation similaire, et une personne anonyme a mentionné :
• L'entreprise empêche les employés d'utiliser des GPU, et tout le monde doit faire la queue pour demander une puissance de calcul comme les étudiants des années 1970 afin d'utiliser des ordinateurs. De mon point de vue, OpenAI aspire actuellement toutes les ressources GPU ;
• En juin de cette année, la coopération entre Microsoft et CoreWeave porte essentiellement sur l'amélioration de l'alimentation GPU/informatique de Microsoft.
CoreWeave :
Selon le site officiel de CoreWeave, les fournisseurs de services de cloud computing sont 80 % moins chers que les fournisseurs traditionnels de cloud computing. En avril 2023, CoreWeave a reçu l'investissement du tour B de NVIDIA et a obtenu un grand nombre de nouvelles cartes H100.En juin, Microsoft a également signé un accord avec CoreWeave.Microsoft investira des milliards de dollars dans les prochaines années pour la construction d'infrastructures de cloud computing.
En juillet, CoreWeave a lancé le projet de supercalculateur d'IA le plus rapide au monde en partenariat avec NVIDIA, et Inflection AI a créé l'un des modèles de langage à grande échelle les plus complexes au monde sur le Cloud CoreWeave en utilisant une infrastructure qui prend en charge les soumissions MLPerf. De plus, CoreWeave a utilisé la carte accélératrice NVIDIA H100 en garantie et a annoncé en août qu'il avait réalisé un financement par emprunt de 2,3 milliards de dollars.
Pour résumer, l'offre de GPU H100 est déjà assez courte. Il y a même des rumeurs selon lesquelles **Azure et GCP manquent pratiquement de capacité, et AWS manque de capacité. **
La raison de la pénurie est que NVIDIA ne fournit qu'un nombre limité de GPU H100 à ces fournisseurs de cloud.Comme la sortie GPU H100 de NVIDIA ne peut pas répondre à la demande, la puissance de calcul que ces fournisseurs de cloud peuvent fournir commencera naturellement à se faire rare.
Si vous souhaitez comprendre le goulot d'étranglement de la puissance de calcul, vous pouvez vous concentrer sur les questions suivantes :
• Quelles sont les raisons précises de cette situation ? :
Quelle est la demande ? Par exemple, dans quels domaines la demande d'intelligence artificielle augmente relativement rapidement ;
Quelle est la taille de l'offre? Si la capacité de production des fabricants de GPU tels que NVIDIA est suffisante pour répondre à la demande ;
• Combien de temps durera cette pénurie ? Quand l'offre et la demande de GPU atteindront-elles progressivement un point d'équilibre ?
• Quels sont les moyens par lesquels cette pénurie peut être efficacement atténuée ?
02.H100 Analyse des besoins
Analyser les problèmes clés des goulots d'étranglement de la puissance de calcul du côté de la demande :
Plus précisément, qu'est-ce que les gens veulent acheter mais ont du mal à obtenir ?
Quelle est la demande de GPU sur le marché actuel ?
Pourquoi les entreprises préfèrent-elles NVIDIA H100 à d'autres GPU ?
Quels types de GPU sont actuellement sur le marché ?
Où les entreprises peuvent-elles acheter des GPU ? Quels sont leurs tarifs ?
**Qui sont les demandeurs de H100 ? **
Entreprises avec une demande supérieure à 1 000 H100 ou A100 :
• Formation LLM pour startups :
OpenAI (via Azure), Anthropic, Inflection (via Azure et CoreWeave), Mistral AI ;
• Fournisseurs de services cloud (CSP) :
Outre les trois géants d'Azure, GCP et AWS, il existe également Oracle et des fournisseurs de cloud GPU tels que CoreWeave et Lambda ;
• Autres géants de la technologie :
Par exemple, Tesla (**note de sélection : **Meta, Apple et d'autres géants que l'auteur original n'a pas mentionnés ici ont également une forte demande de GPU, Google utilise principalement le TPU pour traiter les calculs, et la demande de H100 est principalement Plate-forme Google Cloud).
En plus des entreprises ci-dessus, si l'entreprise doit effectuer de nombreux ajustements de LLM, elle doit également réserver au moins 100 H100 ou A100.
Pour les entreprises qui adoptent les clouds privés (CoreWeave, Lambda), et les entreprises ayant des centaines à des milliers d'actions H100, elles sont presque principalement confrontées au travail de LLM et à certains modèles de diffusion (Diffusion Model). Certaines entreprises choisissent d'affiner les modèles existants, mais de plus en plus de startups d'IA construisent leurs propres grands modèles à partir de zéro. ** Ces entreprises signent généralement des contrats avec des fournisseurs de services de cloud privé dans la fourchette de 10 à 50 millions de dollars pour 3 ans et utilisent quelques centaines à quelques milliers de GPU. **
Pour les entreprises qui n'utilisent qu'un petit nombre de GPU H100 à la demande, les tâches liées au LLM représentent une grande partie de leur utilisation du GPU, et le LLM peut utiliser plus de 50 % du GPU.
Actuellement, les clouds privés sont privilégiés par les entreprises, et bien que ces entreprises choisissent généralement les grands fournisseurs de services cloud par défaut, elles courent également le risque d'être éliminées.
**• Les grands laboratoires d'IA sont-ils plus contraints par les tâches d'inférence ou les tâches de formation ? **
Cette question dépend de l'attractivité de leur produit. En d'autres termes, l'attractivité des produits de l'entreprise est très importante dans la détermination de l'allocation des ressources.En cas de ressources limitées, les priorités de raisonnement et de formation ont souvent leur propre accent. L'opinion de Sam Altman est que si un choix doit être fait, OpenAI est plus enclin à améliorer les capacités de raisonnement, mais actuellement OpenAI est limité dans les deux aspects.
Pourquoi H100 est juste nécessaire pour la formation LLM
La plupart du marché actuel utilise des GPU NVIDIA H100. En effet, le GPU H100 est le plus rapide en termes d'inférence et de formation LLM, et il offre également les meilleures performances en matière de coût d'inférence. Plus précisément, la plupart des entreprises choisissent d'utiliser le serveur 8-GPU HGX H100 SXM.
Selon mon analyse, pour un même travail, le H100 est plus avantageux en termes de coût. Le GPU V100 est une bonne option si vous pouvez trouver une unité d'occasion, mais ce n'est souvent pas possible.
—— une personne anonyme
En termes d'inférence, nous avons trouvé que le GPU A10G était plus que suffisant et beaucoup moins cher.
—— Un dirigeant du cloud privé
Nous avons remarqué que le Falcon 40b et le llama2 70b sont également très utilisés, là où cette affirmation n'est plus exacte. Par conséquent, la vitesse d'interconnexion est très importante pour les tâches d'inférence.
— (Un autre) responsable du cloud privé
Faucon 40b :
Falcon est un grand modèle de langage de base avec 40 milliards de paramètres, Falcon 40b vise à utiliser moins de puissance de calcul de formation pour obtenir de meilleurs résultats, le modèle ne représente que 75% du calcul de formation GPT-3, 40% de Chinchilla et PaLM-62B 80% de la formation. Le 25 mai 2023, l'Institut d'innovation technologique des Émirats arabes unis a annoncé qu'il ouvrirait le Falcon 9 à des fins de recherche et d'utilisation commerciale. Après sa sortie, il a déjà été en tête de la liste LLM open source de Hugging Face.
**• Quels sont les besoins communs des équipes entrepreneuriales LLM ? **
**Pour les startups LLM, ils choisissent souvent le GPU H100 avec 3,2 To/s InfiniBand pour la formation LLM. Bien que presque tout le monde préfère le H100 lors de la session de formation, lors de la session d'inférence, ces entreprises accordent plus d'attention à la performance des coûts, c'est-à-dire à la performance créée par dollar. **
Il y a encore quelques problèmes avec les performances par dollar des GPU H100 par rapport à l'A100, mais les H100 sont toujours préférés en raison de leur meilleure mise à l'échelle et de leurs temps d'entraînement plus rapides, tandis que la vitesse/compression démarre, s'entraîne ou s'améliore. startups.
"Pour la formation multi-nœuds, ils nécessitent tous un GPU A100 ou H100 avec mise en réseau InfiniBand. La seule exigence non-A/H100 que nous avons observée concernait l'inférence, où la charge de travail était un seul GPU ou un seul nœud."
—— Un dirigeant du cloud privé
Les principaux facteurs affectant la formation LLM sont :
**• Bande passante mémoire : **Face à une grande quantité de données chargées depuis la mémoire, une bande passante mémoire plus élevée peut accélérer le chargement des données ;
**• Puissance de calcul du modèle (FLOPS, opérations en virgule flottante par seconde) : ** Noyau tenseur ou unité de multiplication matricielle équivalente, qui affecte principalement la vitesse de calcul ;
**• Cache et latence du cache : **Le cache peut temporairement stocker des données pour un accès répété, ce qui a un impact significatif sur les performances ;
**• Fonctionnalités supplémentaires : **Comme FP8 (nombre à virgule flottante 8 bits), etc., les formats numériques de faible précision peuvent accélérer la formation et l'inférence ;
**• Performances de calcul : ** est lié au nombre de cœurs GPU CUDA et affecte principalement le nombre de tâches pouvant être exécutées en parallèle ;
**• Vitesse d'interconnexion : **Pour une bande passante d'interconnexion inter-nœuds rapide telle qu'InfiniBand, ce facteur affectera la vitesse de formation distribuée.
** H100 est préféré à A100 en partie en raison de la latence de cache inférieure de H100 et de la capacité de calcul FP8. **
Le H100 est vraiment le premier choix car il est jusqu'à 3 fois plus efficace que le A100 mais ne coûte que 1,5 à 2 fois le A100. Comment considérer le coût de l'ensemble du système, les performances par dollar du H100 sont également beaucoup plus élevées, si l'on considère les performances du système, les performances par dollar peuvent être 4 à 5 fois plus élevées.
—— Un chercheur en apprentissage profond
**Pourquoi la précision numérique est-elle si importante ? **
Les nombres à virgule flottante de faible précision peuvent améliorer la vitesse d'entraînement et d'inférence. Par exemple, FP16 a la moitié de l'empreinte mémoire de FP32 et est trois fois plus rapide que FP32 en termes de vitesse de calcul. Dans le processus de formation LLM, afin d'assurer l'équilibre entre vitesse et précision, des méthodes telles que la précision mixte et la précision adaptative sont utilisées pour accélérer les grands modèles de langage. Par conséquent, la prise en charge de la précision multiple est l'une des considérations importantes pour la formation de grands modèles de langage. Google a proposé le format numérique BFP16, qui élargit la plage numérique tout en réduisant la précision, et les performances sont meilleures que FP 32.
**• Outre le GPU, quels sont les liens de coût entre la formation et le fonctionnement du LLM ? **
Le GPU est actuellement le composant le plus cher de toute l'infrastructure de formation LLM, mais d'autres aspects du coût ne sont pas faibles, ce qui a également un impact sur les coûts de formation et de fonctionnement du LLM :
La mémoire système et les SSD NVMe sont chers : les grands modèles nécessitent beaucoup de mémoire haute vitesse et de SSD haute vitesse pour mettre en cache et charger les données, et les deux composants sont chers ;
Les réseaux à haut débit sont coûteux : les réseaux à haut débit tels que InfiniBand (utilisés pour la communication entre les nœuds) sont très coûteux, en particulier pour les formations distribuées à grande échelle.
Peut-être 10 à 15 % du coût total de fonctionnement d'un cluster sont consacrés à l'électricité et à l'hébergement, répartis à peu près également entre les deux. Les coûts d'électricité comprennent l'électricité, les coûts de construction du centre de données, les coûts du terrain et des employés, etc., environ 5 % à 8 % ; les coûts d'hébergement comprennent le terrain, les bâtiments, les employés, etc., environ 5 % à 10 %. **
Notre principale préoccupation est le réseau et le centre de données fiable. AWS n'était pas un bon choix en raison des limitations du réseau et du matériel peu fiable.
——Chercheur en apprentissage profond
**• Comment la technologie GPUDirect aide-t-elle dans la formation LLM ? **
GPUDirect de NVIDIA n'est pas requis pour la formation LLM, mais il peut également améliorer les performances :
La technologie GPUDirect peut améliorer les performances, mais pas nécessairement une différence supercritique. Cela dépend principalement de l'endroit où se trouve le goulot d'étranglement de votre système. Pour certaines architectures/implémentations logicielles, le goulot d'étranglement du système n'est pas nécessairement le réseau. **Mais dans le cas de la mise en réseau, GPUDirect peut améliorer les performances de 10 % à 20 %, ce qui est un nombre considérable pour les coûts de fonctionnement élevés de la formation. **
Néanmoins, GPUDirect RDMA est maintenant si omniprésent que sa popularité parle presque d'elle-même. Je pense que la prise en charge de GPUDirect est faible pour les réseaux non Infiniband, mais la plupart des clusters GPU optimisés pour la formation de réseaux de neurones ont des réseaux/cartes Infiniband. Le plus grand facteur de performance est probablement NVLink, car il est plus rare qu'Infiniband, mais il n'est également critique que si vous utilisez une stratégie de parallélisation spécifique.
Ainsi, des fonctionnalités telles que la mise en réseau puissante et GPUDirect peuvent faire fonctionner des logiciels moins sophistiqués prêts à l'emploi. Cependant, GPUDirect n'est pas strictement requis si le coût ou l'infrastructure héritée est pris en compte.
—— Un chercheur en apprentissage profond
GPUDirect:
La technologie de transmission de données appelée GPUDirect Storage (GPUDirect Storage) introduite par NVIDIA est principalement utilisée pour accélérer la transmission des données stockées dans divers stockages vers la mémoire GPU, ce qui peut augmenter la bande passante de 2 à 8 fois, et peut également réduire la fin- le délai de fin est jusqu'à 3,8 fois. Dans le passé, le CPU était responsable du chargement des données de la mémoire vers le GPU, ce qui limitait considérablement les performances matérielles.
Le chemin standard pour le transfert de données du disque NVMe vers la mémoire GPU consiste à utiliser le tampon de rebond (Bounce Buffer) dans la mémoire système, qui est une copie de données supplémentaire. Le cœur de la technologie de stockage GPUDirect est d'éviter l'utilisation du cache de rebond pour réduire les copies de données supplémentaires et d'utiliser le moteur d'accès direct à la mémoire (Direct Memory Access, DMA) pour placer les données directement dans la mémoire GPU.
**Pourquoi la société LLM ne peut-elle pas utiliser le GPU d'AMD ? **
Un dirigeant d'une société de cloud privé a déclaré qu'il était théoriquement possible d'acheter des GPU AMD, mais qu'il faut un certain temps entre l'achat et le fonctionnement effectif de l'équipement. Par conséquent, CUDA est le fossé actuel de NVIDIA.
Une étude MosaicML a mentionné que les GPU AMD conviennent également aux tâches de formation de modèles volumineux. Ils ont expérimenté une tâche de formation simple basée sur PyTorch sans aucune modification de code par rapport à l'exécution sur NVIDIA. Les auteurs montrent que tant que la base de code est construite sur PyTorch, elle peut être utilisée directement sur AMD sans adaptation supplémentaire. À l'avenir, l'auteur prévoit de vérifier les performances du système AMD sur un cluster informatique plus important.
Dans le même temps, il y a aussi une opinion selon laquelle étant donné que le coût d'une formation de modèle est proche de 300 millions de dollars américains, personne ne risquera de s'appuyer sur des puces d'AMD ou d'autres startups à grande échelle, surtout lorsque la demande de puces est de l'ordre de plus de 10 000.
Un retraité de l'industrie des semi-conducteurs a également mentionné que la situation d'approvisionnement d'AMD n'est pas optimiste et que la capacité de production CoWoS de TSMC a été absorbée par NVIDIA, donc bien que le MI250 puisse être une alternative viable, il est également difficile à obtenir.
H100 CONTRE A100
NVIDIA A100:
La mise à niveau de NVIDIA V100, par rapport à V100, les performances de A100 ont été améliorées de 20 fois, ce qui est très approprié pour des tâches telles que l'IA et l'analyse de données. Composé de 54 milliards de transistors, l'A100 intègre des cœurs Tensor de troisième génération avec accélération pour les opérations de matrice clairsemée, particulièrement utile pour le raisonnement et la formation de l'IA. De plus, plusieurs GPU A100 peuvent être exploités pour des charges de travail d'inférence IA plus importantes avec la technologie d'interconnexion NVIDIA NVLink.
NVIDIA H100:
La prochaine génération de l'A100 est la dernière puce optimisée pour les grands modèles. Il est basé sur l'architecture Hopper, construite à l'aide du processus de version personnalisée 5 nm (4N) de TSMC, et une seule puce contient 80 milliards de transistors. Plus précisément, NVIDIA a proposé le Transformer Engine, qui intègre plusieurs calculs de précision et les capacités de traitement dynamique du réseau neuronal Transformer, permettant au GPU H100 de réduire considérablement le temps de formation du modèle. Basé sur H100, NVIDIA a également lancé une série de produits tels que des stations de travail d'apprentissage automatique et des superordinateurs, tels que 8 H100 et 4 NVLinks combinés pour former un GPU géant - DGX H100.
Par rapport à l'A100, la vitesse d'inférence 16 bits du H100 est environ 3,5 fois plus rapide et la vitesse d'entraînement 16 bits est environ 2,3 fois plus rapide.
La plupart des gens ont tendance à acheter le H100 pour la formation et l'inférence de modèles, et utilisent le A100 principalement pour l'inférence de modèles. Cependant, on peut également considérer les facteurs suivants :
**• Coût : **H100 est plus cher que A100 ;
**• Capacité : **A100 et H100 sont différents en termes de puissance de calcul et de mémoire ;
**• Utilisation de nouveau matériel : **L'adoption du H100 nécessite des ajustements correspondants dans le logiciel et le flux de travail ;
**• Risque : ** Il y a plus de risques inconnus dans le réglage H100 ;
**• LOGICIEL OPTIMISÉ : **Certains logiciels ont été optimisés pour A100.
Dans l'ensemble, malgré les performances supérieures du H100, il est parfois judicieux de choisir l'A100, ** ce qui rend la mise à niveau de l'A100 vers le H100 pas une décision facile avec de nombreux facteurs à prendre en compte. **
En fait, l'A100 deviendrait le V100 qu'il est aujourd'hui dans quelques années. Compte tenu des contraintes de performances, je pense que presque personne ne formera LLM sur V100 maintenant. Mais le V100 est toujours utilisé pour l'inférence et d'autres tâches. De même, le prix de l'A100 peut baisser à mesure que de plus en plus d'entreprises d'IA se tournent vers le H100 pour former de nouveaux modèles, mais il y aura toujours une demande pour l'A100, en particulier pour l'inférence.
Je pense que cela pourrait entraîner à nouveau un flot d'A100 sur le marché, car certaines startups extrêmement financées finissent par faire faillite.
— (Un autre) responsable du cloud privé
Mais au fil du temps, les gens utiliseront l'A100 pour de plus en plus de tâches d'inférence au lieu de former les modèles les plus récents et les plus grands. ** Les performances du V100 ne peuvent plus prendre en charge la formation de grands modèles, et les cartes graphiques à haute mémoire sont plus adaptées aux grands modèles, donc les équipes de pointe préfèrent H100 ou A100.
La principale raison de ne pas utiliser V100 est le manque de types de données brainfloat16 (bfloat16, BF16). Sans ce type de données, il est difficile de former facilement des modèles. La principale raison des mauvaises performances d'OPT et de BLOOM est l'absence de ce type de données (OPT a été formé dans float16, BLOOM était principalement un prototypage effectué dans FP16, ce qui a rendu impossible la généralisation des données aux exécutions d'entraînement effectuées dans BF16).
——Chercheur en apprentissage profond
**• Quelle est la différence entre les GPU H100, GH200, DGX GH200, HGX H100 et DGX H100 de Nvida ? **
• H100 = 1x GPU H100;
• HGX H100 = plate-forme de référence de serveur NVIDIA. Utilisé par les OEM pour construire des serveurs 4 GPU ou 8 GPU, fabriqués par des OEM tiers tels que Supermicro ;
• DGX H100 = Serveur officiel NVIDIA H100 avec 8x H100, NVIDIA est son seul fournisseur ;
• GH200 = 1x GPU H100 plus 1x processeur Grace ;
• DGX GH200 = 256x GH200, à venir fin 2023, probablement uniquement de NVIDIA ;
• MGX pour les grandes entreprises de cloud computing.
Parmi ceux-ci, la plupart des entreprises ont choisi d'acheter le 8-GPU HGX H100 au lieu des serveurs DGX H100 ou 4-GPU HGX H100.
**Combien coûtent ces GPU séparément ? **
1x DGX H100 (SXM) avec 8x GPU H100 coûte 460 000 $, y compris les services de support requis, etc., environ 100 000 $. Les startups peuvent obtenir une remise Inception d'environ 50 000 $ pour un maximum de 8 boîtiers DGX H100, pour un total de 64 H100.
Les spécifications spécifiques du GPU sont les suivantes :
1x HGX H100 (SXM) avec 8x GPU H100 coûte entre 300 000 et 380 000 $ selon les spécifications (réseau, stockage, mémoire, CPU) et les marges du fournisseur et les niveaux de support. Si les spécifications sont exactement les mêmes que celles du DGX H100, les entreprises peuvent payer un prix plus élevé de 360 000 $ à 380 000 $, support compris.
1x HGX H100 (PCIe) avec 8x GPU H100 coûte environ 300 000 $, support compris, selon les spécifications.
Le prix du marché pour une carte PCIe est d'environ 30 000 $ à 32 000 $.
Les cartes graphiques SXM ne sont pas vendues en tant que cartes individuelles, la tarification est donc difficile. Généralement vendu uniquement en tant que serveurs 4GPU et 8GPU.
Environ 70 à 80 % de la demande sur le marché concerne le SXM H100, et le reste concerne le PCIe H100. La demande pour le segment SXM est en hausse, car seules les cartes PCIe étaient disponibles les mois précédents. Étant donné que la plupart des entreprises achètent des 8GPU HGX H100 (SXM), cela représente environ 360 000 $ à 380 000 $ pour 8 H100, y compris les autres composants de serveur.
Le DGX GH200 contient 256x GH200, et chaque GH200 contient 1x GPU H100 et 1x Grace CPU. Selon les estimations, le coût du DGX GH200 pourrait se situer entre 15 et 25 millions de dollars américains.
**Quelle est la demande du marché pour les GPU ? **
• La formation GPT-4 peut être effectuée sur 10 000 à 25 000 feuilles A100 ;
• Meta a environ 21 000 A100, Tesla a environ 7 000 A100 et Stability AI a environ 5 000 A100 ;
• La formation Falcon 40B a été réalisée sur 384 A100 ;
• Inflection utilise 3500 feuilles H100 dans son modèle équivalent GPT-3.5.
Nous aurons 22 000 GPU en service d'ici décembre, et bien plus de 3 500 unités en service aujourd'hui.
— Mustafa Suleyman, PDG, Inflection AI
** Selon Elon Musk, la formation GPT-5 peut utiliser 30 000 à 50 000 H100. ** Morgan Stanley a proposé en février 2023 que GPT-5 utiliserait 25 000 GPU, et ils ont également proposé à l'époque que GPT-5 était déjà en formation, mais Sam Altman a ensuite nié cela en mai de cette année, affirmant qu'OpenAI ne s'était pas entraîné. GPT-5, donc les informations de Morgan Stanley peuvent ne pas être exactes.
GCP a environ 25 000 H100 et Azure peut avoir 10 000 à 40 000 H100. Cela devrait être similaire pour Oracle. De plus, la majeure partie de la capacité d'Azure sera provisionnée sur OpenAI.
CoreWeave gère environ 35 000 à 40 000 H100, mais cela est basé sur les commandes et non sur les chiffres réels.
**Combien de H100 Startup a-t-il commandé ? ** Si utilisé pour la tâche de mise au point LLM, des dizaines ou des centaines de feuilles sont généralement commandées ; s'il est utilisé pour la formation LLM, des milliers de feuilles sont nécessaires.
**De combien de H100 une entreprise du secteur LLM pourrait-elle avoir besoin ? **
• OpenAI peut avoir besoin de 50 000, Inflection peut avoir besoin de 24 000 et Meta peut avoir besoin de 25 000 (il y a aussi des dictons qui disent que Meta a besoin de 100 000 ou plus) ;
• Les grands fournisseurs de services cloud, tels qu'Azure, Google Cloud, AWS et Oracle peuvent chacun avoir besoin de 30 000 ;
• Les fournisseurs de services de cloud privé, tels que Lambda et CoreWeave, et d'autres clouds privés peuvent totaliser jusqu'à 100 000 ;
• Anthropic, Helsing, Mistral, Character peuvent coûter 10k chacun.
Les chiffres ci-dessus sont des estimations et des conjectures, et certains d'entre eux peuvent être comptés deux fois, comme les clients qui louent le cloud. **En général, selon les calculs actuels, le nombre de H100 est d'environ 432 000. Si le calcul est d'environ 35 000 USD chacun, il s'agit d'un GPU d'une valeur totale d'environ 15 milliards de dollars. De plus, le chiffre de 432 000 n'inclut pas les entreprises chinoises comme ByteDance (TikTok), Baidu et Tencent qui nécessitent beaucoup de H800. **
En outre, certaines sociétés financières déploient également des A100/H100 allant de centaines à des milliers : comme Jane Street, JP Morgan, Two Sigma et Citadel.
**Comment cela se compare-t-il aux revenus du centre de données NVIDIA ? ** Chiffre d'affaires du centre de données NVIDIA de 4,28 milliards de dollars pour février-avril 2023. Entre le 25 mai et juillet 2023, les revenus des centres de données pourraient être d'environ 8 milliards de dollars. ** Ceci est principalement basé sur l'hypothèse que les prévisions de revenus plus élevées de NVIDIA pour le trimestre sont principalement dues à des revenus plus élevés des centres de données plutôt qu'à des revenus plus élevés provenant d'autres secteurs d'activité. **
Par conséquent, il faudra peut-être un certain temps pour que la pénurie d'approvisionnement se résorbe. Mais il est possible que la pénurie de puissance de calcul ait été exagérée. Tout d'abord, la plupart des entreprises n'achètent pas tout le H100 dont elles ont besoin immédiatement, mais mettent à niveau progressivement ; de plus, NVIDIA augmente également activement la capacité de production.
Avoir 400 000 H100 sur le marché dans son ensemble n'est pas hors de portée, d'autant plus que tout le monde déploie des H100 à 4 ou 5 chiffres en grand nombre ces jours-ci.
—— Un dirigeant du cloud privé
Résumer
• La plupart des grands CSP (Azure, AWS, GCP et Oracle) et des clouds privés (CoreWeave, Lambda et divers autres) préfèrent plus de GPU H100 que de simplement pouvoir y accéder, la plupart des grandes offres d'IA La société recherche également plus de GPU H100 .
• Généralement, ces entreprises veulent un châssis 8GPU HGX H100 avec des cartes SXM. Selon les spécifications et le support, chaque serveur 8GPU coûte environ 3 à 4 millions de dollars. Il pourrait y avoir une demande excédentaire pour des centaines de milliers de GPU H100, d'une valeur totale de plus de 15 milliards de dollars ;
• Avec une offre limitée, NVIDIA aurait pu augmenter les prix pour trouver un prix d'équilibre du marché, et dans une certaine mesure, il l'a fait. Dans l'ensemble, la décision finale sur la manière d'allouer le GPU H100 dépend des clients auxquels NVIDIA lui-même préfère l'allouer.
03.H100 Analyse de l'offre
** Goulot d'étranglement de TSMC **
Les H100 sont produits par TSMC (TSMC), **Nvidia peut-il choisir d'autres usines de puces pour produire plus de H100 ? Au moins pas encore. **
NVIDIA a coopéré avec Samsung dans le passé, mais Samsung n'a pas été en mesure de répondre à leurs besoins en GPU de pointe, donc actuellement NVIDIA ne peut utiliser que des GPU H100 et d'autres GPU 5 nm produits par TSMC. **Peut-être qu'à l'avenir, NVIDIA coopérera avec Intel, ou continuera de coopérer avec Samsung sur des technologies connexes, mais aucune de ces situations ne se produira à court terme, de sorte que la pénurie d'approvisionnement en H100 ne sera pas atténuée. **
La technologie 5 nanomètres (N5) de TSMC entrera en production de masse en 2020. La technologie N5 est la deuxième technologie de processus EUV de TSMC, offrant une vitesse plus rapide et une consommation d'énergie inférieure à la technologie N7 précédente. En outre, TSMC prévoit également de lancer la technologie 4 nanomètres (N4), qui est une version améliorée de la technologie N5 qui améliorera encore les performances et la consommation d'énergie, et prévoit de démarrer la production de masse en 2022.
Le H100 est produit sur la base du processus TSMC 4N, qui appartient au 5 nm amélioré de la série 5 nm, et non au véritable processus 4 nm. ** En plus de NVIDIA, Apple utilise également cette technologie, mais ils sont principalement passés à N3 et ont conservé la majeure partie de la capacité N3. ** De plus, Qualcomm et AMD sont de gros clients de la série N5.
L'A100 utilise le processus N7 de TSMC.
7 nanomètres (N7) est le nœud de processus que TSMC mettra en production de masse en 2019. Sur la base de N7, TSMC a également introduit le procédé N7+, qui est un procédé de fabrication de 7 nm utilisant l'EUV (lithographie ultraviolette extrême), qui augmente la densité des transistors de 15 % à 20 % tout en réduisant la consommation d'énergie de la puce.
Généralement, la capacité du processus frontal (Fab Capacity) sera planifiée plus de 12 mois à l'avance. Il est souligné que TSMC et ses principaux clients planifieront conjointement la demande de production pour l'année prochaine, de sorte que la pénurie actuelle d'approvisionnement en H100 est en partie due à l'erreur d'appréciation de TSMC et de NVIDIA sur la demande de H100 de cette année l'année précédente.
Capacité Fab :
Dans le flux de processus des puces à semi-conducteurs, Fab est l'abréviation de FABRICATION (traitement, fabrication), et Fab Capacity peut être considérée comme une capacité de capacité.
Selon une autre source, il faut généralement 6 mois pour que le H100 soit vendu aux clients (production, emballage et test) à partir du début de la production, mais cette situation reste à confirmer.
Un professionnel à la retraite de l'industrie des semi-conducteurs a souligné que la capacité de production de plaquettes n'est pas le goulot d'étranglement de TSMC, mais que le véritable goulot d'étranglement réside dans le CoWoS (empilement tridimensionnel) susmentionné.
CoWoS (Chip on wafer on Substrate, empilement tridimensionnel):
Il s'agit d'une technologie de production intégrée 2.5D de TSMC.Tout d'abord, la puce est connectée à la plaquette de silicium via le processus d'emballage CoW (Chip on Wafer), puis la puce CoW est connectée au substrat (Substrate) et intégrée dans CoWoS .
Selon DigiTimes, TSMC a commencé à étendre sa capacité de production de CoWoS et prévoit d'augmenter la capacité de production de CoWoS de 8 000 wafers par mois à 11 000 wafers par mois d'ici la fin de 2023, et à environ 14 500 à 16 600 wafers par mois d'ici la fin de 2024. Les grands géants de la technologie tels que NVIDIA, Amazon, Broadcom, Cisco et Xilinx ont tous augmenté la demande pour les packages CoWoS avancés de TSMC.
Mémoire H100
** Le type de mémoire (mémoire bype), la largeur du bus mémoire (largeur du bus mémoire) et la vitesse d'horloge mémoire (vitesse d'horloge mémoire) affectent conjointement la bande passante mémoire du GPU. **NVIDIA a conçu la largeur de bus et la vitesse d'horloge du H100 dans le cadre de l'architecture GPU. La mémoire HBM3 est principalement utilisée sur H100 SXM et HBM2e est principalement utilisée sur H100 PCIe.
Le HBM est difficile à produire et l'offre est très limitée, donc produire du HBM est un cauchemar. Mais une fois le HBM produit, le reste de la conception devient facile.
——Un chercheur en Deepl Learning
**Le type de mémoire, la largeur du bus mémoire et la vitesse d'horloge de la mémoire sont trois indicateurs importants de la mémoire de l'ordinateur. **
Largeur du bus mémoire :
Il fait référence à la largeur du canal de transmission de données entre le module mémoire et la carte mère. Une largeur de bus mémoire plus large peut fournir un chemin de données plus grand, augmentant ainsi la vitesse de transmission des données entre la mémoire et le processeur.
Vitesse d'horloge de la mémoire :
Fait référence à la fréquence d'horloge de travail du module de mémoire. Une vitesse d'horloge de mémoire plus élevée signifie que la mémoire peut effectuer des opérations de lecture et d'écriture plus rapidement et fournir une vitesse de transmission de données plus élevée.
HBM(Mémoire à bande passante élevée):
Est une technologie de mémoire à large bande passante utilisée pour fournir des vitesses d'accès à la mémoire rapides dans les unités de traitement graphique (GPU) et d'autres appareils informatiques hautes performances. La technologie de mémoire utilisée dans les cartes graphiques et les appareils informatiques traditionnels est généralement basée sur la conception GDDR (Graphics Double Data Rate), qui présente un certain équilibre entre performances et consommation d'énergie. La technologie HBM permet d'obtenir une bande passante plus élevée et une consommation d'énergie réduite en plaçant des piles de mémoire sur des puces GPU et en empilant plusieurs puces DRAM ensemble via des connexions verticales à haut débit (TSV).
Pour la mémoire HBM3, NVIDIA peut utiliser tout ou principalement SK Hynix. Il n'est pas sûr que le H100 de NVIDIA utilise la mémoire de Samsung, mais il est certain que NVIDIA n'utilise pas actuellement la mémoire de Micron.
En ce qui concerne HBM3, d'une manière générale, SK Hynix a la plus grande production, suivie de Samsung, et le troisième Micron a un grand écart de production avec les deux premiers. Il semble que SK Hynix ait accéléré la production, mais NVIDIA veut toujours qu'ils produisent plus, tandis que Samsung et Micron n'ont pas encore réussi à augmenter la production.
** Quoi d'autre est utilisé dans la fabrication des GPU ? **
De plus, la production de GPU impliquera également beaucoup de matériaux et de pièces métalliques.La pénurie de matières premières dans ces maillons entraînera également le goulot d'étranglement de l'approvisionnement en GPU, tels que :
**• Métaux et produits chimiques : **Comprend le silicium (métalloïdes) tels que le cuivre, le tantale, l'or, l'aluminium, le nickel, l'étain, l'indium et le palladium, qui sont utilisés à différentes étapes de la production, de la fabrication du silicium rond à l'assemblage final du GPU , comme le silicium, les terres rares, etc. ;
**• Composants et matériaux d'emballage : **tels que les substrats, les billes et les fils de soudure, les composés de dissipation thermique, etc., qui sont utilisés pour compléter l'assemblage et la liaison des divers composants du GPU, et qui sont essentiels au fonctionnement du GPU ;
• Consommation d'énergie : En raison de l'utilisation d'équipements mécaniques de haute précision lors du processus de fabrication des puces GPU, une grande quantité d'électricité est nécessaire.
**Comment NVIDIA fait-il face à la pénurie de H100 ? **
NVIDIA a révélé qu'ils augmenteront l'offre au cours du second semestre de cette année.Le directeur financier de NVIDIA a déclaré lors du rapport financier que la société faisait de son mieux pour résoudre le problème d'approvisionnement, mais à part cela, ils n'ont pas transmis plus d'informations, ni n'ont ils ont des chiffres spécifiques liés à H100. .
"Nous travaillons sur nos problèmes d'approvisionnement pour le trimestre, mais nous avons également acheté beaucoup d'actions pour le second semestre."
"Nous pensons que l'offre au second semestre sera nettement plus élevée qu'au premier semestre."
Un dirigeant d'une société de cloud privé estime qu'** un cercle vicieux pourrait ensuite émerger sur le marché, c'est-à-dire que la rareté fait que la capacité du GPU est considérée comme un fossé pour les entreprises d'IA, ce qui conduit à davantage de thésaurisation du GPU, ce qui à son tour exacerbe encore la rareté de GPU. **
Selon l'intervalle historique entre le lancement par NVIDIA de différentes architectures, le modèle de nouvelle génération du H100 pourrait ne pas sortir avant la fin de 2024 (mi-2024 à début 2025). Avant cela, le H100 sera toujours le produit haut de gamme du GPU NVIDIA (GH200 et DGX GH200 ne sont pas comptés, ils ne sont pas du pur GPU, et tous deux utilisent le H100 comme GPU).
De plus, on s'attend à ce qu'il y ait une version de 120 Go avec une plus grande mémoire à l'avenir.
04. Comment obtenir H100
Vendeur de H100
Les fabricants d'équipement d'origine (OEM) tels que Dell, HPE, Lenovo, Supermicro et Quanta vendent les H100 et HGX H100, tandis que la commande d'InfiniBand doit être effectuée via NVIDIA Mellanox.
Mellanox est l'un des principaux fournisseurs mondiaux d'InfiniBand. En 2015, la part de Mellanox sur le marché mondial des IB a atteint 80 %. En 2019, NVIDIA a acquis Mellanox pour 125 dollars par action, pour une valeur de transaction totale d'environ 6,9 milliards de dollars. Cette acquisition permet à NVIDIA d'étendre encore sa part de marché dans le calcul haute performance et les centres de données, et renforce la compétitivité de NVIDIA dans le domaine de l'IA.
En combinant la technologie d'interconnexion haut débit de Mellanox avec les accélérateurs GPU de NVIDIA, NVIDIA peut fournir aux centres de données des solutions à bande passante plus élevée et à faible latence. En plus de Mellanox, la technologie IB de QLogic, un autre fournisseur dans le domaine IB, a été acquise par Intel Corporation en 2012.
Les clouds GPU comme CoreWeave et Lambda achètent des GPU auprès d'OEM et les louent à des startups. Les acteurs du cloud hyperscale (Azure, GCP, AWS, Oracle) peuvent acheter plus directement auprès de NVIDIA, mais ils travaillent aussi parfois avec des OEM.
Pour DGX, l'achat se fait également via OEM. Bien que les clients puissent communiquer avec NVIDIA sur les exigences d'achat, l'achat se fait via OEM au lieu de passer directement un bon de commande auprès de NVIDIA.
Les délais de livraison pour les serveurs 8 GPU HGX sont terribles et les 4 serveurs GPU HGX sont plutôt bons, mais la réalité est que tout le monde veut 8 serveurs GPU.
**• Combien de temps faut-il entre la passation d'une commande et le déploiement du H100 ? **
Le déploiement est un processus par étapes. Disons une commande de 5 000 GPU, ils pourraient avoir accès à 2 000 ou 4 000 GPU en 4 à 5 mois, puis aux GPU restants en 6 mois environ.
Pour les Startup, si vous souhaitez acheter un GPU, vous ne passez pas de commande auprès d'un OEM ou d'un revendeur. Ils choisissent généralement des services de cloud public tels qu'Oracle, ou louent des droits d'accès à des clouds privés tels que Lambda et CoreWeave, ou utilisez des services tels que FluidStack et les équipementiers et fournisseurs qui travaillent avec des centres de données louent l'accès.
**• L'entreprise doit-elle construire son propre centre de données ou une colocation ? **
Pour l'établissement d'un centre de données, les facteurs qui doivent être pris en compte incluent le temps nécessaire pour établir le centre de données, s'il y a des talents et de l'expérience dans le matériel, et l'ampleur de l'investissement en capital.
Louer et héberger un serveur est beaucoup plus facile. Si vous souhaitez construire votre propre centre de données, vous devez installer une ligne de fibre noire jusqu'à votre emplacement pour vous connecter à Internet, et le coût de la fibre est de 10 000 $ par kilomètre. Pendant le boom d'Internet, la plupart des infrastructures étaient déjà construites et payées. Maintenant, vous pouvez simplement louer, et c'est assez bon marché.
—— Un dirigeant du cloud privé
Choisir de louer ou de construire un centre de données est une décision alternative, selon les besoins réels, les entreprises peuvent avoir les différentes options suivantes :
Cloud à la demande : utilisez uniquement les services cloud pour la location ;
Nuage réservé ;
Hébergement (achat d'un serveur, coopération avec un fournisseur pour héberger et gérer le serveur) ;
Auto-hébergement (achat et hébergement d'un serveur vous-même).
La plupart des startups qui ont besoin de beaucoup de H100 opteront pour le cloud réservé ou la colocation.
**Comment les entreprises choisissent-elles une société de services cloud ? **
Certains pensent que l'infrastructure d'Oracle n'est pas aussi fiable que les trois principaux clouds, mais il est prêt à consacrer plus de temps au support technique des clients. Certains praticiens de sociétés de cloud privé ont déclaré que 100% d'entre eux auront un grand nombre de clients insatisfaits des services basés sur Oracle, et certains PDG d'autres sociétés pensent que les capacités de mise en réseau d'Oracle sont plus fortes.
**Généralement, Startup sélectionnera l'entreprise avec la meilleure combinaison de support de service, de prix et de capacité. **
Les principales différences entre plusieurs grandes sociétés de services cloud sont :
**• Mise en réseau : ** AWS et Google Cloud ont été plus lents à adopter InfiniBand car ils ont leurs propres approches, mais la plupart des startups à la recherche de grands clusters A100/H100 recherchent InfiniBand ;
**• Disponibilité : **Par exemple, la majeure partie de la puissance de calcul H100 d'Azure est utilisée par OpenAI, ce qui signifie qu'il n'y a peut-être pas beaucoup de puissance de calcul disponible pour les autres clients.
** Bien qu'il n'y ait aucune base factuelle, il y a des spéculations selon lesquelles NVIDIA est plus enclin à donner la priorité à la fourniture de GPU pour les fournisseurs de services cloud qui n'ont pas développé de puces d'apprentissage automatique concurrentes. **Les trois principaux fournisseurs de services cloud développent actuellement leurs propres puces d'apprentissage automatique, mais AWS et les alternatives NVIDIA de Google sont déjà sur le marché et volent une partie de la part de marché de NVIDIA. Cela a également conduit à des spéculations sur le marché selon lesquelles NVIDIA est plus disposé à coopérer avec Oracel à cause de cela.
Certaines des grandes entreprises du cloud ont de meilleurs prix que d'autres. Comme l'a noté un responsable du cloud privé : "Par exemple, A100 sur AWS/AZURE est beaucoup plus cher que GCP".
Oracle m'a dit qu'ils auraient "des dizaines de milliers de H100" en service plus tard cette année. Mais en termes de prix, ils sont plus élevés que les autres entreprises. Ils ne m'ont pas donné de prix pour le H100, mais pour l'A100 80 Go, ils m'ont cité près de 4 $/heure, soit presque 2 fois plus que ce que GCP citait, et pour la même consommation d'énergie et les mêmes efforts.
Les petits clouds ont un avantage en termes de prix, sauf dans certains cas où l'une des grandes sociétés de cloud peut conclure une transaction étrange en échange de capitaux propres.
Donc, dans l'ensemble, en termes de coopération étroite avec NVIDIA, Oracle et Azure > GCP et AWS, mais ce n'est qu'une supposition.
Oracle a été le pionnier des A100 et a hébergé des clusters basés sur Nvidia en partenariat avec Nvidia, qui est également un client Azure.
**• Quelle grande entreprise de cloud offre les meilleures performances réseau ? **
Azure, CoreWeave et Lambda utilisent tous InfiniBand. Les performances réseau d'Oracle sont bonnes à 3200 Gbps, mais utilisent Ethernet au lieu d'InfiniBand, et peuvent être environ 15 à 20% plus lentes qu'IB pour des cas d'utilisation tels que la formation LLM à paramètres élevés. Les réseaux d'AWS et de GCP ne sont pas aussi bons.
**• Comment les entreprises choisissent-elles actuellement les services cloud ? **
Des données statistiques pour 15 entreprises montrent que les 15 entreprises interrogées choisiront AWS, GCP ou Azure, et Oracle n'en fait pas partie.
La plupart des entreprises ont tendance à utiliser leur cloud existant. Mais pour les équipes entrepreneuriales, leurs choix sont davantage basés sur la réalité : celui qui peut fournir la puissance de calcul choisira celui qui le fera.
**• Avec qui NVIDIA travaille-t-il sur DGX Cloud ? **
"Nvidia s'associe aux principaux fournisseurs de services cloud pour héberger DGX Cloud Infrastructure, en commençant par Oracle Cloud Infrastructure" - vendre avec Nvidia, mais louer via des fournisseurs de cloud existants (d'abord avec Oracle, puis Azure, suivi de Google Cloud, qui ne fonctionnait pas avec AWS).
Le PDG de NVIDIA, Jensen Huang, a déclaré lors de l'appel aux résultats de NVIDIA que "le mélange idéal est de 10 % de cloud NVIDIA DGX et de 90 % de cloud CSP".
• Le calendrier H100 des géants du cloud :
CoreWeave a été l'un des premiers. En tant qu'investisseur de CoreWeave, et afin de renforcer la concurrence entre les grandes entreprises du cloud, NVIDIA a été le premier à finaliser la livraison pour CoreWeave.
Le calendrier H100 des autres sociétés de services cloud est le suivant :
• Azure a annoncé la disponibilité de H100 en préversion le 13 mars ;
• Oracle a annoncé une offre limitée de H100 le 21 mars ;
• Lambda Labs a annoncé le 21 mars qu'il lancera le H100 début avril ;
• AWS a annoncé le 21 mars que le H100 sera en avant-première dans quelques semaines ;
• Google Cloud a annoncé le lancement de la préversion privée du H100 le 10 mai.
**• Quels services cloud les différentes entreprises utilisent-elles ? **
• OpenAI : Azure
• Inflexion : Azure et CoreWeave
• Anthropique : AWS 和 Google Cloud
• Cohere :AWS et Google Cloud
• Visage étreignant : AWS
• IA de stabilité : CoreWeave et AWS
• Caractère.ai : Google Cloud
• X.ai : Oracle
• NVIDIA : Azur
**Comment obtenir plus de quota GPU ? **
Le dernier goulot d'étranglement est de savoir si la distribution de la puissance de calcul peut être obtenue auprès de NVIDIA.
**• Comment NVIDIA sélectionne-t-il ses clients ? **
NVIDIA alloue généralement un certain nombre de GPU à chaque client, et dans ce processus **NVIDIA est le plus préoccupé par "qui est le client final", par exemple, Azure a déclaré "nous voulons acheter 10 000 H100 pour prendre en charge Inflection" , et le le résultat correspondant à Azure disant "Nous avons acheté 10 000 H100 pour Azure" est différent. ** Si NVIDIA est intéressé par un client final particulier, il est possible pour la société de cloud d'obtenir un quota de GPU supplémentaire. Par conséquent, NVIDIA espère savoir autant que possible qui sont les clients finaux, et ils seront plus enclins aux grandes entreprises ou aux startups avec de fortes recommandations.
Oui, cela semble être le cas. Nvidia aime donner un accès GPU aux startups d'IA (dont beaucoup ont des liens étroits avec Nvidia). Inflection, une société d'intelligence artificielle investie par Nvidia, teste un énorme cluster H100 sur CoreWeave.
—— Un dirigeant du cloud privé
Si une certaine société de cloud apporte un client final à NVIDIA et exprime qu'elle est prête à acheter une certaine quantité de H100, et que NVIDIA est intéressé par ce client final, NVIDIA accordera généralement un certain quota, ce qui augmentera en fait le montant que NVIDIA alloue au client final La capacité totale de l'entreprise cloud, car cette allocation est indépendante du quota attribué à l'origine à l'entreprise cloud par NVIDIA.
L'allocation par NVIDIA d'une grande capacité aux clouds privés est un cas particulier : **CoreWeave a plus de H100 que GCP. NVIDIA hésite à allouer des ressources importantes aux entreprises qui tentent de lui faire directement concurrence (AWS Inferentia et Tranium, Google TPU, Azure Project Athena). **
Mais en fin de compte, si vous soumettez un bon de commande et de l'argent à NVIDIA, que vous vous engagez dans un accord plus important avec un financement initial plus important et que vous indiquez votre profil à faible risque, vous obtiendrez forcément plus de quota de GPU que n'importe qui d'autre.
05. Résumé
Même si, comme l'a dit Sam Altman, "l'ère de l'utilisation de grands modèles touche à sa fin", pour l'instant nous sommes toujours limités par le GPU. D'une part, des entreprises comme OpenAI disposent déjà d'excellents produits PMF comme ChatGPT, mais étant limités par les GPU, ils doivent acheter une grande puissance de calcul. D'autre part, de nombreuses équipes travaillent sur la possibilité de participer. dans LLM à l'avenir Thésauriser les GPU quel que soit leur potentiel à créer quelque chose comme ChatGPT.
Mais nul doute que le droit de parole de NVIDIA ne sera pas ébranlé.
À ce stade, le meilleur produit LLM proposé par PMF est ChatGPT. Ce qui suit utilise ChatGPT comme exemple pour expliquer pourquoi il y a une pénurie de GPU :
Parce que ChatGPT est si populaire auprès des utilisateurs, son ARR (revenu récurrent annuel) peut dépasser 500 millions de dollars américains ;
ChatGPT fonctionne sur l'API de GPT-4 et GPT-3.5 ;
Les API de GPT-4 et GPT-3.5 nécessitent un GPU pour fonctionner, et un grand nombre de GPU sont nécessaires. OpenAI espère libérer plus de fonctions pour ChatGPT et son API, mais cela ne peut pas être réalisé en raison du nombre limité de GPU ;
OpenAI a acheté un grand nombre de GPU NVIDIA via Microsoft (Azure) ;
Pour fabriquer le GPU H100 SXM, NVIDIA utilise TSMC pour la fabrication et utilise la technologie de conditionnement CoWoS de TSMC et HBM3 principalement de SK Hynix.
En plus d'OpenAI, il existe encore de nombreuses entreprises sur le marché qui forment leurs propres grands modèles. Mettons de côté le nombre de bulles existantes dans LLM et la probabilité que les produits PMF apparaissent à la fin, mais en général, la concurrence LLM a fait grimper la demande du marché pour les GPU. De plus, certaines entreprises, même si elles n'ont pas besoin de GPU pour le moment, commenceront à les stocker à l'avance car elles s'inquiètent pour l'avenir. C'est donc un peu comme "l'attente d'un déficit d'approvisionnement exacerbe le déficit d'approvisionnement"**.
Ainsi, une autre force qui stimule la demande de GPU sont les entreprises qui souhaitent créer de nouveaux LLM ou participer à l'IA à l'avenir :
L'importance des grands modèles est devenue un consensus : si c'est une entreprise mature, elle espère former le LLM sur ses propres données et espère que cela apportera plus de valeur commerciale ; en tant que start-up, elle espère construire son posséder LLM et le transformer en valeur commerciale. Le GPU est juste nécessaire pour former de grands modèles ;
Communication entre ces entreprises et les grands fournisseurs de cloud (Azure, Google Cloud, AWS), essayant d'obtenir suffisamment de H100 ;
Au cours du processus, ils ont constaté que les fournisseurs de cloud n'avaient pas assez de H100 à allouer, et certains fournisseurs de cloud avaient également des configurations réseau défectueuses, donc CoreWeave, Oracle, Lambda et FluidStack sont également devenus acheter des GPU et les posséder, peut-être qu'ils discutent également avec OEM et NVIDIA ;
Au final, ils ont eu beaucoup de GPU ;
Maintenant, ils essaient de faire correspondre leur produit au marché ;
Au cas où ce ne serait pas déjà clair, le chemin n'est pas facile - rappelez-vous qu'OpenAI a réussi à s'adapter au marché des produits sur un modèle plus petit, puis l'a mis à l'échelle. Mais maintenant, pour atteindre l'adéquation produit-marché, vous devez mieux adapter le cas d'utilisation de votre utilisateur que le modèle d'OpenAI, vous avez donc besoin de plus de GPU qu'OpenAI pour commencer.
** Au moins jusqu'à la fin de 2023, il y aura des pénuries pour les entreprises déployant des centaines ou des milliers de H100, peut-être que d'ici la fin de 2023, la situation deviendra plus claire, mais il semble que la pénurie de GPU pourrait se poursuivre jusqu'en 2024. **
Référence
Commentaire d'un fondateur de startup personnalisé LLMs-for-enterprises
Message d'un fournisseur de cloud
Conversations avec des entreprises de cloud computing et des fournisseurs de GPU
Tesla Q1 2023 (couvre le 1er janvier 2023 au 31 mars 2023) appel sur les résultats
Un commentaire d'une entreprise cloud
Un stade approximatif d'une entreprise cloud
︎