Les récents développements de l'industrie de l'intelligence artificielle sont considérés par certains comme la quatrième révolution industrielle. L'émergence de grands modèles de langage a considérablement amélioré l'efficacité dans divers secteurs, estimée à environ 20 % d'augmentation de la productivité aux États-Unis. En même temps, la capacité de généralisation des grands modèles est considérée comme un nouveau paradigme de conception logicielle, par rapport à la conception de code précise du passé, le logiciel d'aujourd'hui intègre davantage des cadres de modèles généralisés, permettant ainsi de supporter une plus large gamme d'entrées et de sorties de modalités. La technologie d'apprentissage profond a effectivement apporté une nouvelle prospérité à l'industrie de l'IA, cette vague a également eu un impact sur l'industrie des cryptomonnaies.
Dans ce rapport, nous allons examiner en détail l'évolution de l'industrie de l'IA, les classifications technologiques, ainsi que l'impact des technologies d'apprentissage profond sur l'industrie. Ensuite, nous analyserons en profondeur l'état actuel et les tendances du développement des chaînes d'approvisionnement en amont et en aval, notamment les GPU, le cloud computing, les sources de données et les dispositifs périphériques dans l'apprentissage profond. Enfin, nous explorerons essentiellement la relation entre les industries Crypto et IA, en clarifiant la structure de la chaîne d'approvisionnement liée à l'IA dans le domaine de la Crypto.
Histoire du développement de l'industrie de l'IA
L'industrie de l'IA a débuté dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le monde académique et l'industrie ont développé, à travers différentes époques et différents contextes disciplinaires, plusieurs courants pour réaliser l'intelligence artificielle.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique", dont l'idée est de permettre aux machines d'itérer plusieurs fois sur des tâches en se basant sur des données pour améliorer les performances du système. Les étapes principales consistent à introduire des données dans un algorithme, à entraîner un modèle avec ces données, à tester et déployer le modèle, puis à utiliser le modèle pour réaliser des tâches de prédiction automatisée.
Actuellement, l'apprentissage automatique a trois grandes écoles principales : le connexionnisme, le symbolisme et le comportementalisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.
Actuellement, le connexionnisme, représenté par les réseaux neuronaux, est en tête ( également connu sous le nom d'apprentissage profond ), la principale raison étant que cette architecture possède une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et le nombre de neurones ( ainsi que les paramètres ) sont suffisamment élevés, il y a suffisamment d'opportunités pour ajuster des tâches complexes et générales. Grâce à l'entrée des données, il est possible d'ajuster continuellement les paramètres des neurones, et après plusieurs itérations de données, ce neurone atteindra un état optimal ( paramètres ), c'est également l'origine du terme "profondeur" - un nombre suffisant de couches et de neurones.
Prenons un exemple, cela peut être simplement compris comme la construction d'une fonction, où lorsque nous entrons X=2, Y=3; et lorsque X=3, Y=5. Si nous voulons que cette fonction s'applique à tous les X, nous devons continuer à ajouter le degré de cette fonction et ses paramètres. Par exemple, une fonction qui satisfait cette condition pourrait être Y = 2X - 1. Mais si nous avons des données où X=2, Y=11, nous devons reconstruire une fonction qui convienne à ces trois points de données. En utilisant un GPU pour un bruteforce, nous découvrons que Y = X^2 - 3X + 5 est assez approprié, mais il n'est pas nécessaire qu'il coïncide parfaitement avec les données; il doit simplement respecter un équilibre, et fournir une sortie globalement similaire. Dans ce cas, X^2, X et X0 représentent différents neurones, tandis que 1, -3 et 5 sont leurs paramètres.
À ce moment-là, si nous entrons une grande quantité de données dans le réseau de neurones, nous pouvons augmenter le nombre de neurones et itérer les paramètres pour ajuster les nouvelles données. Cela nous permettra d'ajuster toutes les données.
La technologie d'apprentissage en profondeur basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions technologiques, telles que les premiers réseaux de neurones, les réseaux de neurones à propagation avant, RNN, CNN, GAN, pour finalement évoluer vers des modèles modernes comme GPT utilisant la technologie Transformer. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur ( Transformer ), pour encoder toutes les modalités ( telles que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes pour les représenter. Ensuite, ces données sont introduites dans le réseau de neurones, permettant ainsi au réseau de neurones de s'adapter à tout type de données, ce qui réalise le multi-modal.
Le développement de l'IA a connu trois vagues technologiques. La première vague remonte aux années 60, une décennie après la proposition de la technologie de l'IA. Cette vague a été déclenchée par le développement des technologies symboliques, qui ont résolu des problèmes de traitement du langage naturel et d'interaction homme-machine. Pendant cette période, les systèmes experts ont vu le jour, notamment le système expert DENRAL, réalisé sous l'égide de la NASA par une université américaine. Ce système possède une connaissance chimique très approfondie, et il peut déduire des réponses similaires à celles d'un expert en chimie en se basant sur des questions. Ce système expert en chimie peut être considéré comme une combinaison d'une base de connaissances chimiques et d'un système d'inférence.
Après les systèmes experts, dans les années 1990, le scientifique et philosophe américain d'origine israélienne Judea Pearl a proposé les réseaux bayésiens, également appelés réseaux de croyance. À la même époque, Brooks a proposé la robotique basée sur le comportement, marquant la naissance du comportementalisme.
En 1997, un programme d'échecs d'une entreprise technologique a battu le champion du monde d'échecs Kasparov avec un score de 3,5 à 2,5, cette victoire étant considérée comme un jalon de l'intelligence artificielle, marquant le début d'un nouvel essor des technologies IA.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept d'apprentissage profond, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage de représentations des données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, passant des RNN, GAN aux Transformers et à la Stable Diffusion, ces deux algorithmes ayant conjointement façonné cette troisième vague technologique, qui est également l'apogée du connexionnisme.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage profond, y compris :
En 2011, un système d'intelligence artificielle a battu des humains et a remporté le championnat dans le jeu télévisé "Dangerous Edge".
En 2014, Goodfellow a proposé le réseau antagoniste génératif GAN(, qui apprend par le biais d'un jeu entre deux réseaux de neurones, capable de générer des photos indiscernables des vraies. En même temps, Goodfellow a également écrit un livre intitulé "Apprentissage profond", qui est devenu l'un des ouvrages d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé des algorithmes d'apprentissage profond, suscitant immédiatement un énorme écho dans le milieu académique et l'industrie.
En 2015, OpenAI a été créé et a obtenu un investissement commun de 1 milliard de dollars de plusieurs investisseurs renommés.
En 2016, AlphaGo, basé sur la technologie de l'apprentissage profond, a remporté la bataille de Go contre le champion du monde et joueur professionnel de Go de 9ème dan, Lee Sedol, avec un score total de 4 à 1.
En 2017, un robot humanoïde nommé Sophia, développé par une entreprise de technologie, a obtenu la citoyenneté, doté d'une riche gamme d'expressions faciales et de la capacité de comprendre le langage humain.
En 2017, Google a publié un article intitulé « Attention is all you need » proposant l'algorithme Transformer, marquant le début des modèles de langage à grande échelle.
En 2018, OpenAI a publié le GPT construit sur l'algorithme Transformer, qui était l'un des plus grands modèles de langage à l'époque.
En 2018, DeepMind a lancé AlphaFold basé sur l'apprentissage profond, capable de prévoir la structure des protéines, considéré comme un énorme progrès dans le domaine de l'intelligence artificielle.
En 2019, OpenAI a publié GPT-2, ce modèle possède 1,5 milliard de paramètres.
En 2020, OpenAI a développé GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné sur 570 Go de textes et peut atteindre des performances de pointe sur plusieurs tâches de NLP.
En 2021, OpenAI a publié GPT-4, un modèle doté de 1,76 billion de paramètres, soit 10 fois plus que GPT-3.
L'application ChatGPT basée sur le modèle GPT-4 a été lancée en janvier 2023, atteignant 100 millions d'utilisateurs en mars, devenant ainsi l'application qui a atteint le plus rapidement 100 millions d'utilisateurs dans l'histoire.
En 2024, OpenAI lancera GPT-4 omni.
![Nouvelle introduction丨IA x Crypto : De zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Chaîne de valeur de l'apprentissage profond
Les grands modèles de langage actuels utilisent tous des méthodes d'apprentissage profond basées sur des réseaux de neurones. Avec GPT en tête, ces grands modèles ont déclenché une vague d'engouement pour l'intelligence artificielle, attirant de nombreux acteurs dans ce domaine. Nous avons également constaté une explosion de la demande du marché pour les données et la puissance de calcul. Ainsi, dans cette partie du rapport, nous explorons principalement la chaîne de valeur des algorithmes d'apprentissage profond. Dans l'industrie de l'IA dominée par les algorithmes d'apprentissage profond, comment se composent les acteurs en amont et en aval, et quelle est la situation actuelle de ces acteurs ainsi que les relations d'offre et de demande, et leur développement futur.
Tout d'abord, nous devons clarifier que lors de l'entraînement de grands modèles LLMs, tels que GPT, basés sur la technologie Transformer, il y a en tout trois étapes.
Avant l'entraînement, comme il est basé sur le Transformer, le convertisseur doit transformer le texte d'entrée en valeurs numériques, ce processus est appelé "Tokenization". Ensuite, ces valeurs sont appelées Tokens. Selon une règle empirique générale, un mot ou un caractère en anglais peut être considéré comme un Token, tandis que chaque caractère chinois peut être grossièrement considéré comme deux Tokens. C'est également l'unité de base utilisée pour la tarification de GPT.
Première étape, pré-formation. En fournissant suffisamment de paires de données à la couche d'entrée, similaires à l'exemple donné dans la première partie du rapport )X,Y(, pour rechercher les meilleurs paramètres de chaque neurone sous ce modèle, un grand volume de données est nécessaire à ce stade, et ce processus est également le plus coûteux en termes de puissance de calcul, car il nécessite une itération répétée des neurones pour essayer divers paramètres. Une fois qu'un lot de paires de données a été formé, il est généralement utilisé pour une seconde formation afin d'itérer les paramètres.
Deuxième étape, le réglage fin. Le réglage fin consiste à fournir un petit lot de données de très haute qualité pour l'entraînement, ce changement permettra d'obtenir une sortie de modèle de meilleure qualité, car le pré-entraînement nécessite une grande quantité de données, mais de nombreuses données peuvent contenir des erreurs ou être de faible qualité. L'étape de réglage fin peut améliorer la qualité du modèle grâce à des données de qualité.
La troisième étape, l'apprentissage par renforcement. Tout d'abord, nous allons établir un tout nouveau modèle, que nous appelons "modèle de récompense", dont l'objectif est très simple : classer les résultats de sortie. Par conséquent, la mise en œuvre de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, nous utiliserons ce modèle pour déterminer si les sorties de notre grand modèle sont de haute qualité, ce qui nous permet d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ) Cependant, il est parfois nécessaire d'impliquer des jugements humains pour évaluer la qualité des sorties du modèle (.
En résumé, lors du processus d'entraînement des grands modèles, le pré-entraînement exige une quantité de données très élevée, et la puissance de calcul GPU nécessaire est également la plus importante. L'ajustement fin nécessite des données de meilleure qualité pour améliorer les paramètres, et l'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises grâce à un modèle de récompense pour produire des résultats de meilleure qualité.
Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple que nous prenons avec la fonction Y = aX + b, il y a en réalité deux neurones, X et X0. Ainsi, peu importe comment les paramètres varient, les données qu'ils peuvent ajuster sont extrêmement limitées, car leur nature reste une droite. Si le nombre de neurones augmente, alors il est possible d'itérer sur plus de paramètres, ce qui permet d'ajuster plus de données. C'est la raison pour laquelle les grands modèles produisent des miracles, et c'est aussi pourquoi on les appelle couramment de grands modèles. En essence, il s'agit d'un nombre colossal de neurones et de paramètres, ainsi que d'une quantité massive de données, nécessitant également une puissance de calcul énorme.
Ainsi, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois éléments influencent ensemble la qualité des résultats des grands modèles et leur capacité de généralisation. Supposons que le nombre de paramètres soit p, la quantité de données soit n) calculée en fonction du nombre de tokens(, alors nous pouvons estimer la puissance de calcul nécessaire en utilisant des règles empiriques générales, ce qui nous permet d'estimer la puissance de calcul que nous devons acheter et le temps d'entraînement.
La puissance de calcul est généralement mesurée en Flops, représentant une opération de flottement, où les opérations de flottement désignent l'addition, la soustraction, la multiplication et la division de valeurs non entières, comme 2.5 + 3.557. Le flottement indique la capacité à inclure des décimales, tandis que FP16 représente une précision qui supporte des décimales, et FP32 est une précision généralement plus courante. Selon des règles empiriques basées sur la pratique, le pré-entraînement )Pre-traning( nécessite généralement plusieurs entraînements ) pour un grand modèle, environ 6np Flops, où 6 est considéré comme une constante dans l'industrie. Quant à l'inférence (Inference, c'est le processus où nous entrons des données et attendons la sortie du grand modèle ), divisé en deux parties : l'entrée de n tokens et la sortie de n tokens, ce qui nécessite environ 2np Flops au total.
Au début, des puces CPU étaient utilisées pour l'entraînement et fournissaient un support de calcul, mais par la suite, on a commencé à utiliser progressivement des GPU en remplacement, comme les puces A100 et H100 de Nvidia. Parce que le CPU existe en tant que calcul général, mais le GPU peut être utilisé comme un calcul spécialisé.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
8 J'aime
Récompense
8
4
Reposter
Partager
Commentaire
0/400
TokenDustCollector
· 08-13 22:14
Une nouvelle vague de pigeons à prendre les gens pour des idiots arrive, n'est-ce pas ?
Voir l'originalRépondre0
ThesisInvestor
· 08-13 22:09
Ne vous enflammez pas avec l'IA, la chute dira tout.
Voir l'originalRépondre0
GasFeeBarbecue
· 08-13 22:08
hausse le prix n'est pas mieux que hausse le QI
Voir l'originalRépondre0
AirdropHunter007
· 08-13 22:01
Encore en train de faire le bull et de créer des concepts
IA et cryptoactifs : le nouveau paysage de la chaîne industrielle émergente sous l'innovation technologique
IA x Crypto : de zéro au sommet
Introduction
Les récents développements de l'industrie de l'intelligence artificielle sont considérés par certains comme la quatrième révolution industrielle. L'émergence de grands modèles de langage a considérablement amélioré l'efficacité dans divers secteurs, estimée à environ 20 % d'augmentation de la productivité aux États-Unis. En même temps, la capacité de généralisation des grands modèles est considérée comme un nouveau paradigme de conception logicielle, par rapport à la conception de code précise du passé, le logiciel d'aujourd'hui intègre davantage des cadres de modèles généralisés, permettant ainsi de supporter une plus large gamme d'entrées et de sorties de modalités. La technologie d'apprentissage profond a effectivement apporté une nouvelle prospérité à l'industrie de l'IA, cette vague a également eu un impact sur l'industrie des cryptomonnaies.
Dans ce rapport, nous allons examiner en détail l'évolution de l'industrie de l'IA, les classifications technologiques, ainsi que l'impact des technologies d'apprentissage profond sur l'industrie. Ensuite, nous analyserons en profondeur l'état actuel et les tendances du développement des chaînes d'approvisionnement en amont et en aval, notamment les GPU, le cloud computing, les sources de données et les dispositifs périphériques dans l'apprentissage profond. Enfin, nous explorerons essentiellement la relation entre les industries Crypto et IA, en clarifiant la structure de la chaîne d'approvisionnement liée à l'IA dans le domaine de la Crypto.
Histoire du développement de l'industrie de l'IA
L'industrie de l'IA a débuté dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le monde académique et l'industrie ont développé, à travers différentes époques et différents contextes disciplinaires, plusieurs courants pour réaliser l'intelligence artificielle.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique", dont l'idée est de permettre aux machines d'itérer plusieurs fois sur des tâches en se basant sur des données pour améliorer les performances du système. Les étapes principales consistent à introduire des données dans un algorithme, à entraîner un modèle avec ces données, à tester et déployer le modèle, puis à utiliser le modèle pour réaliser des tâches de prédiction automatisée.
Actuellement, l'apprentissage automatique a trois grandes écoles principales : le connexionnisme, le symbolisme et le comportementalisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.
Actuellement, le connexionnisme, représenté par les réseaux neuronaux, est en tête ( également connu sous le nom d'apprentissage profond ), la principale raison étant que cette architecture possède une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et le nombre de neurones ( ainsi que les paramètres ) sont suffisamment élevés, il y a suffisamment d'opportunités pour ajuster des tâches complexes et générales. Grâce à l'entrée des données, il est possible d'ajuster continuellement les paramètres des neurones, et après plusieurs itérations de données, ce neurone atteindra un état optimal ( paramètres ), c'est également l'origine du terme "profondeur" - un nombre suffisant de couches et de neurones.
Prenons un exemple, cela peut être simplement compris comme la construction d'une fonction, où lorsque nous entrons X=2, Y=3; et lorsque X=3, Y=5. Si nous voulons que cette fonction s'applique à tous les X, nous devons continuer à ajouter le degré de cette fonction et ses paramètres. Par exemple, une fonction qui satisfait cette condition pourrait être Y = 2X - 1. Mais si nous avons des données où X=2, Y=11, nous devons reconstruire une fonction qui convienne à ces trois points de données. En utilisant un GPU pour un bruteforce, nous découvrons que Y = X^2 - 3X + 5 est assez approprié, mais il n'est pas nécessaire qu'il coïncide parfaitement avec les données; il doit simplement respecter un équilibre, et fournir une sortie globalement similaire. Dans ce cas, X^2, X et X0 représentent différents neurones, tandis que 1, -3 et 5 sont leurs paramètres.
À ce moment-là, si nous entrons une grande quantité de données dans le réseau de neurones, nous pouvons augmenter le nombre de neurones et itérer les paramètres pour ajuster les nouvelles données. Cela nous permettra d'ajuster toutes les données.
La technologie d'apprentissage en profondeur basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions technologiques, telles que les premiers réseaux de neurones, les réseaux de neurones à propagation avant, RNN, CNN, GAN, pour finalement évoluer vers des modèles modernes comme GPT utilisant la technologie Transformer. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur ( Transformer ), pour encoder toutes les modalités ( telles que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes pour les représenter. Ensuite, ces données sont introduites dans le réseau de neurones, permettant ainsi au réseau de neurones de s'adapter à tout type de données, ce qui réalise le multi-modal.
Le développement de l'IA a connu trois vagues technologiques. La première vague remonte aux années 60, une décennie après la proposition de la technologie de l'IA. Cette vague a été déclenchée par le développement des technologies symboliques, qui ont résolu des problèmes de traitement du langage naturel et d'interaction homme-machine. Pendant cette période, les systèmes experts ont vu le jour, notamment le système expert DENRAL, réalisé sous l'égide de la NASA par une université américaine. Ce système possède une connaissance chimique très approfondie, et il peut déduire des réponses similaires à celles d'un expert en chimie en se basant sur des questions. Ce système expert en chimie peut être considéré comme une combinaison d'une base de connaissances chimiques et d'un système d'inférence.
Après les systèmes experts, dans les années 1990, le scientifique et philosophe américain d'origine israélienne Judea Pearl a proposé les réseaux bayésiens, également appelés réseaux de croyance. À la même époque, Brooks a proposé la robotique basée sur le comportement, marquant la naissance du comportementalisme.
En 1997, un programme d'échecs d'une entreprise technologique a battu le champion du monde d'échecs Kasparov avec un score de 3,5 à 2,5, cette victoire étant considérée comme un jalon de l'intelligence artificielle, marquant le début d'un nouvel essor des technologies IA.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept d'apprentissage profond, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage de représentations des données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, passant des RNN, GAN aux Transformers et à la Stable Diffusion, ces deux algorithmes ayant conjointement façonné cette troisième vague technologique, qui est également l'apogée du connexionnisme.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage profond, y compris :
En 2011, un système d'intelligence artificielle a battu des humains et a remporté le championnat dans le jeu télévisé "Dangerous Edge".
En 2014, Goodfellow a proposé le réseau antagoniste génératif GAN(, qui apprend par le biais d'un jeu entre deux réseaux de neurones, capable de générer des photos indiscernables des vraies. En même temps, Goodfellow a également écrit un livre intitulé "Apprentissage profond", qui est devenu l'un des ouvrages d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé des algorithmes d'apprentissage profond, suscitant immédiatement un énorme écho dans le milieu académique et l'industrie.
En 2015, OpenAI a été créé et a obtenu un investissement commun de 1 milliard de dollars de plusieurs investisseurs renommés.
En 2016, AlphaGo, basé sur la technologie de l'apprentissage profond, a remporté la bataille de Go contre le champion du monde et joueur professionnel de Go de 9ème dan, Lee Sedol, avec un score total de 4 à 1.
En 2017, un robot humanoïde nommé Sophia, développé par une entreprise de technologie, a obtenu la citoyenneté, doté d'une riche gamme d'expressions faciales et de la capacité de comprendre le langage humain.
En 2017, Google a publié un article intitulé « Attention is all you need » proposant l'algorithme Transformer, marquant le début des modèles de langage à grande échelle.
En 2018, OpenAI a publié le GPT construit sur l'algorithme Transformer, qui était l'un des plus grands modèles de langage à l'époque.
En 2018, DeepMind a lancé AlphaFold basé sur l'apprentissage profond, capable de prévoir la structure des protéines, considéré comme un énorme progrès dans le domaine de l'intelligence artificielle.
En 2019, OpenAI a publié GPT-2, ce modèle possède 1,5 milliard de paramètres.
En 2020, OpenAI a développé GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné sur 570 Go de textes et peut atteindre des performances de pointe sur plusieurs tâches de NLP.
En 2021, OpenAI a publié GPT-4, un modèle doté de 1,76 billion de paramètres, soit 10 fois plus que GPT-3.
L'application ChatGPT basée sur le modèle GPT-4 a été lancée en janvier 2023, atteignant 100 millions d'utilisateurs en mars, devenant ainsi l'application qui a atteint le plus rapidement 100 millions d'utilisateurs dans l'histoire.
En 2024, OpenAI lancera GPT-4 omni.
![Nouvelle introduction丨IA x Crypto : De zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Chaîne de valeur de l'apprentissage profond
Les grands modèles de langage actuels utilisent tous des méthodes d'apprentissage profond basées sur des réseaux de neurones. Avec GPT en tête, ces grands modèles ont déclenché une vague d'engouement pour l'intelligence artificielle, attirant de nombreux acteurs dans ce domaine. Nous avons également constaté une explosion de la demande du marché pour les données et la puissance de calcul. Ainsi, dans cette partie du rapport, nous explorons principalement la chaîne de valeur des algorithmes d'apprentissage profond. Dans l'industrie de l'IA dominée par les algorithmes d'apprentissage profond, comment se composent les acteurs en amont et en aval, et quelle est la situation actuelle de ces acteurs ainsi que les relations d'offre et de demande, et leur développement futur.
Tout d'abord, nous devons clarifier que lors de l'entraînement de grands modèles LLMs, tels que GPT, basés sur la technologie Transformer, il y a en tout trois étapes.
Avant l'entraînement, comme il est basé sur le Transformer, le convertisseur doit transformer le texte d'entrée en valeurs numériques, ce processus est appelé "Tokenization". Ensuite, ces valeurs sont appelées Tokens. Selon une règle empirique générale, un mot ou un caractère en anglais peut être considéré comme un Token, tandis que chaque caractère chinois peut être grossièrement considéré comme deux Tokens. C'est également l'unité de base utilisée pour la tarification de GPT.
Première étape, pré-formation. En fournissant suffisamment de paires de données à la couche d'entrée, similaires à l'exemple donné dans la première partie du rapport )X,Y(, pour rechercher les meilleurs paramètres de chaque neurone sous ce modèle, un grand volume de données est nécessaire à ce stade, et ce processus est également le plus coûteux en termes de puissance de calcul, car il nécessite une itération répétée des neurones pour essayer divers paramètres. Une fois qu'un lot de paires de données a été formé, il est généralement utilisé pour une seconde formation afin d'itérer les paramètres.
Deuxième étape, le réglage fin. Le réglage fin consiste à fournir un petit lot de données de très haute qualité pour l'entraînement, ce changement permettra d'obtenir une sortie de modèle de meilleure qualité, car le pré-entraînement nécessite une grande quantité de données, mais de nombreuses données peuvent contenir des erreurs ou être de faible qualité. L'étape de réglage fin peut améliorer la qualité du modèle grâce à des données de qualité.
La troisième étape, l'apprentissage par renforcement. Tout d'abord, nous allons établir un tout nouveau modèle, que nous appelons "modèle de récompense", dont l'objectif est très simple : classer les résultats de sortie. Par conséquent, la mise en œuvre de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, nous utiliserons ce modèle pour déterminer si les sorties de notre grand modèle sont de haute qualité, ce qui nous permet d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ) Cependant, il est parfois nécessaire d'impliquer des jugements humains pour évaluer la qualité des sorties du modèle (.
En résumé, lors du processus d'entraînement des grands modèles, le pré-entraînement exige une quantité de données très élevée, et la puissance de calcul GPU nécessaire est également la plus importante. L'ajustement fin nécessite des données de meilleure qualité pour améliorer les paramètres, et l'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises grâce à un modèle de récompense pour produire des résultats de meilleure qualité.
Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple que nous prenons avec la fonction Y = aX + b, il y a en réalité deux neurones, X et X0. Ainsi, peu importe comment les paramètres varient, les données qu'ils peuvent ajuster sont extrêmement limitées, car leur nature reste une droite. Si le nombre de neurones augmente, alors il est possible d'itérer sur plus de paramètres, ce qui permet d'ajuster plus de données. C'est la raison pour laquelle les grands modèles produisent des miracles, et c'est aussi pourquoi on les appelle couramment de grands modèles. En essence, il s'agit d'un nombre colossal de neurones et de paramètres, ainsi que d'une quantité massive de données, nécessitant également une puissance de calcul énorme.
Ainsi, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois éléments influencent ensemble la qualité des résultats des grands modèles et leur capacité de généralisation. Supposons que le nombre de paramètres soit p, la quantité de données soit n) calculée en fonction du nombre de tokens(, alors nous pouvons estimer la puissance de calcul nécessaire en utilisant des règles empiriques générales, ce qui nous permet d'estimer la puissance de calcul que nous devons acheter et le temps d'entraînement.
La puissance de calcul est généralement mesurée en Flops, représentant une opération de flottement, où les opérations de flottement désignent l'addition, la soustraction, la multiplication et la division de valeurs non entières, comme 2.5 + 3.557. Le flottement indique la capacité à inclure des décimales, tandis que FP16 représente une précision qui supporte des décimales, et FP32 est une précision généralement plus courante. Selon des règles empiriques basées sur la pratique, le pré-entraînement )Pre-traning( nécessite généralement plusieurs entraînements ) pour un grand modèle, environ 6np Flops, où 6 est considéré comme une constante dans l'industrie. Quant à l'inférence (Inference, c'est le processus où nous entrons des données et attendons la sortie du grand modèle ), divisé en deux parties : l'entrée de n tokens et la sortie de n tokens, ce qui nécessite environ 2np Flops au total.
Au début, des puces CPU étaient utilisées pour l'entraînement et fournissaient un support de calcul, mais par la suite, on a commencé à utiliser progressivement des GPU en remplacement, comme les puces A100 et H100 de Nvidia. Parce que le CPU existe en tant que calcul général, mais le GPU peut être utilisé comme un calcul spécialisé.