Deuxième acte de la vague de l'IA : un monde passant de la pénurie de GPU à la "pénurie de tokens"

Deuxième acte de la vague de l'IA : un monde passant de la pénurie de GPU à la "pénurie de tokens"

La demande en IA n'est pas encore terminée - Le jour où l'économie des tokens engloutira les entreprises, les semi-conducteurs et l'emploi

"Le boom de l'IA n'est-il pas sur le point d'atteindre son pic ?"
De 2024 à 2025, cette question a été posée à maintes reprises parmi les investisseurs, les médias et les dirigeants d'entreprises. L'IA générative est-elle une frénésie passagère ? Les investissements dans les GPU sont-ils excessifs ? Les entreprises continueront-elles vraiment à payer pour l'IA ?

Cependant, l'article publié par NextBigFuture le 25 avril 2026, intitulé "AI Demand is Still Booming", dépeint un monde assez différent de ces doutes. Ce qui est présenté, c'est une vision où la demande en IA ne ralentit pas, mais continue plutôt de dépasser largement l'offre. De plus, cette demande ne se limite pas à l'utilisation de chatbots ou à un simple engouement. Les entreprises utilisent l'IA dans leurs opérations réelles, pour écrire du code, mener des recherches, automatiser des analyses, et commencer à traiter des tâches qui prenaient auparavant beaucoup de temps et de personnel avec moins de ressources humaines.

Au cœur de cet article se trouve une déclaration de Dylan Patel de SemiAnalysis, connu pour ses analyses sur les semi-conducteurs et l'infrastructure IA. NextBigFuture rapporte que les dépenses en IA de SemiAnalysis ont augmenté rapidement, passant de quelques dizaines de milliers de dollars l'année précédente à un taux annuel de 7 millions de dollars. Ce qui est important, c'est que ces dépenses ne concernent pas uniquement les chercheurs et les ingénieurs. Même le personnel non technique utilise quotidiennement Claude et des IA de génération de code, transformant ainsi la manière dont le travail est effectué.

C'est un point de vue extrêmement important pour comprendre la demande en IA. La valeur de l'IA ne se mesure pas par le nombre de personnes qui l'ont essayée gratuitement. Elle se mesure par la mesure dans laquelle les entreprises l'intègrent dans leurs processus opérationnels, par la quantité de tokens consommés, et par la manière dont cette consommation se traduit en chiffre d'affaires, en réduction des coûts et en rapidité de prise de décision. En d'autres termes, les indicateurs centraux de l'économie de l'IA sont en train de passer du "nombre d'utilisateurs" à la "quantité de tokens consommés" et à la "valeur économique par token".

Une époque où l'exécution devient moins chère et où la valeur des idées est mise à l'épreuve

L'un des aspects les plus stimulants de l'article de NextBigFuture est l'affirmation que l'ancienne sagesse selon laquelle "les idées sont bon marché, mais l'exécution est difficile" est en train de s'effondrer.

Dans le passé, dans le monde des affaires, tout le monde pouvait avoir des idées, mais c'était la capacité à les mettre en œuvre, à les tester, à les vendre et à les améliorer continuellement qui faisait la différence. Pour créer un produit de qualité, il fallait des ingénieurs, des designers, des analystes de données, des chefs de projet et des représentants commerciaux, et cela demandait du temps et des ressources financières.

Cependant, à mesure que l'IA commence à écrire du code, à mener des recherches, à tester des hypothèses, à créer des documents et à analyser des données, le coût de l'exécution diminue rapidement. Bien sûr, le jugement humain et le contrôle de la qualité restent nécessaires, mais la distance jusqu'à "faire d'abord", "rechercher d'abord", "tester d'abord" est considérablement réduite.

Ce changement représente une grande opportunité pour les entrepreneurs et les entreprises. Même de petites équipes peuvent expérimenter au même niveau que les grandes entreprises. Les individus peuvent réaliser des analyses et des développements qui étaient auparavant effectués au niveau des départements. L'article de NextBigFuture présente des exemples de travaux tels que des tableaux de bord d'analyse de puces utilisant des GPU et des analyses de réseaux électriques américains et des benchmarks d'impact de l'IA, réalisés par de petites équipes en peu de temps.

Cependant, dans ce monde, l'importance de "ce que l'on crée" augmente encore plus. Plus l'exécution devient facile, plus les idées banales sont rapidement copiées et entraînées dans une concurrence par les prix. Parce que l'on peut tout créer avec l'IA, ceux qui peuvent poser des questions vraiment précieuses, les entreprises qui possèdent des données uniques ou des points de contact avec les clients, et les organisations qui prennent des décisions rapidement, ont un avantage.

Dans l'ère de l'IA, ce qui a de la valeur, ce n'est pas simplement la quantité de travail, mais la capacité à poser de bonnes questions, à avoir de bonnes données, à comprendre le marché et à transformer les sorties de l'IA en bénéfices réels.


L'écart entre les entreprises qui utilisent des tokens et celles qui ne le font pas

Un autre point fort de l'article est la possibilité que "se contenter d'utiliser modérément l'IA" ne soit pas suffisant.

Lorsqu'il s'agit d'adopter l'IA, de nombreuses entreprises pensent d'abord à réduire les coûts. Terminer un travail qui prenait 8 heures en 1 heure. Réduire le personnel. Réduire les coûts d'externalisation. Cela a effectivement un effet à court terme.

Cependant, l'article de NextBigFuture souligne que cela ne suffit pas pour gagner. Au lieu de travailler une heure avec l'IA et de s'arrêter, les entreprises qui utilisent les mêmes 8 heures pour produire 8 à 10 fois plus de résultats l'emporteront. En d'autres termes, la différence entre les entreprises s'élargira selon qu'elles utilisent l'IA comme un "outil pour se faciliter la vie" ou comme un "outil pour exploser la production".

Cette perspective est assez sévère. Les personnes qui n'utilisent pas l'IA, celles qui l'utilisent de manière limitée, et les entreprises qui économisent sur la consommation de tokens se retrouveront désavantagées à long terme. L'expression "permanent underclass" utilisée autour de Dylan Patel est provocante, mais le message est clair. Un nouvel écart se crée entre ceux qui exploitent pleinement l'IA pour créer de la valeur et ceux qui se retrouvent du côté des remplacés par l'IA.

Bien sûr, cette discussion nécessite également de la prudence. Ce n'est pas aussi simple que de dire que tout le monde devrait utiliser l'IA sans limite. Les problèmes de confidentialité, de désinformation, de droits d'auteur, de sécurité, de garantie de qualité et de gestion des coûts subsistent. Cependant, si les entreprises limitent excessivement l'utilisation de l'IA et que le terrain reste attaché aux anciennes méthodes, elles risquent de perdre en vitesse par rapport aux concurrents qui exploitent activement l'IA.

Les défis de gestion à l'ère de l'IA ne se résument pas à "utiliser ou non l'IA", mais à "dans quels processus, avec quels modèles, avec quelles autorisations et dans quelle mesure l'utiliser".


Le goulot d'étranglement des semi-conducteurs derrière l'explosion de la demande

À mesure que la demande en IA augmente, les contraintes du monde réel se manifestent. Les modèles semblent fonctionner dans le cloud, mais en arrière-plan, il y a des GPU, des CPU, de la mémoire, des réseaux, de l'énergie, des installations de refroidissement, des centres de données, des équipements de fabrication de semi-conducteurs et des emballages avancés.

L'article de NextBigFuture souligne que chaque couche de l'infrastructure IA, notamment la mémoire, TSMC, la durée de vie des CPU et GPU, les communications optiques, le cuivre, les PCB et les équipements de fabrication, connaît des tensions d'approvisionnement. La demande en IA ne fait pas qu'augmenter la demande de GPU de NVIDIA. À mesure que les agents IA et le traitement d'inférence se répandent, la charge s'étend également aux CPU, DRAM, HBM, stockage et équipements réseau.

C'est un changement important. Le boom initial des investissements en IA a été principalement discuté en termes de demande de GPU nécessaires pour l'apprentissage de modèles à grande échelle. Cependant, à mesure que l'IA est intégrée dans les opérations, le centre de la demande se déplace vers l'inférence, c'est-à-dire l'utilisation quotidienne. Plus les entreprises utilisent l'IA pour la génération de code, la recherche, l'analyse, le support client, l'assistance commerciale, la conception et le contrôle des robots, plus elles ont besoin de ressources de calcul continues.

Et la demande d'inférence est différente de l'entraînement massif ponctuel. Elle se produit chaque jour, chaque heure, chaque seconde. À mesure que le nombre d'utilisateurs augmente et que les agents IA commencent à exécuter des tâches de manière autonome, la consommation de tokens augmente au-delà de la vitesse de saisie manuelle. L'IA appelle une autre IA, génère du code, teste, corrige, recherche et résume à nouveau. Ces flux de travail de type agent consomment beaucoup plus de ressources de calcul que l'utilisation traditionnelle de chat.

En conséquence, la chaîne d'approvisionnement des semi-conducteurs est largement sous pression. Pénurie de DRAM et de HBM, créneaux de production de processus avancés, emballages avancés comme CoWoS, CPU de serveur, énergie des centres de données, réseau électrique, installations de refroidissement. La demande en IA est à la fois une question de l'industrie du logiciel et une question de fabrication, d'énergie et de géopolitique.


Anthropic, Claude Code et la "réserve de modèles"

L'article mentionne également la croissance des revenus d'Anthropic et l'expansion de l'utilisation de Claude Code. NextBigFuture indique que l'ARR d'Anthropic a considérablement augmenté et que la demande est si forte que même en ajustant les prix ou les limitations de taux, les ventes continuent. Cependant, ces chiffres incluent des estimations et des déclarations de parties prenantes concernant des entreprises non cotées, et ne doivent pas être traités comme des résultats financiers officiels.

Néanmoins, la direction est compréhensible. Les outils de codage IA sont facilement mesurables en termes de rapport coût-efficacité pour les entreprises. La génération de code, la correction de bugs, la création de tests, les migrations et le développement d'outils internes sont des domaines où les gains de temps grâce à l'IA sont directement mesurables. Compte tenu du coût horaire des ingénieurs et des coûts de recrutement, les dépenses pour des modèles haute performance sont facilement justifiées.

Le problème qui se pose ici est l'accès aux meilleurs modèles. Si la demande dépasse l'offre, les entreprises d'IA n'ont pas besoin de fournir les modèles les plus performants à tous les utilisateurs dans les mêmes conditions. Elles peuvent privilégier les entreprises qui paient un prix élevé, qui signent des contrats à long terme ou qui sont des clients stratégiquement importants.

Le "model hoarding" mentionné dans l'article de NextBigFuture illustre cette situation. Les modèles les plus performants ou les grands cadres d'inférence pourraient être attribués en priorité aux entreprises disposant de ressources financières. Si cela se produit, cela pourrait aller à l'encontre de l'idéal de démocratisation de l'IA, en concentrant les capacités d'IA entre les mains de quelques grandes entreprises ou entreprises à fort revenu.

Cela s'est déjà produit à l'ère du cloud, mais cela pourrait devenir encore plus grave à l'ère de l'IA. En effet, la différence d'accès aux modèles IA se traduit directement par la vitesse de développement de produits, l'efficacité commerciale, la capacité de recherche et développement, la capacité de réponse aux clients, et même la structure de l'emploi.

La robotique pourrait créer la prochaine vague de demande

L'article aborde également les robots humanoïdes et la robotique. Les IA robotiques actuelles rencontrent encore des défis en matière d'efficacité des données pour modéliser la vision, le langage et l'action. Cependant, si une percée permet d'apprendre des tâches à partir de quelques démonstrations, la demande en IA dans le monde physique pourrait se développer rapidement.

Ce point est très important pour envisager l'avenir de la demande en IA. Actuellement, une grande partie de la demande en IA se produit dans l'espace numérique, avec des textes, du code, des images, des vidéos, des recherches et des analyses. Cependant, si les robots commencent à être utilisés dans les entrepôts, les usines, les foyers, la construction, la médecine, l'agriculture et la logistique, l'IA s'introduira également dans les tâches physiques.

Les tâches du monde physique ont un marché plus vaste que les tâches numériques. Les travaux manuels, les travaux nécessitant des déplacements et les travaux nécessitant une adaptation aux changements environnementaux sont nombreux. Si les robots peuvent apprendre ces tâches à partir de quelques exemples, l'apprentissage, l'inférence, la simulation et le contrôle par robot nécessiteront une grande quantité de ressources de calcul.

En d'autres termes, les progrès de la robotique pourraient constituer la deuxième vague de demande pour les GPU et les tokens. Après l'IA textuelle, l'IA physique pourrait arriver. Si cela se produit, la demande en infrastructure IA pourrait dépasser les prévisions actuelles.


Réactions sur les réseaux sociaux et dans les commentaires : optimisme, prudence, et menace chinoise

 

Les réactions en ligne à cet article et aux déclarations associées de Dylan Patel ne peuvent être divisées simplement en pour ou contre. Globalement, il y a trois types de réactions.

Premièrement, la réaction optimiste des investisseurs et des acteurs du secteur technologique. Sur X, des publications affirment que les dépenses en IA ne sont pas une simple attente théorique, mais se reflètent dans les commandes et les prévisions des entreprises liées à TSMC, ASML, aux entreprises de mémoire et aux centres de données. La demande en IA continue, le cycle des semi-conducteurs n'est pas terminé, et elle s'étend au-delà des GPU vers les CPU, la mémoire et l'infrastructure énergétique. Cela est proche de la position de l'article de NextBigFuture.

Deuxièmement, l'inquiétude des travailleurs et des utilisateurs ordinaires. Il y a une forte préoccupation que l'IA prenne des emplois, que les entreprises réduisent le personnel pour investir dans l'IA, et que les centres de données IA exercent une pression sur les ressources énergétiques et hydriques locales. Des rapports de Pew Research et de NBC News montrent également que la méfiance envers l'IA augmente aux États-Unis. Sur les réseaux sociaux, les publications qui voient l'IA comme un "outil d'augmentation de la productivité" s'opposent frontalement à celles qui la considèrent comme un "mécanisme de destruction de l'emploi et de la création".

Troisièmement, les réactions concernant la compétition avec la Chine. Dans les commentaires de l'article de NextBigFuture, certains affirment que la raison pour laquelle les modèles chinois sont en retard sur ceux des États-Unis n'est pas la technologie elle-même, mais les contraintes d'approvisionnement en puces, et que si la Chine surmonte ces contraintes dans les prochaines années, les entreprises américaines d'IA pourraient souffrir de la concurrence des prix bas. Cela considère la compétition en IA non seulement en termes de performance des modèles, mais aussi en termes d'approvisionnement en semi-conducteurs, de politique industrielle nationale et de compétitivité des prix.

Bien que ce commentaire ne soit que l'opinion d'un lecteur, il contient des points importants. La domination actuelle en IA est une question de modèles, de données, de semi-conducteurs, de cloud, d'énergie et de marchés de capitaux. Même si les entreprises américaines prennent de l'avance avec des modèles haute performance et des contrats à prix élevé, si les entreprises chinoises r