Le prix par jeton a chuté de 75 % en un an, mais la plupart des entreprises dépensent davantage dans l'IA, et non moins. L'illusion des coûts est évidente, mais passe inaperçue.

La facture qui n'a pas diminué
Imaginez un directeur financier en train d'examiner les cloud trimestrielles cloud . L'équipe chargée de l'IA lui présente un graphique convaincant : les coûts d'inférence par jeton ont baissé de 75 % par rapport à l'année précédente. Les modèles sont plus rapides, les API sont moins chères et le fournisseur propose des remises sur volume. Tout semble indiquer des économies. Puis la facture arrive, et le montant total est plus élevé que celui du trimestre dernier.
Il ne s'agit pas d'un scénario hypothétique. C'est ce qui se passe actuellement dans de nombreuses entreprises, et cela met en évidence un décalage entre le discours sur les coûts de l'IA et la réalité opérationnelle. Le secteur se réjouit de la chute des prix des jetons, comme si des intrants moins chers se traduisaient automatiquement par des résultats moins coûteux. Mais dans la pratique, la manière dont les organisations utilisent l'IA a tellement changé que la baisse des prix unitaires ne reflète qu'une partie de la réalité.
La question qui mérite d'être posée n'est pas de savoir si les jetons deviennent moins chers. C'est effectivement le cas. La question la plus révélatrice est de savoir si cette baisse de prix se traduit par une réduction des coûts liés à l'IA, ou si elle favorise discrètement des modes de consommation qui font grimper les coûts globaux dans la direction opposée.
La baisse des prix est bien réelle
Soyons clairs : la baisse du prix par jeton est bien réelle et significative. D’après data de Ramp sur les dépenses des entreprises, le coût moyen par million de jetons chez les principaux fournisseurs est passé d’environ 10 $ à 2,50 $ en l’espace d’une seule année. Les recherches d'Epoch AI suggèrent que les coûts d'inférence baissent à un rythme avoisinant les 200 fois par an, si l'on tient compte à la fois des améliorations en matière de prix et d'efficacité. Andreessen Horowitz a inventé le terme« LLMflation »pour décrire cette courbe déflationniste, établissant un parallèle avec la loi de Moore dans le domaine des semi-conducteurs.
Les facteurs à l'œuvre sont bien connus. La concurrence entre les fournisseurs de modèles de pointe (OpenAI, Anthropic, Google, Meta) a entraîné une forte pression sur les prix. Les modèles à poids ouvert tels que Llama et Mistral ont établi un seuil de prix que les fournisseurs de solutions propriétaires ne peuvent ignorer. Les améliorations matérielles, notamment l'architecture Blackwell de NVIDIA et les puces sur mesure de Google (TPU v6) et d'Amazon (Trainium), ont permis d'améliorer progressivement le débit d'inférence par dollar. Les techniques de quantification, de décodage spéculatif et de distillation ont encore réduit la puissance de calcul requise par token.
Pour les cas d'utilisation simples et bien délimités (un chatbot répondant à des questions fréquentes, un outil de synthèse traitant des documents), cette baisse des prix se traduit par de réelles économies. Les entreprises qui ont défini très tôt leurs modes d'utilisation de l'IA dépensent, dans de nombreux cas, réellement moins.
Les problèmes commencent lorsque les habitudes d'utilisation ne se stabilisent pas.
L'explosion de la consommation
Voici un aspect de la situation qui fait rarement la une des journaux : le nombre de jetons consommés par tâche a augmenté de plusieurs ordres de grandeur, et cette tendance s'accélère.
Il y a un an, une interaction typique avec l'IA pouvait se résumer à une simple demande et une réponse, soit environ 2 000 tokens au total. Aujourd'hui, les workflows d'IA agentique ont radicalement changé cette donne. Une seule tâche exécutée par un système multi-agents (rechercher un sujet, rédiger un document, le valider par rapport aux politiques internes, puis l'itérer en fonction des retours) peut consommer entre 50 000 et 500 000 tokens avant de produire un résultat final. Les assistants de codage toujours actifs traitent régulièrement des millions de tokens par développeur et par jour. Les frameworks d'orchestration multi-agents comme OpenClaw permettent des workflows où les agents appellent d'autres agents, chaque interaction augmentant le nombre de tokens.
Les data témoignent clairement de cette évolution. TechCrunch a fait état d’un phénomène qu’il a baptisé« tokenmaxxing », décrivant des utilisateurs intensifs abonnés à des forfaits d’IA à tarif forfaitaire qui consommaient des quantités extraordinaires de ressources informatiques. Certains de ces «géants de l’inférence »ont généré plus de 35 000 dollars de coûts informatiques tout en ne payant que 200 dollars par mois. À ce rythme, le fournisseur subventionne ses utilisateurs les plus gourmands à hauteur de 175 fois leur coût réel.
Les répercussions financières se font déjà sentir dans les rapports financiers. Notion a fait état d’une baisse de 10 points de pourcentage de ses marges brutes, directement liée au coût de l’intégration de fonctionnalités d’IA dans l’ensemble de ses produits. L’analyse d’OpsLyft sur les déploiements d’IA en entreprise a révélé que les coûts cachés (optimisation de la récupération, génération d’embeddings, gestion de la fenêtre contextuelle, logique de réessai) alourdissaient systématiquement de 40 à 60 % la facture brute liée à l’inférence que la plupart des équipes suivaient de près.
Le modèle mental que la plupart des organisations utilisent pour évaluer les coûts liés à l'IA repose sur une approche « par requête ». Or, nous sommes désormais passés à une approche « par workflow », où une seule action de l'utilisateur peut déclencher des dizaines d'appels d'inférence sur plusieurs modèles. Des jetons moins chers, multipliés par un nombre de jetons par tâche considérablement plus élevé, ne se traduisent pas toujours par une réduction des dépenses.
Les géants de la tech se réorganisent
Si le problème de consommation n'était qu'un simple défi budgétaire pour les entreprises, il serait peut-être gérable. Mais certains signes indiquent que même les plus grandes entreprises technologiques prennent conscience des limites d'une utilisation subventionnée de l'IA.
La récente restructuration par Google de son modèle d'abonnement à l'IA est révélatrice. L'entreprise a mis en place un système à plusieurs niveaux : « AI Pro » à 19,99 $ par mois et « AI Ultra » à 249,99 $ par mois, avec un nouveau mécanisme de « crédits IA » qui mesure l'utilisation plutôt que d'offrir un accès illimité. Le passage d'une formule « à volonté » à une consommation mesurée est un signal fort. Cela suggère que même une entreprise disposant de l'infrastructure et des marges de Google ne peut pas soutenir une consommation illimitée de jetons à un tarif forfaitaire pour des centaines de millions d'utilisateurs.
Les chiffres relatifs aux dépenses d'investissement confirment cette analyse. Alphabet prévoyait 75 milliards de dollars de dépenses d'investissement pour 2025, et ce chiffre devrait désormais atteindre entre 175 et 185 milliards de dollars en 2026, soit près du double en l'espace d'une seule année. La majeure partie de cette augmentation est consacrée aux infrastructures d'IA : data , puces sur mesure et capacité de réseau pour répondre à la demande en matière d'inférence. Microsoft, Amazon et Meta prennent chacun des engagements d'une ampleur similaire.
Ce ne sont pas là les habitudes de dépenses d'entreprises qui ont résolu l'équation économique de l'IA. Ce sont celles d'entreprises qui se précipitent pour développer leurs capacités en prévision d'une courbe de demande qu'elles voient venir, mais qu'elles ne sont pas encore en mesure de satisfaire de manière rentable. Le modèle de subvention (qui consiste à proposer des capacités d'IA généreuses à des prix abordables pour favoriser l'adoption) s'est avéré efficace pour constituer une base d'utilisateurs. La question est de savoir combien de temps cela pourra durer avant que les tarifs ne doivent refléter les coûts de calcul réels.
Cette tendance rappelle les débuts du cloud , lorsque les fournisseurs proposaient des tarifs extrêmement bas pour conquérir des parts de marché, avant d'introduire progressivement les instances réservées, la tarification à plusieurs niveaux et la facturation à l'utilisation à mesure que l'adoption de cette technologie se généralisait. Le cycle de tarification de l'IA semble condenser cette même évolution sur une période beaucoup plus courte.
Le renouveau des solutions sur site
Pour les organisations qui observent l'évolution de cette situation, une solution bien connue suscite un regain d'intérêt : l'exploitation d'une infrastructure d'IA en local.
L'annonce faite par NVIDIA concernant NemoClaw lors de la conférence GTC en mars 2026 mérite toute notre attention. NemoClaw enrichit OpenClaw (le framework open source d'IA agentique qui s'est rapidement imposé comme la norme pour la création de systèmes multi-agents) de fonctionnalités de niveau entreprise : contrôles de sécurité, routage respectueux de la vie privée, journalisation des audits et prise en charge native de la famille de modèles Nemotron de NVIDIA, qui s'exécutent sur du matériel local. Il s'agit, en effet, d'une distribution d'entreprise de la pile d'IA agentique, conçue pour fonctionner sur site ou dans cloud privé.
Jensen Huang a clairement mis en avant l'importance de cette question : « Quelle est votre stratégie OpenClaw ? » est désormais une question qui se pose dans les salles de réunion, a-t-il déclaré au public de la GTC. Cela signifie que l'infrastructure des agents IA devient aussi fondamentale pour la stratégie technologique des entreprises que l'était cloud il y a dix ans, et que les organisations doivent définir clairement où et comment elles la déploient.
L'attrait de l'IA sur site va au-delà de la prévisibilité des coûts, même si celle-ci est importante. Elle répond aux enjeux data ( data sensibles data quittent data le réseau de l'organisation), de la conformité réglementaire (particulièrement pertinente à l'heure où les dispositions opérationnelles de la loi européenne sur l'IA entrent en vigueur) et de la gouvernance des jetons (la capacité à surveiller, mesurer et contrôler précisément la quantité de ressources d'inférence consommée, par qui et à quelles fins). Dans un monde où un seul flux de travail agentique incontrôlé peut engloutir des milliers de dollars en jetons du jour au lendemain, disposer de contrôles au niveau de l'infrastructure n'est pas un luxe.
Cela ne signifie pas pour autant que toutes les entreprises doivent se précipiter pour acheter des clusters de GPU. Les investissements nécessaires sont considérables, la complexité opérationnelle est bien réelle, et le rythme auquel les modèles s'améliorent fait que le matériel sur site d'aujourd'hui risque de ne plus être optimal d'ici dix-huit mois. Mais pour les entreprises confrontées à d'importants volumes d'inférence, à des contraintes réglementaires ou à des exigences data , la rentabilité de l'acquisition de matériel devient de plus en plus compétitive par rapport aux tarifs cloud .
Le paradoxe de la démocratisation
Derrière la dynamique des coûts se cache une tension plus profonde qu'il convient de souligner : les forces mêmes qui rendent l'IA plus accessible rendent également son modèle économique moins viable à grande échelle.
OpenClaw en est sans doute l'illustration la plus parlante. En tant que framework open source destiné à la création de systèmes d'IA agentique, il a considérablement réduit les obstacles à la mise en place de flux de travail multi-agents sophistiqués. Une petite équipe peut désormais développer un produit basé sur l'IA qui aurait nécessité, il y a deux ans, une équipe dédiée à l'infrastructure. Il s'agit là d'un véritable tournant, et l'écosystème qu'il a créé le positionne comme une sorte de système d'exploitation pour l'IA grand public et d'entreprise.
Mais la démocratisation a son propre coût, et je pense que le secteur a mis du temps à en prendre conscience. Lorsqu’il devient d’une simplicité enfantine de créer des agents, les organisations ont tendance à en créer un grand nombre. Chaque agent consomme des jetons. Chaque interaction entre plusieurs agents multiplie la consommation. L'effet combiné est que cette même accessibilité qui rend l'IA puissante la rend également coûteuse, non pas parce que chaque appel individuel est onéreux, mais parce que le volume total des appels augmente plus rapidement que ce qui avait été prévu dans les budgets.
C'est là l'illusion du coût symbolique dans sa forme la plus pure : le prix unitaire de l'intelligence diminue, mais le nombre d'unités consommées par résultat augmente encore plus rapidement.
La bifurcation pour les entreprises
Ces facteurs vont tous dans le même sens : l'augmentation de la consommation, la réévaluation des subventions, la maturation des solutions sur site et la pression réglementaire croissante. Ensemble, ils poussent les entreprises à faire un choix stratégique qui déterminera leur modèle économique en matière d'IA pour les années à venir. Trois grandes orientations se dessinent.
Option A : Souveraineté sur site. Construire ou louer une infrastructure IA dédiée pour maîtriser les coûts, garantir data et assurer la conformité réglementaire. NemoClaw et d'autres distributions d'entreprise similaires rendent cette option de plus en plus viable. Idéale pour les organisations traitant des volumes élevés de déductions, data sensibles ou opérant dans des secteurs réglementés. Le compromis réside dans l'intensité en capital et la complexité opérationnelle.
Piste B :Cloud ». Une nouvelle catégorie de cloud est en train d'émerger, axée spécifiquement sur le calcul IA plutôt que sur cloud à usage général. Ces fournisseurs (CoreWeave, Lambda, Together AI et d'autres) proposent une infrastructure optimisée pour les GPU avec des modèles de tarification conçus pour les charges de travail à forte intensité d'inférence. Ils représentent une voie intermédiaire : cloud sans dépendre entièrement du modèle de tarification des hyperscalers.
Piste C : Dépendance vis-à-vis des hyperscalers. Continuer à s'appuyer sur les services d'IA cloud principaux cloud , en acceptant l'évolution de leurs tarifs en échange d'une intégration approfondie, d'un écosystème étendu et d'une simplicité opérationnelle. Cette voie est la plus facile à emprunter au départ, mais elle est la plus exposée aux variations de prix à mesure que les subventions sont supprimées.
Dans la pratique, la plupart des grandes entreprises adopteront une approche hybride, combinant des éléments des trois options en fonction de la sensibilité des charges de travail, des exigences réglementaires et des profils de coûts. Le point essentiel est qu’il s’agit désormais d’un choix stratégique délibéré plutôt que d’une solution par défaut. Avec la montée des tensions géopolitiques, les exigences data et les cadres réglementaires tels que la loi européenne sur l’IA, qui vont tous dans le même sens, la question de savoir où exécuter vos inférences d’IA n’est plus uniquement une décision technologique. C’est une décision de gouvernance.
Gérer l'économie de l'IA de manière responsable
Nous arrivons à un tournant dans le débat sur les coûts de l'IA. Ces deux dernières années, le discours dominant a été celui d'une baisse incessante des coûts : les modèles deviennent moins chers, les inférences plus rapides, les obstacles moins importants. Ce discours n'est pas faux, mais il est incomplet. Il décrit le prix d'un seul jeton sans tenir compte du nombre de jetons qu'une organisation consomme réellement, ni de la rapidité avec laquelle ce nombre augmente.
Cette discipline émergente pourrait être qualifiée de « gouvernance des jetons » : il s'agit de la capacité organisationnelle à surveiller, prévoir et gérer les coûts liés à l'inférence IA avec la même rigueur que celle Postuler les entreprises Postuler cloud , leurs effectifs ou l'allocation de capitaux. Cela inclut l'observabilité des coûts (savoir en temps réel ce que chaque flux de travail, agent et équipe consomme), les politiques de consommation (fixer des limites aux flux de travail des agents pour éviter une consommation effrénée de jetons) et la stratégie d'infrastructure (faire des choix délibérés quant à l'endroit où l'inférence s'exécute et à quel coût).
Les organisations qui sauront bien gérer cette transition ne seront pas nécessairement celles qui dépensent le moins en IA. Ce seront celles qui comprennent précisément ce qu’elles dépensent et pourquoi. Dans un monde où l’intelligence devient un service public, gérer son aspect économique de manière réfléchie pourrait s’avérer tout aussi important que d’exploiter ses capacités.

BLOG






