De prijs per token is in een jaar tijd met 75% gedaald, maar de meeste organisaties geven juist meer uit aan AI, niet minder. De kostenillusie ligt voor het grijpen.

Het wetsvoorstel dat niet werd ingekort
Stel je voor: een CFO bekijkt de cloud . Het AI presenteert een overtuigende grafiek: de kosten per token voor inferentie zijn op jaarbasis met 75% gedaald. De modellen werken sneller, de API’s zijn goedkoper en de leverancier biedt volumekortingen aan. Alles wijst op besparingen. Dan komt de daadwerkelijke factuur binnen, en het totaalbedrag is hoger dan vorig kwartaal.
Dit is geen hypothetisch scenario. Het speelt zich op dit moment in tal van bedrijven af en legt een kloof bloot tussen wat er over AI wordt gezegd en de praktijk. De sector juicht de dalende tokenprijzen toe alsof goedkopere input automatisch tot goedkopere resultaten leidt. Maar in de praktijk AI de manier waarop organisaties AI inzetten zo ingrijpend veranderd dat dalende eenheidsprijzen slechts de helft van het verhaal vertellen.
De vraag die het onderzoeken waard is, is niet of tokens goedkoper worden. Dat is namelijk het geval. De veelzeggendere vraag is of die lage prijs zich vertaalt in lagere AI , of dat deze stilletjes consumptiepatronen in de hand werkt die de totale kosten juist in de tegenovergestelde richting doen stijgen.
De prijsdaling is echt
Voor alle duidelijkheid: de daling van de prijs per token is reëel en aanzienlijk. Volgens data van Ramp over bedrijfsuitgaven is de gemiddelde kostprijs per miljoen tokens bij de belangrijkste aanbieders in één jaar tijd gedaald van ongeveer $ 10 naar $ 2,50. Uit onderzoek AIEpoch AIblijkt dat de kosten voor inferentie met bijna een factor 200 per jaar dalen, wanneer zowel prijs- als efficiëntieverbeteringen worden meegerekend. Andreessen Horowitz heeft de term"LLMflation"bedacht om deze deflatoire curve te beschrijven, waarbij een parallel wordt getrokken met de wet van Moore in de halfgeleiderindustrie.
De drijvende krachten zijn duidelijk. De concurrentie tussen aanbieders van geavanceerde modellen (OpenAI, Anthropic, Google, Meta) heeft geleid tot een sterke prijsdruk. Open-weight-modellen zoals Llama en Mistral hebben een prijsbodem gecreëerd die aanbieders van propriëtaire modellen niet kunnen negeren. Hardwareverbeteringen, waaronder de Blackwell-architectuur van NVIDIA en op maat gemaakte chips van Google (TPU v6) en Amazon (Trainium), hebben de inferentiedoorvoer per dollar gestaag verbeterd. Kwantificatie, speculatieve decodering en distillatietechnieken hebben de benodigde rekenkracht per token verder verminderd.
Voor eenvoudige, beperkte toepassingen (zoals een chatbot die veelgestelde vragen beantwoordt of een samenvattingsprogramma dat documenten verwerkt) levert deze prijsdaling daadwerkelijke besparingen op. Organisaties die hun AI al vroeg hebben vastgelegd, geven in veel gevallen daadwerkelijk minder uit.
De problemen beginnen wanneer gebruikspatronen niet vastliggen.
De explosieve stijging van het verbruik
Dit is het aspect van het verhaal dat zelden in het nieuws komt: het aantal tokens dat per taak wordt verbruikt, is met een factor tien toegenomen, en die stijging zet zich in versneld tempo voort.
Een jaar geleden bestond een typische AI misschien uit één enkele vraag en één antwoord, in totaal zo’n 2.000 tokens. Tegenwoordig hebben agentische AI die rekenwijze fundamenteel veranderd. Een enkele taak die wordt uitgevoerd door een multi-agent-systeem (onderzoek doen naar een onderwerp, een document opstellen, dit toetsen aan intern beleid en vervolgens aanpassen op basis van feedback) kan 50.000 tot 500.000 tokens verbruiken voordat er een definitief resultaat wordt geproduceerd. Altijd actieve codeerassistenten verwerken routinematig miljoenen tokens per ontwikkelaar per dag. Multi-agent-orkestratiefraamwerken zoals OpenClaw maken workflows mogelijk waarbij agents andere agents aanroepen, waarbij elke interactie het aantal tokens doet toenemen.
Deze verschuiving komt duidelijk naar voren uit de data. TechCrunch berichtte over een fenomeen dat het„tokenmaxxing“noemde, waarbij het ging om intensieve gebruikers met AI op basis van een vast tarief die buitengewoon veel rekenkracht verbruikten. Sommige van deze„inference whales“genereerden meer dan 35.000 dollar aan rekenkosten, terwijl ze slechts 200 dollar per maand betaalden. Bij die verhouding neemt de aanbieder een subsidie van 175 keer de kosten voor zijn grootste gebruikers voor zijn rekening.
De financiële gevolgen zijn nu al zichtbaar in reports. Notion maakte bekend dat de brutomarge met 10 procentpunten is gedaald, wat rechtstreeks verband houdt met de kosten voor het inbouwen AI in al zijn producten. Uit de analyse van OpsLyft naar AI bij bedrijven bleek dat verborgen kosten (het verbeteren van zoekresultaten, het genereren van inbouwmodules, het beheer van contextvensters en herhalingslogica) doorgaans 40 tot 60 procent bovenop de ruwe kosten voor inferentie kwamen, die de meeste teams bijhielden.
Het mentale model dat de meeste organisaties hanteren voor AI is gebaseerd op een wereld waarin per zoekopdracht wordt afgerekend. Maar we zijn inmiddels overgestapt naar een wereld waarin per workflow wordt afgerekend, waarbij één enkele handeling van een gebruiker tientallen inferentie-aanroepen bij meerdere modellen kan activeren. Goedkopere tokens vermenigvuldigd met aanzienlijk meer tokens per taak leiden niet altijd tot lagere kosten.
De grote techbedrijven zijn bezig met een heroriëntatie
Als het verbruiksprobleem louter een uitdaging op het gebied van bedrijfsbudgettering was, zou het misschien nog wel beheersbaar zijn. Maar er zijn tekenen dat zelfs de grootste technologiebedrijven de grenzen van gesubsidieerd AI beginnen in te zien.
De recente herstructurering van het AI door Google is leerzaam. De organisatie een gelaagd systeem: AI voor $ 19,99 per maand en AI voor $ 249,99 per maand, met een nieuw AI dat het gebruik meet in plaats van onbeperkte toegang te bieden. De verschuiving van 'onbeperkt gebruik' naar gemeten verbruik is een belangrijk signaal. Het suggereert dat zelfs een organisatie de infrastructuur en marges van Google onbeperkt tokenverbruik tegen een vast tarief voor honderden miljoenen gebruikers niet kan volhouden.
De cijfers over de kapitaaluitgaven bevestigen deze interpretatie. Alphabet had voor 2025 75 miljard dollar aan kapitaaluitgaven begroot, maar dat bedrag zal naar verwachting in 2026 oplopen tot 175 tot 185 miljard dollar – een bijna verdubbeling in één jaar tijd. Het grootste deel van die stijging is bestemd voor AI : data , op maat gemaakte chips en netwerkcapaciteit om de vraag naar inferentie te kunnen verwerken. Microsoft, Amazon en Meta doen elk toezeggingen van vergelijkbare omvang.
Dit zijn niet de bestedingspatronen van bedrijven die de AI puzzel AI hebben opgelost. Het zijn de bestedingspatronen van bedrijven die zich haasten om capaciteit op te bouwen voor een vraagcurve die ze wel zien aankomen, maar waar ze nog geen winst op kunnen maken. Het subsidiemodel (waarbij royale AI tegen consumentvriendelijke prijzen worden aangeboden om de acceptatie te stimuleren) is effectief gebleken bij het opbouwen van een gebruikersbestand. De vraag is hoe lang dit nog kan doorgaan voordat de prijzen de werkelijke rekenkosten moeten gaan weerspiegelen.
Dit patroon doet denken aan de begintijd van cloud , toen aanbieders met zeer scherpe prijzen marktaandeel probeerden te veroveren en vervolgens, naarmate het gebruik toenam, geleidelijk aan ‘reserved instances’, gedifferentieerde tarieven en facturering op basis van verbruik introduceerden. De AI lijkt diezelfde evolutie in een veel korter tijdsbestek te laten plaatsvinden.
De heropleving van on-prem
Voor organisaties die deze ontwikkelingen gadeslaan, wint een bekend alternatief opnieuw aan populariteit: het lokaal beheren van AI .
De aankondiging van NemoClaw door NVIDIA tijdens de GTC in maart 2026 is het waard om in de gaten te houden. NemoClaw breidt OpenClaw (het open-source AI agentgebaseerde AI dat in korte tijd de standaard is geworden voor het bouwen van multi-agent-systemen) uit met functies op bedrijfsniveau: beveiligingsmaatregelen, privacyrouting, auditlogging en native ondersteuning voor NVIDIA’s eigen Nemotron-modellenfamilie die op lokale hardware draait. Het is in feite een enterprise-distributie van de agentische AI , ontworpen om on-premises of in private cloud te draaien.
Jensen Huang bracht het belang ervan meteen op de spits: „Wat is jullie OpenClaw-strategie?“ is nu een vraag die in de directiekamer wordt gesteld, vertelde hij het audience. De implicatie is dat de infrastructuur AI net zo fundamenteel wordt voor de technologische strategie van bedrijven als cloud tien jaar geleden was, en dat organisaties een weloverwogen standpunt moeten innemen over waar en hoe ze deze infrastructuur inzetten.
De aantrekkingskracht van on-premise AI verder dan alleen de voorspelbaarheid van de kosten, hoewel dat wel degelijk van belang is. Het biedt een oplossing voor data (gevoelige data verlaten data het netwerk van de organisatie), naleving van regelgeving (met name relevant nu de operationele bepalingen AI van kracht worden) en tokenbeheer (de mogelijkheid om nauwkeurig te monitoren, meten en controleren hoeveel inferentie er wordt verbruikt, door wie en voor welk doel). In een wereld waarin één enkele op hol geslagen agentische workflow in één nacht duizenden dollars aan tokens kan opslokken, is het hebben van controles op infrastructuurniveau geen luxe.
Dit betekent niet dat elke organisatie zich moet haasten om GPU-clusters aan te schaffen. De kapitaalbehoefte is aanzienlijk, de operationele complexiteit is reëel en door het tempo waarin modellen worden verbeterd, kan de huidige on-premise hardware binnen achttien maanden al achterhaald zijn. Maar voor organisaties met grote hoeveelheden inferentie, wettelijke beperkingen of vereisten data , worden de kosten van eigen beheer steeds concurrerender ten opzichte van de prijzen cloud .
De democratiseringsparadox
Achter de kostendynamiek schuilt een diepere spanning die het vermelden waard is: juist de krachten die AI maken, zorgen er ook voor dat de economische haalbaarheid ervan op grote schaal afneemt.
OpenClaw is misschien wel het duidelijkste voorbeeld. Als open-sourceframework voor het bouwen van agentgebaseerde AI heeft het de drempel voor het ontwikkelen van geavanceerde multi-agent-workflows aanzienlijk verlaagd. Een klein team kan nu een AI product bouwen waarvoor twee jaar geleden nog een speciaal infrastructuurteam nodig zou zijn geweest. Dat is een echte ommekeer, en het ecosysteem dat hierdoor is ontstaan, maakt het tot iets dat dicht in de buurt komt van een besturingssysteem voor AI op persoonlijk en bedrijfsniveau.
Maar democratisering brengt ook kosten met zich mee, en ik denk dat de sector daar maar langzaam oog voor heeft gekregen. Wanneer het een fluitje van een cent wordt om agents op te starten, hebben organisaties de neiging om er heel veel te starten. Elke agent verbruikt tokens. Elke interactie tussen meerdere agents vermenigvuldigt het verbruik. Het samengestelde effect is dat dezelfde toegankelijkheid die AI maakt, AI ook AI maakt, niet omdat een individuele oproep kostbaar is, maar omdat het totale volume aan oproepen sneller toeneemt dan iemand had begroot.
Dit is de illusie van de symbolische kosten in haar puurste vorm: de prijs per eenheid van informatie daalt, maar het aantal eenheden dat per resultaat wordt verbruikt, stijgt nog sneller.
Het kruispunt voor de onderneming
Deze krachten werken allemaal in dezelfde richting: stijgende consumptie, herziening van subsidies, steeds volwassener wordende on-premise-oplossingen en toenemende druk vanuit de regelgeving. Samen dwingen ze bedrijven tot een strategische keuze die bepalend zal zijn voor hun AI in de komende jaren. Er tekenen zich drie brede trajecten af.
Optie A: Soevereiniteit op eigen locatie. Bouw of huur AI speciale AI voor kostenbeheersing, data en naleving van regelgeving. NemoClaw en vergelijkbare distributies voor bedrijven maken dit steeds haalbaarder. Het meest geschikt voor organisaties met grote hoeveelheden inferenties, gevoelige data of activiteiten in gereguleerde sectoren. De keerzijde is de kapitaalintensiteit en operationele complexiteit.
Traject B:Cloud . Er ontstaat een nieuwe categorie cloud die zich specifiek richten op AI in plaats van op algemene cloud . Deze providers (CoreWeave, Lambda, Together AI en anderen) bieden GPU-geoptimaliseerde infrastructuur met prijsmodellen die zijn ontworpen voor workloads met veel inferentie. Ze vertegenwoordigen een middenweg: cloud zonder volledige afhankelijkheid van het prijsmodel van hyperscalers.
Traject C: Afhankelijkheid van hyperscalers. Blijf voortbouwen op de AI cloud grote cloud en accepteer hun prijsontwikkeling in ruil voor diepgaande integratie, een breed ecosysteem en operationele eenvoud. Dit pad is het gemakkelijkst om mee te beginnen, maar brengt het grootste risico op prijswijzigingen met zich mee naarmate subsidies worden afgebouwd.
In de praktijk zullen de meeste grote organisaties kiezen voor een hybride aanpak, waarbij elementen van alle drie worden gecombineerd op basis van de gevoeligheid van de werklast, wettelijke vereisten en kostenprofielen. Het cruciale punt is dat dit steeds meer een bewuste strategische keuze wordt in plaats van een standaardkeuze. Nu toenemende geopolitieke spanningen, vereisten data en regelgevingskaders zoals de AI allemaal in dezelfde richting wijzen, is de vraag waar uw AI wordt uitgevoerd niet langer louter een technologische beslissing. Het is een bestuurlijke beslissing.
Verantwoord omgaan met AI
We naderen een keerpunt in de discussie AI . De afgelopen twee jaar stond het verhaal vooral in het teken van een onophoudelijke prijsdaling: modellen worden goedkoper, inferentie wordt sneller en drempels worden lager. Dat verhaal is niet onjuist, maar het is onvolledig. Het beschrijft de prijs van één enkel token, zonder rekening te houden met hoeveel tokens een organisatie daadwerkelijk verbruikt, of hoe snel dat aantal toeneemt.
Deze opkomende discipline zou men ‘token governance’ kunnen noemen: het vermogen van een organisatie om de kosten AI te monitoren, te voorspellen en te beheren met dezelfde nauwkeurigheid waarmee bedrijven hun cloud , personeelsbestand of kapitaalallocatie aanpakken. Dit omvat kostenobservatie (in realtime weten wat elke workflow, agent en elk team verbruikt), verbruiksbeleid (grenzen stellen aan agent-workflows om ongebreideld tokenverbruik te voorkomen) en infrastructuurstrategie (weloverwogen keuzes maken over waar inferentie wordt uitgevoerd en tegen welke kosten).
De organisaties die deze transitie goed weten te begeleiden, zijn niet per se degenen die het minst aan AI uitgeven. Het zijn juist de organisaties die precies weten wat ze uitgeven en waarom. In een wereld waarin intelligentie steeds meer een basisvoorziening wordt, kan een doordacht beheer van de financiële aspecten ervan net zo belangrijk blijken te zijn als het benutten van de mogelijkheden ervan.

BLOG






