Die Preise pro Token sind innerhalb eines Jahres um 75 % gefallen, doch die meisten Unternehmen geben mehr für AI aus, nicht weniger. Die Kostenillusion liegt auf der Hand.

Die Rechnung, die nicht kleiner wurde

Stellen Sie sich vor, ein Finanzvorstand prüft die vierteljährlichen cloud . Das AI legt ein überzeugendes Diagramm vor: Die Kosten pro Token für Inferenz sind im Vergleich zum Vorjahr um 75 % gesunken. Die Modelle sind schneller, die APIs sind günstiger, und der Anbieter gewährt Mengenrabatte. Alles deutet auf Einsparungen hin. Dann trifft die eigentliche Rechnung ein, und der Gesamtbetrag ist höher als im letzten Quartal.

Dies ist kein hypothetisches Szenario. Es spielt sich gerade in vielen Unternehmen ab und offenbart eine Diskrepanz zwischen der allgemeinen Darstellung AI und der betrieblichen Realität. Die Branche feiert den Einbruch der Token-Preise, als ob günstigere Vorleistungen automatisch auch günstigere Ergebnisse bedeuteten. In der Praxis AI die Art und Weise, wie Unternehmen AI nutzen, jedoch so dramatisch verändert, dass sinkende Stückpreise nur die halbe Wahrheit widerspiegeln.

Die Frage, die es zu untersuchen gilt, ist nicht, ob Token billiger werden. Das tun sie. Viel aufschlussreicher ist die Frage, ob diese Billigkeit zu niedrigeren AI führt oder ob sie stillschweigend Konsumgewohnheiten begünstigt, die die Gesamtkosten in die entgegengesetzte Richtung treiben.

Der Preisrückgang ist real

Um es klar zu sagen: Der Rückgang der Preise pro Token ist real und erheblich. Laut data von Ramp zu den Unternehmensausgaben sanken die durchschnittlichen Kosten pro Million Token bei den großen Anbietern innerhalb eines Jahres von etwa 10 Dollar auf 2,50 Dollar. Untersuchungen AIEpoch AIdeuten darauf hin, dass die Inferenzkosten um fast das 200-Fache pro Jahr sinken, wenn man sowohl Preis- als auch Effizienzsteigerungen berücksichtigt. Andreessen Horowitz hat den Begriff„LLMflation“geprägt, um diese deflationäre Kurve zu beschreiben, und zieht dabei eine Parallele zu Moores Gesetz bei Halbleitern.

Die treibenden Faktoren sind gut bekannt. Der Wettbewerb unter den Anbietern von Pioniermodellen (OpenAI, Anthropic, Google, Meta) hat zu einem starken Preisdruck geführt. Open-Weight-Modelle wie Llama und Mistral haben eine Preisuntergrenze geschaffen, die proprietäre Anbieter nicht ignorieren können. Hardware-Verbesserungen, darunter die Blackwell-Architektur von NVIDIA sowie maßgeschneiderte Chips von Google (TPU v6) und Amazon (Trainium), haben den Inferenzdurchsatz pro Dollar stetig gesteigert. Quantisierung, spekulatives Decodieren und Destillationstechniken haben den pro Token erforderlichen Rechenaufwand weiter reduziert.

Bei einfachen, überschaubaren Anwendungsfällen (ein Chatbot, der häufig gestellte Fragen beantwortet, oder ein Tool zur Zusammenfassung von Dokumenten) führt dieser Preisrückgang zu echten Einsparungen. Unternehmen, die ihre AI frühzeitig festgelegt haben, geben in vielen Fällen tatsächlich weniger aus.

Die Probleme fangen an, wenn sich Nutzungsmuster nicht festigen.

Der Konsumboom

Hier ist der Aspekt, der selten Schlagzeilen macht: Die Anzahl der pro Aufgabe verbrauchten Token ist um ein Vielfaches gestiegen, und dieser Trend beschleunigt sich.

Vor einem Jahr bestand eine typische AI vielleicht aus einer einzigen Eingabeaufforderung und einer Antwort, insgesamt vielleicht 2.000 Token. Heute haben agentische AI diese Rechnung grundlegend verändert. Eine einzelne Aufgabe, die von einem Multi-Agenten-System ausgeführt wird (Recherche zu einem Thema, Entwurf eines Dokuments, Überprüfung anhand interner Richtlinien und anschließende Iteration auf Basis von Feedback), kann 50.000 bis 500.000 Token verbrauchen, bevor ein endgültiges Ergebnis vorliegt. Ständig aktive Programmierassistenten verarbeiten routinemäßig Millionen von Token pro Entwickler und Tag. Multi-Agenten-Orchestrierungs-Frameworks wie OpenClaw ermöglichen Workflows, bei denen Agenten andere Agenten aufrufen, wobei jede Interaktion die Token-Anzahl erhöht.

Die data belegen diesen Wandel. TechCrunch berichtete über ein Phänomen, das als„Tokenmaxxing“bezeichnet wurde, und beschrieb dabei Power-User mit AI , die außerordentlich hohe Rechenkapazitäten in Anspruch nahmen. Einige dieser„Inference Whales“verursachten Rechenkosten von über 35.000 US-Dollar, während sie monatlich nur 200 US-Dollar zahlten. Bei diesem Verhältnis übernimmt der Anbieter eine 175-fache Subvention für seine Nutzer mit dem höchsten Verbrauch.

Die finanziellen Auswirkungen zeigen sich bereits in reports. Notion gab einen Rückgang der Bruttomargen um 10 Prozentpunkte bekannt, der direkt mit den Kosten für die Integration AI in sein Produkt zusammenhängt. Die Analyse von OpsLyft zu AI in Unternehmen ergab, dass versteckte Kosten (Erweiterung der Datensuche, Generierung von Einbettungen, Verwaltung von Kontextfenstern, Wiederholungslogik) regelmäßig 40 bis 60 % zu den reinen Inferenzkosten hinzukamen, die von den meisten Teams erfasst wurden.

Das Denkmodell, das die meisten Unternehmen für AI verwenden, basiert auf einer Abrechnungsweise pro Abfrage. Wir sind jedoch zu einer Abrechnungsweise pro Workflow übergegangen, bei der eine einzige Benutzeraktion Dutzende von Inferenzanrufen über mehrere Modelle hinweg auslösen kann. Günstigere Token multipliziert mit einer drastisch höheren Anzahl von Token pro Aufgabe führen nicht immer zu geringeren Ausgaben.

Die großen Tech-Unternehmen stellen sich neu auf

Wäre das Problem des Datenverbrauchs lediglich eine Herausforderung für die Unternehmensbudgetierung, ließe es sich vielleicht bewältigen. Es gibt jedoch Anzeichen dafür, dass selbst die größten Technologieunternehmen die Grenzen der subventionierten AI erkennen.

Die jüngste Umstrukturierung des AI von Google ist aufschlussreich. Das Unternehmen führte ein gestaffeltes System ein: AI für 19,99 US-Dollar pro Monat und AI für 249,99 US-Dollar pro Monat, ergänzt durch ein neues System AI , das die Nutzung begrenzt, anstatt unbegrenzten Zugang zu gewähren. Der Wechsel von „All-you-can-eat“ zu einem nutzungsabhängigen Modell ist ein bedeutendes Signal. Er deutet darauf hin, dass selbst ein Unternehmen mit der Infrastruktur und den Margen von Google einen unbegrenzten Token-Verbrauch zu Pauschalpreisen für Hunderte Millionen Nutzer nicht aufrechterhalten kann.

Die Zahlen zu den Investitionsausgaben untermauern diese Einschätzung. Alphabet hatte für 2025 Investitionsausgaben in Höhe von 75 Milliarden US-Dollar prognostiziert; nun wird erwartet, dass diese Zahl im Jahr 2026 auf 175 bis 185 Milliarden US-Dollar ansteigen wird – was fast einer Verdopplung innerhalb eines einzigen Jahres entspricht. Der Großteil dieses Anstiegs fließt in AI : data , maßgeschneiderte Chips und Netzwerkkapazitäten zur Bewältigung des Bedarfs an Inferenzrechnungen. Microsoft, Amazon und Meta gehen jeweils Verpflichtungen in ähnlicher Größenordnung ein.

Dies sind nicht die Ausgabengewohnheiten von Unternehmen, die die AI Gleichung AI gelöst haben. Es sind vielmehr die Ausgabengewohnheiten von Unternehmen, die darum wetteifern, Kapazitäten für eine Nachfragekurve aufzubauen, die sie zwar kommen sehen, aber noch nicht gewinnbringend bedienen können. Das Subventionsmodell (das großzügige AI zu verbraucherfreundlichen Preisen anbietet, um die Akzeptanz zu fördern) hat sich beim Aufbau von Nutzerbasis als wirksam erwiesen. Die Frage ist, wie lange dies noch so weitergehen kann, bevor sich die Preise an den tatsächlichen Rechenkosten orientieren müssen.

Das Muster hier erinnert an die Anfänge des cloud , als Anbieter mit extrem niedrigen Preisen um Marktanteile warben und dann, mit zunehmender Verbreitung der Technologie, nach und nach reservierte Instanzen, gestaffelte Preise und nutzungsabhängige Abrechnungen einführten. Der AI scheint diese Entwicklung auf einen wesentlich kürzeren Zeitraum zu verdichten.

Die Renaissance der lokalen Lösungen

Für Unternehmen, die diese Entwicklungen beobachten, rückt eine altbekannte Alternative wieder stärker in den Fokus: der lokale Betrieb AI .

Die Ankündigung von NemoClaw durch NVIDIA auf der GTC im März 2026 ist besonders bemerkenswert. NemoClaw erweitert OpenClaw (das AI agentenbasierte AI , das sich rasch zum Standard für die Entwicklung von Multi-Agenten-Systemen entwickelt hat) um Funktionen für den Unternehmensbereich: Sicherheitskontrollen, Datenschutz-Routing, Audit-Protokollierung sowie native Unterstützung für die NVIDIA-eigene Nemotron-Modellfamilie, die auf lokaler Hardware ausgeführt wird. Es handelt sich dabei im Grunde um eine Unternehmensversion des agentischen AI , die für den Einsatz vor Ort oder in privaten cloud konzipiert ist.

Jensen Huang brachte die Bedeutung auf den Punkt: „Wie sieht Ihre OpenClaw-Strategie aus?“ – diese Frage wird mittlerweile in den Vorstandsetagen gestellt, erklärte er dem audience der GTC. Daraus lässt sich ableiten, dass die Infrastruktur AI für die Technologiestrategie von Unternehmen mittlerweile ebenso grundlegend ist wie cloud vor einem Jahrzehnt, und dass Unternehmen eine klare Position dazu einnehmen müssen, wo und wie sie diese einsetzen.

Die Attraktivität von AI über die Vorhersehbarkeit der Kosten hinaus, auch wenn diese natürlich eine Rolle spielt. Sie gewährleistet data (sensible data verlassen das Netzwerk des Unternehmens data ), die Einhaltung gesetzlicher Vorschriften (besonders relevant angesichts des Inkrafttretens der operativen Bestimmungen AI ) sowie die Token-Governance (die Möglichkeit, genau zu überwachen, zu messen und zu steuern, wie viel Inferenzkapazität von wem und zu welchem Zweck verbraucht wird). In einer Welt, in der ein einziger außer Kontrolle geratener agentischer Workflow über Nacht Tausende von Dollar an Token verbrauchen kann, sind Kontrollen auf Infrastrukturebene kein Luxus.

Das bedeutet jedoch nicht, dass jedes Unternehmen sofort GPU-Cluster anschaffen sollte. Der Kapitalbedarf ist beträchtlich, der Betriebsaufwand ist nicht zu unterschätzen, und angesichts des rasanten Fortschritts bei der Modelloptimierung könnte die heutige On-Premise-Hardware bereits in achtzehn Monaten nicht mehr optimal sein. Für Unternehmen mit hohem Inferenzvolumen, regulatorischen Auflagen oder Anforderungen data werden die Betriebskosten jedoch zunehmend wettbewerbsfähig gegenüber den Preisen cloud .

Das Paradoxon der Demokratisierung

Hinter der Kostendynamik verbirgt sich ein tieferes Spannungsfeld, das es wert ist, benannt zu werden: Genau jene Kräfte, die AI machen, führen gleichzeitig dazu, dass ihre Wirtschaftlichkeit im großen Maßstab an Nachhaltigkeit verliert.

OpenClaw ist dafür wohl das beste Beispiel. Als Open-Source-Framework für die Entwicklung agentenbasierter AI hat es die Hürden für die Erstellung komplexer Multi-Agenten-Workflows drastisch gesenkt. Ein kleines Team kann nun ein AI Produkt entwickeln, für das vor zwei Jahren noch ein eigenes Infrastrukturteam erforderlich gewesen wäre. Das ist ein echter Wandel, und das dadurch entstandene Ökosystem macht es zu etwas, das einem Betriebssystem für AI im privaten und geschäftlichen Bereich nahekommt.

Doch die Demokratisierung hat ihre eigene Kostenkurve, und ich glaube, dass die Branche dies nur zögerlich anerkennt. Wenn es kinderleicht wird, Agenten zu starten, neigen Unternehmen dazu, sehr viele davon zu starten. Jeder Agent verbraucht Token. Jede Interaktion zwischen mehreren Agenten vervielfacht den Verbrauch. Der kumulative Effekt ist, dass dieselbe Zugänglichkeit, die AI macht, AI auch AI macht – nicht weil jeder einzelne Aufruf kostspielig ist, sondern weil das Gesamtvolumen der Aufrufe schneller wächst, als irgendjemand veranschlagt hat.

Das ist die Illusion der symbolischen Kosten in ihrer reinsten Form: Der Stückpreis für Intelligenz sinkt, doch der Verbrauch pro Ergebnis steigt noch schneller.

Die Weggabelung für Unternehmen

Diese Faktoren wirken in dieselbe Richtung: steigender Verbrauch, Neugestaltung von Subventionen, ausgereifte On-Premise-Lösungen und zunehmender regulatorischer Druck. Zusammen treiben sie Unternehmen zu einer strategischen Entscheidung, die ihre AI auf Jahre hinaus prägen wird. Dabei zeichnen sich drei allgemeine Wege ab.

Weg A: Souveränität vor Ort. Errichten oder mieten Sie AI dedizierte AI für Kostenkontrolle, data und Einhaltung gesetzlicher Vorschriften. NemoClaw und ähnliche Unternehmensdistributionen machen dies zunehmend praktikabel. Am besten geeignet für Organisationen mit hohem Inferenzvolumen, sensiblen data oder Tätigkeiten in regulierten Branchen. Der Nachteil ist die Kapitalintensität und die Komplexität des Betriebs.

Pfad B:Cloud . Es entsteht eine neue Kategorie von cloud , die sich speziell auf AI statt auf allgemeine cloud konzentrieren. Diese Anbieter (CoreWeave, Lambda, Together AI und andere) bieten eine GPU-optimierte Infrastruktur mit Preismodellen, die für inferenzintensive Workloads ausgelegt sind. Sie stellen einen Mittelweg dar: cloud ohne vollständige Abhängigkeit vom Preismodell der Hyperscaler.

Weg C: Abhängigkeit von Hyperscalern. Weiterhin auf den AI cloud großen cloud aufbauen und deren Preisentwicklung im Gegenzug für Integrationstiefe, Breite des Ökosystems und einfache Bedienbarkeit akzeptieren. Dieser Weg ist am einfachsten zu beschreiten, birgt jedoch das größte Risiko durch Preisänderungen, wenn Subventionen auslaufen.

In der Praxis werden die meisten großen Unternehmen einen hybriden Ansatz verfolgen, bei dem sie Elemente aller drei Ansätze je nach Arbeitslast, regulatorischen Anforderungen und Kostenprofilen kombinieren. Entscheidend ist, dass dies zunehmend eine bewusste strategische Entscheidung und nicht mehr nur eine Standardlösung ist. Angesichts zunehmender geopolitischer Spannungen, Anforderungen data und regulatorischer Rahmenbedingungen wie dem AI , die alle in dieselbe Richtung weisen, ist die Frage, wo Ihre AI ausgeführt wird, nicht mehr nur eine rein technologische Entscheidung. Es ist eine Governance-Entscheidung.

Verantwortungsvoller Umgang mit AI

Wir nähern uns einem Wendepunkt in der Debatte AI . In den letzten zwei Jahren dominierte das Narrativ einer unaufhaltsamen Deflation: Modelle werden billiger, die Inferenz wird schneller, die Hürden werden niedriger. Dieses Narrativ ist nicht falsch, aber es ist unvollständig. Es beschreibt den Preis eines einzelnen Tokens, ohne zu berücksichtigen, wie viele Tokens ein Unternehmen tatsächlich verbraucht oder wie schnell diese Zahl wächst.

Diese aufkommende Disziplin könnte man als „Token-Governance“ bezeichnen: die organisatorische Fähigkeit, die Kosten AI mit derselben Sorgfalt zu überwachen, zu prognostizieren und zu verwalten, wie Unternehmen dies bei cloud , Personalbestand oder Kapitalallokation tun. Dazu gehören Kostentransparenz (in Echtzeit zu wissen, was jeder Workflow, jeder Agent und jedes Team verbraucht), Verbrauchsrichtlinien (Festlegung von Grenzen für agentische Workflows, um einen unkontrollierten Token-Verbrauch zu verhindern) und Infrastrukturstrategie (bewusste Entscheidungen darüber, wo Inferenz ausgeführt wird und zu welchen Kosten).

Die Unternehmen, die diesen Wandel erfolgreich bewältigen, sind nicht unbedingt diejenigen, die am wenigsten für AI ausgeben. Es sind vielmehr diejenigen, die genau wissen, wofür sie Geld ausgeben und warum. In einer Welt, in der Intelligenz zunehmend zu einer Selbstverständlichkeit wird, könnte sich ein umsichtiges Management der damit verbundenen wirtschaftlichen Aspekte als ebenso wichtig erweisen wie die Nutzung ihrer Möglichkeiten.