Os preços por token caíram 75% em um ano, mas a maioria das organizações está gastando mais com AI, e não menos. A ilusão de custo está bem à vista.

A conta que não diminuiu

Imagine um diretor financeiro analisando os cloud trimestrais cloud . A AI apresenta um gráfico convincente: os custos de inferência por token caíram 75% em relação ao ano anterior. Os modelos estão mais rápidos, as APIs estão mais baratas e o fornecedor está oferecendo descontos por volume. Tudo aponta para uma economia. Então chega a fatura real, e o total é maior do que no último trimestre.

Este não é um cenário hipotético. É o que está ocorrendo nas empresas neste exato momento e revela uma discrepância entre o discurso sobre AI e a realidade operacional. O setor comemora a queda dos preços dos tokens como se insumos mais baratos significassem automaticamente resultados mais baratos. Mas, na prática, a forma como as organizações utilizam AI de tal maneira que a queda nos preços unitários conta apenas metade da história.

A questão que vale a pena examinar não é se os tokens estão ficando mais baratos. Eles estão. A questão mais reveladora é se esse baixo custo está se traduzindo em AI mais baixas ou se está, discretamente, possibilitando padrões de consumo que empurram os custos totais na direção oposta.

A queda nos preços é real

Para ser claro: a queda no preço por token é real e significativa. De acordo com data de gastos corporativos da Ramp, o custo médio por milhão de tokens entre os principais provedores caiu de cerca de US$ 10 para US$ 2,50 em apenas um ano. A pesquisa AIEpoch AIsugere que os custos de inferência estão caindo a taxas que se aproximam de 200 vezes por ano, quando se leva em conta tanto as melhorias de preço quanto de eficiência. A Andreessen Horowitz cunhou o termo“LLMflation”para descrever essa curva deflacionária, traçando um paralelo com a Lei de Moore no setor de semicondutores.

Os fatores determinantes são bem conhecidos. A concorrência entre os fornecedores de modelos de ponta (OpenAI, Anthropic, Google, Meta) gerou uma forte pressão sobre os preços. Modelos de peso aberto, como o Llama e o Mistral, estabeleceram um preço mínimo que os fornecedores de modelos proprietários não podem ignorar. As melhorias de hardware, incluindo a arquitetura Blackwell da NVIDIA e os chips personalizados do Google (TPU v6) e da Amazon (Trainium), têm aumentado constantemente a taxa de processamento de inferência por dólar. Técnicas de quantização, decodificação especulativa e destilação reduziram ainda mais a computação necessária por token.

Para casos de uso simples e limitados (um chatbot que responde a perguntas frequentes, uma ferramenta de resumo que processa documentos), essa queda nos preços está gerando economias reais. As organizações que definiram seus padrões AI desde o início estão, em muitos casos, gastando menos de fato.

O problema começa quando os padrões de uso não se mantêm estáveis.

A explosão do consumo

Eis a parte da equação que raramente chega às manchetes: o número de tokens consumidos por tarefa cresceu em ordens de magnitude, e esse crescimento está se acelerando.

Há um ano, uma AI típica AI poderia envolver uma única solicitação e resposta, talvez 2.000 tokens no total. Hoje, AI com agentes alteraram fundamentalmente essa aritmética. Uma única tarefa executada por um sistema multiagente (pesquisar um tópico, redigir um documento, validá-lo em relação às políticas internas e, em seguida, iterar com base no feedback) pode consumir de 50.000 a 500.000 tokens antes de produzir um resultado final. Assistentes de codificação sempre ativos processam rotineiramente milhões de tokens por desenvolvedor por dia. Estruturas de orquestração multiagente como o OpenClaw permitem fluxos de trabalho em que agentes chamam outros agentes, com cada interação aumentando a contagem de tokens.

As evidências dessa mudança são visíveis nos data. O TechCrunch relatou um fenômeno que chamoude “tokenmaxxing”, descrevendo usuários avançados em planos AI com tarifa fixa que estavam consumindo quantidades extraordinárias de recursos computacionais. Algumas dessas“baleias de inferência”geraram mais de US$ 35.000 em custos de computação, pagando apenas US$ 200 por mês. Nessa proporção, o provedor está arcando com um subsídio 175 vezes maior para seus usuários mais intensivos.

O impacto financeiro já está se refletindo nos reports de resultados. A Notion divulgou uma queda de 10 pontos percentuais nas margens brutas, diretamente ligada ao custo da integração AI em todo o seu produto. A análise da OpsLyft sobre AI em empresas revelou que os custos ocultos (ampliação da recuperação, geração de integração, gerenciamento da janela de contexto, lógica de repetição) costumavam acrescentar de 40% a 60% ao custo bruto de inferência que a maioria das equipes estava monitorando.

O modelo mental que a maioria das organizações utiliza para AI está ancorado em um mundo baseado em consultas individuais. Mas passamos para um mundo baseado em fluxos de trabalho, onde uma única ação do usuário pode acionar dezenas de chamadas de inferência em vários modelos. Tokens mais baratos multiplicados por um número significativamente maior de tokens por tarefa nem sempre significam um gasto menor.

As grandes empresas de tecnologia estão se reajustando

Se o problema do consumo fosse apenas um desafio de orçamento empresarial, talvez fosse possível controlá-lo. Mas há sinais de que até mesmo as maiores empresas de tecnologia estão reconhecendo os limites do AI subsidiado AI .

A recente reestruturação do modelo AI do Google é reveladora. A empresa introduziu um sistema por níveis: AI por US$ 19,99 por mês e AI por US$ 249,99 por mês, com um novo mecanismo AI que mede o uso em vez de oferecer acesso ilimitado. A mudança do modelo “all you can eat” para o consumo medido é um sinal significativo. Isso sugere que mesmo uma empresa com a infraestrutura e as margens do Google não consegue sustentar o consumo ilimitado de tokens a preços fixos para centenas de milhões de usuários.

Os números relativos aos gastos de capital reforçam essa interpretação. A Alphabet previa US$ 75 bilhões em gastos de capital para 2025, e agora espera-se que esse valor alcance US$ 175 a US$ 185 bilhões em 2026, quase o dobro em um único ano. A maior parte desse aumento é direcionada à AI : data , chips personalizados e capacidade de rede para atender à demanda por inferência. A Microsoft, a Amazon e a Meta estão assumindo compromissos de magnitude semelhante.

Esses não são os padrões de gastos de empresas que já resolveram a equação AI . São os padrões de gastos de empresas que correm para criar capacidade para uma curva de demanda que vislumbram, mas que ainda não conseguem atender de forma lucrativa. O modelo de subsídio (oferecer AI generosos AI a preços acessíveis para impulsionar a adoção) tem sido eficaz na construção de bases de usuários. A questão é por quanto tempo isso poderá continuar antes que os preços tenham de refletir os custos reais de computação.

Esse padrão reflete os primórdios da cloud , quando os provedores ofereciam preços extremamente baixos para conquistar participação de mercado e, à medida que o uso se consolidava, introduziram gradualmente instâncias reservadas, preços diferenciados e cobrança baseada no consumo. O ciclo AI parece estar comprimindo essa mesma evolução em um prazo muito mais curto.

O renascimento das soluções locais

Para as organizações que acompanham essa evolução, uma alternativa já conhecida está ganhando nova atenção: a operação AI localmente.

Vale a pena prestar atenção ao anúncio da NVIDIA sobre o NemoClaw na GTC, em março de 2026. O NemoClaw amplia o OpenClaw (a AI agentiva de código aberto que rapidamente se tornou o padrão para a construção de sistemas multiagentes) com recursos de nível empresarial: controles de segurança, roteamento de privacidade, registro de auditoria e suporte nativo para a família de modelos Nemotron da própria NVIDIA, executados em hardware local. Trata-se, na verdade, de uma distribuição empresarial da AI agentica, projetada para ser executada no local ou em cloud privada.

Jensen Huang resumiu a importância da questão de forma direta: “Qual é a sua estratégia para o OpenClaw?” é agora uma pergunta que se faz nas salas de reunião, disse ele ao audience da GTC. A implicação é que a infraestrutura AI está se tornando tão fundamental para a estratégia tecnológica das empresas quanto cloud foi há uma década, e que as organizações precisam definir uma posição clara sobre onde e como a implementar.

O apelo da AI local AI além da previsibilidade de custos, embora isso seja importante. Ela aborda data ( data confidenciais data saem da rede da organização), a conformidade regulatória (particularmente relevante à medida que as disposições operacionais AI da UE entram em vigor) e a governança de tokens (a capacidade de monitorar, medir e controlar exatamente quanto de inferência está sendo consumido, por quem e com que finalidade). Em um mundo onde um único fluxo de trabalho autônomo descontrolado pode consumir milhares de dólares em tokens da noite para o dia, ter controles no nível da infraestrutura não é um luxo.

Isso não significa que todas as organizações devam se apressar em adquirir clusters de GPUs. Os requisitos de capital são consideráveis, a complexidade operacional é real e o ritmo de aprimoramento dos modelos faz com que o hardware local atual possa ficar obsoleto em dezoito meses. Mas, para organizações com volumes significativos de inferência, restrições regulatórias ou requisitos data , a relação custo-benefício da propriedade está se tornando cada vez mais competitiva em relação aos preços cloud .

O paradoxo da democratização

Há uma tensão mais profunda por trás da dinâmica dos custos que vale a pena destacar: as mesmas forças que tornam AI acessível também estão tornando sua economia menos sustentável em grande escala.

O OpenClaw é talvez o exemplo mais claro. Como uma estrutura de código aberto para a criação AI com agentes, ele reduziu drasticamente as barreiras à criação de fluxos de trabalho sofisticados envolvendo múltiplos agentes. Uma equipe pequena agora pode desenvolver um produto AI que, há dois anos, exigiria uma equipe dedicada de infraestrutura. Trata-se de uma verdadeira revolução, e o ecossistema que ele criou o posiciona como algo próximo a um sistema operacional para AI pessoal e empresarial.

Mas a democratização tem sua própria curva de custos, e acredito que o setor tem demorado a reconhecer isso. Quando se torna extremamente fácil criar agentes, as organizações tendem a criar muitos deles. Cada agente consome tokens. Cada interação entre múltiplos agentes multiplica o consumo. O efeito combinado é que a mesma acessibilidade que torna AI também AI torna AI , não porque cada chamada individual seja onerosa, mas porque o volume total de chamadas cresce mais rapidamente do que qualquer um havia previsto no orçamento.

Essa é a ilusão do custo simbólico em sua forma mais pura: o preço unitário da inteligência está caindo, mas as unidades consumidas por resultado estão aumentando ainda mais rapidamente.

A encruzilhada da empresa

Essas forças estão atuando na mesma direção: aumento do consumo, reajuste dos subsídios, amadurecimento das opções locais e crescente pressão regulatória. Juntas, elas estão levando as empresas a uma escolha estratégica que definirá sua AI nos próximos anos. Três grandes caminhos estão surgindo.

Opção A: Soberania local. Construa ou alugue AI dedicada para controle de custos, data e conformidade regulatória. O NemoClaw e distribuições corporativas semelhantes tornam isso cada vez mais viável. Mais adequado para organizações com altos volumes de inferência, data confidenciais ou operações em setores regulamentados. A desvantagem é a intensidade de capital e a complexidade operacional.

Caminho B:Cloud . Está surgindo uma nova categoria de cloud , focada especificamente em AI , em vez de cloud de uso geral. Esses provedores (CoreWeave, Lambda, Together AI e outros) oferecem infraestrutura otimizada para GPU com modelos de preços projetados para cargas de trabalho com grande volume de inferência. Eles representam um caminho intermediário: cloud sem dependência total do modelo de preços dos hiperescaladores.

Caminho C: Dependência de hiperescaladores. Continuar a desenvolver-se com base nos AI cloud principais cloud , aceitando a evolução de seus preços em troca de profundidade de integração, amplitude do ecossistema e simplicidade operacional. Este caminho é o mais fácil de iniciar, mas apresenta a maior exposição a mudanças de preços à medida que os subsídios são retirados.

Na prática, a maioria das grandes organizações adotará uma abordagem híbrida, combinando elementos das três opções com base na sensibilidade da carga de trabalho, nos requisitos regulatórios e nos perfis de custo. O ponto crucial é que isso está se tornando uma decisão estratégica deliberada, e não mais uma opção padrão. Com o aumento das tensões geopolíticas, os requisitos data e os marcos regulatórios, como a AI da UE, todos apontando na mesma direção, a questão de onde sua AI é executada não é mais uma decisão puramente tecnológica. É uma decisão de governança.

Gerenciar AI de forma responsável

Estamos chegando a um ponto de inflexão no debate AI . Nos últimos dois anos, a narrativa dominante tem sido a de uma deflação incessante: os modelos estão ficando mais baratos, a inferência está ficando mais rápida e as barreiras estão diminuindo. Essa narrativa não está errada, mas é incompleta. Ela descreve o preço de um único token sem levar em conta quantos tokens uma organização realmente consome, nem a rapidez com que esse número está crescendo.

Essa disciplina emergente poderia ser chamada de governança de tokens: a capacidade organizacional de monitorar, prever e gerenciar os custos AI com o mesmo rigor que as empresas aplicam aos cloud , quadro de funcionários ou alocação de capital. Isso inclui observabilidade de custos (saber em tempo real o que cada fluxo de trabalho, agente e equipe está consumindo), políticas de consumo (estabelecer limites para fluxos de trabalho de agentes a fim de evitar o consumo descontrolado de tokens) e estratégia de infraestrutura (fazer escolhas deliberadas sobre onde a inferência é executada e a que custo).

As organizações que administrarem bem essa transição não serão necessariamente aquelas que gastam menos com AI. Serão aquelas que compreendem, com precisão, em que estão gastando e por quê. Em um mundo onde a inteligência está se tornando um bem de consumo, administrar sua economia de forma criteriosa pode revelar-se tão importante quanto aproveitar suas capacidades.