Los precios por token han caído un 75 % en un año, pero la mayoría de las organizaciones están invirtiendo más en AI, no menos. La ilusión del coste está a la vista de todos.

La factura que no se redujo
Imaginemos a un director financiero revisando el cloud trimestral cloud . El AI le presenta un gráfico convincente: los costes de inferencia por token han bajado un 75 % con respecto al año anterior. Los modelos son más rápidos, las API son más baratas y el proveedor ofrece descuentos por volumen. Todo apunta a un ahorro. Entonces llega la factura real, y el total es más alto que el del trimestre anterior.
No se trata de una hipótesis. Es algo que está ocurriendo en las empresas en estos momentos y que pone de manifiesto una discrepancia entre lo que se dice sobre AI y la realidad operativa. El sector celebra la caída de los precios de los tokens como si unos insumos más baratos implicaran automáticamente unos resultados más baratos. Pero, en la práctica, la forma en que las organizaciones utilizan AI cambiado de tal manera que la bajada de los precios unitarios solo refleja una parte de la realidad.
La cuestión que merece la pena analizar no es si los tokens se están abaratando. Es evidente que sí. La pregunta más reveladora es si ese abaratamiento se traduce en una reducción AI , o si, por el contrario, está fomentando de forma silenciosa unos patrones de consumo que hacen que los costes totales aumenten.
La bajada de precios es real
Para que quede claro: la caída del precio por token es real y significativa. Según data de gasto empresarial de Ramp, el coste medio por millón de tokens entre los principales proveedores se redujo de unos 10 dólares a 2,50 dólares en un solo año. La investigación AIEpoch AIsugiere que los costes de inferencia están cayendo a un ritmo que se aproxima a 200 veces al año, si se tienen en cuenta tanto las mejoras en los precios como en la eficiencia. Andreessen Horowitz ha acuñado el término«LLMflation»para describir esta curva deflacionaria, estableciendo un paralelismo con la Ley de Moore en el sector de los semiconductores.
Los factores que influyen en esta situación son bien conocidos. La competencia entre los proveedores de modelos de vanguardia (OpenAI, Anthropic, Google, Meta) ha generado una fuerte presión sobre los precios. Los modelos de peso abierto, como Llama y Mistral, han establecido un precio mínimo que los proveedores de modelos propietarios no pueden ignorar. Las mejoras en el hardware, entre las que se incluyen la arquitectura Blackwell de NVIDIA y los chips personalizados de Google (TPU v6) y Amazon (Trainium), han mejorado de forma constante el rendimiento de inferencia por dólar. Las técnicas de cuantificación, decodificación especulativa y destilación han reducido aún más la computación necesaria por token.
En el caso de aplicaciones sencillas y de alcance limitado (como un chatbot que responde a preguntas frecuentes o una herramienta de resumen que procesa documentos), esta bajada de precios está generando un ahorro real. Las organizaciones que fijaron sus patrones AI desde el principio están, en muchos casos, gastando realmente menos.
Los problemas empiezan cuando los patrones de uso no se mantienen fijos.
La explosión del consumo
Esta es la parte de la ecuación que rara vez aparece en los titulares: el número de tokens consumidos por tarea ha aumentado en varios órdenes de magnitud, y el ritmo sigue acelerándose.
Hace un año, una AI típica AI podía consistir en una sola pregunta y respuesta, tal vez unos 2.000 tokens en total. Hoy en día, AI con agentes han cambiado radicalmente esa aritmética. Una sola tarea ejecutada por un sistema multiagente (investigar un tema, redactar un documento, validarlo según las políticas internas y luego iterar en función de los comentarios) puede consumir entre 50 000 y 500 000 tokens antes de producir un resultado final. Los asistentes de programación siempre activos procesan habitualmente millones de tokens por desarrollador al día. Los marcos de orquestación multiagente como OpenClaw permiten flujos de trabajo en los que los agentes llaman a otros agentes, y cada interacción aumenta el recuento de tokens.
Las pruebas de este cambio se reflejan en los data. TechCrunch informó sobre un fenómeno al que denominó«tokenmaxxing», en referencia a los usuarios avanzados con planes AI de tarifa plana que consumían cantidades extraordinarias de recursos informáticos. Algunas de estas«ballenas de la inferencia»generaron más de 35 000 dólares en costes informáticos, a pesar de pagar 200 dólares al mes. Con esa proporción, el proveedor está asumiendo una subvención 175 veces superior a lo normal para sus usuarios más intensivos.
El impacto financiero ya se está reflejando en reports de resultados. Notion reveló una caída de 10 puntos porcentuales en los márgenes brutos, directamente relacionada con el coste de integrar AI en todo su producto. El análisis de OpsLyft sobre AI en las empresas reveló que los costes ocultos (ampliación de la recuperación, generación de incrustaciones, gestión de ventanas de contexto y lógica de reintentos) solían suponer un incremento del 40-60 % sobre el coste bruto de inferencia que la mayoría de los equipos tenían en cuenta.
El modelo mental que utilizan la mayoría de las organizaciones para calcular AI se basa en un enfoque por consulta. Sin embargo, hemos pasado a un enfoque por flujo de trabajo, en el que una sola acción del usuario puede desencadenar docenas de llamadas de inferencia en múltiples modelos. Unos tokens más baratos multiplicados por un número de tokens por tarea considerablemente mayor no siempre se traducen en un menor gasto.
Las grandes empresas tecnológicas se están reorientando
Si el problema del consumo fuera simplemente un reto de presupuestación empresarial, tal vez sería manejable. Pero hay indicios de que incluso las empresas tecnológicas más grandes están reconociendo los límites del AI subvencionado AI .
La reciente reestructuración del modelo AI de Google resulta reveladora. La Compañia un sistema por niveles: AI , por 19,99 dólares al mes, y AI , por 249,99 dólares al mes, con un nuevo mecanismo AI que limita el uso en lugar de ofrecer acceso ilimitado. El cambio de un modelo de «consumo ilimitado» a uno de consumo medido es una señal significativa. Sugiere que ni siquiera una Compañia la infraestructura y los márgenes de Google puede sostener un consumo ilimitado de tokens a un precio fijo para cientos de millones de usuarios.
Las cifras de inversión en capital refuerzan esta interpretación. Alphabet había previsto una inversión de 75 000 millones de dólares para 2025, y ahora se espera que esa cifra alcance entre 175 000 y 185 000 millones de dólares en 2026, lo que supone casi duplicarla en un solo año. La mayor parte de ese aumento se destina a AI : data , chips personalizados y capacidad de red para gestionar la demanda de inferencia. Microsoft, Amazon y Meta están asumiendo compromisos de una magnitud similar.
Estos no son los patrones de gasto de las empresas que han resuelto la ecuación AI . Son los patrones de gasto de las empresas que compiten por desarrollar capacidad para una curva de demanda que ven venir, pero a la que aún no pueden atender de forma rentable. El modelo de subvención (que ofrece generosas AI a precios asequibles para impulsar su adopción) ha resultado eficaz a la hora de crear bases de usuarios. La pregunta es cuánto tiempo podrá mantenerse antes de que los precios tengan que reflejar los costes reales de computación.
Este patrón recuerda a los inicios de cloud , cuando los proveedores ofrecían precios muy bajos para ganar cuota de mercado y, a medida que el uso se consolidaba, fueron introduciendo gradualmente las instancias reservadas, los precios por niveles y la facturación basada en el consumo. El ciclo AI parece estar condensando esa misma evolución en un plazo mucho más breve.
El renacimiento de las soluciones locales
Para las organizaciones que observan cómo se desarrollan estas dinámicas, una alternativa ya conocida está volviendo a cobrar importancia: gestionar AI de forma local.
Merece la pena prestar atención al anuncio de NVIDIA sobre NemoClaw en la GTC de marzo de 2026. NemoClaw amplía OpenClaw (el AI agencial de código abierto que se ha convertido rápidamente en el estándar para crear sistemas multiagente) con funciones de nivel empresarial: controles de seguridad, enrutamiento de privacidad, registro de auditoría y compatibilidad nativa con la familia de modelos Nemotron de NVIDIA, que se ejecutan en hardware local. Se trata, en efecto, de una distribución empresarial de la AI agentiva, diseñada para ejecutarse en instalaciones locales o en cloud privada.
Jensen Huang lo expresó sin rodeos: «¿Cuál es vuestra estrategia de OpenClaw?», es ahora una pregunta habitual en las salas de juntas, según comentó Audiencia de la GTC. La implicación es que la infraestructura AI se está convirtiendo en un elemento tan fundamental para la estrategia tecnológica de las empresas como lo fue cloud hace una década, y que las organizaciones necesitan definir claramente dónde y cómo la van a implementar.
El atractivo de AI local AI más allá de la previsibilidad de los costes, aunque esto también es importante. Aborda data ( data sensibles data salen de la red de la organización), el cumplimiento normativo (especialmente relevante ahora que entran en vigor las disposiciones operativas AI de la UE) y la gestión de tokens (la capacidad de supervisar, medir y controlar exactamente cuánta capacidad de inferencia se consume, quién la consume y con qué fin). En un mundo en el que un único flujo de trabajo autónomo descontrolado puede consumir miles de dólares en tokens de la noche a la mañana, contar con controles a nivel de infraestructura no es un lujo.
Esto no significa que todas las organizaciones deban precipitarse a adquirir clústeres de GPU. Las necesidades de inversión son considerables, la complejidad operativa es real y el ritmo al que mejoran los modelos hace que el hardware local actual pueda quedar obsoleto en un plazo de dieciocho meses. Sin embargo, para las organizaciones con grandes volúmenes de inferencia, restricciones normativas o requisitos data , la rentabilidad de la propiedad propia resulta cada vez más competitiva frente a los precios cloud .
La paradoja de la democratización
Debajo de la dinámica de los costes se esconde una tensión más profunda que merece la pena señalar: las mismas fuerzas que hacen que AI sea AI accesible también están haciendo que su modelo económico sea menos sostenible a gran escala.
OpenClaw es quizás el ejemplo más claro. Como marco de código abierto para desarrollar AI con agentes, ha reducido drásticamente las barreras para crear flujos de trabajo sofisticados con múltiples agentes. Ahora, un equipo pequeño puede crear un producto AI que, hace dos años, habría requerido un equipo de infraestructura específico. Se trata de un cambio real, y el ecosistema que ha creado lo posiciona como algo parecido a un sistema operativo para AI personal y empresarial.
Pero la democratización tiene su propia curva de costes, y creo que el sector ha tardado en reconocerla. Cuando crear agentes se vuelve extremadamente fácil, las organizaciones tienden a crear muchos de ellos. Cada agente consume tokens. Cada interacción entre múltiples agentes multiplica el consumo. El efecto combinado es que la misma accesibilidad que hace que AI sea AI también AI hace AI , no porque cada llamada individual sea costosa, sino porque el volumen total de llamadas crece más rápido de lo que nadie había presupuestado.
Esta es la ilusión del coste simbólico en su forma más pura: el precio unitario de la inteligencia está bajando, pero las unidades consumidas por resultado están aumentando aún más rápido.
La encrucijada empresarial
Estas fuerzas actúan en la misma dirección: el aumento del consumo, el reajuste de las subvenciones, la maduración de las opciones locales y la creciente presión normativa. En conjunto, están empujando a las empresas hacia una decisión estratégica que determinará su AI durante los próximos años. Se están perfilando tres grandes vías.
Opción A: Soberanía local. Construir o alquilar AI dedicada para el control de costes, data y el cumplimiento normativo. NemoClaw y otras distribuciones empresariales similares hacen que esta opción sea cada vez más viable. Es la opción más adecuada para organizaciones con grandes volúmenes de inferencia, data confidenciales u operaciones en sectores regulados. La contrapartida es la intensidad de capital y la complejidad operativa.
Vía B:Cloud ». Está surgiendo una nueva categoría de cloud , centrada específicamente en AI en lugar de en cloud de uso general. Estos proveedores (CoreWeave, Lambda, Together AI y otros) ofrecen una infraestructura optimizada para GPU con modelos de precios diseñados para cargas de trabajo con gran volumen de inferencias. Representan una vía intermedia: cloud sin depender por completo del modelo de precios de los hiperescaladores.
Opción C: Dependencia de los hiperescaladores. Seguir apostando por AI cloud principales cloud , aceptando la evolución de sus precios a cambio de una mayor integración, un ecosistema más amplio y una mayor simplicidad operativa. Esta vía es la más fácil de iniciar, pero conlleva una mayor exposición a los cambios de precios a medida que se reducen las subvenciones.
En la práctica, la mayoría de las grandes organizaciones adoptarán un enfoque híbrido, combinando elementos de los tres modelos en función de la sensibilidad de la carga de trabajo, los requisitos normativos y los perfiles de costes. Lo fundamental es que esto se está convirtiendo en una decisión estratégica deliberada, en lugar de una decisión por defecto. Dado que el aumento de las tensiones geopolíticas, los requisitos data y los marcos normativos —como AI de la UE— apuntan todos en la misma dirección, la cuestión de dónde se ejecutan AI ya no es una mera decisión tecnológica. Se trata de una decisión de gobernanza.
Gestionar AI de forma responsable
Nos acercamos a un punto de inflexión en el debate AI . Durante los últimos dos años, la narrativa dominante ha girado en torno a una deflación imparable: los modelos son cada vez más baratos, la inferencia es cada vez más rápida y las barreras son cada vez menores. Esa narrativa no es errónea, pero es incompleta. Describe el precio de un solo token sin tener en cuenta cuántos tokens consume realmente una organización, ni a qué ritmo está creciendo esa cifra.
Esta disciplina emergente podría denominarse «gobernanza de tokens»: la capacidad organizativa para supervisar, prever y gestionar los costes AI con el mismo rigor que las empresas aplican al cloud , la plantilla o la asignación de capital. Esto incluye la observabilidad de los costes (saber en tiempo real qué consume cada flujo de trabajo, agente y equipo), las políticas de consumo (establecer límites en los flujos de trabajo de los agentes para evitar un gasto descontrolado de tokens) y la estrategia de infraestructura (tomar decisiones deliberadas sobre dónde se ejecuta la inferencia y a qué coste).
Las organizaciones que gestionen bien esta transición no serán necesariamente aquellas que menos inviertan en AI. Serán aquellas que comprendan con precisión en qué invierten y por qué. En un mundo en el que la inteligencia se está convirtiendo en un servicio básico, gestionar su aspecto económico de forma reflexiva puede resultar tan importante como aprovechar sus capacidades.

BLOG






