AI a largo plazo, parte 1: El problema del que nadie habla

Víctor Coimbra ha sido incluido en la lista «Forbes Under 30 Brasil» por sus destacadas contribuciones a AI . Fue cofundador Artefactlas operaciones Artefacten Latinoamérica, que actualmente constituyen un centro tecnológico global con 200 empleados. Aporta una amplia experiencia en la ampliación AI y en la creación de equipos tecnológicos de alto rendimiento en mercados internacionales.

En marzo de 2025, una organización de investigación llamada METR publicó un hallazgo que recibió menos atención de la que merecía. Habían estado midiendo algo que no estaba de moda: cuánto tiempo podían trabajar AI en tareas antes de fallar. No se trataba de lo que podían hacer en una sola interacción. METR quería saber cuánto tiempo podían mantener un esfuerzo coherente y útil.

Su metodología fue rigurosa: 170 tareas en los ámbitos del software, la investigación y la resolución de problemas. Referencias humanas obtenidas a partir de 236 pruebas realizadas por expertos en la materia. Modelización estadística para predecir la probabilidad de éxito en función de la duración de la tarea.

La conclusión principal: la capacidad para completar tareas se había duplicado cada siete meses durante seis años consecutivos.

A mediados de 2024, AI principales AI podían realizar con fiabilidad tareas que a un experto humano le llevarían unos diecinueve minutos. A principios de 2025, ese tiempo se había alargado hasta casi una hora. Los sistemas más recientes superan las dos horas. La curva se estaba acelerando.

Pero detrás de ese titular se esconde una historia más compleja.

La brecha entre las demostraciones y la ejecución

En agosto de 2025, METR publicó un estudio de seguimiento que debería haber hecho reflexionar a todo el mundo. Probaron AI dieciocho tareas reales, es decir, el tipo de trabajo que realmente importa en las organizaciones.

Algunos resultados son:

Índice de superación de las pruebas automatizadas: 38 %.
Listo para usar sin necesidad de limpieza manual: 0 %.

Cero. Ni un solo trabajo generado por la AI listo para su uso sin intervención humana. Incluso cuando superaba los controles automáticos, todos los resultados presentaban deficiencias: falta de documentación, verificación incompleta o problemas de calidad que nunca habrían superado una revisión en una organización real.

Tiempo medio de limpieza: 26 minutos, aproximadamente un tercio de la duración original de la tarea.

Esta brecha entre las pruebas de rendimiento automatizadas y la usabilidad en el mundo real es el primer problema del que nadie habla. AI están mejorando en los aspectos concretos que miden las pruebas de rendimiento. Sin embargo, mejoran mucho más lentamente en todo lo que realmente implica «realizar una tarea» en la práctica.

Esta distinción es importante para cualquiera que esté planeando realizar inversiones. Un sistema que supera una prueba pero genera resultados inútiles no es un sistema capaz de funcionar de forma autónoma. Es un sistema que requiere que alguien tenga que arreglar lo que ha estropeado.

La paradoja de la productividad

Aquí está el segundo problema. En julio de 2025, METR llevó a cabo un estudio controlado con dieciséis profesionales experimentados. La pregunta era: AI hace que las personas sean más rápidas?

Resultado esperado antes del estudio: un aumento de la velocidad del 24 %.
Resultado real: una ralentización del 19 %.

Las personas que utilizaban AI más en completar las tareas que las que trabajaban sin ayuda. Y aquí viene lo preocupante: tras el estudio, los participantes seguían creyendo que habían conseguido una aceleración del 20 %. Su percepción era totalmente contraria a la realidad.

La desaceleración se debió a cinco factores:

El tiempo dedicado a la depuración. El tiempo que se ahorró en la creación del trabajo se perdió en corregir errores.
Costes de cambio de contexto. Pasar de las sugerencias AIal trabajo real generaba una carga cognitiva.
Curva de aprendizaje. Incluso los profesionales con experiencia dedican tiempo a averiguar cómo utilizar AI .
Requisitos de calidad ocultos. AI requerían documentación, verificación y formato que los sistemas no proporcionaban.
Estándares del mundo real. Las organizaciones consolidadas tienen unos niveles de calidad que el trabajo AI no lograba cumplir de forma sistemática.

Esta no es una historia sobre AI . Es una historia sobre la brecha que existe entre las demostraciones de los proveedores y la realidad de las organizaciones. La paradoja de la productividad sugiere que, para los profesionales con experiencia que trabajan con procesos consolidados, AI actual AI puede generar más trabajo del que ahorra.

Por qué AI pierden eficacia con el tiempo

¿Por qué AI tienen dificultades con las tareas más largas? La respuesta es de carácter arquitectónico, pero las implicaciones son estratégicas.

Imagina AI una memoria de trabajo AI una capacidad limitada para retener información sobre la tarea actual. A medida que esa capacidad se va agotando, el rendimiento disminuye. El sistema pierde de vista las decisiones anteriores. Se contradice a sí mismo. Olvida lo que estaba tratando de lograr.

Cualquiera que haya utilizado un AI durante más de treinta minutos lo sabe de primera mano. Al principio, el sistema funciona a la perfección. Pero al cabo de una hora, ya ha olvidado decisiones que tomó hace veinte minutos. Comete errores que antes habría detectado. Pierde el hilo.

Las investigaciones han cuantificado este fenómeno. A medida que aumenta la cantidad de información AI procesar, la precisión puede reducirse entre un 20 % y un 30 %. En el caso de tareas de razonamiento complejas, un estudio demostró que la precisión descendía del 82 % al 22 % a medida que aumentaba la complejidad de la tarea.

Las matemáticas no perdonan. Los pequeños errores se acumulan. Si existe tan solo un 1 % de probabilidad de perder un detalle crucial cada vez que el sistema procesa nueva información, tras 100 interacciones la probabilidad de conservar ese detalle se reduce al 37 %.

No se trata de un fallo de ningún producto en concreto. Es una limitación inherente al funcionamiento AI actuales. Y supone un límite insalvable entre lo que pueden hacer por sí mismos y aquello en lo que solo pueden ayudar.

No todas las tareas son iguales

La investigación de METR puso de manifiesto otra complicación: AI varía considerablemente según el ámbito.

Las tareas analíticas y estructuradas, como data y la elaboración de informes, ponen de manifiesto una gran capacidad: los sistemas pueden realizar un trabajo que a los humanos les llevaría entre una y tres horas.

Las tareas que requieren interactuar con sistemas externos—navegación, coordinación entre plataformas, gestión de información visual— muestran una capacidad entre 40 y 100 veces inferior. Su grado de madurez es aproximadamente dos años inferior.

Las aplicaciones del mundo físico, como los vehículos autónomos, avanzan mucho más lentamente que las tareas digitales.

La conclusión de queAI trabajar durante horas» depende del ámbito concreto. Un sistema capaz de realizar una tarea analítica de dos horas puede tener dificultades con una tarea de coordinación de veinte minutos. La curva de capacidad no es uniforme.

Para las organizaciones, esto implica adaptar cuidadosamente AI de AI a las características de cada tarea. El ciclo de expectación presenta AI una solución de uso general. La realidad es muy concreta.

Qué significa realmente esta tendencia

El METR calificó sus hallazgos como «una de las tendencias más importantes de la historia de la humanidad». Quizá sea una exageración. Pero la tendencia se ha mantenido durante seis años y la dirección es clara.

AI actual AI un éxito casi perfecto en tareas que a los humanos les llevan menos de cuatro minutos. En cambio, su tasa de éxito es inferior al 10 % en tareas que requieren más de cuatro horas. La zona interesante —y la que realmente importa a la hora de tomar decisiones organizativas— se encuentra en algún punto intermedio.

Esta es mi opinión sincera: contamos con AI mantener su rendimiento durante una o dos horas en tareas bien definidas dentro de ámbitos específicos. Estos sistemas no pueden hacerlo de forma fiable. No pueden hacerlo sin supervisión humana. No pueden hacerlo de manera que cumplan los estándares de calidad reales de la organización sin necesidad de una revisión posterior.

Sin embargo, la evolución sugiere que estas limitaciones podrían no ser permanentes. TodasCompañia grandesCompañia AI Compañia el funcionamiento continuado. Todos los usuarios serios desarrollan soluciones alternativas para sortear las limitaciones actuales. Todas las plataformas empresariales incorporan infraestructura para AI de larga duración.

La cuestión no es si AI funcionando durante horas. La cuestión es cuándo —y si la generación actual de soluciones lo conseguirá, o si seguimos esperando un avance decisivo que aún no se ha producido—.

En la segunda parte, analizaremos los tres enfoques que han surgido para prolongar la duración AI : el ciclo de reinicio, la memoria selectiva y la coordinación en equipo.

Referencias

Artículos de investigación

Creación de AI lista para la producción AI memoria a largo plazo escalable — arxiv.org/abs/2504.19413
Arquitectura de memoria basada en multigrafos para AI arxiv.org/abs/2601.03236
Evaluación de AI producción — arxiv.org/abs/2512.04123

Reports sectoriales Reports documentos técnicos

Modos de fallo en AI — Microsoft
Lecciones de 2025 sobre AI la confianza — Google Cloud
El estado de AI — LangChain
Evaluación comparativa frente a evaluación en condiciones reales — METR

Documentación técnica

Cómo creamos nuestro sistema de investigación multiagente — Anthropic
Especificación del Protocolo de Contexto de Modelos — modelcontextprotocol.io
Documentación de Fresh-Start Cycling («Ralph Wiggum») — Geoffrey Huntley (ghuntley.com/ralph/)

Contáctanos