Víctor Coimbra ha sido reconocido en la lista Forbes Under 30 Brasil por sus destacadas contribuciones a la innovación en IA. Es cofundador de las operaciones latinoamericanas de Artefact, que ahora funciona como un centro tecnológico global con 200 empleados. Aporta una profunda experiencia en la ampliación de soluciones de IA y en la creación de equipos tecnológicos de alto rendimiento en mercados internacionales.

En marzo de 2025, una organización de investigación llamada METR publicó un hallazgo que recibió menos atención de la que merecía. Habían estado midiendo algo que no estaba de moda: cuánto tiempo podían trabajar los sistemas AI en tareas antes de fallar. No se trataba de lo que podían hacer en una sola interacción. METR quería saber cuánto tiempo podían mantener un esfuerzo coherente y útil.

Su metodología fue rigurosa: 170 tareas entre software, investigación y resolución de problemas. Líneas de base humanas a partir de 236 ejecuciones realizadas por expertos del dominio. Modelización estadística para predecir la probabilidad de éxito en función de la duración de la tarea.

El hallazgo principal: la capacidad de completar tareas se había duplicado cada siete meses durante seis años seguidos.

A mediados de 2024, los principales sistemas de IA podían completar con fiabilidad tareas que a un experto humano le llevarían unos diecinueve minutos. A principios de 2025, eso se extendía a casi una hora. Los sistemas más recientes alcanzan más de dos horas. La curva se estaba acelerando.

Pero bajo ese titular se esconde una historia más complicada.

La brecha entre las demostraciones y la entrega

En agosto de 2025, METR publicó un seguimiento que debería haber hecho reflexionar a todo el mundo. Pusieron a prueba la IA en dieciocho tareas reales: el tipo de trabajo que realmente importa en las organizaciones.

Algunos resultados son:

  • Tasa de aprobación de la prueba automatizada: 38%.
  • Listo para usar sin necesidad de limpieza humana: 0%.

Cero. Ni un solo trabajo producido por la IA estaba listo para ser utilizado sin intervención humana. Incluso cuando las comprobaciones automatizadas pasaban, cada salida tenía lagunas: documentación que faltaba, verificación incompleta, problemas de calidad que nunca sobrevivirían a la revisión en una organización real.

Tiempo medio de limpieza: 26 minutos, aproximadamente un tercio de la duración original de la tarea.

Esta brecha entre los puntos de referencia automatizados y la usabilidad en el mundo real es el primer problema del que nadie habla. Los sistemas de IA están mejorando en las cosas estrechas que miden los puntos de referencia. Están mejorando mucho más lentamente en el ámbito completo de lo que “completar una tarea” significa realmente en la práctica.

La distinción es importante para cualquiera que planifique inversiones. Un sistema que pasa una prueba pero produce un resultado inutilizable no es un sistema que pueda funcionar de forma autónoma. Es un sistema que requiere que alguien lo limpie.

La paradoja de la productividad

He aquí el segundo problema. En julio de 2025, METR llevó a cabo un estudio controlado con dieciséis profesionales experimentados. La pregunta: ¿la IA hace realmente más rápidas a las personas?

Resultado previsto antes del estudio: 24% de aumento de velocidad.
Resultado real: 19% de ralentización.

Las personas que utilizaron la IA tardaron más en completar las tareas que las que trabajaron sin ayuda. Y he aquí la parte inquietante: después del estudio, los participantes seguían creyendo que habían obtenido una aceleración de 20%. Su percepción era completamente inversa a la realidad.

Cinco factores explican la ralentización:

  1. Sobrecarga de depuración. Se ahorra tiempo generando trabajo que se perdía corrigiendo errores.
  2. Costes de cambio de contexto. Moverse entre las sugerencias de la IA y el trabajo real creaba carga cognitiva.
  3. Curva de aprendizaje. Incluso los profesionales experimentados dedican tiempo a averiguar cómo utilizar la IA de forma eficaz.
  4. Requisitos de calidad ocultos. La salida de IA requería una documentación, una verificación y un formato que los sistemas no proporcionaban.
  5. Normas del mundo real. Las organizaciones maduras tienen unos listones de calidad que el trabajo generado por la IA no cumple sistemáticamente.

Esta no es una historia sobre la inutilidad de la IA. Es una historia sobre la brecha existente entre las demostraciones de los vendedores y la realidad organizativa. La paradoja de la productividad sugiere que para los profesionales experimentados en procesos maduros, la asistencia actual de la IA puede crear más trabajo del que ahorra.

Por qué los sistemas de IA se degradan con el tiempo

¿Por qué los sistemas de IA tienen dificultades con las tareas más largas? La respuesta es arquitectónica, pero las implicaciones son estratégicas.

Piense en la IA como si tuviera una memoria de trabajo: una capacidad limitada para retener información sobre la tarea actual. A medida que esa capacidad se llena, el rendimiento se degrada. El sistema pierde la pista de decisiones anteriores. Se contradice a sí mismo. Olvida lo que intentaba conseguir.

Cualquiera que haya utilizado un asistente de IA durante más de treinta minutos lo sabe de primera mano. El sistema empieza de forma brusca. Al cabo de una hora, ha olvidado decisiones tomadas hace veinte minutos. Introduce errores que habría detectado antes. Pierde el hilo.

Las investigaciones lo han cuantificado. A medida que aumenta la cantidad de información que la IA necesita rastrear, la precisión puede caer entre 20 y 30 puntos porcentuales. En tareas de razonamiento complejas, un estudio demostró que la precisión caía de 82% a 22% a medida que aumentaba la complejidad de la tarea.

Las matemáticas no perdonan. Los pequeños errores se agravan. Si hay incluso una probabilidad de 1% de perder un detalle crítico cada vez que el sistema procesa nueva información, después de 100 interacciones la probabilidad de retener ese detalle cae a 37%.

No se trata de un fallo de ningún producto en particular. Es una limitación inherente al funcionamiento de los sistemas de IA actuales. Y crea un techo duro en lo que pueden poseer frente a lo que sólo pueden asistir.

No todas las tareas son iguales

La investigación de METR reveló otra complicación: La capacidad de la IA varía drásticamente según el ámbito.

Tareas analíticas y estructuradas como el análisis data y la generación de informes demuestran una gran capacidad: los sistemas pueden realizar trabajos que a los humanos les llevaría de una a tres horas.

Tareas que requieren interacción con sistemas externos-navegación, coordinación entre plataformas, manejo de la información visual- muestran una capacidad entre 40 y 100 veces inferior. Llevan aproximadamente dos años de retraso en cuanto a madurez.

Aplicaciones en el mundo físico como los vehículos autónomos mejoran mucho más lentamente que las tareas digitales.

La implicación: “La IA puede trabajar durante horas” es específica de cada dominio. Un sistema que se encarga de una tarea analítica de dos horas puede tener dificultades con una tarea de coordinación de veinte minutos. La curva de capacidad no es uniforme.

Para las organizaciones, esto significa adecuar cuidadosamente el despliegue de la IA a las características de la tarea. El ciclo del bombo publicitario trata la IA como una solución de uso general. La realidad es muy específica.

Qué significa realmente la tendencia

METR describió sus hallazgos como potencialmente “una de las tendencias más importantes de la historia humana”. Puede que eso sea exagerar. Pero la tendencia se ha mantenido durante seis años, y la dirección es clara.

La IA actual logra un éxito casi perfecto en tareas que llevan a los humanos menos de cuatro minutos. Consigue un éxito inferior a 10% en tareas que llevan más de cuatro horas. La zona interesante -y la que importa para las decisiones organizativas- se encuentra en algún punto intermedio.

He aquí mi honesta evaluación: tenemos IA que pueden mantener el esfuerzo durante una o dos horas en tareas bien definidas en dominios específicos. Estos sistemas no pueden hacer esto de forma fiable. No pueden hacerlo sin supervisión humana. No pueden hacer esto de forma que cumplan con los estándares de calidad organizativos reales sin limpieza.

Pero la trayectoria sugiere que estas limitaciones pueden no ser permanentes. Cada empresa importante de IA optimiza para un funcionamiento sostenido. Cada adoptante serio construye soluciones para las limitaciones actuales. Cada plataforma empresarial añade infraestructura para un trabajo de IA de mayor duración.

La cuestión no es si la IA acabará funcionando por horas. La cuestión es cuándo, y si la actual generación de soluciones llegará hasta ahí, o si seguimos esperando un avance que aún no se ha producido.

En Parte 2, examinaremos los tres enfoques que han surgido para ampliar la duración del trabajo de la IA: el ciclismo de arranque, la memoria selectiva y la coordinación basada en el trabajo en equipo.

 

Referencias

Documentos de investigación

Informes y libros blancos del sector

  • Modos de fallo en los sistemas de IA - Microsoft
  • Lecciones de 2025 sobre la IA y la confianza - Google Cloud
  • Estado de la ingeniería de IA - LangChain
  • Evaluación comparativa frente al mundo real - METR

Documentación técnica

  • Cómo construimos nuestro sistema de investigación multiagente - Anthropic
  • Especificación del protocolo de contexto de modelo - modelcontextprotocol.io
  • Documentación sobre ciclismo de iniciación (“Ralph Wiggum”) - Geoffrey Huntley (ghuntley.com/ralph/)