	{"id":1083983,"date":"2026-02-06T10:28:09","date_gmt":"2026-02-06T10:28:09","guid":{"rendered":"https:\/\/www.artefact.com\/?post_type=blog&#038;p=1083983"},"modified":"2026-02-10T16:18:03","modified_gmt":"2026-02-10T16:18:03","slug":"long-run-ai-agents-part-1-the-problem-nobody-talks-about","status":"publish","type":"blog","link":"https:\/\/www.artefact.com\/es\/blog\/long-run-ai-agents-part-1-the-problem-nobody-talks-about\/","title":{"rendered":"Agentes AI a largo plazo, parte 1: El problema del que nadie habla"},"content":{"rendered":"<p><em><a href=\"https:\/\/www.linkedin.com\/in\/victor-coimbra-999a02a0\/\" target=\"_blank\" rel=\"noopener\">V\u00edctor Coimbra<\/a> ha sido reconocido en la lista Forbes Under 30 Brasil por sus destacadas contribuciones a la innovaci\u00f3n en IA. Es cofundador de las operaciones latinoamericanas de Artefact, que ahora funciona como un centro tecnol\u00f3gico global con 200 empleados. Aporta una profunda experiencia en la ampliaci\u00f3n de soluciones de IA y en la creaci\u00f3n de equipos tecnol\u00f3gicos de alto rendimiento en mercados internacionales.<\/em><\/p>\n<p>En marzo de 2025, una organizaci\u00f3n de investigaci\u00f3n llamada METR public\u00f3 un hallazgo que recibi\u00f3 menos atenci\u00f3n de la que merec\u00eda. Hab\u00edan estado midiendo algo que no estaba de moda: cu\u00e1nto tiempo pod\u00edan trabajar los sistemas AI en tareas antes de fallar. No se trataba de lo que pod\u00edan hacer en una sola interacci\u00f3n. METR quer\u00eda saber cu\u00e1nto tiempo pod\u00edan mantener un esfuerzo coherente y \u00fatil.<\/p>\n<p>Su metodolog\u00eda fue rigurosa: 170 tareas entre software, investigaci\u00f3n y resoluci\u00f3n de problemas. L\u00edneas de base humanas a partir de 236 ejecuciones realizadas por expertos del dominio. Modelizaci\u00f3n estad\u00edstica para predecir la probabilidad de \u00e9xito en funci\u00f3n de la duraci\u00f3n de la tarea.<\/p>\n<p>El hallazgo principal: la capacidad de completar tareas se hab\u00eda duplicado cada siete meses durante seis a\u00f1os seguidos.<\/p>\n<p>A mediados de 2024, los principales sistemas de IA pod\u00edan completar con fiabilidad tareas que a un experto humano le llevar\u00edan unos diecinueve minutos. A principios de 2025, eso se extend\u00eda a casi una hora. Los sistemas m\u00e1s recientes alcanzan m\u00e1s de dos horas. La curva se estaba acelerando.<\/p>\n<p>Pero bajo ese titular se esconde una historia m\u00e1s complicada.<\/p>\n<h2>La brecha entre las demostraciones y la entrega<\/h2>\n<p>En agosto de 2025, METR public\u00f3 un seguimiento que deber\u00eda haber hecho reflexionar a todo el mundo. Pusieron a prueba la IA en dieciocho tareas reales: el tipo de trabajo que realmente importa en las organizaciones.<\/p>\n<p>Algunos resultados son:<\/p>\n<ul>\n<li>Tasa de aprobaci\u00f3n de la prueba automatizada: 38%.<\/li>\n<li>Listo para usar sin necesidad de limpieza humana: 0%.<\/li>\n<\/ul>\n<p>Cero. Ni un solo trabajo producido por la IA estaba listo para ser utilizado sin intervenci\u00f3n humana. Incluso cuando las comprobaciones automatizadas pasaban, cada salida ten\u00eda lagunas: documentaci\u00f3n que faltaba, verificaci\u00f3n incompleta, problemas de calidad que nunca sobrevivir\u00edan a la revisi\u00f3n en una organizaci\u00f3n real.<\/p>\n<p>Tiempo medio de limpieza: 26 minutos, aproximadamente un tercio de la duraci\u00f3n original de la tarea.<\/p>\n<p>Esta brecha entre los puntos de referencia automatizados y la usabilidad en el mundo real es el primer problema del que nadie habla. Los sistemas de IA est\u00e1n mejorando en las cosas estrechas que miden los puntos de referencia. Est\u00e1n mejorando mucho m\u00e1s lentamente en el \u00e1mbito completo de lo que \u201ccompletar una tarea\u201d significa realmente en la pr\u00e1ctica.<\/p>\n<p>La distinci\u00f3n es importante para cualquiera que planifique inversiones. Un sistema que pasa una prueba pero produce un resultado inutilizable no es un sistema que pueda funcionar de forma aut\u00f3noma. Es un sistema que requiere que alguien lo limpie.<\/p>\n<h2>La paradoja de la productividad<\/h2>\n<p>He aqu\u00ed el segundo problema. En julio de 2025, METR llev\u00f3 a cabo un estudio controlado con diecis\u00e9is profesionales experimentados. La pregunta: \u00bfla IA hace realmente m\u00e1s r\u00e1pidas a las personas?<\/p>\n<p><strong>Resultado previsto antes del estudio: 24% de aumento de velocidad.<\/strong><br \/>\n<strong>Resultado real: 19% de ralentizaci\u00f3n.<\/strong><\/p>\n<p>Las personas que utilizaron la IA tardaron m\u00e1s en completar las tareas que las que trabajaron sin ayuda. Y he aqu\u00ed la parte inquietante: despu\u00e9s del estudio, los participantes segu\u00edan creyendo que hab\u00edan obtenido una aceleraci\u00f3n de 20%. Su percepci\u00f3n era completamente inversa a la realidad.<\/p>\n<p>Cinco factores explican la ralentizaci\u00f3n:<\/p>\n<ol>\n<li><strong>Sobrecarga de depuraci\u00f3n.<\/strong> Se ahorra tiempo generando trabajo que se perd\u00eda corrigiendo errores.<\/li>\n<li><strong>Costes de cambio de contexto.<\/strong> Moverse entre las sugerencias de la IA y el trabajo real creaba carga cognitiva.<\/li>\n<li><strong>Curva de aprendizaje.<\/strong> Incluso los profesionales experimentados dedican tiempo a averiguar c\u00f3mo utilizar la IA de forma eficaz.<\/li>\n<li><strong>Requisitos de calidad ocultos.<\/strong> La salida de IA requer\u00eda una documentaci\u00f3n, una verificaci\u00f3n y un formato que los sistemas no proporcionaban.<\/li>\n<li><strong>Normas del mundo real.<\/strong> Las organizaciones maduras tienen unos listones de calidad que el trabajo generado por la IA no cumple sistem\u00e1ticamente.<\/li>\n<\/ol>\n<p>Esta no es una historia sobre la inutilidad de la IA. Es una historia sobre la brecha existente entre las demostraciones de los vendedores y la realidad organizativa. La paradoja de la productividad sugiere que para los profesionales experimentados en procesos maduros, la asistencia actual de la IA puede crear m\u00e1s trabajo del que ahorra.<\/p>\n<h2>Por qu\u00e9 los sistemas de IA se degradan con el tiempo<\/h2>\n<p>\u00bfPor qu\u00e9 los sistemas de IA tienen dificultades con las tareas m\u00e1s largas? La respuesta es arquitect\u00f3nica, pero las implicaciones son estrat\u00e9gicas.<\/p>\n<p>Piense en la IA como si tuviera una memoria de trabajo: una capacidad limitada para retener informaci\u00f3n sobre la tarea actual. A medida que esa capacidad se llena, el rendimiento se degrada. El sistema pierde la pista de decisiones anteriores. Se contradice a s\u00ed mismo. Olvida lo que intentaba conseguir.<\/p>\n<p>Cualquiera que haya utilizado un asistente de IA durante m\u00e1s de treinta minutos lo sabe de primera mano. El sistema empieza de forma brusca. Al cabo de una hora, ha olvidado decisiones tomadas hace veinte minutos. Introduce errores que habr\u00eda detectado antes. Pierde el hilo.<\/p>\n<p>Las investigaciones lo han cuantificado. A medida que aumenta la cantidad de informaci\u00f3n que la IA necesita rastrear, la precisi\u00f3n puede caer entre 20 y 30 puntos porcentuales. En tareas de razonamiento complejas, un estudio demostr\u00f3 que la precisi\u00f3n ca\u00eda de 82% a 22% a medida que aumentaba la complejidad de la tarea.<\/p>\n<p>Las matem\u00e1ticas no perdonan. Los peque\u00f1os errores se agravan. Si hay incluso una probabilidad de 1% de perder un detalle cr\u00edtico cada vez que el sistema procesa nueva informaci\u00f3n, despu\u00e9s de 100 interacciones la probabilidad de retener ese detalle cae a 37%.<\/p>\n<p>No se trata de un fallo de ning\u00fan producto en particular. Es una limitaci\u00f3n inherente al funcionamiento de los sistemas de IA actuales. Y crea un techo duro en lo que pueden poseer frente a lo que s\u00f3lo pueden asistir.<\/p>\n<h2>No todas las tareas son iguales<\/h2>\n<p>La investigaci\u00f3n de METR revel\u00f3 otra complicaci\u00f3n: La capacidad de la IA var\u00eda dr\u00e1sticamente seg\u00fan el \u00e1mbito.<\/p>\n<p><strong>Tareas anal\u00edticas y estructuradas<\/strong> como el an\u00e1lisis data y la generaci\u00f3n de informes demuestran una gran capacidad: los sistemas pueden realizar trabajos que a los humanos les llevar\u00eda de una a tres horas.<\/p>\n<p><strong>Tareas que requieren interacci\u00f3n con sistemas externos<\/strong>-navegaci\u00f3n, coordinaci\u00f3n entre plataformas, manejo de la informaci\u00f3n visual- muestran una capacidad entre 40 y 100 veces inferior. Llevan aproximadamente dos a\u00f1os de retraso en cuanto a madurez.<\/p>\n<p><strong>Aplicaciones en el mundo f\u00edsico<\/strong> como los veh\u00edculos aut\u00f3nomos mejoran mucho m\u00e1s lentamente que las tareas digitales.<\/p>\n<p>La implicaci\u00f3n: \u201cLa IA puede trabajar durante horas\u201d es espec\u00edfica de cada dominio. Un sistema que se encarga de una tarea anal\u00edtica de dos horas puede tener dificultades con una tarea de coordinaci\u00f3n de veinte minutos. La curva de capacidad no es uniforme.<\/p>\n<p>Para las organizaciones, esto significa adecuar cuidadosamente el despliegue de la IA a las caracter\u00edsticas de la tarea. El ciclo del bombo publicitario trata la IA como una soluci\u00f3n de uso general. La realidad es muy espec\u00edfica.<\/p>\n<h2>Qu\u00e9 significa realmente la tendencia<\/h2>\n<p>METR describi\u00f3 sus hallazgos como potencialmente \u201cuna de las tendencias m\u00e1s importantes de la historia humana\u201d. Puede que eso sea exagerar. Pero la tendencia se ha mantenido durante seis a\u00f1os, y la direcci\u00f3n es clara.<\/p>\n<p>La IA actual logra un \u00e9xito casi perfecto en tareas que llevan a los humanos menos de cuatro minutos. Consigue un \u00e9xito inferior a 10% en tareas que llevan m\u00e1s de cuatro horas. La zona interesante -y la que importa para las decisiones organizativas- se encuentra en alg\u00fan punto intermedio.<\/p>\n<p>He aqu\u00ed mi honesta evaluaci\u00f3n: tenemos IA que pueden mantener el esfuerzo durante una o dos horas en tareas bien definidas en dominios espec\u00edficos. Estos sistemas no pueden hacer esto de forma fiable. No pueden hacerlo sin supervisi\u00f3n humana. No pueden hacer esto de forma que cumplan con los est\u00e1ndares de calidad organizativos reales sin limpieza.<\/p>\n<p>Pero la trayectoria sugiere que estas limitaciones pueden no ser permanentes. Cada empresa importante de IA optimiza para un funcionamiento sostenido. Cada adoptante serio construye soluciones para las limitaciones actuales. Cada plataforma empresarial a\u00f1ade infraestructura para un trabajo de IA de mayor duraci\u00f3n.<\/p>\n<p>La cuesti\u00f3n no es si la IA acabar\u00e1 funcionando por horas. La cuesti\u00f3n es cu\u00e1ndo, y si la actual generaci\u00f3n de soluciones llegar\u00e1 hasta ah\u00ed, o si seguimos esperando un avance que a\u00fan no se ha producido.<\/p>\n<p><em>En <a href=\"https:\/\/www.artefact.com\/es\/blog\/long-run-ai-agents-part-2-three-approaches-that-actually-work\/\">Parte 2<\/a>, examinaremos los tres enfoques que han surgido para ampliar la duraci\u00f3n del trabajo de la IA: el ciclismo de arranque, la memoria selectiva y la coordinaci\u00f3n basada en el trabajo en equipo.<\/em><\/p>\n<p>&nbsp;<\/p>\n<h3>Referencias<\/h3>\n<p><span style=\"text-decoration: underline;\">Documentos de investigaci\u00f3n<\/span><\/p>\n<ul>\n<li>Construir una IA lista para la producci\u00f3n con memoria a largo plazo escalable - <a href=\"https:\/\/arxiv.org\/abs\/2504.19413\" target=\"_blank\" rel=\"noopener\">arxiv.org\/abs\/2504.19413<\/a><\/li>\n<li>Arquitectura de memoria basada en m\u00faltiples grafos para la IA - <a href=\"http:\/\/arxiv.org\/abs\/2601.03236\" target=\"_blank\" rel=\"noopener\">arxiv.org\/abs\/2601.03236<\/a><\/li>\n<li>Medir la IA en la producci\u00f3n - <a href=\"http:\/\/arxiv.org\/abs\/2512.04123\" target=\"_blank\" rel=\"noopener\">arxiv.org\/abs\/2512.04123<\/a><\/li>\n<\/ul>\n<p><span style=\"text-decoration: underline;\">Informes y libros blancos del sector<\/span><\/p>\n<ul>\n<li>Modos de fallo en los sistemas de IA - Microsoft<\/li>\n<li>Lecciones de 2025 sobre la IA y la confianza - Google Cloud<\/li>\n<li>Estado de la ingenier\u00eda de IA - LangChain<\/li>\n<li>Evaluaci\u00f3n comparativa frente al mundo real - METR<\/li>\n<\/ul>\n<p><span style=\"text-decoration: underline;\">Documentaci\u00f3n t\u00e9cnica<\/span><\/p>\n<ul>\n<li>C\u00f3mo construimos nuestro sistema de investigaci\u00f3n multiagente - Anthropic<\/li>\n<li>Especificaci\u00f3n del protocolo de contexto de modelo - modelcontextprotocol.io<\/li>\n<li>Documentaci\u00f3n sobre ciclismo de iniciaci\u00f3n (\u201cRalph Wiggum\u201d) - Geoffrey Huntley (<a href=\"http:\/\/ghuntley.com\/ralph\/\" target=\"_blank\" rel=\"noopener\">ghuntley.com\/ralph\/<\/a>)<\/li>\n<\/ul>","protected":false},"excerpt":{"rendered":"<p>En marzo de 2025, una organizaci\u00f3n de investigaci\u00f3n llamada METR public\u00f3 un hallazgo que recibi\u00f3 menos atenci\u00f3n de la que merec\u00eda. Hab\u00edan estado midiendo algo que no estaba de moda: cu\u00e1nto tiempo pod\u00edan trabajar los sistemas AI en tareas antes de fallar. No se trataba de lo que pod\u00edan hacer en una sola interacci\u00f3n. METR quer\u00eda saber cu\u00e1nto tiempo pod\u00edan mantener un esfuerzo coherente y \u00fatil.<\/p>","protected":false},"featured_media":1086605,"parent":0,"template":"","meta":{"_acf_changed":false,"ep_exclude_from_search":false},"blog-category":[2995],"blog-language":[2991],"class_list":["post-1083983","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-ai-technology","blog-language-en"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.artefact.com\/es\/wp-json\/wp\/v2\/blog\/1083983","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.artefact.com\/es\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/www.artefact.com\/es\/wp-json\/wp\/v2\/types\/blog"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.artefact.com\/es\/wp-json\/wp\/v2\/media\/1086605"}],"wp:attachment":[{"href":"https:\/\/www.artefact.com\/es\/wp-json\/wp\/v2\/media?parent=1083983"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/www.artefact.com\/es\/wp-json\/wp\/v2\/blog-category?post=1083983"},{"taxonomy":"blog-language","embeddable":true,"href":"https:\/\/www.artefact.com\/es\/wp-json\/wp\/v2\/blog-language?post=1083983"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}