{"id":1083983,"date":"2026-02-06T10:28:09","date_gmt":"2026-02-06T10:28:09","guid":{"rendered":"https:\/\/www.artefact.com\/?post_type=blog&#038;p=1083983"},"modified":"2026-02-10T16:18:03","modified_gmt":"2026-02-10T16:18:03","slug":"long-run-ai-agents-part-1-the-problem-nobody-talks-about","status":"publish","type":"blog","link":"https:\/\/www.artefact.com\/br\/blog\/long-run-ai-agents-part-1-the-problem-nobody-talks-about\/","title":{"rendered":"Agentes AI de longo prazo, parte 1: O problema sobre o qual ningu\u00e9m fala"},"content":{"rendered":"<p><em><a href=\"https:\/\/www.linkedin.com\/in\/victor-coimbra-999a02a0\/\" target=\"_blank\" rel=\"noopener\">Victor Coimbra<\/a> foi reconhecido na lista Forbes Under 30 Brazil por suas contribui\u00e7\u00f5es excepcionais para a inova\u00e7\u00e3o em IA. Ele foi cofundador das opera\u00e7\u00f5es latino-americanas da Artefact, que agora funcionam como um centro tecnol\u00f3gico global com 200 funcion\u00e1rios. Ele traz uma profunda experi\u00eancia em dimensionar solu\u00e7\u00f5es de IA e criar equipes de tecnologia de alto desempenho em mercados internacionais.<\/em><\/p>\n<p>Em mar\u00e7o de 2025, uma organiza\u00e7\u00e3o de pesquisa chamada METR publicou uma descoberta que recebeu menos aten\u00e7\u00e3o do que merecia. Eles estavam medindo algo que n\u00e3o estava na moda: quanto tempo os sistemas AI podiam trabalhar em tarefas antes de serem interrompidos. N\u00e3o o que eles conseguiam fazer em uma \u00fanica intera\u00e7\u00e3o. O METR queria saber quanto tempo eles conseguiam manter um esfor\u00e7o coerente e \u00fatil.<\/p>\n<p>Sua metodologia foi rigorosa: 170 tarefas em software, pesquisa e solu\u00e7\u00e3o de problemas. Linhas de base humanas de 236 execu\u00e7\u00f5es por especialistas no dom\u00ednio. Modelagem estat\u00edstica para prever a probabilidade de sucesso com base na dura\u00e7\u00e3o da tarefa.<\/p>\n<p>A principal descoberta: as capacidades de conclus\u00e3o de tarefas t\u00eam dobrado a cada sete meses por seis anos consecutivos.<\/p>\n<p>Em meados de 2024, os principais sistemas de IA podiam concluir de forma confi\u00e1vel tarefas que levariam cerca de dezenove minutos para um especialista humano. No in\u00edcio de 2025, esse tempo subiu para quase uma hora. Os sistemas mais novos chegam a mais de duas horas. A curva estava se acelerando.<\/p>\n<p>Mas, por tr\u00e1s dessa manchete, h\u00e1 uma hist\u00f3ria mais complicada.<\/p>\n<h2>A lacuna entre as demonstra\u00e7\u00f5es e a entrega<\/h2>\n<p>Em agosto de 2025, o METR publicou um acompanhamento que deveria ter feito todo mundo parar. Eles testaram a IA em dezoito tarefas reais - o tipo de trabalho que realmente importa nas organiza\u00e7\u00f5es.<\/p>\n<p>Alguns resultados s\u00e3o:<\/p>\n<ul>\n<li>Taxa de aprova\u00e7\u00e3o no teste automatizado: 38%.<\/li>\n<li>Pronto para uso sem necessidade de limpeza humana: 0%.<\/li>\n<\/ul>\n<p>Zero. Nem um \u00fanico trabalho produzido pela IA estava pronto para ser usado sem interven\u00e7\u00e3o humana. Mesmo quando as verifica\u00e7\u00f5es automatizadas eram aprovadas, todos os resultados apresentavam lacunas: documenta\u00e7\u00e3o ausente, verifica\u00e7\u00e3o incompleta, problemas de qualidade que nunca sobreviveriam \u00e0 revis\u00e3o em uma organiza\u00e7\u00e3o real.<\/p>\n<p>Tempo m\u00e9dio de limpeza: 26 minutos - aproximadamente um ter\u00e7o da dura\u00e7\u00e3o original da tarefa.<\/p>\n<p>Essa lacuna entre os benchmarks automatizados e a usabilidade no mundo real \u00e9 o primeiro problema sobre o qual ningu\u00e9m fala. Os sistemas de IA est\u00e3o melhorando nos aspectos restritos que os benchmarks medem. Eles est\u00e3o melhorando muito mais lentamente no escopo completo do que \u201cconcluir uma tarefa\u201d realmente significa na pr\u00e1tica.<\/p>\n<p>Essa distin\u00e7\u00e3o \u00e9 importante para quem planeja investimentos. Um sistema que passa em um teste, mas produz um resultado inutiliz\u00e1vel, n\u00e3o \u00e9 um sistema que pode funcionar de forma aut\u00f4noma. \u00c9 um sistema que exige que algu\u00e9m fa\u00e7a a limpeza.<\/p>\n<h2>O paradoxo da produtividade<\/h2>\n<p>Aqui est\u00e1 o segundo problema. Em julho de 2025, o METR realizou um estudo controlado com dezesseis profissionais experientes. A pergunta: a IA realmente torna as pessoas mais r\u00e1pidas?<\/p>\n<p><strong>Resultado esperado antes do estudo: aumento de velocidade de 24%.<\/strong><br \/>\n<strong>Resultado real: desacelera\u00e7\u00e3o de 19%.<\/strong><\/p>\n<p>As pessoas que usaram a IA levaram mais tempo para concluir as tarefas do que as pessoas que trabalharam sem assist\u00eancia. E aqui est\u00e1 a parte perturbadora: ap\u00f3s o estudo, os participantes ainda acreditavam que tinham obtido um aumento de velocidade de 20%. Sua percep\u00e7\u00e3o foi completamente invertida em rela\u00e7\u00e3o \u00e0 realidade.<\/p>\n<p>Cinco fatores explicaram a desacelera\u00e7\u00e3o:<\/p>\n<ol>\n<li><strong>Sobrecarga de depura\u00e7\u00e3o.<\/strong> O senhor economiza tempo gerando perda de trabalho ao corrigir erros.<\/li>\n<li><strong>Custos de troca de contexto.<\/strong> O deslocamento entre as sugest\u00f5es da IA e o trabalho real criou uma carga cognitiva.<\/li>\n<li><strong>Curva de aprendizado.<\/strong> At\u00e9 mesmo profissionais experientes gastam tempo para descobrir como usar a IA de forma eficaz.<\/li>\n<li><strong>Requisitos de qualidade ocultos.<\/strong> A sa\u00edda de IA exigia documenta\u00e7\u00e3o, verifica\u00e7\u00e3o e formata\u00e7\u00e3o que os sistemas n\u00e3o forneciam.<\/li>\n<li><strong>Padr\u00f5es do mundo real.<\/strong> As organiza\u00e7\u00f5es maduras t\u00eam padr\u00f5es de qualidade que o trabalho gerado por IA sistematicamente n\u00e3o consegue atender.<\/li>\n<\/ol>\n<p>Esta n\u00e3o \u00e9 uma hist\u00f3ria sobre a inutilidade da IA. \u00c9 uma hist\u00f3ria sobre a lacuna entre as demonstra\u00e7\u00f5es dos fornecedores e a realidade organizacional. O paradoxo da produtividade sugere que, para profissionais experientes em processos maduros, a assist\u00eancia atual da IA pode criar mais trabalho do que economizar.<\/p>\n<h2>Por que os sistemas de IA se degradam com o tempo<\/h2>\n<p>Por que os sistemas de IA t\u00eam dificuldades com tarefas mais longas? A resposta \u00e9 arquitet\u00f4nica, mas as implica\u00e7\u00f5es s\u00e3o estrat\u00e9gicas.<\/p>\n<p>Pense na IA como tendo uma mem\u00f3ria de trabalho - uma capacidade limitada de armazenar informa\u00e7\u00f5es sobre a tarefa atual. \u00c0 medida que essa capacidade se esgota, o desempenho diminui. O sistema perde o controle das decis\u00f5es anteriores. Ele se contradiz. Ele se esquece do que estava tentando realizar.<\/p>\n<p>Qualquer pessoa que tenha usado um assistente de IA por mais de trinta minutos sabe disso em primeira m\u00e3o. O sistema come\u00e7a afiado. Uma hora depois, ele j\u00e1 esqueceu as decis\u00f5es tomadas h\u00e1 vinte minutos. Ele introduz erros que teria detectado antes. Ele perde o fio da meada.<\/p>\n<p>A pesquisa quantificou isso. \u00c0 medida que o volume de informa\u00e7\u00f5es que a IA precisa rastrear aumenta, a precis\u00e3o pode cair de 20 a 30 pontos percentuais. Em tarefas de racioc\u00ednio complexas, um estudo mostrou que a precis\u00e3o caiu de 82% para 22% \u00e0 medida que a complexidade da tarefa aumentou.<\/p>\n<p>A matem\u00e1tica \u00e9 implac\u00e1vel. Pequenos erros se acumulam. Se houver uma chance de 1% de perder um detalhe cr\u00edtico cada vez que o sistema processar novas informa\u00e7\u00f5es, ap\u00f3s 100 intera\u00e7\u00f5es a chance de reter esse detalhe cai para 37%.<\/p>\n<p>Isso n\u00e3o \u00e9 um bug em nenhum produto espec\u00edfico. \u00c9 uma limita\u00e7\u00e3o inerente ao funcionamento dos sistemas de IA atuais. E isso cria um teto r\u00edgido sobre o que eles podem possuir em compara\u00e7\u00e3o com o que eles podem apenas ajudar.<\/p>\n<h2>Nem todas as tarefas s\u00e3o iguais<\/h2>\n<p>A pesquisa do METR revelou outra complica\u00e7\u00e3o: A capacidade de IA varia drasticamente de acordo com o dom\u00ednio.<\/p>\n<p><strong>Tarefas anal\u00edticas e estruturadas<\/strong> como o data, a an\u00e1lise e a gera\u00e7\u00e3o de relat\u00f3rios demonstram grande capacidade - os sistemas podem lidar com um trabalho que levaria de uma a tr\u00eas horas para os seres humanos.<\/p>\n<p><strong>Tarefas que exigem intera\u00e7\u00e3o com sistemas externos<\/strong>-navega\u00e7\u00e3o, coordena\u00e7\u00e3o entre plataformas, manuseio de informa\u00e7\u00f5es visuais - mostram uma capacidade 40 a 100 vezes menor. Eles est\u00e3o cerca de dois anos atrasados em termos de maturidade.<\/p>\n<p><strong>Aplicativos do mundo f\u00edsico<\/strong> como ve\u00edculos aut\u00f4nomos, melhoram muito mais lentamente do que as tarefas digitais.<\/p>\n<p>A implica\u00e7\u00e3o: \u201cA IA pode trabalhar por horas\u201d \u00e9 espec\u00edfica do dom\u00ednio. Um sistema que lida com uma tarefa anal\u00edtica de duas horas pode ter dificuldades com uma tarefa de coordena\u00e7\u00e3o de vinte minutos. A curva de capacidade n\u00e3o \u00e9 uniforme.<\/p>\n<p>Para as organiza\u00e7\u00f5es, isso significa uma correspond\u00eancia cuidadosa entre a implementa\u00e7\u00e3o da IA e as caracter\u00edsticas da tarefa. O ciclo de propaganda trata a IA como uma solu\u00e7\u00e3o de uso geral. A realidade \u00e9 altamente espec\u00edfica.<\/p>\n<h2>O que a tend\u00eancia realmente significa<\/h2>\n<p>O METR descreveu suas descobertas como potencialmente \u201cuma das tend\u00eancias mais importantes da hist\u00f3ria humana\u201d. Isso pode ser um exagero. Mas a tend\u00eancia se mant\u00e9m h\u00e1 seis anos, e a dire\u00e7\u00e3o \u00e9 clara.<\/p>\n<p>A IA atual obt\u00e9m sucesso quase perfeito em tarefas que levam menos de quatro minutos para os seres humanos. Ela obt\u00e9m menos de 10% de sucesso em tarefas que levam mais de quatro horas. A zona interessante - e a zona que importa para as decis\u00f5es organizacionais - est\u00e1 em algum ponto intermedi\u00e1rio.<\/p>\n<p>Aqui est\u00e1 minha avalia\u00e7\u00e3o honesta: temos uma IA que pode manter o esfor\u00e7o por uma ou duas horas em tarefas bem definidas em dom\u00ednios espec\u00edficos. Esses sistemas n\u00e3o conseguem fazer isso de forma confi\u00e1vel. N\u00e3o podem fazer isso sem supervis\u00e3o humana. Eles n\u00e3o podem fazer isso de forma a atender aos padr\u00f5es reais de qualidade organizacional sem limpeza.<\/p>\n<p>Mas a trajet\u00f3ria sugere que essas limita\u00e7\u00f5es podem n\u00e3o ser permanentes. Todas as grandes empresas de IA otimizam a opera\u00e7\u00e3o sustent\u00e1vel. Todo adotante s\u00e9rio cria solu\u00e7\u00f5es alternativas para as limita\u00e7\u00f5es atuais. Toda plataforma corporativa acrescenta infraestrutura para trabalhos de IA de maior dura\u00e7\u00e3o.<\/p>\n<p>A quest\u00e3o n\u00e3o \u00e9 se a IA acabar\u00e1 funcionando por horas. A quest\u00e3o \u00e9 quando - e se a gera\u00e7\u00e3o atual de solu\u00e7\u00f5es chegar\u00e1 l\u00e1, ou se ainda estamos esperando por um avan\u00e7o que ainda n\u00e3o aconteceu.<\/p>\n<p><em>Em <a href=\"https:\/\/www.artefact.com\/br\/blog\/long-run-ai-agents-part-2-three-approaches-that-actually-work\/\">Parte 2<\/a>, Na se\u00e7\u00e3o \"Como aumentar a dura\u00e7\u00e3o do trabalho da IA\", examinaremos as tr\u00eas abordagens que surgiram para estender a dura\u00e7\u00e3o do trabalho da IA: ciclo de in\u00edcio recente, mem\u00f3ria seletiva e coordena\u00e7\u00e3o baseada em equipe.<\/em><\/p>\n<p>&nbsp;<\/p>\n<h3>Refer\u00eancias<\/h3>\n<p><span style=\"text-decoration: underline;\">Trabalhos de pesquisa<\/span><\/p>\n<ul>\n<li>Criando IA pronta para a produ\u00e7\u00e3o com mem\u00f3ria de longo prazo dimension\u00e1vel - (em ingl\u00eas) <a href=\"https:\/\/arxiv.org\/abs\/2504.19413\" target=\"_blank\" rel=\"noopener\">arxiv.org\/abs\/2504.19413<\/a><\/li>\n<li>Arquitetura de mem\u00f3ria baseada em m\u00faltiplos gr\u00e1ficos para IA <a href=\"http:\/\/arxiv.org\/abs\/2601.03236\" target=\"_blank\" rel=\"noopener\">arxiv.org\/abs\/2601.03236<\/a><\/li>\n<li>Medindo a IA na produ\u00e7\u00e3o - O senhor est\u00e1 se sentindo bem? <a href=\"http:\/\/arxiv.org\/abs\/2512.04123\" target=\"_blank\" rel=\"noopener\">arxiv.org\/abs\/2512.04123<\/a><\/li>\n<\/ul>\n<p><span style=\"text-decoration: underline;\">Relat\u00f3rios e documentos t\u00e9cnicos do setor<\/span><\/p>\n<ul>\n<li>Modos de falha em sistemas de IA - Microsoft<\/li>\n<li>Li\u00e7\u00f5es de 2025 sobre IA e confian\u00e7a - Google Cloud<\/li>\n<li>Estado da engenharia de IA - LangChain<\/li>\n<li>Avalia\u00e7\u00e3o de refer\u00eancia vs. avalia\u00e7\u00e3o do mundo real - METR<\/li>\n<\/ul>\n<p><span style=\"text-decoration: underline;\">Documenta\u00e7\u00e3o t\u00e9cnica<\/span><\/p>\n<ul>\n<li>Como criamos nosso sistema de pesquisa multiagente - Anthropic<\/li>\n<li>Especifica\u00e7\u00e3o do protocolo de contexto de modelo - modelcontextprotocol.io<\/li>\n<li>Documenta\u00e7\u00e3o de ciclismo de in\u00edcio recente (\u201cRalph Wiggum\u201d) - Geoffrey Huntley (<a href=\"http:\/\/ghuntley.com\/ralph\/\" target=\"_blank\" rel=\"noopener\">ghuntley.com\/ralph\/<\/a>)<\/li>\n<\/ul>","protected":false},"excerpt":{"rendered":"<p>Em mar\u00e7o de 2025, uma organiza\u00e7\u00e3o de pesquisa chamada METR publicou uma descoberta que recebeu menos aten\u00e7\u00e3o do que merecia. Eles estavam medindo algo que n\u00e3o estava na moda: quanto tempo os sistemas AI podiam trabalhar em tarefas antes de serem interrompidos. N\u00e3o o que eles conseguiam fazer em uma \u00fanica intera\u00e7\u00e3o. O METR queria saber quanto tempo eles conseguiam manter um esfor\u00e7o coerente e \u00fatil.<\/p>","protected":false},"featured_media":1086605,"parent":0,"template":"","meta":{"_acf_changed":false,"ep_exclude_from_search":false},"blog-category":[2995],"blog-language":[2991],"class_list":["post-1083983","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-ai-technology","blog-language-en"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.artefact.com\/br\/wp-json\/wp\/v2\/blog\/1083983","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.artefact.com\/br\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/www.artefact.com\/br\/wp-json\/wp\/v2\/types\/blog"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.artefact.com\/br\/wp-json\/wp\/v2\/media\/1086605"}],"wp:attachment":[{"href":"https:\/\/www.artefact.com\/br\/wp-json\/wp\/v2\/media?parent=1083983"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/www.artefact.com\/br\/wp-json\/wp\/v2\/blog-category?post=1083983"},{"taxonomy":"blog-language","embeddable":true,"href":"https:\/\/www.artefact.com\/br\/wp-json\/wp\/v2\/blog-language?post=1083983"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}