Long-run AI agents, part 1: The problem nobody talks about

Victor Coimbra foi reconhecido na lista Forbes Under 30 Brazil por suas contribuições excepcionais para a inovação em IA. Ele foi cofundador das operações latino-americanas da Artefact, que agora funcionam como um centro tecnológico global com 200 funcionários. Ele traz uma profunda experiência em dimensionar soluções de IA e criar equipes de tecnologia de alto desempenho em mercados internacionais.

Em março de 2025, uma organização de pesquisa chamada METR publicou uma descoberta que recebeu menos atenção do que merecia. Eles estavam medindo algo que não estava na moda: quanto tempo os sistemas AI podiam trabalhar em tarefas antes de serem interrompidos. Não o que eles conseguiam fazer em uma única interação. O METR queria saber quanto tempo eles conseguiam manter um esforço coerente e útil.

Sua metodologia foi rigorosa: 170 tarefas em software, pesquisa e solução de problemas. Linhas de base humanas de 236 execuções por especialistas no domínio. Modelagem estatística para prever a probabilidade de sucesso com base na duração da tarefa.

A principal descoberta: as capacidades de conclusão de tarefas têm dobrado a cada sete meses por seis anos consecutivos.

Em meados de 2024, os principais sistemas de IA podiam concluir de forma confiável tarefas que levariam cerca de dezenove minutos para um especialista humano. No início de 2025, esse tempo subiu para quase uma hora. Os sistemas mais novos chegam a mais de duas horas. A curva estava se acelerando.

Mas, por trás dessa manchete, há uma história mais complicada.

A lacuna entre as demonstrações e a entrega

Em agosto de 2025, o METR publicou um acompanhamento que deveria ter feito todo mundo parar. Eles testaram a IA em dezoito tarefas reais - o tipo de trabalho que realmente importa nas organizações.

Alguns resultados são:

Taxa de aprovação no teste automatizado: 38%.
Pronto para uso sem necessidade de limpeza humana: 0%.

Zero. Nem um único trabalho produzido pela IA estava pronto para ser usado sem intervenção humana. Mesmo quando as verificações automatizadas eram aprovadas, todos os resultados apresentavam lacunas: documentação ausente, verificação incompleta, problemas de qualidade que nunca sobreviveriam à revisão em uma organização real.

Tempo médio de limpeza: 26 minutos - aproximadamente um terço da duração original da tarefa.

Essa lacuna entre os benchmarks automatizados e a usabilidade no mundo real é o primeiro problema sobre o qual ninguém fala. Os sistemas de IA estão melhorando nos aspectos restritos que os benchmarks medem. Eles estão melhorando muito mais lentamente no escopo completo do que “concluir uma tarefa” realmente significa na prática.

Essa distinção é importante para quem planeja investimentos. Um sistema que passa em um teste, mas produz um resultado inutilizável, não é um sistema que pode funcionar de forma autônoma. É um sistema que exige que alguém faça a limpeza.

O paradoxo da produtividade

Aqui está o segundo problema. Em julho de 2025, o METR realizou um estudo controlado com dezesseis profissionais experientes. A pergunta: a IA realmente torna as pessoas mais rápidas?

Resultado esperado antes do estudo: aumento de velocidade de 24%.
Resultado real: desaceleração de 19%.

As pessoas que usaram a IA levaram mais tempo para concluir as tarefas do que as pessoas que trabalharam sem assistência. E aqui está a parte perturbadora: após o estudo, os participantes ainda acreditavam que tinham obtido um aumento de velocidade de 20%. Sua percepção foi completamente invertida em relação à realidade.

Cinco fatores explicaram a desaceleração:

Sobrecarga de depuração. O senhor economiza tempo gerando perda de trabalho ao corrigir erros.
Custos de troca de contexto. O deslocamento entre as sugestões da IA e o trabalho real criou uma carga cognitiva.
Curva de aprendizado. Até mesmo profissionais experientes gastam tempo para descobrir como usar a IA de forma eficaz.
Requisitos de qualidade ocultos. A saída de IA exigia documentação, verificação e formatação que os sistemas não forneciam.
Padrões do mundo real. As organizações maduras têm padrões de qualidade que o trabalho gerado por IA sistematicamente não consegue atender.

Esta não é uma história sobre a inutilidade da IA. É uma história sobre a lacuna entre as demonstrações dos fornecedores e a realidade organizacional. O paradoxo da produtividade sugere que, para profissionais experientes em processos maduros, a assistência atual da IA pode criar mais trabalho do que economizar.

Por que os sistemas de IA se degradam com o tempo

Por que os sistemas de IA têm dificuldades com tarefas mais longas? A resposta é arquitetônica, mas as implicações são estratégicas.

Pense na IA como tendo uma memória de trabalho - uma capacidade limitada de armazenar informações sobre a tarefa atual. À medida que essa capacidade se esgota, o desempenho diminui. O sistema perde o controle das decisões anteriores. Ele se contradiz. Ele se esquece do que estava tentando realizar.

Qualquer pessoa que tenha usado um assistente de IA por mais de trinta minutos sabe disso em primeira mão. O sistema começa afiado. Uma hora depois, ele já esqueceu as decisões tomadas há vinte minutos. Ele introduz erros que teria detectado antes. Ele perde o fio da meada.

A pesquisa quantificou isso. À medida que o volume de informações que a IA precisa rastrear aumenta, a precisão pode cair de 20 a 30 pontos percentuais. Em tarefas de raciocínio complexas, um estudo mostrou que a precisão caiu de 82% para 22% à medida que a complexidade da tarefa aumentou.

A matemática é implacável. Pequenos erros se acumulam. Se houver uma chance de 1% de perder um detalhe crítico cada vez que o sistema processar novas informações, após 100 interações a chance de reter esse detalhe cai para 37%.

Isso não é um bug em nenhum produto específico. É uma limitação inerente ao funcionamento dos sistemas de IA atuais. E isso cria um teto rígido sobre o que eles podem possuir em comparação com o que eles podem apenas ajudar.

Nem todas as tarefas são iguais

A pesquisa do METR revelou outra complicação: A capacidade de IA varia drasticamente de acordo com o domínio.

Tarefas analíticas e estruturadas como o data, a análise e a geração de relatórios demonstram grande capacidade - os sistemas podem lidar com um trabalho que levaria de uma a três horas para os seres humanos.

Tarefas que exigem interação com sistemas externos-navegação, coordenação entre plataformas, manuseio de informações visuais - mostram uma capacidade 40 a 100 vezes menor. Eles estão cerca de dois anos atrasados em termos de maturidade.

Aplicativos do mundo físico como veículos autônomos, melhoram muito mais lentamente do que as tarefas digitais.

A implicação: “A IA pode trabalhar por horas” é específica do domínio. Um sistema que lida com uma tarefa analítica de duas horas pode ter dificuldades com uma tarefa de coordenação de vinte minutos. A curva de capacidade não é uniforme.

Para as organizações, isso significa uma correspondência cuidadosa entre a implementação da IA e as características da tarefa. O ciclo de propaganda trata a IA como uma solução de uso geral. A realidade é altamente específica.

O que a tendência realmente significa

O METR descreveu suas descobertas como potencialmente “uma das tendências mais importantes da história humana”. Isso pode ser um exagero. Mas a tendência se mantém há seis anos, e a direção é clara.

A IA atual obtém sucesso quase perfeito em tarefas que levam menos de quatro minutos para os seres humanos. Ela obtém menos de 10% de sucesso em tarefas que levam mais de quatro horas. A zona interessante - e a zona que importa para as decisões organizacionais - está em algum ponto intermediário.

Aqui está minha avaliação honesta: temos uma IA que pode manter o esforço por uma ou duas horas em tarefas bem definidas em domínios específicos. Esses sistemas não conseguem fazer isso de forma confiável. Não podem fazer isso sem supervisão humana. Eles não podem fazer isso de forma a atender aos padrões reais de qualidade organizacional sem limpeza.

Mas a trajetória sugere que essas limitações podem não ser permanentes. Todas as grandes empresas de IA otimizam a operação sustentável. Todo adotante sério cria soluções alternativas para as limitações atuais. Toda plataforma corporativa acrescenta infraestrutura para trabalhos de IA de maior duração.

A questão não é se a IA acabará funcionando por horas. A questão é quando - e se a geração atual de soluções chegará lá, ou se ainda estamos esperando por um avanço que ainda não aconteceu.

Em Parte 2, Na seção "Como aumentar a duração do trabalho da IA", examinaremos as três abordagens que surgiram para estender a duração do trabalho da IA: ciclo de início recente, memória seletiva e coordenação baseada em equipe.

Referências

Trabalhos de pesquisa

Criando IA pronta para a produção com memória de longo prazo dimensionável - (em inglês) arxiv.org/abs/2504.19413
Arquitetura de memória baseada em múltiplos gráficos para IA arxiv.org/abs/2601.03236
Medindo a IA na produção - O senhor está se sentindo bem? arxiv.org/abs/2512.04123

Relatórios e documentos técnicos do setor

Modos de falha em sistemas de IA - Microsoft
Lições de 2025 sobre IA e confiança - Google Cloud
Estado da engenharia de IA - LangChain
Avaliação de referência vs. avaliação do mundo real - METR

Documentação técnica

Como criamos nosso sistema de pesquisa multiagente - Anthropic
Especificação do protocolo de contexto de modelo - modelcontextprotocol.io
Documentação de ciclismo de início recente (“Ralph Wiggum”) - Geoffrey Huntley (ghuntley.com/ralph/)

Entre em contato conosco

Agentes AI de longo prazo, parte 1: O problema sobre o qual ninguém fala