Victor Coimbra foi reconhecido na lista Forbes Under 30 Brasil por suas contribuições excepcionais para AI . Ele foi cofundador das operações Artefactna América Latina, que hoje funcionam como um centro tecnológico global com 200 funcionários. Ele traz uma profunda experiência na ampliação AI e na formação de equipes tecnológicas de alto desempenho em mercados internacionais.

Em março de 2025, uma organização de pesquisa chamada METR publicou uma descoberta que recebeu menos atenção do que merecia. Eles vinham medindo algo que não estava na moda: por quanto tempo AI conseguiam trabalhar em tarefas antes de apresentarem falhas. Não o que eles conseguiam fazer em uma única interação. A METR queria saber por quanto tempo eles conseguiam manter um esforço coerente e útil.

A metodologia utilizada foi rigorosa: 170 tarefas nas áreas de software, pesquisa e resolução de problemas. Referências de desempenho humano obtidas a partir de 236 execuções realizadas por especialistas na área. Modelagem estatística para prever a probabilidade de sucesso com base na duração das tarefas.

A principal conclusão: a capacidade de conclusão de tarefas vinha dobrando a cada sete meses há seis anos consecutivos.

Em meados de 2024, AI principais AI já eram capazes de realizar com precisão tarefas que levariam cerca de dezenove minutos para um especialista humano. No início de 2025, esse tempo aumentou para quase uma hora. Os sistemas mais recentes levam mais de duas horas. A curva estava se acelerando.

Mas por trás dessa manchete esconde-se uma história mais complexa.

A diferença entre as demonstrações e a entrega

Em agosto de 2025, a METR publicou um estudo de acompanhamento que deveria ter feito todos refletirem. Eles testaram AI dezoito tarefas reais — o tipo de trabalho que realmente importa nas organizações.

Alguns resultados são:

  • Taxa de aprovação nos testes automatizados: 38%.
  • Pronto para uso sem necessidade de limpeza manual: 0%.

Zero. Nenhum trabalho produzido pela AI pronto para uso sem intervenção humana. Mesmo quando as verificações automatizadas eram aprovadas, todos os resultados apresentavam falhas: documentação ausente, verificação incompleta, problemas de qualidade que jamais passariam pela revisão em uma organização real.

Tempo médio de limpeza: 26 minutos — cerca de um terço da duração original da tarefa.

Essa lacuna entre os testes de desempenho automatizados e a usabilidade no mundo real é o primeiro problema de que ninguém fala. AI estão se tornando cada vez melhores nas tarefas específicas que os testes de desempenho avaliam. No entanto, eles estão melhorando muito mais lentamente no que diz respeito ao significado real de “concluir uma tarefa” na prática.

Essa distinção é importante para quem planeja investimentos. Um sistema que passa em um teste, mas produz resultados inutilizáveis, não é um sistema capaz de funcionar de forma autônoma. É um sistema que exige que alguém conserte o que ele estragou.

O paradoxo da produtividade

Eis o segundo problema. Em julho de 2025, a METR realizou um estudo controlado com dezesseis profissionais experientes. A questão: AI torna as pessoas mais rápidas?

Resultado esperado antes do estudo: aumento de 24% na velocidade.
Resultado real: redução de 19% na velocidade.

As pessoas que utilizaram AI mais tempo para concluir as tarefas do que aquelas que trabalharam sem assistência. E eis o que é preocupante: após o estudo, os participantes ainda acreditavam ter obtido um aumento de 20% na velocidade. A percepção deles estava completamente invertida em relação à realidade.

Cinco fatores explicaram a desaceleração:

  1. Custo da depuração. O tempo economizado na criação do trabalho foi perdido corrigindo erros.
  2. Custos de alternância de contexto. Alternar entre as sugestões AIe o trabalho propriamente dito gerava uma carga cognitiva.
  3. Curva de aprendizagem. Mesmo profissionais experientes dedicam tempo para descobrir como usar AI .
  4. Requisitos de qualidade ocultos. AI exigiam documentação, verificação e formatação que os sistemas não forneciam.
  5. Padrões do mundo real. Organizações maduras têm padrões de qualidade que o trabalho AI sistematicamente não conseguiu atingir.

Esta não é uma história sobre AI . É uma história sobre a discrepância entre as demonstrações dos fornecedores e a realidade das organizações. O paradoxo da produtividade sugere que, para profissionais experientes que trabalham com processos maduros, AI atual AI pode gerar mais trabalho do que aquele que economiza.

Por que AI perdem desempenho com o tempo

Por que AI têm dificuldade com tarefas mais longas? A resposta é de natureza arquitetônica, mas as implicações são estratégicas.

Pense na AI tivesse uma memória de trabalho — uma capacidade limitada para armazenar informações sobre a tarefa atual. À medida que essa capacidade se esgota, o desempenho diminui. O sistema perde o controle das decisões anteriores. Ele se contradiz. Ele esquece o que estava tentando realizar.

Qualquer pessoa que já tenha usado um AI por mais de trinta minutos sabe disso por experiência própria. O sistema começa em grande forma. Após uma hora, já esqueceu decisões tomadas há vinte minutos. Comete erros que teria detectado antes. Perde o fio da meada.

Pesquisas já quantificaram esse fenômeno. À medida que cresce a quantidade de informações que AI monitorar, a precisão pode cair em 20 a 30 pontos percentuais. Em tarefas de raciocínio complexas, um estudo mostrou que a precisão caiu de 82% para 22% à medida que a complexidade da tarefa aumentava.

A matemática não perdoa. Pequenos erros se acumulam. Se houver apenas 1% de chance de perder um detalhe crucial cada vez que o sistema processa novas informações, após 100 interações, a chance de reter esse detalhe cai para 37%.

Isso não é um bug em nenhum produto específico. Trata-se de uma limitação inerente ao funcionamento AI atuais. E isso cria um limite rígido entre o que eles podem fazer por conta própria e o que apenas podem auxiliar.

Nem todas as tarefas são iguais

A pesquisa da METR revelou outra complicação: AI varia drasticamente de acordo com o domínio.

Tarefas analíticas e estruturadas, como data e geração de relatórios, demonstram grande capacidade — os sistemas conseguem realizar trabalhos que levariam de uma a três horas para serem concluídos por seres humanos.

Tarefas que exigem interação com sistemas externos— navegação, coordenação entre plataformas, tratamento de informações visuais — apresentam uma capacidade entre 40 e 100 vezes menor. Elas estão cerca de dois anos atrasadas em termos de maturidade.

As aplicações no mundo físico, como os veículos autônomos, evoluem muito mais lentamente do que as tarefas digitais.

A implicação de queAI trabalhar por horas” depende do domínio específico. Um sistema capaz de realizar uma tarefa analítica de duas horas pode ter dificuldades com uma tarefa de coordenação de vinte minutos. A curva de capacidade não é uniforme.

Para as organizações, isso significa uma adaptação cuidadosa da AI às características das tarefas. O ciclo de hype trata AI uma solução de uso geral. A realidade, porém, é altamente específica.

O que essa tendência realmente significa

O METR descreveu suas descobertas como potencialmente “uma das tendências mais importantes da história da humanidade”. Talvez isso seja um exagero. Mas a tendência se mantém há seis anos, e a direção é clara.

AI atual AI um sucesso quase perfeito em tarefas que levam menos de quatro minutos para serem realizadas por seres humanos. Ela atinge menos de 10% de sucesso em tarefas que levam mais de quatro horas. A zona interessante — e a zona que importa para as decisões organizacionais — está em algum ponto entre essas duas extremidades.

Eis minha avaliação sincera: dispomos de AI manter o desempenho por uma a duas horas em tarefas bem definidas em domínios específicos. Esses sistemas não conseguem fazer isso de forma confiável. Não conseguem fazer isso sem supervisão humana. Não conseguem fazer isso de maneira que atenda aos padrões reais de qualidade da organização sem uma revisão posterior.

Mas a trajetória sugere que essas limitações podem não ser permanentes. Todas AI grandes AI buscam otimizar a operação contínua. Todos os usuários sérios criam soluções alternativas para contornar as limitações atuais. Todas as plataformas empresariais incorporam infraestrutura para AI de longa duração.

A questão não é se AI funcionar por horas a fio. A questão é quando — e se a geração atual de soluções chegará lá, ou se ainda estamos à espera de um avanço que ainda não aconteceu.

Na Parte 2, examinaremos as três abordagens que surgiram para prolongar a duração AI : ciclo de reinício, memória seletiva e coordenação em equipe.

 

Referências

Artigos científicos

Reports do setor Reports white papers

  • Modos de falha em AI — Microsoft
  • Lições de 2025 sobre AI confiança — Google Cloud
  • O estado da AI — LangChain
  • Avaliação em ambiente de teste versus avaliação no mundo real — METR

Documentação Técnica

  • Como criamos nosso sistema de pesquisa com múltiplos agentes — Anthropic
  • Especificação do Protocolo de Contexto de Modelo — modelcontextprotocol.io
  • Documentação do Fresh-Start Cycling (“Ralph Wiggum”) — Geoffrey Huntley (ghuntley.com/ralph/)