Long-run AI agents, part 2: Three approaches that actually work

Victor Coimbra foi reconhecido na lista Forbes Under 30 Brazil por suas contribuições excepcionais para a inovação em IA. Ele foi cofundador das operações latino-americanas da Artefact, que agora funcionam como um centro tecnológico global com 200 funcionários. Ele traz uma profunda experiência em dimensionar soluções de IA e criar equipes de tecnologia de alto desempenho em mercados internacionais.

Em Parte 1, No ano passado, examinamos o problema: os sistemas de IA se degradam com o tempo, o desempenho de referência mascara as falhas de produção e até mesmo profissionais experientes podem trabalhar mais lentamente com a assistência da IA do que sem ela. A trajetória é promissora. A realidade atual é confusa.

Então, como o senhor cria sistemas que realmente sustentam o esforço ao longo das horas?

Três abordagens surgiram de diferentes comunidades, cada uma atacando o mesmo problema fundamental: como um sistema de IA mantém um progresso coerente quando sua memória de trabalho é limitada?

Abordagem 1: ciclismo de início recente

No final de 2025, uma técnica com o nome absurdo de "Ralph Wiggum" se tornou viral entre os praticantes. O nome vem de um personagem dos Simpsons - propositalmente bobo, porque a ideia central é quase embaraçosamente simples.

Deixe a IA trabalhar. Quando ela começar a se degradar, pare. Comece do zero. Deixe que ela continue de onde parou.

É isso. A IA trabalha em uma tarefa até que seu desempenho comece a diminuir. Em seguida, ela para, salva seu progresso em um arquivo e sai. Uma nova sessão começa com um quadro limpo. A IA lê o que foi realizado, identifica o que resta e continua.

A filosofia: parar de lutar contra a limitação da memória. Trabalhe com ela. Cada sessão de trabalho funciona de forma independente. O progresso vive em documentos e registros, não na cabeça da IA.

Como isso se parece na prática

Uma implementação típica tem três fases:

Fase 1 (Requisitos): Humanos e IA colaboram para identificar o que precisa ser feito. O resultado é um documento de especificação claro.
Fase 2 (Planejamento): A IA analisa a lacuna entre a especificação e o estado atual. Resultado: uma lista priorizada de tarefas. Ainda não há trabalho real.
Fase 3 (Execução): O AI processa uma tarefa por sessão. Concluir a tarefa, verificar se funcionou, documentar o que foi feito e sair. Nova sessão. Repetir.

A principal restrição: as tarefas devem ter uma conclusão claramente mensurável. Essa abordagem funciona mal para requisitos ambíguos, decisões ou trabalho exploratório sem pontos finais claros.

Resultados dos primeiros usuários

Os números dos profissionais são impressionantes, embora sejam provenientes de auto-reports em vez de estudos controlados.

Um consultor entregou o que teria sido um projeto de $50.000 por menos de $300 em custos de IA - executando sessões automatizadas durante a noite. Uma equipe de startup concluiu seis entregas importantes da noite para o dia com resultados funcionais, verificação e documentação. Um profissional criou um produto inteiro em três meses de sessões automatizadas.

Os custos típicos variam de $50-100 para projetos substanciais com mais de 50 sessões de trabalho. Cada sessão dura de 30 a 45 minutos antes do ciclo.

A Anthropic formalizou essa abordagem em dezembro de 2025, lançando o suporte oficial. O padrão passou de solução alternativa para metodologia aprovada.

A limitação

Essa abordagem é determinista em um mundo imprevisível. Como diz um profissional: “É melhor falhar de forma previsível do que ter sucesso de forma imprevisível”.”

Esse é o ponto forte e a restrição. O ciclismo de partida recente funciona quando o senhor pode definir claramente o sucesso. Ele tem dificuldades quando o sucesso é subjetivo, quando a qualidade está implícita e quando a resposta “certa” requer julgamento humano para ser reconhecida.

Abordagem 2: Memória seletiva

O ciclismo de início recente joga fora tudo o que foi feito entre as sessões. Cada ciclo começa completamente novo. E se o senhor pudesse preservar seletivamente as partes importantes?

A memória seletiva adota uma abordagem diferente: extrair e armazenar as informações essenciais e descartar o restante. Em vez de começar tudo de novo, a IA herda um resumo com curadoria do que é importante.

O padrão de duas funções

Uma implementação comum usa duas funções especializadas de IA:

Função de configuração: É executado apenas no início. Estabelece o contexto, identifica as principais informações e cria documentos de referência iniciais.
Função de trabalho: Lida com todas as sessões subsequentes. Mantém a continuidade por meio de três artefatos: um rastreador de progresso que mostra o trabalho concluído e pendente, uma lista de verificação com itens marcados como concluídos ou restantes e um histórico de alterações que mostra o que foi modificado e por quê.

O início da sessão é explícito: confirmar o estado atual, revisar os documentos de progresso, selecionar o trabalho restante de maior prioridade, verificar a linha de base antes do novo trabalho.

A diferença em relação ao ciclismo de início recente: a etapa de compressão. A função de trabalho herda um resumo com curadoria do contexto relevante. Pesquisas sugerem que essa abordagem pode permitir que a IA conclua longas sequências de tarefas usando apenas 16% das informações que, de outra forma, seriam necessárias. Uma redução de 84% na sobrecarga.

Memória avançada: Preservação de relacionamentos

O estado da arte em memória seletiva preserva não apenas fatos, mas relacionamentos.

Pense em como os seres humanos se lembram de projetos. Não nos lembramos apenas de fatos isolados. Lembramos que essa decisão levou a essa consequência, que essa pessoa tem essa responsabilidade, que esse documento está relacionado a esse requisito. As conexões são tão importantes quanto o conteúdo.

Os sistemas avançados de memória de IA agora capturam esses relacionamentos. Ao armazenar informações, eles extraem não apenas o que aconteceu, mas também quem estava envolvido, a que isso estava ligado e por que era importante. Ao recuperar informações, eles podem reconstruir o contexto seguindo essas linhas de relacionamento.

Métricas de desempenho desses sistemas: 26% melhoria nas avaliações de qualidade. Redução de 90%+ na sobrecarga de informações, mantendo a coerência. Tratamento significativamente melhor de tarefas que abrangem várias sessões.

A troca

A memória seletiva aumenta a complexidade. O senhor precisa de infraestrutura para armazenamento e recuperação. O senhor precisa decidir o que manter e o que descartar. O senhor precisa confiar que a compactação preserva o que importa.

Esse não é um problema resolvido. Os sistemas de memória podem perder detalhes importantes. A compactação pode introduzir distorções sutis. A IA pode recuperar o contexto errado no momento errado. A redução do 84% parece impressionante, até que o 16% que o senhor manteve estava perdendo algo essencial.

Abordagem 3: Coordenação da equipe

E se a resposta não for uma IA com melhor memória, mas muitos sistemas de IA com funções claras?

A coordenação da equipe decompõe o trabalho complexo em funções especializadas coordenadas por um gerente central. Cada função tem um escopo limitado, necessidades limitadas de informações e um trabalho específico. O gerente mantém o panorama geral e encaminha apenas as informações relevantes para cada funcionário.

O padrão nos bastidores

As principais empresas de IA usam isso internamente. A estrutura:

Coordenador: Um sistema de IA capaz, responsável pela análise de solicitações, planejamento de abordagem, manutenção da memória e direcionamento de especialistas.

Especialistas: Sistemas de IA focados operando em paralelo para tarefas específicas.

O resultado: os sistemas baseados em equipe superam os sistemas de IA individuais em 90% em tarefas de pesquisa complexas. Não é uma melhoria marginal. Quase o dobro do desempenho.

O principal insight: o gerenciamento de informações explica 80% das diferenças de desempenho na IA baseada em equipe. As ferramentas específicas e os modelos de IA são menos importantes do que a forma como as informações fluem entre as funções.

Dois padrões de coordenação

Padrão de transferência: Um sistema de IA passa o controle para outro no meio da tarefa. Cada um sabe sobre os outros e decide quando adiar. O thread de trabalho continua, mas a responsabilidade é transferida. Funciona bem para fluxos de trabalho sequenciais e em etapas.

Padrão de gerente: Um coordenador central atribui trabalho a especialistas e coleta resultados. Os especialistas retornam os resultados; o coordenador mantém o controle e toma decisões. Não há transferência do thread principal. Funciona bem para processamento paralelo e síntese de resultados.

A escolha depende de seu fluxo de trabalho. Os handoffs funcionam bem quando as tarefas se decompõem naturalmente em etapas. Os padrões de gerente funcionam bem quando o senhor precisa de processamento paralelo com tomada de decisão centralizada.

Padronização do setor

Em 2025, o setor padronizou a forma como os sistemas de IA se conectam uns aos outros e a recursos externos. Pense nisso como a padronização das tomadas elétricas - produtos de diferentes fabricantes agora podem trabalhar juntos.

Um padrão define como a IA se conecta a fontes e ferramentas de informação. Outro define como os sistemas de IA se comunicam entre si. Juntos, eles possibilitam blocos de construção que podem ser montados em diferentes configurações.

Isso é importante porque permite a modularidade. Um fluxo de trabalho criado por uma equipe pode incorporar componentes criados por outra. Os sistemas de memória tornam-se intercambiáveis. As fontes de informação podem ser descobertas. O “ecossistema de IA” não é marketing - é uma realidade técnica que esses padrões tornam possível.

A sobrecarga

A IA baseada em equipe usa aproximadamente 15 vezes mais recursos do que a IA de interação única. Esse é o custo da coordenação. Para tarefas simples, essa sobrecarga supera qualquer benefício. Para tarefas complexas, a maior confiabilidade justifica a despesa.

Os modos de falha também são mais complexos. Um projeto de handoff deficiente fez com que uma empresa de comércio eletrônico observasse um abandono de clientes de 40% quando as transições de IA confundiram os usuários. As falhas em cascata podem se propagar pelas redes de IA. Uma análise do setor de 2025 identificou 14 padrões de falha exclusivos no projeto do sistema, falhas de coordenação e verificação de qualidade.

Escolhendo a abordagem correta

A seguir, o que penso sobre essas opções:

Ciclo de início recente funciona quando as tarefas têm uma conclusão claramente mensurável, o senhor pode tolerar um progresso incremental previsível, o progresso pode ser totalmente capturado em documentos e registros e o senhor deseja simplicidade em vez de sofisticação.
Memória seletiva funciona quando as tarefas exigem a preservação de relacionamentos entre sessões, o senhor tem infraestrutura para armazenamento e recuperação, a eficiência é importante em escala e o senhor pode investir na criação de sistemas de compactação.
Coordenação da equipe funciona quando as tarefas se decompõem naturalmente em subtarefas especializadas, o senhor precisa de processamento paralelo, a sobrecarga de coordenação (15x recursos) é aceitável e o senhor pode lidar com modos de falha mais complexos.

A maioria dos sistemas de produção combinará elementos de todos os três. Um sistema baseado em equipe em que cada especialista usa o ciclo de inicialização recente. Um coordenador com memória aumentada que dirige trabalhadores sem estado. As abordagens são complementares, não exclusivas.

O ponto em comum: todas as três abordagens externalizam informações que a IA não consegue manter internamente de forma confiável. Elas diferem quanto ao grau de externalização e à forma como gerenciam a recuperação.

Em Parte 3, Na seção "O que a IA de longa duração significa para as organizações: como o trabalho muda, qual é a governança necessária e onde estão as oportunidades realistas em 2026.

Referências

Trabalhos de pesquisa

Criando IA pronta para a produção com memória de longo prazo dimensionável - (em inglês) arxiv.org/abs/2504.19413
Arquitetura de memória baseada em múltiplos gráficos para IA arxiv.org/abs/2601.03236
Medindo a IA na produção - O senhor está se sentindo bem? arxiv.org/abs/2512.04123

Relatórios e documentos técnicos do setor

Modos de falha em sistemas de IA - Microsoft
Lições de 2025 sobre IA e confiança - Google Cloud
Estado da engenharia de IA - LangChain
Avaliação de referência vs. avaliação do mundo real - METR

Documentação técnica

Como criamos nosso sistema de pesquisa multiagente - Anthropic
Especificação do protocolo de contexto de modelo - modelcontextprotocol.io
Documentação de ciclismo de início recente (“Ralph Wiggum”) - Geoffrey Huntley (ghuntley.com/ralph/)

Entre em contato conosco

Agentes AI de longo prazo, parte 2: Três abordagens que realmente funcionam

Autor