Part 2 | From memory to navigation: Scaling autonomous agents beyond retrieval

Introdução

Em um artigo anterior, explorei como oito equipes de pesquisa independentes convergiram para o mesmo insight: em vez de criar sistemas de memória em torno do modelo, treine o próprio modelo para gerenciar a memória como uma habilidade aprendida. O treinamento pós-memória - usando o aprendizado por reforço na fase pós-treinamento - produz agentes que decidem o que armazenar, excluir, consolidar e recuperar, tudo otimizado para a conclusão da tarefa.

Mas o que aconteceu desde então é mais interessante. A pesquisa colidiu com dois outros desenvolvimentos. Modelos de linguagem recursivos reenquadrar o gerenciamento de contexto como navegação em vez de recuperação. Sistemas de produção como o OpenClaw estão provando que essas ideias funcionam fora dos benchmarks. O quadro combinado aponta para algo maior do que a memória aprimorada.

Ele aponta para um caminho democrático para o dimensionamento de agentes autônomos - um que não exija ajuste fino, computação escassa ou conhecimento profundo de ML. Veja como a peça de navegação e a evidência de produção se encaixam.

Contexto como navegação: a mudança de paradigma da RLM

Eis o que chamou minha atenção mais recentemente. Enquanto a comunidade de treinamento pós-memória estava ensinando os agentes a gerenciar o contexto, uma linha paralela de pesquisa estava reformulando totalmente o problema.

Modelos de linguagem recursivos, O relatório de engenharia de contexto, apresentado por Alex Zhang, Tim Kraska e Omar Khattab, propõe que a engenharia de contexto não é um problema de recuperação. É um problema de navegação. Essa diferença é importante.

O RAG tradicional trata a base de conhecimento como uma base data que o senhor consulta. O senhor incorpora pedaços, calcula as pontuações de similaridade e extrai os resultados top-k para o prompt. O modelo recebe passivamente tudo o que o sistema de recuperação decide que é relevante. O modelo em si não tem controle sobre o que vê.

Os RLMs invertem isso. O modelo obtém acesso a um ambiente Python REPL persistente. As entradas longas são carregadas como variáveis. O modelo pode inspecioná-las, analisá-las, particioná-las e lançar subconsultas recursivas, criando novas instâncias de LLM que processam partes em paralelo e retornam resultados. O modelo navega em seu contexto da mesma forma que um desenvolvedor navega em uma base de código: explorando, filtrando e lendo seletivamente o que precisa.

Os números comprovam isso. Os RLMs processam entradas de até duas ordens de grandeza além da janela de contexto nativa do modelo sem degradação. Em conjuntos data do mundo real que excedem 1,5 milhão de caracteres, os RLMs superam significativamente os LLMs padrão e os scaffolds de contexto longo comuns. Uma versão pós-treinada, RLM-Qwen3-8B, supera seu modelo básico em 28,3% em média e se aproxima da qualidade do GPT-5 em três tarefas de contexto longo - de um modelo 8B.

O que torna isso complementar ao treinamento pós-memória é a separação das preocupações. O treinamento pós-memória ensina aos agentes o que lembrar e o que esquecer - as decisões editoriais sobre o gerenciamento de estado. Os RLMs ensinam os agentes a explorar o contexto que ainda não foram registrados na memória. Um deles trata do gerenciamento do que está dentro da cabeça do agente. O outro trata de navegar pelo que está fora dela.

A combinação é mais poderosa do que qualquer uma delas isoladamente. Um agente capaz de navegar em grandes contextos externos e gerenciar um estado de memória interna compacta tem os dois recursos necessários para fluxos de trabalho autônomos genuinamente de longa duração: consciência ampla e retenção seletiva.

O momento do OpenClaw

A teoria é útil. As evidências de produção são melhores.

OpenClaw - a estrutura de agente de IA de código aberto que ganhou mais de 100.000 estrelas no GitHub em menos de uma semana após o lançamento no final de janeiro de 2026 - é um dos primeiros sistemas a demonstrar esses princípios funcionando em escala fora dos benchmarks de pesquisa.

A arquitetura do OpenClaw incorpora a convergência descrita acima. Seu sistema de memória usa Markdown estruturado com carimbos de data e hora e metadata, armazenados como arquivos de texto simples - sem bases data proprietárias, sem blobs criptografados. As pesquisas com reconhecimento de contexto ocorrem por meio de pesquisa semântica, em que o agente encontra conversas anteriores relacionadas, mesmo quando o usuário usa palavras completamente diferentes. A memória flui automaticamente entre as ferramentas integradas, de modo que as informações mencionadas em um bate-papo ficam disponíveis quando o agente trabalha em um editor de código ou navegador.

O que torna o OpenClaw relevante para essa discussão não é apenas sua arquitetura de memória. É a acessibilidade de sua abordagem. Os agentes do OpenClaw podem escrever código de forma autônoma para criar novas habilidades e manter a memória de longo prazo, tudo sem ajuste fino. O agente aprende com o uso, não com a descida de gradiente. O gerenciamento de memória ocorre na camada do aplicativo, não na camada do modelo, o que significa que qualquer equipe pode implementá-lo e personalizá-lo.
A versão 2026.2.3 visa especificamente o problema de confiabilidade que mata os fluxos de trabalho de longa duração: consistência aprimorada da execução da ferramenta, gerenciamento de sessão, confiabilidade da memória e isolamento do agente para automação estável de longa duração. Esses não são recursos de pesquisa. São correções de produção para os modos de falha exatos que a pesquisa de treinamento pós-memória identifica.

É assim que leio o momento do OpenClaw. É o primeiro sistema amplamente adotado que prova que o senhor pode criar agentes com memória durável e autogerenciada sem nenhuma das barreiras tradicionais: sem custos de ajuste fino, sem requisitos escassos de computação, sem conhecimento profundo de ML. O agente gerencia seu próprio contexto. O usuário configura o fluxo de trabalho. O sistema é executado.

É assim que a democratização se parece na prática.

Tradução empresarial: por que isso altera a equação de dimensionamento

Permita-me traduzir essa convergência em impacto operacional.

A barreira do custo cai

Os requisitos de computação de treinamento pós-memória são uma ordem de grandeza abaixo do ajuste fino. O AgeMem treina em um único nó 8xA100. O Memory-R1 precisa de 152 exemplos. A redução de contexto do 51% do MemAct e a sobrecarga de memória constante do MEM1 se traduzem diretamente em menores custos de inferência em escala. Para uma empresa que executa 30.000 conversas de agentes por dia a $0,14 cada, uma redução de contexto de 50% não apenas corta os custos pela metade, mas altera o que é economicamente viável. Tarefas que eram muito caras para os agentes lidarem com interações prolongadas tornam-se viáveis.

A barreira do conhecimento cai

O ajuste fino requer engenheiros de ML que entendam de treinamento distribuído, design de recompensa, depuração de gradiente e gerenciamento de pontos de verificação. O treinamento pós-memória e a navegação no estilo RLM operam na camada do aplicativo. O OpenClaw opera com arquivos Markdown e configuração. A experiência muda de “o senhor pode treinar um modelo” para “o senhor pode projetar um fluxo de trabalho” - um grupo de talentos muito maior.

Confiabilidade em horizontes longos

Esse é o maior prêmio. O motivo pelo qual 60% dos pilotos multiagentes não conseguem escalar não é o custo - é a degradação da confiabilidade. Os agentes que não conseguem manter um estado coerente em mais de 50 turnos são operacionalmente inúteis para os fluxos de trabalho mais importantes: pesquisa em várias etapas, atendimento ao cliente complexo, migração de código, resposta a incidentes.

O treinamento pós-memória aborda isso diretamente. O MEM1 mantém um desempenho quase constante em 16 objetivos. O MemAgent mantém a precisão em 3,5 milhões de tokens. Os RLMs processam entradas duas ordens de grandeza além das janelas nativas sem degradação. A combinação - agentes que navegam por um contexto amplo e mantêm um estado interno compacto - é o que torna viáveis os fluxos de trabalho autônomos de várias horas.

Três aspectos a serem observados em sua pilha

A memória é uma habilidade que pode ser treinada, não um canal fixo. Os sistemas de memória heurística em produção atualmente (Mem0, Zep, LangChain memory) oferecem valor real. Mas as políticas de memória aprendidas superam as projetadas manualmente, especialmente à medida que as tarefas se tornam mais longas. Avalie se sua camada de memória pode evoluir.
Navegação em vez de recuperação. Se os seus agentes acessam grandes bases de conhecimento somente por meio do RAG, o desempenho está sendo deixado de lado. O padrão RLM, que oferece aos agentes ferramentas para explorar, filtrar e consultar recursivamente seu contexto, é complementar e, muitas vezes, superior para tarefas de análise profunda. Fique atento ao aparecimento desse recurso em estruturas de agentes nos próximos 12 meses.
Otimização da camada de aplicativos sobre a personalização da camada de modelos. O modelo OpenClaw - gerenciamento de memória por meio de configuração e aprendizado em tempo de execução em vez de modificação de peso - é provavelmente o padrão que a maioria das organizações adotará. Ele não exige que o senhor seja um laboratório de ponta.

Limitações e questões em aberto

A convergência é real, mas as lacunas também são.

Escassez de treinamento data. O treinamento de memória baseado em RL requer ambientes em que o agente possa praticar o gerenciamento de memória em escala. A maioria dos artigos usa tarefas sintéticas ou benchmarks restritos. Não está comprovado se esses sinais de treinamento são transferidos para a diversidade confusa dos fluxos de trabalho corporativos.

A engenharia de recompensas é frágil. A experiência da equipe do mem-agent é instrutiva: os projetos iniciais de recompensa levaram a modelos que jogavam recompensas em formato de jogos em vez de resolver tarefas. Eles passaram por várias iterações antes de encontrar uma receita estável. Isso não é plug-and-play.

Navegação aérea. Os RLMs exigem consistentemente mais tempo de relógio de parede devido à sobrecarga de paralelização sub-LLM. Para aplicativos sensíveis à latência - chatbots, suporte ao cliente em tempo real - o RAG tradicional continua sendo a opção mais rápida. O trade-off do RLM favorece a precisão em detrimento da velocidade, o que limita sua aplicabilidade a análises profundas e fluxos de trabalho de longa duração.

A memória multimodal é precoce. Todos os oito artigos de pós-treinamento se concentram em texto. Os agentes que trabalham com imagens, data estruturado, saídas de ferramentas ou modalidades mistas precisam de sistemas de memória que lidem com conteúdo heterogêneo. Ninguém resolveu isso ainda.

Superfície de segurança. A memória que persiste e evolui cria vetores de ataque. As entradas adversárias podem envenenar a memória de longo prazo. A retenção excessiva gera preocupações com a privacidade em setores regulamentados. A versão 2026.2.3 do OpenClaw aborda alguns desses problemas com uma proteção mais forte contra injeção imediata, mas as implicações de segurança mais amplas das políticas de memória aprendida permanecem pouco exploradas.

Para onde isso está indo

Três desenvolvimentos convergiram em um período de meses. O treinamento pós-memória ensina aos agentes o que lembrar. Os modelos de linguagem recursiva ensinam aos agentes como navegar pelo que ainda não foi lembrado. E sistemas de produção como o OpenClaw provam que esses recursos podem ser fornecidos sem as barreiras tradicionais de ajuste fino, computação escassa e profundo conhecimento de ML.

A trajetória é clara. Na Fase 1 (agora), os sistemas de memória heurística e o RAG são o padrão de produção. Eles funcionam. Use-os. Na Fase 2 (2026-2027), os módulos de memória treinados em RL tornam-se disponíveis como componentes de plug-in, pequenos modelos especializados que lidam com o gerenciamento de memória para modelos de raciocínio maiores. A navegação no estilo RLM torna-se um recurso padrão do agente. Na Fase 3 (2027+), o treinamento de memória e a navegação contextual se fundem em pipelines de pós-treinamento padrão, juntamente com o ajuste de instruções e a RL de raciocínio.

Ainda não se sabe se a RL na memória será a resposta ou uma peça de um quebra-cabeça maior. É possível que surja algo totalmente diferente no próximo ano. Mas o número de equipes independentes que chegaram a essa abordagem - combinado com a velocidade com que sistemas de produção como o OpenClaw adotaram os princípios - é difícil de descartar. Esse tipo de convergência geralmente significa alguma coisa.

Para os profissionais que estão construindo hoje, a conclusão prática é a seguinte: arquitetar seus sistemas de forma que a camada de memória seja modular e substituível e fornecer aos seus agentes ferramentas para navegar pelo contexto, não apenas recebê-lo passivamente. Os sistemas heurísticos que o senhor implanta agora acabarão sendo trocados por sistemas treinados. Se o gerenciamento de memória estiver embutido no pipeline, essa troca será cara. Se for uma interface limpa, será uma atualização.

Os agentes que se destacam na produção não serão aqueles com as maiores janelas de contexto ou os modelos mais caros. Eles serão aqueles que aprenderam o que lembrar e como encontrar o que não foi lembrado.

Entre em contato conosco

Parte 2: Da memória à navegação: Dimensionamento de agentes autônomos além da recuperação

Autor