Introdução

O treinamento pós-memória tem sido um dos meus principais focos nos últimos meses. Se você acompanhou meus textos recentes sobre gerenciamento de contexto, arquiteturas de memória e a questão recorrente de por que os agentes apresentam degradação após o 50º turno, este artigo é onde essas linhas de raciocínio se encontram.

O padrão original era bastante claro. Oito equipes de pesquisa independentes chegaram à mesma conclusão: parar de construir sistemas de memória em torno do modelo e treinar o próprio modelo para gerenciar a memória como uma habilidade aprendida. Essa convergência foi significativa.

Isso aponta para um caminho democrático para a escalabilidade de agentes autônomos. Um caminho que não requer ajuste fino, um processo caro e tecnicamente exigente que depende de recursos computacionais escassos e de profundo conhecimento em aprendizado de máquina. O treinamento pós-memória opera na fase pós-treinamento: a mesma etapa de otimização que nos proporcionou a capacidade de seguir instruções e raciocinar, agora aplicada ao gerenciamento do estado cognitivo. E, como funciona sobre modelos já existentes, é acessível a equipes que nunca teriam condições de treinar um modelo do zero.

A parede do ajuste fino

A premissa padrão na maior parte da história recente AItem sido simples: se você quer que um modelo se comporte de maneira diferente, faça um ajuste fino. Ajuste os pesos. Otimize para o seu domínio. O problema é que o ajuste fino tornou-se privilégio de um número cada vez menor de organizações.

Treinar um modelo com 70 bilhões de parâmetros requer centenas de GPUs de ponta funcionando por dias ou semanas. Uma única execução de ajuste fino em um modelo como o Llama 3.1 70B custa entre US$ 50.000 e US$ 200.000 em recursos de computação, dependendo do tamanho do conjunto de dados e da duração. O acesso a esses recursos computacionais é restrito. Os clusters NVIDIA H100 são reservados com meses de antecedência, e a expertise para gerenciar tarefas de treinamento distribuídas é escassa. A maioria das equipes corporativas não conta com engenheiros de ML capazes de projetar funções de recompensa, depurar problemas de gradiente ou gerenciar a recuperação de pontos de verificação em clusters com vários nós.

O resultado é um sistema de duas camadas. Um punhado de laboratórios de ponta e startups bem financiadas consegue personalizar o comportamento dos modelos. Todos os demais utilizam os modelos tal como estão, integrando-os em processos de engenharia de prompts e de recuperação que atingem um limite quando as tarefas se tornam longas e complexas.

O treinamento pós-memória rompe essa dinâmica. Ele não modifica os pesos do modelo base para o conhecimento de domínio. Em vez disso, treina um comportamento — o gerenciamento de memória — utilizando aprendizagem por reforço na fase pós-treinamento. Os requisitos computacionais são uma ordem de magnitude menores. Todo o pipeline de treinamento do AgeMem é executado em um único nó 8xA100. O Memory-R1 alcança seus resultados com 152 amostras de treinamento. O MemAct treina um modelo de 14 bilhões de parâmetros para igualar a precisão de modelos 16 vezes maiores. Esses não são requisitos de recursos de laboratórios de ponta. São acessíveis.

A implicação: organizações que nunca tiveram recursos para aperfeiçoar um modelo de base agora podem treinar seus agentes para gerenciar a memória de forma inteligente. Isso não é uma melhoria incremental. É uma mudança no sentido de quem passa a ser capaz de criar agentes que realmente funcionam além da fase de demonstração.

A lacuna que a arquitetura, por si só, não consegue preencher

Eis o problema em termos concretos. Uma única conversa com um AI custa, em média, cerca de US$ 0,14 em tokens. Se multiplicarmos isso por 3.000 funcionários que o utilizam dez vezes por dia, chegamos a US$ 126.000 por mês em taxas de API. À medida que o histórico de conversas cresce, os custos aumentam quadraticamente, pois cada nova troca de mensagens reprocessa todas as trocas anteriores. Um agente que lida com um fluxo de trabalho de 100 turnos não custa 10 vezes mais do que um fluxo de trabalho de 10 turnos. Custa cerca de 100 vezes mais.

O setor tentou utilizar janelas de contexto maiores. Agora, temos modelos que aceitam um milhão de tokens ou mais. No entanto, três problemas persistem. A atenção do modelo se degrada em sequências longas. O efeito “perdido no meio”, documentado pela UC Berkeley, mostra quedas de desempenho quando informações relevantes se encontram próximas aos limites do contexto. O custo de analisar o contexto por força bruta é insustentável em escala organizacional. E a maioria dos fluxos de trabalho corporativos ainda ultrapassa janelas de até um milhão de tokens quando se leva em conta os resultados de ferramentas, data estruturados e o estado acumulado.

O setor experimentou a geração aumentada por recuperação (RAG). A RAG ajuda, mas recupera o que é semanticamente semelhante, não o que é operacionalmente relevante. Uma restrição crítica da rodada 3 pode estar semanticamente distante da consulta da rodada 47, mas ser essencial para a decisão em questão.

O setor experimentou o gerenciamento heurístico de memória. Sistemas baseados em regras que resumem, compactam ou filtram o contexto com base em uma lógica predefinida. A arquitetura do Mem0 alcança um aumento de 26% na precisão e uma redução de 91% na latência em comparação com métodos de contexto completo. Ganhos reais. Mas os sistemas heurísticos compartilham uma limitação: as regras são projetadas por engenheiros, não aprendidas com a experiência. Eles não conseguem se adaptar a novos domínios sem um redesenho manual.

A lacuna: nenhuma dessas abordagens ensina ao próprio agente o que deve ser lembrado. E nenhuma delas ensina ao agente como navegar em seu próprio contexto.

Pós-treinamento para a memória: a convergência do RL

O termo “pós-treinamento” refere-se à otimização que ocorre após a fase de pré-treinamento do modelo base. É assim que passamos de modelos de linguagem brutos para assistentes capazes de seguir instruções (por meio do RLHF), de assistentes para modelos de raciocínio (por meio de modelos de recompensa por processo) e, agora, de modelos de raciocínio para agentes que gerenciam seu próprio estado cognitivo.

O mecanismo é o aprendizado por reforço. Em vez de criar um sistema externo de gerenciamento de memória, você adiciona operações de memória ao espaço de ação do agente e o treina para utilizá-las adequadamente. O agente aprende quando armazenar, excluir, consolidar e recuperar — tudo por meio de tentativa e erro, otimizado para a conclusão da tarefa. Não são necessários exemplos de referência de um gerenciamento de memória “correto”. Basta um sinal de recompensa: o agente acabou resolvendo a tarefa?

Oito artigos recentes explicam como isso funciona.

As principais arquiteturas

O AgeMem oferece ao agente seis ferramentas de memória — ADD, UPDATE e DELETE para armazenamento de longo prazo, e RETRIEVE, SUMMARY e FILTER para contexto de curto prazo. O treinamento ocorre em três etapas progressivas. Resultados no Qwen2.5-7B: melhoria relativa de +49,59% em relação às linhas de base sem memória, com um consumo de tokens de prompt 3 a 5% menor do que nas variantes do RAG. Melhor desempenho com menos contexto.

O Memory-R1 divide o problema em dois agentes especializados: um Gerenciador de Memória que aprende operações estruturadas e um Agente de Resposta que recupera e raciocina. A recompensa do Gerenciador de Memória depende da capacidade do Agente de Resposta de responder corretamente. Resultados: +28% no F1 em relação à melhor linha de base no LoCoMo, utilizando apenas 152 amostras de treinamento. Transferência zero-shot para benchmarks não vistos, sem necessidade de retreinamento.

O MemAct amplia o espaço de ação com um operador “Prune & Write” — em qualquer etapa, o agente pode excluir turnos anteriores e anexar um resumo de memória. O MemAct-RL-14B atinge a mesma precisão de modelos 16 vezes maiores, reduzindo o comprimento médio do contexto em 51% e a latência de inferência em cerca de 40%.

O MEM1 vai mais longe, mantendo um tamanho de memória constante. A cada passo, o agente gera um Estado Interno que consolida tudo o que precisa e, em seguida, descarta todo o contexto anterior. O uso de memória permanece constante, independentemente da duração da tarefa. O MEM1-7B supera o Qwen2.5-14B em tarefas com 16 objetivos. O modelo aprendeu a acompanhar subobjetivos separadamente, pular questões já resolvidas e autocorrigir consultas — todos comportamentos emergentes.

O MemAgent lida com o caso extremo: processar documentos de comprimento arbitrário com complexidade linear. Treinado com um comprimento de contexto de 32 mil, ele extrapola para 3,5 milhões de tokens com menos de 5% de perda de desempenho.

O padrão comum a todos eles: o gerenciamento de memória treinado supera o gerenciamento de memória não treinado e, muitas vezes, supera modelos maiores com gerenciamento de memória não treinado.

Mas ensinar aos agentes o que devem lembrar é apenas metade da história. Na próxima parte deste artigo, vou me aprofundar em um desenvolvimento paralelo que reformula o problema por completo: os Modelos de Linguagem Recursivos, que tratam o contexto não como algo a ser recuperado, mas como algo a ser explorado. Também examinarei como sistemas de produção como o OpenClaw estão comprovando que essas ideias funcionam fora dos benchmarks, o que essa convergência significa para a escalabilidade empresarial e onde estão as lacunas restantes. Os agentes que escalarem não apenas se lembrarão melhor — eles saberão como encontrar o que ainda não memorizaram.