Part 1 | Post-memory training: Teaching agents to remember, not just retrieve

导言

在过去的几个月里，"后内存训练 "一直是我关注的焦点。如果你关注过我最近撰写的关于上下文管理、内存架构以及 "为什么代理在 50 岁之后会退化 "这一反复出现的问题的文章，那么这篇文章就是这些线索的交汇点。.

原来的模式非常清晰。八个独立的研究团队得出了相同的结论：停止围绕模型建立记忆系统，训练模型本身将记忆作为一种学习技能来管理。这一共识意义重大。.

它指向一个 扩大自治代理的民主道路. .它不需要微调，而微调是一个昂贵且技术要求高的过程，依赖于稀缺的计算能力和深厚的人工智能专业知识。记忆后训练在训练后阶段运行：与指令跟踪和推理相同的优化阶段，现在也适用于认知状态管理。而且，由于它是在现有模型的基础上工作的，因此那些没有能力从头开始训练模型的团队也可以使用它。.

微调墙

在人工智能的近代史上，大多数情况下的默认假设都是简单明了的：如果你想让模型有不同的表现，那就对它进行微调。调整权重。针对你的领域进行优化。问题是，微调已经成为越来越多组织的专利。.

训练一个 70B 参数的模型需要数百个高端 GPU 运行数天或数周。对类似 Llama 3.1 70B 这样的模型进行一次微调运行的计算成本在 $50,000 到 $200,000 之间，具体取决于 dataset 的大小和持续时间。访问该计算机受到限制。英伟达™（NVIDIA®）H100 集群要提前几个月预订，而管理分布式培训工作的专业人才却非常稀缺。大多数企业团队都没有能够设计奖励函数、调试梯度问题或管理多节点集群检查点恢复的 ML 工程师。.

这就形成了一个双层系统。少数前沿实验室和资金雄厚的初创公司可以定制模型行为。其他所有人都是按原样使用模型，将其包裹在及时工程和检索管道中，一旦任务变得冗长复杂，这些管道就会触及天花板。.

后记忆训练打破了这一态势。它不会修改基础模型的领域知识权重。它在后训练阶段使用强化学习来训练一种行为--内存管理。计算要求低了一个数量级。AgeMem 的整个训练流水线在单个 8xA100 节点上运行。Memory-R1 仅用 152 个训练样本就取得了成果。MemAct 对一个 14B 的模型进行训练，其准确度可媲美 16 倍以上的模型。这些并非前沿实验室的资源要求。这些都是可以获得的。.

这意味着：那些从来没有能力对基础模型进行微调的组织，现在可以训练他们的代理智能地管理内存。这不是渐进式的改进。它改变了谁来构建能在演示阶段后真正发挥作用的代理的方式。.

仅靠建筑无法弥补的差距

下面是问题的具体表现。与人工智能代理进行一次对话的平均令牌成本约为 $0.14。如果将其扩大到 3,000 名员工每天使用十次，那么每月的 API 费用将达到 $126,000。随着对话历史的增加，成本也会以四倍的速度递增，因为每一个新回合都要重新处理之前的所有回合。处理 100 转工作流程的代理成本不是 10 转工作流程的 10 倍。它的成本接近 100 倍。.

业界尝试了更大的语境窗口。现在，我们已经有了可以接受 100 万个或更多代币的模型。但三个问题依然存在。在长序列中，模型的注意力会下降。加州大学伯克利分校记录的 “迷失在中间 ”效应表明，当相关信息位于上下文边界附近时，性能就会下降。在组织规模上，强制上下文的成本是不可持续的。如果考虑到工具输出、结构化 data 和累积状态，大多数企业工作流甚至仍会超过百万令牌窗口。.

业界尝试过检索增强生成。RAG 有帮助，但它检索的是语义相似的内容，而不是与操作相关的内容。第 3 步的关键约束条件在语义上可能与第 47 步的查询相去甚远，但对当前的决策却至关重要。.

业界尝试过启发式内存管理。基于规则的系统可根据预定义的逻辑对上下文进行汇总、压缩或过滤。与全上下文方法相比，Mem0 的架构实现了 26% 的精度提升和 91% 的延迟降低。实实在在的收益。但是，启发式系统也有其局限性：规则是由工程师设计的，而不是从经验中总结出来的。如果不进行人工重新设计，它们就无法适应新的领域。.

差距：这些方法都没有教代理本身记住什么。它们都没有教代理如何驾驭自己的上下文。.

记忆的后期训练：RL 收敛

术语 “后训练 ”指的是在基础模型的预训练阶段之后进行的优化。我们就是这样从原始语言模型到指令跟随助手（通过 RLHF），从助手到推理模型（通过过程奖励模型），再到现在--从推理模型到管理自身认知状态的代理。.

这种机制就是强化学习。你不需要将内存管理作为一个外部系统来构建，而是将内存操作添加到代理的行动空间中，并训练它很好地使用这些操作。代理会学习何时存储、删除、合并和检索--所有这些都是通过试错来实现的，并根据任务完成情况进行优化。不需要 “正确 ”内存管理的真实案例。只需一个奖励信号：代理最终解决了任务吗？

最近的八篇论文阐明了这一点。.

关键架构

年龄记忆 为代理提供了六种记忆工具--用于长期存储的 ADD、UPDATE、DELETE 和用于短期语境的 RETRIEVE、SUMMARY、FILTER。训练分三个阶段逐步进行。Qwen2.5-7B 的结果：与无记忆基线相比，相对提高了 +49.59%，与 RAG 变体相比，消耗的提示标记减少了 3-5%。在较少上下文的情况下性能更佳。.

内存-R1 将问题分成两个专门的代理：一个是学习结构化运算的记忆管理器，另一个是检索和推理的答题代理。记忆管理器的奖励来自于回答代理能否正确回答。结果 +28% F1 仅用 152 个训练样本，就超过了 LoCoMo 的最佳基准。无须重新训练，即可实现对未见基准的零点转移。.

MemAct 通过 “剪枝与写入 ”操作符来扩展操作空间--在任何步骤中，代理都可以删除历史记录并附加记忆摘要。MemAct-RL-14B 精度可媲美大 16 倍的模型 同时将平均上下文长度减少 51%，推理延迟减少 ~40%。.

MEM1 最远，内存大小保持不变。代理每次都会生成一个 "内部状态"，整合它所需要的一切，然后丢弃之前的所有上下文。无论任务长短，内存使用量都保持不变。MEM1-7B 超过 Qwen2.5-14B 16 个目标任务。该模型学会了分别跟踪子目标、跳过已解决的问题和自我纠正查询--所有这些都是新出现的行为。.

MemAgent 处理极端情况：以线性复杂度处理任意长度的文档。在 32K 上下文长度上进行训练后，它可以推断出 350 万个标记，而性能损失不到 5%。.

所有的模式都是如此： 训练有素的内存管理优于未经训练的内存管理，而且往往优于使用未经训练的内存的大型模型.

但是，教代理记住什么只是故事的一半。在本文的下一部分，我将深入探讨一个完全重构问题的平行发展： 递归语言模型, 这些系统不是将上下文作为检索对象，而是作为导航对象。我还将研究生产系统，如 OpenClaw 在基准之外证明这些想法是可行的，这种融合对企业扩展意味着什么，以及还存在哪些差距。规模化的代理不仅能更好地记忆，还能知道如何找到尚未记忆的内容。.

联系我们

第 1 部分：记忆后培训：教代理记忆，而不仅仅是检索

作者

导言

微调墙

仅靠建筑无法弥补的差距

记忆的后期训练：RL 收敛

关键架构