引言

在上一篇文章中,我探讨了八个独立研究团队如何得出了相同的结论:与其围绕模型构建记忆系统,不如训练模型本身,使其将记忆管理作为一项习得技能。后记忆训练——即在训练后阶段运用强化学习——能够培养出能够自主决定存储、删除、巩固和检索哪些信息的智能体,所有这些操作都经过优化,以完成任务为目标。

但此后发生的事情更为耐人寻味。这项研究与另外两个发展趋势产生了交集。递归语言模型将上下文管理重新定义为“导航”而非“检索”。像OpenClaw这样的生产系统正证明,这些理念在基准测试之外同样行之有效。综合来看,这一切所指向的,远不止是记忆能力的提升。

这为扩展自主代理指明了一条民主化的路径——这条路径无需微调、无需稀缺的计算资源,也不需要深厚的机器学习专业知识。以下是导航模块与实际应用证据如何相互契合的说明。

语境即导航:RLM范式转变

最近,有件事引起了我的注意。当后记忆训练领域的研究者们正致力于教智能体管理上下文时,另一条平行研究路线却对这一问题进行了彻底的重新定义。

由张亚历克斯(Alex Zhang)、蒂姆·克拉斯卡(Tim Kraska)和奥马尔·哈塔布(Omar Khattab)提出的递归语言模型认为,上下文工程并非检索问题,而是一个导航问题。这种区别至关重要。

传统的 RAG 将知识库视为一个可供查询的数据库。你嵌入知识片段,计算相似度分数,并将排名前 k 的结果纳入提示词中。模型被动地接收检索系统判定为相关的内容。模型本身无法自主决定其所接收的信息。

RLM 则颠覆了这一模式。模型可以访问一个持久的 Python REPL 环境。长输入会被加载为变量。模型可以检查这些变量、对其进行筛选、进行分区,并发起递归子查询,从而启动新的 LLM 实例,这些实例会并行处理数据块并返回结果。模型浏览上下文的方式,就像开发者浏览代码库一样:通过探索、过滤,并有选择地读取所需内容。

数据印证了这一点。RLM 模型在处理输入时,其处理范围可达模型原生上下文窗口的两个数量级,且性能不会下降。在超过 150 万字符的真实世界数据集上,RLM 模型显著优于标准 LLM 模型和常见的长上下文框架。 经过微调的版本RLM-Qwen3-8B 在三项长上下文任务上,平均表现比其基础模型高出28.3%,且其表现已接近 GPT-5 的水平——而这仅基于一个 80 亿参数的模型。

这种方法之所以能与后记忆训练形成互补,关键在于二者的关注点有所区分。后记忆训练教导智能体该记住什么、该忘记什么——即关于状态管理的“编辑决策”。而RLM则教导智能体如何探索那些尚未被存储在记忆中的上下文。前者关注的是智能体“脑海中”的内容管理,后者则关注的是如何处理“脑海之外”的信息。

这种结合比单独使用任何一种都更强大。一个既能处理庞大的外部环境,又能管理紧凑的内部内存状态的智能体,具备了真正长期运行的自主工作流所需的两项能力:广泛的感知能力和选择性保留能力。

OpenClaw 时刻

理论是有用的。实践证据更胜一筹。

OpenClaw——这一开源人工智能代理框架于2026年1月下旬发布后,不到一周便在GitHub上获得了超过10万颗星——是首批在研究基准测试之外,成功在大规模场景中验证这些原则的系统之一。

OpenClaw 的架构体现了上述融合特性。其记忆系统采用带时间戳和元数据的结构化 Markdown 格式,以纯文本文件形式存储——不使用专有数据库,也不包含加密的二进制数据块。通过语义搜索实现上下文感知查询,即即使用户使用了完全不同的词汇,代理也能找到相关的历史对话。记忆信息会在集成工具间自动流动,因此当代理在代码编辑器或浏览器中工作时,聊天中提及的信息也会自动呈现。

OpenClaw之所以与本次讨论相关,不仅在于其内存架构,更在于其方法的易用性。OpenClaw代理能够自主编写代码来创建新技能并维护长期记忆,且无需微调。该代理通过使用而非梯度下降进行学习。内存管理在应用层而非模型层进行,这意味着任何团队都能部署并定制它。
2026.2.3 版本专门针对导致长期运行工作流崩溃的可靠性问题:通过改进工具执行一致性、会话管理、内存可靠性以及代理隔离机制,实现了稳定的长期自动化运行。这些并非研究性功能,而是针对后记忆训练研究中确定的具体故障模式所做的生产环境修复。

以下是我对 OpenClaw 这一时刻的解读。这是首个被广泛采用的系统,它证明了我们可以构建具有持久、自管理内存的代理,且完全不受传统障碍的限制:无需微调成本,无需稀缺的计算资源,也无需深厚的机器学习专业知识。代理自行管理其上下文,用户配置工作流,系统便开始运行。

这就是民主化在实践中的真实面貌。

企业级翻译:为何这会改变规模扩展的方程式

让我把这种趋同转化为实际运营层面的影响。

成本门槛降低

后内存训练的计算需求比微调低一个数量级。AgeMem仅需单个8xA100节点即可完成训练。Memory-R1需要152个示例。MemAct的51%上下文压缩率以及MEM1的恒定内存开销,直接转化为大规模推理成本的降低。 对于一家每天处理 30,000 次客服对话、每次成本为 0.14 美元的企业而言,50% 的上下文压缩不仅能将成本减半,更彻底改变了经济可行性的边界。那些因成本过高而无法由客服在长时间交互中处理的任务,如今变得可行了。

专业门槛降低

微调工作需要具备分布式训练、奖励设计、梯度调试和检查点管理知识的机器学习工程师。后内存训练和RLM风格的导航运行于应用层。OpenClaw通过Markdown文件和配置进行操作。所需的专业技能已从“能否训练模型”转向“能否设计工作流”——这使得人才储备更加庞大。

长期可靠性

这才是更大的挑战。60%的多智能体试点项目无法实现规模化,原因并非成本——而是可靠性下降。对于那些在超过50个回合后无法保持状态一致性的智能体而言,在最关键的工作流程中(如多步骤研究、复杂的客户服务、代码迁移以及事件响应)将毫无实际价值。

后内存训练直接解决了这一问题。MEM1 在 16 个目标上保持了近乎恒定的性能。MemAgent 在 350 万个令牌范围内维持了准确率。RLMs 处理的输入量比原生窗口多出两个数量级,且性能未受影响。这种结合——即能够处理广泛上下文并保持紧凑内部状态的代理——正是使长达数小时的自主工作流成为可能的关键。

堆栈中需关注的三点

  1. 记忆是一种可训练的技能,而非固定的流程。目前投入生产的启发式记忆系统(如 Mem0、Zep 和 LangChain 记忆)确实能带来实际价值。但经过学习的记忆策略表现优于人工设计的策略,尤其是在任务周期变长时。请评估您的记忆层是否具备进化能力。
  2. 导航优先于检索。如果您的智能代理仅通过 RAG 访问大型知识库,那么您就错失了提升性能的机会。RLM 模式——即为智能代理提供探索、筛选和递归查询上下文的工具——与 RAG 互为补充,在深度分析任务中往往更具优势。未来 12 个月内,请关注这一功能在智能代理框架中的应用。
  3. 优先应用层优化,而非模型层定制。OpenClaw 模型——通过配置和运行时学习而非修改权重来实现内存管理——很可能是大多数组织将采用的模式。它并不要求您必须是前沿实验室。

局限性与未解问题

融合是真实存在的,但差距同样真实。

训练数据匮乏。基于强化学习的记忆训练需要能够让智能体在大规模环境下练习记忆管理的环境。大多数论文采用合成任务或窄域基准测试。这些训练信号能否迁移到企业工作流中那种杂乱多样的场景中,目前尚无定论。

奖励设计非常脆弱。mem-agent 团队的经验值得借鉴:最初的奖励设计导致模型只顾钻奖励机制的空子,而非解决实际任务。他们经过多次迭代才找到一套行之有效的方案。这绝非“即插即用”之事。

导航开销。由于子LLM并行化的开销,RLM始终需要更长的实际运行时间。对于对延迟敏感的应用(如聊天机器人、实时客户支持),传统的RAG仍是更快的选择。RLM在准确性和速度之间更侧重准确性,这限制了其应用范围,仅适用于深度分析和长期运行的工作流。

多模态记忆技术尚处于早期阶段。所有八篇关于训练后学习的论文都聚焦于文本。处理图像、结构化数据、工具输出或混合模态的智能体,需要能够处理异构内容的记忆系统。目前尚无人解决这一问题。

安全边界。持久且不断演进的记忆会产生攻击面。对抗性输入可能污染长期记忆。在受监管行业中,过度保留数据会引发隐私问题。OpenClaw的2026.2.3版本通过增强提示注入防护机制解决了一部分问题,但学习型记忆策略更广泛的安全影响仍未得到充分探讨。

这将走向何方

短短数月间,三大进展已形成合力。后记忆训练教会智能体该记住什么;递归语言模型教会智能体如何处理尚未记住的内容;而像 OpenClaw 这样的生产系统则证明,这些能力无需受限于传统障碍——如微调、计算资源匮乏以及深厚的机器学习专业知识——即可实现。

发展路径清晰可见。在第一阶段(当前阶段),启发式记忆系统和RAG已成为生产标准。它们行之有效,请务必采用。 在第二阶段(2026–2027年),通过强化学习(RL)训练的记忆模块将作为插件组件出现,这些小型专用模型负责为大型推理模型处理记忆管理。RLM风格的导航将成为标准代理能力。在第三阶段(2027年起),记忆训练与上下文导航将与指令微调及推理强化学习一同,融合为标准的训练后处理流程。

内存中的强化学习究竟是最终答案,还是更大拼图中的一块,目前尚无定论。明年或许会出现截然不同的方案。但采用这一方法的独立团队数量之多——再加上像 OpenClaw 这样的生产系统采纳这些原则的速度之快——这些事实难以忽视。这种趋同现象通常意味着某种深意。

对于当今的开发者而言,可付诸实践的要点在于:在设计系统架构时,应确保内存层具备模块化和可替换性,并为代理提供主动解析上下文的工具,而非仅被动接收上下文。你们现在部署的启发式系统终将被训练好的系统所取代。如果内存管理机制被硬编码到处理管道中,这种替换将代价高昂;但如果采用的是干净的接口,这将是一次升级。

在实际应用中能够发挥作用的模型,并非那些拥有最大上下文窗口或最昂贵模型的模型。而是那些已经学会了该记住什么——以及如何找到自己尚未掌握的内容的模型。