导言
在上一篇文章中,我探讨了八个独立研究团队是如何汇聚在同一个见解上的:与其围绕模型构建记忆系统,不如训练模型本身,使其将记忆作为一种学习技能来管理。后记忆训练--在训练后阶段使用强化学习--产生的代理可以决定存储、删除、合并和检索什么,所有这些都是针对任务完成情况进行优化的。.
但此后发生的事情更有意思。这项研究与另外两项进展发生了碰撞。. 递归语言模型 将上下文管理重新定义为导航而非检索。生产系统,如 OpenClaw 证明这些想法在基准测试之外也能奏效。综合来看,这些想法的意义远大于内存的改进。.
它指向一个 扩大自治代理的民主道路 - 一种不需要微调、稀缺计算或深层 ML 专业知识的方法。以下是导航和生产证据的结合方式。.
情境即导航:遥感范式的转变
最近引起我注意的是当后记忆培训界在教代理管理上下文时,同时进行的一项研究却在完全重构这个问题。.
递归语言模型, Alex Zhang、Tim Kraska 和 Omar Khattab 提出,上下文工程不是一个检索问题。它是一个导航问题。这两者之间的区别非常重要。.
传统的 RAG 将知识库视为您查询的 database。你可以嵌入知识块,计算相似度得分,并将前 K 结果提取到提示中。模型被动地接收检索系统认为相关的内容。模型本身并不能控制它所看到的内容。.
RLM 就是这样。模型可以访问持久的 Python REPL 环境。长输入作为变量加载。模型可以对其进行检查、搜索、分区,并启动递归子查询,生成新的 LLM 实例,并行处理各块内容并返回结果。模型以开发人员浏览代码库的方式浏览上下文:通过探索、过滤和选择性读取所需的内容。.
数据证明了这一点。RLM 可以处理超出模型本地上下文窗口两个数量级的输入,而不会出现性能下降。在超过 150 万字符的实际 datasets 中,RLMs 的表现明显优于标准 LLMs 和常见的长语境脚手架。后训练版本, RLM-Qwen3-8B, ,其性能比基本模型高出 平均 28.3% 并在三项长语境任务中接近 GPT-5 质量 - 来自 8B 模型。.
这与后记忆训练的互补之处在于关注点的分离。后记忆训练教代理记住什么、忘记什么--即有关状态管理的编辑决策。RLM 则教代理如何探索尚未记入记忆的上下文。一种是关于管理代理头脑中的内容。另一个则是关于如何浏览外部环境。.
两者的结合比其中任何一种都更强大。一个既能驾驭庞大的外部环境,又能管理紧凑的内部记忆状态的代理,具备了真正实现长期自主工作流程所需的两种能力:广泛的感知能力和选择性保留能力。.
OpenClaw 时刻
理论是有用的。生产证据更好。.
OpenClaw - 这个开源的人工智能代理框架在 2026 年 1 月底推出后,不到一周就获得了超过 100,000 个 GitHub 星级,是首批展示这些原则在研究基准之外大规模运行的系统之一。.
OpenClaw 的架构体现了上述融合。它的记忆系统使用带有时间戳和元data的结构化 Markdown,以纯文本文件的形式存储--没有专有的databases,也没有加密的 blob。上下文感知查找通过语义搜索实现,即使用户使用了完全不同的词汇,代理也能找到相关的过往对话。内存会自动在集成工具间流动,因此当代理在代码编辑器或浏览器中工作时,聊天中提到的信息就会出现。.
OpenClaw之所以与本讨论相关,不仅仅是因为它的内存架构。而是其方法的易用性。OpenClaw 代理可以自主编写代码,创建新技能并保持长期记忆,所有这些都无需微调。代理通过使用而不是梯度下降来学习。内存管理发生在应用层,而不是模型层,这意味着任何团队都可以部署和定制它。.
2026.2.3 版专门针对长期运行工作流的可靠性问题:改进工具执行一致性、会话管理、内存可靠性和代理隔离,以实现稳定的长期自动化。这些都不是研究功能。它们是针对内存训练后研究发现的确切故障模式的生产修复。.
我是这样解读 OpenClaw 的。这是第一个被广泛采用的系统,它证明了你可以在没有任何传统障碍的情况下构建具有持久、自我管理内存的代理:没有微调成本、没有稀缺的计算要求、没有深厚的 ML 专业知识。代理管理自己的上下文。用户配置工作流。系统运行.
这就是民主化在实践中的表现。.
企业翻译:为什么会改变扩展等式
让我把这种融合转化为业务影响。.
成本门槛降低
内存训练后的计算需求比微调低一个数量级。AgeMem 在单个 8xA100 节点上进行训练。Memory-R1 需要 152 个示例。MemAct 的 51% 上下文缩减和 MEM1 的恒定内存开销直接降低了大规模推理的成本。对于每天运行 30,000 次代理对话(每次 $0.14)的企业来说,50% 的上下文缩减不仅能将成本减半,还能改变经济上可行的方式。对于代理来说,在长时间交互中处理成本过高的任务变得可行。.
专业知识门槛降低
微调需要精通分布式训练、奖励设计、梯度调试和检查点管理的 ML 工程师。内存后训练和 RLM 式导航在应用层运行。OpenClaw 使用 Markdown 文件和配置进行操作。专业技能从 “你能训练一个模型吗 ”转变为 “你能设计一个工作流程吗”--这是一个更大的人才库。.
长期可靠性
这才是更大的奖赏。60% 的多代理试点无法扩展的原因不是成本,而是可靠性下降。对于多步骤研究、复杂的客户服务、代码迁移、事件响应等最重要的工作流程而言,无法在 50 多个回合中保持一致状态的代理在操作上毫无用处。.
后记忆训练直接解决了这一问题。MEM1 可在 16 个目标上保持近乎恒定的性能。MemAgent 可在 350 万个令牌中保持准确性。RLM 在处理超出本地窗口两个数量级的输入时不会出现性能下降。代理既能在广阔的上下文中导航,又能保持紧凑的内部状态,这种组合使多小时的自主工作流成为可能。.
堆栈中需要注意的三点
- 记忆是一种可训练的技能,而不是固定的管道。. 目前已投入使用的启发式内存系统(Mem0、Zep、LangChain 内存)能带来真正的价值。但是,学习型内存策略优于手工设计的内存策略,尤其是当任务越来越长时。评估你的内存层是否可以进化。.
- 导航重于检索。. 如果你的代理仅通过 RAG 访问大型知识库,那么你的性能就会大打折扣。RLM 模式--为代理提供探索、过滤和递归查询其上下文的工具--对于深度分析任务来说是一种补充,而且往往更胜一筹。在接下来的 12 个月里,我们将期待这种功能出现在代理框架中。.
- 应用层优化优于模型层定制。. OpenClaw 模式--通过配置和运行时学习进行内存管理,而不是修改权重--很可能是大多数组织会采用的模式。它不要求你成为一个前沿实验室。.
局限性和开放性问题
趋同是真实的,但差距也是真实的。.
培训 data 的稀缺性。. 基于 RL 的内存训练需要能让代理大规模练习内存管理的环境。大多数论文都使用合成任务或狭窄的基准。这些训练信号是否能应用于纷繁复杂的企业工作流程,目前尚未得到证实。.
奖励工程很脆弱。. Mem-agent 团队的经验很有启发性:最初的奖励设计导致模型玩格式奖励游戏,而不是解决任务。在找到一个稳定的配方之前,他们经历了多次反复。这并非即插即用。.
高空导航。. 由于子 LLM 并行化开销,RLM 始终需要更多的挂钟时间。对于延迟敏感型应用(聊天机器人、实时客户支持),传统的 RAG 仍然是更快的选择。RLM 的权衡偏重于准确性而非速度,这限制了它在深度分析和长时间运行的工作流中的适用性。.
多模态记忆是早期记忆。. 所有八篇培训后论文都侧重于文本。处理图像、结构化 data、工具输出或混合模式的代理需要能够处理异构内容的记忆系统。目前还没有人解决这个问题。.
安全表面。. 持续存在并不断演化的内存会产生攻击载体。对抗性输入会毒害长期记忆。过度保留会引发受监管行业的隐私问题。OpenClaw的2026.2.3版本提供了更强的及时注入保护,解决了其中的一些问题,但对学习内存策略的更广泛安全影响仍未进行深入探讨。.
未来走向
在短短几个月的时间里,有三项进展交汇在一起。记忆后训练教代理记住什么。递归语言模型教代理如何浏览尚未记住的内容。而像 OpenClaw 这样的生产系统则证明,这些功能可以在没有微调、稀缺计算和深度 ML 专业知识等传统障碍的情况下实现。.
发展轨迹是清晰的。在第一阶段(现在),启发式记忆系统和 RAG 是生产标准。它们行之有效。使用它们。在第 2 阶段(2026-2027 年),经过 RL 训练的记忆模块可作为插件组件使用,这些小型专用模型可处理大型推理模型的记忆管理。RLM 式导航将成为标准的代理能力。在第 3 阶段(2027+),记忆训练和上下文导航将与指令调整和推理 RL 一起并入标准的后训练流水线。.
RL 记忆究竟是答案,还是更大谜题中的一个片段,目前还没有定论。明年可能会出现完全不同的东西。但是,有这么多独立团队达成了这一方法,再加上像 OpenClaw 这样的生产系统采用这一原则的速度之快,是很难让人忽视的。这种趋同通常意味着什么。.
对于今天的从业人员来说,可借鉴的经验是:构建系统时,应使记忆层模块化且可更换,并为代理提供导航工具,而不仅仅是被动地接收上下文。您现在部署的启发式系统最终将被训练有素的系统取代。如果你的内存管理是硬连接到管道中的,那么这种交换将是昂贵的。如果它是一个简洁的界面,那将是一次升级。.
能够扩大生产规模的代理商将不会是那些拥有最大背景窗口或最昂贵模型的代理商。它们将是那些已经学会记住什么,以及如何找到他们没有记住的东西的代理。.

博客






