引言
过去几个月来,后内存训练一直是我关注的重点。如果你关注了我近期关于上下文管理、内存架构以及“为什么智能体在第50轮后性能会下降”这一反复出现的问题的文章,那么这篇文章正是这些线索汇聚之处。
最初的趋势已经相当明确。八支独立的研究团队得出了相同的结论:不要再围绕模型构建内存系统,而是要训练模型本身,使其将内存管理作为一项习得技能。这种共识具有重要意义。
这为扩展自主代理指明了一条民主化的路径。这种方法无需进行微调——微调是一个耗资巨大且技术要求极高的过程,依赖于稀缺的计算资源和深厚的机器学习专业知识。后内存训练在训练后阶段进行:正是那个赋予我们指令执行和推理能力的优化阶段,如今被应用于认知状态管理。而且,由于它是在现有模型基础上运行的,因此那些无力从头开始训练模型的团队也能轻松使用。

微调墙
在人工智能发展历程的大部分时间里,人们一直秉持着一个简单的默认假设:如果希望模型表现得不同,就对其进行微调。调整权重。针对特定领域进行优化。问题在于,微调已成为越来越少组织才能胜任的领域。
训练一个拥有700亿参数的模型,需要数百块高端GPU连续运行数天甚至数周。仅对Llama 3.1 70B这类模型进行一次微调,其计算成本就在5万至20万美元之间,具体取决于数据集的大小和训练时长。 此类计算资源的获取受到限制。NVIDIA H100集群需提前数月预订,且具备管理分布式训练任务的专业人才十分稀缺。大多数企业团队缺乏能够设计奖励函数、调试梯度问题或在多节点集群中管理检查点恢复的机器学习工程师。
结果形成了一个两极分化的体系。少数前沿实验室和资金雄厚的初创公司能够定制模型的行为。而其他人则只能直接使用现成的模型,通过提示工程和检索管道对其进行封装,但一旦任务变得冗长复杂,这种方法就会遇到瓶颈。
后记忆训练打破了这种动态。它不会修改基础模型中与领域知识相关的权重,而是在训练后阶段利用强化学习来训练一种行为——内存管理。其计算需求降低了整整一个数量级。 AgeMem的整个训练管道可在单个8xA100节点上运行。Memory-R1仅需152个训练样本即可达成其效果。MemAct通过训练一个140亿参数的模型,实现了与规模大16倍的模型相当的准确率。这些并非前沿实验室级别的资源需求,而是触手可及的。
这意味着:那些原本无力对基础模型进行精细调优的组织,现在也能训练其智能体实现智能内存管理。这绝非微不足道的改进,而是标志着能够构建真正超越演示阶段的智能体的参与者发生了根本性转变。
仅靠建筑无法弥合的鸿沟
具体来说,问题在于:与人工智能客服进行一次对话的平均令牌成本约为0.14美元。如果将这一成本放大到3,000名员工每天使用10次,那么每月的API费用将高达126,000美元。随着对话历史的增长,成本呈二次方增长,因为每次新的对话轮次都需要重新处理所有之前的对话轮次。 处理100轮对话的工作流,其成本并非10轮工作流的10倍,而是接近100倍。
业界曾尝试使用更大的上下文窗口。如今,我们已拥有能够处理一百万个或更多令牌的模型。但仍有三个问题亟待解决:模型的注意力机制在长序列中会逐渐衰退;加州大学伯克利分校所记录的“中间信息丢失”效应表明,当相关信息位于上下文边界附近时,模型性能会下降;而在企业级规模下,对上下文进行穷举处理的成本难以承受;此外,若将工具输出、结构化数据及累积状态纳入考量,大多数企业工作流的规模甚至会超过百万令牌的窗口。
业界曾尝试过检索增强生成(RAG)。RAG确实有所帮助,但它检索的是语义上相似的内容,而非操作上相关的内容。第3轮中的一项关键约束,在第47轮的查询中可能在语义上相去甚远,却对当前的决策至关重要。
业界曾尝试过启发式内存管理。这类基于规则的系统会根据预定义的逻辑对上下文进行摘要、压缩或过滤。与全上下文方法相比,Mem0 的架构在准确率上提升了 26%,延迟降低了 91%。这是实实在在的进步。但启发式系统存在一个共同的局限:规则是由工程师设计的,而非从经验中学习而来的。如果不进行手动重设计,它们就无法适应新的领域。
问题在于:这些方法都没有教会智能体本身该记住什么。而且,它们也没有教会智能体如何处理自身所处的环境。
记忆的训练后处理:强化学习的收敛
“后训练”一词指的是在基础模型预训练阶段之后进行的优化。正是通过这种方式,我们才得以从原始语言模型发展到能够遵循指令的助手(通过RLHF),从助手发展到推理模型(通过过程奖励模型),而如今——又从推理模型发展到能够管理自身认知状态的智能体。
其机制是强化学习。与其将内存管理构建为一个外部系统,不如将内存操作添加到智能体的动作空间中,并训练它熟练地使用这些操作。智能体通过试错学习何时存储、删除、合并和检索数据——所有这些都以任务完成为优化目标。无需“正确”内存管理的基准示例,只需一个奖励信号:智能体最终是否解决了任务?
最近发表的八篇论文阐明了这一机制。
关键架构
AgeMem为智能体提供了六种记忆工具——用于长期存储的 ADD、UPDATE 和 DELETE,以及用于短期上下文的 RETRIEVE、SUMMARY 和 FILTER。训练过程分为三个渐进阶段。在 Qwen2.5-7B 数据集上的实验结果显示:相较于无记忆基线模型,相对提升达 49.59%;与 RAG 变体相比,提示词消耗减少了 3% 至 5%。在上下文量较少的情况下,性能表现更佳。
Memory-R1将该问题分解为两个专门的代理:一个学习结构化操作的“内存管理器”,以及一个负责检索和推理的“答题代理”。内存管理器的奖励取决于答题代理能否给出正确答案。结果:在 LoCoMo 数据集上,仅使用 152 个训练样本,F1 分数较最佳基线提升了 28%。无需重新训练即可实现对未见基准的零样本迁移。
MemAct通过引入“Prune & Write”操作符来扩展动作空间——在任何步骤中,智能体均可删除历史轮次并追加记忆摘要。MemAct-RL-14B 在将平均上下文长度缩短 51%、推理延迟降低约 40%的同时,其准确率可媲美规模大 16 倍的模型。
MEM1的表现最为出色,其内存占用始终保持恒定。在每次迭代中,该智能体都会生成一个内部状态,将所需的所有信息整合其中,随后丢弃所有先前上下文。无论任务长度如何,内存占用始终保持不变。在16项多目标任务中,MEM1-7B的表现超越了Qwen2.5-14B。该模型学会了分别追踪子目标、跳过已解决的问题以及自我修正查询——这些都是自发产生的行为。
MemAgent致力于解决极端场景:以线性复杂度处理任意长度的文档。该模型在 3.2 万词的上下文长度下进行训练,其性能在扩展至 350 万词时,性能损失不足 5%。
它们的共同规律是:经过训练的内存管理优于未经训练的内存管理,而且往往比采用未经训练内存管理的大型模型表现更佳。
但教代理系统记住什么,仅仅是故事的一半。在本文的下一部分,我将深入探讨一项并行发展的技术,它彻底重构了这一问题:递归语言模型(Recursive Language Models)。该模型将上下文视为一种需要导航的对象,而非单纯需要检索的内容。 我还将探讨像OpenClaw这样的生产系统如何证明这些理念在基准测试之外同样有效,这种融合对企业级扩展意味着什么,以及目前仍存在哪些不足。能够实现规模化扩展的智能体不仅记忆力更强——它们还将懂得如何找到那些尚未记住的内容。

博客






