Long-run AI agents, part 2: Three approaches that actually work

维克托-科英布拉他因在人工智能创新方面的杰出贡献而荣登福布斯巴西 30 岁以下精英榜。他共同创办了 Artefact 的拉丁美洲业务，该业务现已成为拥有 200 名员工的全球技术中心。他在扩展人工智能解决方案和建设跨国际市场的高性能技术团队方面拥有深厚的专业知识。.

在第一部分, 我们研究了这个问题：人工智能系统会随着时间的推移而退化，基准性能会掩盖生产故障，即使是经验丰富的专业人员，在人工智能的帮助下也可能比没有人工智能的帮助下工作得更慢。轨迹是有希望的。当前的现实很混乱。.

那么，怎样才能建立起能够真正维持长时间努力的系统呢？

在不同的群体中出现了三种方法，每种方法都在解决同一个基本问题：当人工智能系统的工作记忆有限时，它如何保持连贯的进展？

方法 1：重新开始骑自行车

2025 年末，一种名为 "拉尔夫-维格姆"（Ralph Wiggum）的荒诞技术在从业者中走红。这个名字来源于《辛普森一家》中的一个角色--因为核心理念简单得几乎令人尴尬，所以故意取了这个愚蠢的名字。.

让人工智能工作。当它开始退化时，就停止它。重新开始。让它重拾往日的辉煌。.

就是这样。人工智能会一直执行任务，直到其性能开始下降。然后它就会停止，将进度保存到文件中，然后退出。新的会话将从零开始。人工智能会读取已完成的任务，确定剩余的任务，然后继续。.

理念：停止与内存限制作斗争。和它一起工作。每个工作环节都独立运行。工作进度保存在文件和记录中，而不是人工智能的大脑中。.

实际效果

典型的实施过程分为三个阶段：

第 1 阶段（要求）： 人类和人工智能合作确定需要做什么。其结果就是一份清晰的规范文件。.
第 2 阶段（规划）： 人工智能分析规范与当前状态之间的差距。输出：按优先级排列的任务列表。尚未开展实际工作。.
第 3 阶段（执行）： 人工智能在每个会话中处理一项任务。完成任务，验证是否成功，记录所做工作，退出。新的会话。重复。.

关键制约因素：任务必须有可明确衡量的完成情况。这种方法不适用于模棱两可的需求、判断或没有明确终点的探索性工作。.

早期采用者的成果

来自从业人员的数据令人震惊，尽管这些数据来自自我-reports 而不是对照研究。.

一位顾问以不到 $300 的人工智能成本完成了原本需要 $50,000 美元的项目--在一夜之间运行自动会话。一个初创团队在一夜之间完成了六项主要交付成果，并进行了功能输出、验证和文档编制。一位从业者通过三个月的自动会话打造了整个产品。.

对于 50 多个工作环节的大型项目，一般费用在 $50-100 之间。每个工作环节在循环前进行 30-45 分钟。.

2025 年 12 月，人类学正式确定了这一方法，并发布了官方支持。该模式从变通方法转变为认可方法。.

限制

在一个不可预测的世界里，这种方法是确定性的。正如一位实践者所说“可预测的失败总比不可预测的成功要好”。”

这既是优势，也是制约。当你能明确定义成功时，新启动的自行车运动就能发挥作用。如果成功是主观的，质量是隐含的，“正确 ”的答案需要人的判断来识别，那么它就会陷入困境。.

方法 2：选择性记忆

新开始的循环会在两次循环之间丢掉所有东西。每个循环都是全新开始的。如果能有选择性地保留重要部分呢？

选择性记忆采用了一种不同的方法：提取并存储重要信息，舍弃其他信息。人工智能不会完全从头开始，而是会继承经过整理的重要信息摘要。.

双重角色模式

常见的实施方法是使用两个专门的人工智能角色：

设置角色： 仅在开始时运行。确定背景、识别关键信息、创建初始参考文件。.
工作角色： 处理所有后续会话。通过三种工具保持连续性：显示已完成和待完成工作的进度跟踪器、标有已完成或剩余项目的核对表，以及显示修改内容和原因的修改历史。.

会议的启动是明确的：确认当前状态、审查进度文件、选择优先级最高的剩余工作、在开展新工作前核实基线。.

与刚开始骑车的区别：压缩步骤。工作角色继承了相关上下文的策划摘要。研究表明，这种方法可以让人工智能在完成较长的任务序列时，只需使用原本需要的 16% 信息。开销减少了 84%。.

高级记忆关系保存

选择性记忆的最新技术不仅能保存事实，还能保存关系。.

想想人类是如何记忆项目的。我们不只是回忆孤立的事实。我们记得这个决定导致了那个后果，记得这个人承担了那个责任，记得这份文件与那个要求有关。联系与内容同样重要。.

现在，先进的人工智能记忆系统可以捕捉到这些关系。在存储信息时，它们不仅能提取发生了什么，还能提取涉及到谁、与什么有关以及为什么重要。在检索信息时，它们可以根据这些关系线索重建上下文。.

这些系统的性能指标：26% 改进质量评估。在保持一致性的同时，减少信息开销 90%+。显著改善跨多个会话的任务处理。.

权衡

选择性记忆增加了复杂性。你需要存储和检索的基础设施。你需要决定保留什么，丢弃什么。你需要相信压缩能保留重要的东西。.

这个问题并没有解决。记忆系统会丢失关键细节。压缩会带来微妙的失真。人工智能可能会在错误的时间检索到错误的上下文。84% 的缩减听起来令人印象深刻，直到你保留的 16% 缺少了一些重要的东西。.

方法 3：团队协调

如果答案不是一个拥有更好记忆力的人工智能，而是许多角色明确的人工智能系统呢？

团队协调将复杂的工作分解为由中央管理者协调的专门角色。每个角色都有限定的工作范围、有限的信息需求和特定的工作。管理者掌握全局，只将相关信息传递给每个员工。.

幕后的模式

领先的人工智能公司在内部使用这种方法。结构：

协调员： 一个有能力的人工智能系统，负责分析请求、规划方法、维护内存和指挥专家。.

专家针对特定任务并行运行的人工智能系统。.

结果是：在复杂的研究任务上，团队系统比单一人工智能系统高出 90%。这可不是微不足道的进步。性能几乎翻了一番。.

主要启示：信息管理解释了团队人工智能中 80% 的性能差异。具体工具和人工智能模型的重要性不如信息如何在角色之间流动。.

两种协调模式

交接模式： 一个人工智能系统在执行任务时将控制权交给另一个系统。每个系统都知道其他系统的情况，并决定何时推迟。工作线程会继续，但责任会转移。这对有顺序、分阶段的工作流程非常有效。.

经理模式： 中央协调员向专家分配工作并收集结果。专家返回输出结果；协调者保留控制权并做出决策。不移交主线程。适合并行处理和结果合成。.

选择取决于你的工作流程。当任务自然分解为多个阶段时，交接模式就能很好地发挥作用。当需要并行处理和集中决策时，管理者模式就能很好地发挥作用。.

行业标准化

2025 年，行业对人工智能系统如何相互连接以及如何连接外部资源进行了标准化。就像插座的标准化一样，不同制造商的产品现在可以协同工作。.

一种标准规定了人工智能如何连接信息源和工具。另一个标准则定义了人工智能系统如何相互通信。它们共同构成了可按不同配置组装的构件。.

这一点很重要，因为它可以实现模块化。一个团队构建的工作流程可以包含另一个团队构建的组件。记忆系统可以互换。信息源变得可发现。人工智能生态系统 “不是市场营销，而是这些标准使之成为可能的技术现实。.

高空作业

基于团队的人工智能使用的资源大约是单一交互人工智能的 15 倍。这就是协调成本。对于简单任务来说，这种开销会抵消任何好处。而对于复杂任务，可靠性的提高则证明了这种花费是合理的。.

故障模式也更加复杂。当人工智能转换使用户感到困惑时，糟糕的切换设计导致一家电子商务公司出现了 40% 的客户流失。级联故障会在人工智能网络中传播。2025 年的一项行业分析发现，在系统设计、协调中断和质量验证方面存在 14 种独特的故障模式。.

选择正确的方法

以下是我对这些选择的看法：

刚开始骑自行车 当任务有明确的可衡量的完成度，你可以容忍可预测的渐进式进展，进展情况可以完全记录在文件和记录中，而且你希望简单而不是复杂时，你就可以工作了。.
选择性记忆 当任务需要跨会话保存关系时，您就可以利用基础设施进行存储和检索，提高效率，并投资构建压缩系统。.
团队协调 当任务自然分解为专门的子任务，需要并行处理时，协调开销（15 倍资源）是可以接受的，而且可以处理更复杂的故障模式。.

大多数生产系统将结合这三种元素。以团队为基础的系统，每个专家都使用新启动循环。由内存增强的协调器指挥无状态工人。这些方法是互补的，而不是排斥的。.

共同点是：这三种方法都将人工智能无法在内部可靠维护的信息外部化。它们的区别在于外部化的程度和管理检索的方式。.

在第三部分, 我们将研究长期人工智能对组织的意义：工作如何变化，需要怎样的管理，以及 2026 年的现实机遇在哪里。.

参考资料

研究论文

利用可扩展的长期存储器构建可投入生产的人工智能 arxiv.org/abs/2504.19413
基于多图的人工智能内存架构 arxiv.org/abs/2601.03236
衡量生产中的人工智能 arxiv.org/abs/2512.04123

行业报告和白皮书

人工智能系统的故障模式 - 微软
2025 年人工智能与信任的经验教训 - 谷歌云
人工智能工程现状 - LangChain
基准与真实世界评估 - METR

技术文档

我们如何构建多代理研究系统 - 人类学
模型上下文协议规范 - modelcontextprotocol.io
Fresh-Start Cycling Documentation（“Ralph Wiggum”）- Geoffrey Huntley (ghuntley.com/ralph/)

联系我们

长期 AI 代理人，第 2 部分：三种实际有效的方法

作者