Long-run AI agents, part 1: The problem nobody talks about

维克托-科英布拉他因在人工智能创新方面的杰出贡献而荣登福布斯巴西 30 岁以下精英榜。他共同创办了 Artefact 的拉丁美洲业务，该业务现已成为拥有 200 名员工的全球技术中心。他在扩展人工智能解决方案和建设跨国际市场的高性能技术团队方面拥有深厚的专业知识。.

2025 年 3 月，一家名为 METR 的研究机构发表了一项研究成果，但却没有得到应有的关注。他们一直在测量一些不合时宜的东西：AI 系统在完成任务多长时间后才会出现故障。而不是它们在一次交互中能做什么。METR 想知道的是，这些系统能在多长时间内保持连贯、有用的工作。.

他们采用了严格的方法：170 项任务涉及软件、研究和解决问题。由领域专家运行 236 次后得出的人类基线。根据任务持续时间建立统计模型，预测成功概率。.

主要发现：任务完成能力连续六年每七个月翻一番。.

2024 年中期，领先的人工智能系统可以可靠地完成人类专家需要 19 分钟才能完成的任务。到 2025 年初，这一时间延长到近一个小时。最新的系统能达到两个多小时。曲线正在加速。.

但在这一标题之下，隐藏着一个更为复杂的故事。.

演示与交付之间的差距

2025 年 8 月，METR 发布了一份后续报告，这应该会让所有人停顿下来。他们对人工智能进行了 18 项真实任务的测试，这些任务都是组织中非常重要的工作。.

一些结果是

自动测试通过率：38%.
即开即用，无需人工清理：0%.

零。在没有人工干预的情况下，人工智能产生的工作没有一项是可以使用的。即使通过了自动检查，每项产出也都存在漏洞：文件缺失、验证不完整、存在质量问题，而这些问题在真正的组织中是绝对无法通过审查的。.

平均清理时间：26 分钟，约为原任务时间的三分之一。.

自动化基准与真实世界可用性之间的差距是无人问津的第一个问题。人工智能系统在基准所衡量的狭义方面越来越好。而在 “完成任务 ”的实际意义方面，它们的进步要慢得多。.

对于任何计划投资的人来说，这种区别都很重要。一个通过测试但输出结果无法使用的系统并不是一个可以自主工作的系统。它是一个需要有人来清理的系统。.

生产力悖论

这就是第二个问题。2025 年 7 月，METR 对 16 名经验丰富的专业人士进行了一项对照研究。问题是：人工智能是否真的能让人变得更快？

研究前的预期结果：提速 24%。.
实际结果：19% 减速。.

使用人工智能的人比没有辅助的人完成任务的时间更长。令人不安的是：研究结束后，参与者仍然认为他们的速度提高了 20%。他们的认知与现实完全颠倒了。.

五个因素解释了经济放缓的原因：

调试开销。. 节省了纠正错误的时间。.
上下文切换成本。. 在人工智能的建议和实际工作之间切换会产生认知负荷。.
学习曲线。. 即使是经验丰富的专业人士，也要花费时间摸索如何有效使用人工智能。.
隐藏的质量要求。. 人工智能输出需要文档、验证和格式化，而这些系统都无法提供。.
现实世界的标准。. 成熟的组织都有人工智能生成的工作系统无法达到的质量标准。.

这不是一个关于人工智能一无是处的故事。这是一个关于供应商演示与组织现实之间差距的故事。生产率悖论表明，对于成熟流程中经验丰富的专业人员来说，当前的人工智能辅助可能会产生更多的工作，而不是节省更多的工作。.

人工智能系统为何会随时间退化

为什么人工智能系统难以完成较长的任务？答案是结构性的，但其影响却是战略性的。.

把人工智能想象成一个工作记忆--用于保存当前任务信息的有限容量。随着容量的增加，性能也会下降。系统会忘记之前的决定。它会自相矛盾。它忘记了自己想要完成的任务。.

使用过人工智能助手超过 30 分钟的人都有切身体会。系统开始时很敏锐。一个小时后，它就会忘记二十分钟前做出的决定。它引入了本可以更早发现的错误。它失去了主线。.

研究已经对此进行了量化。随着人工智能需要追踪的信息量增加，准确率可能会下降 20-30 个百分点。一项研究显示，在复杂的推理任务中，随着任务复杂度的增加，准确率从 82% 下降到 22%。.

数学是无情的。微小的错误也会造成严重后果。如果每次系统处理新信息时都有 1% 的几率丢失一个关键细节，那么在 100 次交互之后，保留该细节的几率就会下降到 37%。.

这不是任何特定产品的错误。这是当前人工智能系统工作方式的固有限制。而且，这也为它们能拥有的东西和只能提供协助的东西设定了硬性上限。.

并非所有任务都一样

METR 的研究揭示了另一个复杂问题：不同领域的人工智能能力差异巨大。.

分析和结构化任务 如 data 的分析和报告生成显示出强大的能力--系统可以处理人类需要一到三个小时才能完成的工作。.

需要与外部系统互动的任务-浏览、跨平台协调、处理视觉信息的能力要低 40-100 倍。它们的成熟度大约落后两年。.

物理世界的应用 如自动驾驶汽车的改进速度要比数字任务慢得多。.

这意味着什么？“人工智能可以工作数小时 ”是针对特定领域的。一个能处理两小时分析任务的系统，在处理二十分钟协调任务时可能会很吃力。能力曲线并不一致。.

对于企业来说，这意味着要根据任务特点谨慎匹配人工智能的部署。炒作周期将人工智能视为通用解决方案。而现实是非常具体的。.

趋势的实际意义

METR 将他们的发现描述为潜在的 “人类历史上最重要的趋势之一”。这可能有点言过其实。但这一趋势已经持续了六年，而且方向是明确的。.

当前的人工智能在完成人类耗时不到四分钟的任务时，几乎可以取得完美的成功。而在耗时超过四小时的任务上，它的成功率则低于 10%。有趣的区域--也是对组织决策至关重要的区域--介于两者之间。.

我的真实评价是：我们的人工智能可以在特定领域的明确任务上持续工作一到两个小时。这些系统无法可靠地做到这一点。它们无法在没有人类监督的情况下做到这一点。如果不进行清理，它们也无法达到真正的组织质量标准。.

但发展轨迹表明，这些限制可能不是永久性的。每家大型人工智能公司都会对持续运行进行优化。每一个认真的采用者都会针对当前的局限性制定变通方法。每个企业平台都会为更长时间的人工智能工作增加基础设施。.

问题并不在于人工智能最终能否实现小时工作。问题是什么时候，以及目前这一代解决方案能否实现这一目标，还是我们仍在等待尚未实现的突破。.

在第二部分, 我们将研究延长人工智能工作时间的三种方法：新启动循环、选择性记忆和团队协调。.

参考资料

研究论文

利用可扩展的长期存储器构建可投入生产的人工智能 arxiv.org/abs/2504.19413
基于多图的人工智能内存架构 arxiv.org/abs/2601.03236
衡量生产中的人工智能 arxiv.org/abs/2512.04123

行业报告和白皮书

人工智能系统的故障模式 - 微软
2025 年人工智能与信任的经验教训 - 谷歌云
人工智能工程现状 - LangChain
基准与真实世界评估 - METR

技术文档

我们如何构建多代理研究系统 - 人类学
模型上下文协议规范 - modelcontextprotocol.io
Fresh-Start Cycling Documentation（“Ralph Wiggum”）- Geoffrey Huntley (ghuntley.com/ralph/)

联系我们

长期 AI 代理人，第 1 部分：无人问津的问题