维克多·科英布拉因在人工智能创新领域做出的杰出贡献,入选了《福布斯》巴西“30岁以下精英榜”。他共同Artefact拉丁美洲Artefact业务,该业务现已发展成为拥有200名员工的全球技术中心。他在扩展人工智能解决方案以及在国际市场上组建高绩效技术团队方面拥有深厚的专业知识。

2025年3月,一家名为METR的研究机构发布了一项研究成果,但该成果并未引起应有的关注。他们一直在研究一个不太受关注的问题:人工智能系统在出现故障前能够持续处理任务多长时间。他们关注的不是系统在单次交互中能完成什么,而是想了解这些系统能够持续进行连贯且有用的工作多长时间。

他们的研究方法十分严谨:涵盖软件开发、研究和问题解决领域的170项任务。基于领域专家完成的236次实验所得的人类基准数据。通过统计建模,根据任务耗时预测成功概率。

主要发现:在连续六年的时间里,任务完成能力每七个月就翻一番。

到2024年年中,领先的人工智能系统已能可靠地完成那些需要人类专家花费约19分钟才能完成的任务。到2025年初,这一时间延长至近1小时。最新的系统则需要超过2小时。这一趋势正在加速。

但这条头条新闻背后,隐藏着一个更为复杂的故事。

演示与实际交付之间的差距

2025年8月,METR发布了一份后续报告,这份报告本应让所有人深思。他们针对18项实际任务对人工智能进行了测试——这些正是组织中真正重要的工作。

部分结果如下:

  • 自动化测试通过率:38%。
  • 无需人工清理即可使用:0%。

零。AI生成的作品中,没有一件能在不经人工干预的情况下直接投入使用。即使通过了自动化检测,每份输出结果都存在缺陷:文档缺失、验证不完整,以及在真实组织中绝不可能通过审核的质量问题。

平均清理时间:26分钟——约为原任务时长的三分之一。

自动化基准测试与实际使用体验之间的这种差距,正是那个无人提及的首要问题。在基准测试所衡量的狭窄领域内,人工智能系统确实日益精进;但在“完成一项任务”在实践中真正涵盖的全部范畴内,它们的进步速度却要慢得多。

对于任何计划进行投资的人来说,这一区别至关重要。一个虽然通过了测试却产生无法使用的输出的系统,并不是一个能够自主运行的系统。它是一个需要有人来收拾残局才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行才行

生产力悖论

这里是第二个问题。2025年7月,METR对16名经验丰富的专业人士进行了一项对照研究。研究问题是:人工智能真的能让人工作更快吗?

研究前的预期结果:速度提升24%。
实际结果:速度下降19%。

使用人工智能的人完成任务所花的时间比没有借助辅助工具的人更长。而令人不安的是:研究结束后,参与者仍然认为自己的工作效率提高了20%。他们的认知与现实完全背道而驰。

造成增速放缓的原因有五个:

  1. 调试开销。生成代码节省的时间,又因纠正错误而白白浪费了。
  2. 上下文切换成本。在 AI 的建议与实际工作之间来回切换会造成认知负荷。
  3. 学习曲线。即便是经验丰富的专业人士,也需要花时间摸索如何有效利用人工智能。
  4. 隐藏的质量要求。AI生成的内容需要进行文档编制、验证和格式调整,而系统并未提供这些功能。
  5. 现实标准。成熟的企业设有质量门槛,而人工智能生成的内容却系统性地未能达到这些标准。

这并不是一个关于人工智能毫无用处的故事。这是一个关于供应商演示与企业实际状况之间存在差距的故事。生产力悖论表明,对于那些在成熟流程中工作的经验丰富的专业人士而言,当前的人工智能辅助可能带来的额外工作量反而超过了它所节省的。

为什么人工智能系统会随着时间推移而性能下降

为什么人工智能系统在处理较长的任务时会遇到困难?答案在于系统架构,但这背后蕴含着战略层面的影响。

不妨将人工智能视为拥有工作记忆——即存储当前任务相关信息的有限容量。随着容量逐渐填满,系统性能会下降。系统会遗忘先前的决策,产生自相矛盾的情况,甚至忘记自己原本试图完成的目标。

任何使用过人工智能助手超过三十分钟的人都深有体会。系统一开始表现得非常出色。但一小时后,它已经忘记了二十分钟前做出的决定。它会犯下那些原本早该发现的错误。它会失去思路。

研究已对此进行了量化。随着人工智能需要追踪的信息量增加,准确率可能会下降20%至30%。一项研究表明,在复杂的推理任务中,随着任务复杂度的增加,准确率会从82%降至22%。

数学是无情的。微小的错误会不断累积。如果系统每次处理新信息时,丢失关键细节的概率哪怕只有1%,那么经过100次交互后,保留该细节的概率就会降至37%。

这并非某个特定产品的缺陷,而是当前人工智能系统运作方式固有的局限性。这种局限性为其能力设定了明确的界限,区分了它们能够完全掌控的领域与仅能提供辅助的领域。

并非所有任务都一样

METR的研究揭示了另一个复杂问题:人工智能的能力在不同领域之间存在巨大差异。

在数据分析和报告生成等需要分析能力和条理性的任务中表现出色——系统能够处理那些人类需要一到三小时才能完成的工作。

涉及与外部系统交互的任务——如浏览、跨平台协调、处理视觉信息等——其能力水平仅为原水平的40%至100%。这些任务的成熟度大约落后两年。

与数字任务相比,自动驾驶汽车等物理世界应用的改进速度要慢得多。

其含义是:“AI 可以连续工作数小时”这一说法具有领域特异性。一个能够处理两小时分析任务的系统,在面对二十分钟的协调任务时可能会力不从心。其能力曲线并非均匀分布。

对于企业而言,这意味着必须根据任务特点谨慎选择人工智能的部署方案。技术炒作周期将人工智能视为一种通用解决方案,但实际情况却具有高度的针对性。

这一趋势的真正含义

METR将他们的发现描述为可能“是人类历史上最重要的趋势之一”。这或许有些言过其实。但这一趋势已持续六年,且发展方向十分明确。

当前的人工智能在处理人类耗时不足四分钟的任务时,成功率几乎达到完美;而在处理耗时超过四小时的任务时,成功率则不足10%。真正引人关注的领域——也是对组织决策至关重要的领域——正介于两者之间。

以下是我的客观评估:目前的人工智能在特定领域内处理界定明确的任务时,只能持续运作一到两小时。这些系统无法稳定地完成此类任务,必须有人类监督才能运行,且若不进行后续处理,其产出无法达到真正的组织质量标准。

但发展趋势表明,这些局限性可能并非永久性的。每一家主要的人工智能公司都在优化系统以实现持续运行。每一位认真的采用者都在针对当前的局限性构建变通方案。每一个企业级平台都在为运行时间更长的AI任务增添基础设施。

问题不在于人工智能最终能否实现连续工作数小时,而在于何时能实现——以及当前一代解决方案能否达到这一目标,还是说我们仍在等待尚未到来的突破。

第二部分中,我们将探讨目前用于延长人工智能工作时长的三种方法:重置循环、选择性记忆以及团队协作。

 

参考文献

研究论文

行业报告与白皮书

  • AI 系统的故障模式 — 微软
  • 2025年关于人工智能与信任的启示 — GoogleCloud
  • 人工智能工程现状 — LangChain
  • 基准测试与实际应用评估 — METR

技术文档

  • 我们如何构建多智能体研究系统 — Anthropic
  • 模型上下文协议规范 — modelcontextprotocol.io
  • 《Fresh-Start Cycling》文档(“Ralph Wiggum”)——Geoffrey Huntley (ghuntley.com/ralph/)