维克托-科英布拉 他因在人工智能创新方面的杰出贡献而荣登福布斯巴西 30 岁以下精英榜。他共同创办了 Artefact 的拉丁美洲业务,该业务现已成为拥有 200 名员工的全球技术中心。他在扩展人工智能解决方案和建设跨国际市场的高性能技术团队方面拥有深厚的专业知识。.
我们已经讨论过这个问题 (第一部分)和方法(第二部分).现在是一个更难的问题:这一切对组织的实际运作意味着什么?
以下是我的真实解读。技术是真实的,但并不成熟。发展轨迹很清晰,但时间表并不明确。大多数在 2026 年部署长期人工智能的组织都将吸取昂贵的教训。少数企业将获得真正的优势。.
差异将归结为三点:它们在哪里部署、它们如何治理以及它们是否理解 “自主 ”在实践中的实际含义。.
从助理到工人的转变
这是根本性的转变。多年来,我们已经有了人工智能助手--帮助人类更快完成工作的系统。长期运行的人工智能代表着不同的东西:独立完成工作的系统。.
这种区别对组织设计很重要。.
十五分钟以内的任务是成熟的领域。草稿、建议、快速查询。这些都是人工智能助手自 2023 年以来就做得很好的事情。人类的监督是隐性的,因为人类自始至终都在。.
趣味区为一至八小时。完整的交付成果。全面实施。这些工作过去需要一个人坐上一上午或一下午。根据目前的估算,这一区间的可靠性为 50-70%。好到足够有用。不够好,不能盲目信任。.
超过 24 小时,我们就处于试验阶段。项目层面的自主权。持续研究。跨越数天的工作。这一前沿领域可能即将到来,但还没有到来。任何不这么说的人都是在兜售什么。.
57%的受访企业目前已在生产中运行人工智能。这个数字听起来令人印象深刻,直到你看看它们实际在做什么:68%在十个步骤内需要人工干预。大多数 “生产型人工智能 ”都是美化了的辅助工具,拴着稍长的绳子。.
您的界面成为授权界面
如果长期运行的人工智能能够发挥作用,那么人们与之互动的方式就会发生根本性的变化。.
助理界面以实时协作为前提。你询问,它回应,你改进,它迭代。人始终在场。这对于短期任务来说非常有效。.
委托接口假定是异步交接。您指定一个目标,定期检查进展情况,接收可交付成果。在执行过程中,人是不存在的。.
想一想这对工作管理意味着什么:
- 进度跟踪取代了对话。. 用户需要仪表盘,显示人工智能做了什么、正在做什么、下一步计划做什么。输出不是聊天,而是状态报告。.
- 检查点取代来回检查。. 用户不是反复推敲,而是在规定的关口批准或拒绝。“在开始工作前审核计划”。“在执行前签批方法”。”
- 审计追踪成为强制性规定。. 当自主会话进行六小时后出现问题时,你需要重建所发生的一切。记录一切并不是偏执,而是运行的需要。.
- 故障恢复成为一项功能。. 人工智能会失败。问题是,它是否会优雅地失败,记录下出错的原因,并允许人类从合理的状态重新开始。.
目前大多数人工智能产品都不是为此而设计的。它们假定人类在观看。长期运行的人工智能需要假定人类不会观看的产品。.
治理不是可有可无的
工作数小时的人工智能也可能在数小时内犯错。在人工审核发现错误之前,错误就会加剧。一家金融服务公司由于人工智能部署的状态管理不善,在重复处理方面损失了 $2M。这不是假设,而是发生在 2025 年。.
新出现的框架是有约束的自主:明确的操作限制、审计跟踪和触发人工参与的决策点。.
实用要素
许可范围。. 人工智能的访问权限不应超出任务要求。研究竞争对手的人工智能不应该有修改客户记录的权限。这听起来显而易见。在实践中,企业会过度提供访问权限,因为这比确定最小必要范围要容易得多。.
决策记录。. 不仅是结果,还有推理路径。当人工智能做出错误决定时,你需要了解原因。“它犯了一个错误 ”并不是根本原因分析。.
升级触发器。. 事先确定哪些事项需要人为批准。超过临界值的支出。修改客户 data。对外沟通。这些触发因素需要明确,而不是由人工智能来判断。.
变化跟踪。. 每一次修改都是可追溯和可逆的。对于改变事物的人工智能来说,版本控制并非可有可无。你需要能够撤销出错的地方。.
Data 质量比你想象的更重要
人工智能需要清晰的输入才能产生清晰的输出。没有高质量、结构化信息的组织很难从自主系统中获得价值。.
这是不性感的部分。在部署长期运行的人工智能之前,您需要:简洁、一致的信息格式;系统间记录完备的连接;data 质量的明确所有权;以及处理错误的流程。.
垃圾进,垃圾出--但却是大规模的,持续数小时的,错误不断增加的。Data 使用仪表盘时令人烦恼的质量问题,在自主人工智能的帮助下变成了灾难性的问题。.
您会遇到的失败模式
2025 年的一项行业分析确定了人工智能系统的 14 种独特故障模式。以下是让企业猝不及防的几种模式:
级联错误。. 人工智能做出了一个错误的假设。它根据这个假设行事。下一步是在有缺陷的工作基础上进行的。之后的步骤使错误更加严重。等到人类注意到时,整个工作流程都是在错误的前提下运行的。这不是假设。这很常见。.
交接设计不当。. 人工智能系统之间或人工智能与人类之间的过渡是问题的关键所在。一家电子商务公司出现了 40% 的客户放弃率,原因是当一个人工智能系统在交互中途切换到另一个系统时,用户会感到困惑。切换成功了。但体验却没有。.
国家腐败。. 长期运行的系统会积累问题。旧的决定本应失效,却一直存在。并发操作造成冲突。人工智能会忘记自己想要完成的任务。.
共享漏洞。. 如果所有人工智能都使用相同的底层能力,那么它们就会有共同的弱点。它会在相同的边缘情况下失败。它也会有同样的盲点。多样化不仅关乎能力,还关乎复原力。.
共同点是:这些都不是个人故障。它们是系统故障。孤立地测试单个组件是无法发现这些故障的。你需要在现实条件下、在现实时间范围内测试整个工作流程。.
现实机遇在哪里
考虑到所有注意事项,2026 年,企业究竟应该在哪里部署长期运行的人工智能?
从一至八小时区开始。. 任务长到足以从自主性中受益,任务短到足以限制损害。有明确说明的实施项目。从确定的来源进行研究综合。从现有材料中提取过程文件。利用结构化输入生成报告。.
寻找可衡量完成情况的工作。. 如果不能明确定义成功,人工智能就无法可靠地实现成功。需要人类判断评估的任务不适合自主工作。.
目标工作,因为它需要持续的关注而被回避。. 这些才是真正的机会。人们因为需要四个小时的不间断工作而推掉的任务。从未实现的流程改进。文件总是过时的。分析总是不完整。.
要求每隔适当时间设置检查点。. 四个小时的自主工作不应意味着四个小时没有人的参与。建立审查点。这并不是因为你不信任人工智能,而是因为错误会加剧,而及早发现可以减少损失。.
衡量实际成功率,而不是演示绩效。. 这一点很重要。基准性能并不能预测真实世界的性能。METR 发现,即使在自动检查通过的情况下,人工智能生成的作品在未经清理的情况下可用率也为零。您的内部测量需要反映真实的质量标准,而不是理想化的条件。.
重温历史的平行线
蒸汽机的发明比工厂的重新设计早了几十年。磨坊主们知道如何经营以水为动力的磨坊。他们的工作流程、专业知识和整个商业模式都建立在旧方法的基础上。新技术需要新的结构、新的工作流程、新的思维方式来思考工作的发生地点和流程。.
我在这篇文章的最初版本中使用了这个比喻,但有一点需要注意:蒸汽机的工作是可靠的。而目前长期运行的人工智能并不能--还不能,也不能始终如一地运行。.
这一注意事项仍然适用。但投资方向是明确无误的。每家大型人工智能公司都在为持续运行进行优化。每一个认真的采用者都会针对当前的局限性建立变通方法。每个企业平台都会为更长时间的人工智能工作增加基础设施。.
各组织面临的问题不是是否参与这一转变。而是如何负责任地参与:在能力建设之前建立治理,衡量现实而不是演示,在扩大规模之前从小规模开始。.
等待技术成熟的组织可能会在技术成熟时发现自己已经落后。过早部署的组织将吸取昂贵的教训。狭窄的道路是在适当的保护措施下进行深思熟虑的试验。.
向贵组织提出的三个问题
在你的领域中,有哪些持续的、注意力密集型的任务?寻找需要长时间而不是几分钟集中精力的工作。人们因为需要持续集中精力而推掉的任务,就是试点项目的候选对象。.
你能可靠地衡量自主工作是否成功吗?不是 “它是否产生了产出”,而是 “它是否产生了符合你的实际标准的产出”。如果无法定义和衡量成功与否,就无法评估人工智能是否有效。.
您的治理基础架构是否已准备就绪,可以在无人看管的情况下开展工作?日志记录。权限控制。升级触发器。恢复机制。审计跟踪。授权的基础设施必须存在,授权才有意义。.
2026 年可能不会是人工智能在长时间任务中变得可靠的一年。在两小时的任务中,50% 的成功率仍然意味着一半时间的失败。.
但对于特定的使用案例来说,运行一年之久的人工智能可能会变得切实可行--只要有适当的监督和对失败的容忍度,就足以进行生产部署。.
诚实的回答是:没有人确切知道这些系统何时会成熟。但信号表明,这值得一探究竟。.
参考资料
研究论文
- 利用可扩展的长期存储器构建可投入生产的人工智能 arxiv.org/abs/2504.19413
- 基于多图的人工智能内存架构 arxiv.org/abs/2601.03236
- 衡量生产中的人工智能 arxiv.org/abs/2512.04123
行业报告和白皮书
- 人工智能系统的故障模式 - 微软
- 2025 年人工智能与信任的经验教训 - 谷歌云
- 人工智能工程现状 - LangChain
- 基准与真实世界评估 - METR
技术文档
- 我们如何构建多代理研究系统 - 人类学
- 模型上下文协议规范 - modelcontextprotocol.io
- Fresh-Start Cycling Documentation(“Ralph Wiggum”)- Geoffrey Huntley (ghuntley.com/ralph/)

博客






