AI Agents Aren’t Ready for Consumer-Facing Work – But They Can Excel at Internal Processes.

阅读文章

消费者的采用率也相对较低。尽管使用了 “革命 ”这样的字眼，但” data 显示与社交网络或谷歌等平台的频繁使用不同，大多数用户每周而非每天都会接触人工智能。这表明，人工智能尚未成为真正的消费习惯。人们偶尔会使用它，有时甚至非常频繁，但它还没有成为日常生活的基石。换句话说，炒作仍然领先于现实。.

尽管如此，我们认为人工智能代表着与互联网或智能手机同等规模的根本性转变。互联网为我们带来了大约 20 年的创新和公司建设。智能手机革命创造了 15 年由移动应用程序推动的增长。我们相信，人工智能将推动一个类似的变革时代--也许是创造新价值的十年或更长的时间。.

这种模式在新技术中很常见（过度乐观之后是幻灭，然后是真正的价值创造，通常通过以下方式来表达 Gartner 预测周期).在我们看来，许多领先的人工智能支持者在大胆宣称整个经济领域将在短期内被人工智能所取代时，未免言过其实。这是因为，在成熟的公司中实现真正的、实用的人工智能是一项艰巨的工作：它需要相对简洁的 data、流程映射和深入的实验，而且即便如此，也往往需要人类参与其中。然而，我们看到了真正的幕后进展，其中的例子表明，使用多代理系统来自动化和替代重复性任务，可能会带来更长、更基础的生产力提升。.

我们认为，领导者不应试图猜测 10 年后会发生什么。相反，他们应该问一问，在未来两年内，他们能够切实实现什么。根据我们自 2024 年底以来所做的项目，代理人工智能被证明是真正改变游戏规则的因素（至少在短期内），能为公司带来真正的价值。现实情况也是如此，每个项目的财务收益都不错，但都不令人瞠目。这些增量收益类似于精益生产（Lean）。萨蒂亚-纳德拉还.

根据我们在成功实施代理人工智能系统的项目组合中开展的工作，我们发现，要想在这项技术上取得成功，就必须摒弃炒作，了解这项技术能够做些什么，并将这种能力与明确的价值创造机会相匹配。此外，还需要采取切实可行的方法，通过实验和学习来实施多代理系统。.

代理工作流程范式的兴起

过去几年，人工智能技术的成熟度迅速发展，至少经历了三个不同的阶段：

提示（2022 年）： 早期的热情集中在 “动力提示 ”上。在概念验证（POC）中，提示器似乎是有效的。但在生产中，可靠性迅速下降。业务流程通常要求 95-99% 的准确性。根据 50 多个案例的经验，我们猜测单靠提示很少能超过 70%。.
检索-增强一代（RAG，2023 年）： RAG 通过将基因人工智能输出固定在知识库上，提高了稳定性。同样，POC 看起来很有前景，但生产的复杂性往往暴露出弱点，导致准确率低得令人无法接受。.
代理系统（2024 年至今）： 最近的进展涉及小型专业代理网络。其中一些负责处理问题。另一些则执行狭义的任务。还有一些则负责检查和纠正输出结果。最重要的是，由于令牌成本的下降，层叠式多代理系统现在在商业上是可行的。这种分层设计大大提高了可靠性。.

今年秋天，代理商业计划爆炸式增长。OpenAI 推出了与 Stripe 和 Shopify 合作. 谷歌宣布其代理支付协议, 它实现了购买和交易过程的自动化。虽然企业可能会追随科技巨头的脚步，但这可能不是第一波可持续价值出现的地方。在贝恩最近对消费者的调查, 据 76% 报告，他们不愿意使用代理系统进行购物--大多数人认为，安全和隐私问题是他们不愿意使用代理系统的原因。.

面向客户的环境不适合人工智能代理的现有能力。它们杂乱无章且不可预测；输入是非结构化的，语气和语境不断变化，监管机构和消费者对幻觉或错误的容忍度很低。多代理系统会但要做到这一点，就必须像对待幼儿一样对待每个代理。你不会要求一个蹒跚学步的孩子摆放餐桌。但是，如果你把任务分解，一步一步地指导他们--“首先，放下一个盘子”，“现在，加上叉子”，“接下来，杯子”--蹒跚学步的孩子就能做出有意义的贡献。最重要的是，环境也必须受到控制：没有吵闹的兄弟姐妹，没有让人分心的宠物，只有父母一方发出指令。但是，通过开发像指导幼儿那样的多代理系统--将任务分解、逐一喂食、检查任务的准确性--我们正在构建非常准确的系统。.

值得注意的是，这些系统通常用于后端流程，在后端流程中，完美并不重要，因为有人在环路中。相比之下，虽然前端实验可以激发灵感，但它们不太可能成为真正创造企业价值的第一个领域。后端和运营流程是肥沃的土壤，因为它们结构化、重复性强，更适合代理工作流自动化。范围严密的任务、定义明确的环境和结构化的输入可以产生有意义的项目。.

在企业层面构建代理系统

在企业规模中，设计这些系统在概念上很简单，但在操作上要求很高。作为构建多代理系统的一般框架，1）将任务发送给路由器代理（如谷歌 ADK），该代理就像父母指导幼儿一样，将任务分成若干子任务；2）子任务随后由单个任务代理完成，这些代理完成任务的较小部分，就像父母告诉一个幼儿将眼镜放在桌子上，另一个幼儿将叉子放在桌子上；之后，3）由验证代理检查这些子任务的结果；4）如果发现错误，改进代理建议进行调整。.

支持这种方法的工具、方法和服务生态系统正在快速发展，对于非核心流程而言，这些工具、方法和服务都是极佳的选择。但是，当你进入核心业务流程时，data 完整性和对幻觉的控制是必不可少的，你需要定制编码的代理、与企业系统更深入的集成，以及实施更好的控制和防护措施。.

一个案例：重塑外勤业务

举例来说，我们曾与欧洲一家大型互联网供应商合作过一个项目。我们的目标是缩短服务呼叫的解决时间并降低解决成本。大多数人都有过这样的经历：因连接中断而致电服务台，多次重复信息，最终等待技术人员。幕后发生的事情（或未能发生的事情）很能说明问题：技术人员往往是在不完整的情况下到达现场，被迫从头开始排除故障。这导致长时间停机（有时超过一个月），并浪费操作员数千小时的时间。.

我们决定从小做起。我们的重点是建立一个以帮助技术人员更快更好地完成任务为中心的系统--一个流程中的助手，而不是一个独立的代理。作为这项工作的一部分，我们从 15 个以上的信息系统中整合了 data，为技术人员提供了故障报告简介和已尝试解决方案的历史记录。这为他们提供了任务概览，例如，排除客户连接故障，他们可以在执行任务的途中阅读或收听。这样，他们就可以在到达现场后立即着手解决问题，从而节省了往往浪费在了解问题上的时间。.

接下来，我们创建了一项功能，为下一步最佳解决措施生成建议。另一项功能包括一个对话界面，允许技术人员使用自然语言查询互联网公司的底层 IT 系统，以找到根本原因。最后，我们自动执行了许多简单而重复的操作：例如，当连接错误的住户时纠正客户关系管理记录，或者当中央小区连接盒中的开关出现故障时触发网络重置。这为技术人员节省了大量时间，因为他们无需致电内部呼叫中心，就能通过小的改动帮助修复。.

在 8 个月的时间里，我们通过迭代的方式绘制流程图、解决痛点、逐步增加功能，并每周听取现场技术人员对平板电脑解决方案的测试反馈。.

结果是

60% 分辨率时间缩短
每年可经常节省 100 多万欧元
客户满意度显著提高净宣传得分

基于这些结果，客户希望将其扩展到另外七个地区。这就需要做更多的工作：方法和一些代理组件可以重复使用，但每个地区都有不同的 IT 系统。每次推广都需要新的集成和 data 映射。扩展到七个地区中的每一个地区所需的工作量只有原来的一半。.

实施多代理系统的挑战

如上所述，多代理系统的实施可以成功地创造实际价值，但很少有人谈论实施过程中的实际工作。我们面临的现实和障碍是什么？

快速测试与扩大规模.

我们是否从一开始就建立了一个良好的可扩展架构？尽管我们很想这么说，但这是不可能的。就像创新者反复发现产品与市场的契合点一样，在我们进行快速实验的过程中，多代理系统用例和解决方案也在反复演变。与此同时，构建这些系统的技术、方法和服务也在迅速发展。.

我们一开始并没有使用整个系统。相反，我们一开始只用了一个 LLM 和 RAG 作为核心部分，基本解决了第一个用例。在测试过程中，我们发现需要将系统分解成更小的代理来执行更专业的任务，以提高可靠性；慢慢地，这就演变成了一个完全代理化的系统。最终，我们开发出了一个高度可靠、正常运行并能带来价值的系统。有了这些知识和现在所取得的成果，我们正在将其重建为一种架构，这种架构在扩展公司其他部分时更加稳健，也更易于维护。.

问题区域与根本原因。.

根据经验，我们发现领导者和中层管理者大致知道哪些流程需要花费大量时间或精力，但他们对哪些流程的复杂性和机遇却知之甚少。只有操作人员知道这一点。这意味着，在真正开始建设之前，你需要做两件事：1) 花足够的时间从管理者的角度了解问题，但同时也要 2) 与操作员讨论他们所理解的任何特定问题的根本原因。.

例如，管理人员会告诉我们流程中浪费时间或资源的部分（如共享服务中心），并让我们研究如何为操作员找到正确的 “知识项”，以便更快地解决问题。然而，当我们开始直接与操作员合作时，我们发现有一半的操作员在 10 秒钟内就找到了 “知识项”，而另一半操作员则需要几分钟才能找到相同的信息，因为他们不擅长搜索系统。这不是代理人工智能能够很好解决的问题，而是一个培训问题。但我们还发现，领导和经理们完全忽视了，接线员在接听客户电话后，大约要花 50% 的时间来填写客户关系管理系统。这对座席人员来说是个很好的问题，座席人员可以转录通话内容，并将所有信息填入正确的字段，从而大大加快流程，提高 data 质量。接线员只需检查并按 "确定 "键即可。.

IT 系统不会拖慢你的速度，而人却会。.

在我们的工作中，最耗费精力和最复杂的部分是参与正确的管理讨论、赢得利益相关者的支持，以及识别和解决因我们的工作而产生的依赖关系。从技术角度看，与十几个 IT 系统集成以实现解决方案是一项复杂的工作，但真正的挑战在于所有这些系统都有自己的开发团队，其时间表、优先级和路线图各不相同。提供 API 端点并对其进行测试可能需要两周的时间。而进入这些系统各自的路线图则需要更长的时间。与我们合作的大多数团队在几个月的时间里都将这项工作放在了次要位置，声称他们有更重要的工作需要优先处理（从他们的角度来看可能是正确的）。.

模型可以产生幻觉，也会产生幻觉。.

代理仍然很不稳定，可能会产生幻觉，因此有必要以 LLM-as-a-judge（验证代理）的形式建立强大的防护和检查机制。代理的系统提示必须足够强大，同时又足够轻便，以便代理正常执行任务。这需要细微差别、时间、data 科学和 data 工程技能，才能使这些代理系统以足够高的可靠性运行，让它们在企业中运行。换句话说，优秀的开发人员和丰富的业务经验仍然非常重要。.

代理转型的新学科

我们可以从这个案例中汲取哪些更普遍的经验教训？在很多方面，这感觉就像从头开始重新发现精益再设计工作。所不同的是，如今的工具集功能强大得多，不仅能实现渐进式优化，还能实现整个流程的重新设计，甚至是跨部门的重新设计。.

除了 data 和人工智能能力之外，成功还取决于对流程的深入了解--了解当前状态，展望未来状态，并将其转化为可构建的小步骤。从这个意义上说，我们看到了“...... "的回归。“精益黑带,但这一次，它们由人工智能基因驱动。.

工作细致而有条不紊，并不华丽。你必须循序渐进。方法的规模在于方法，而不是魔法。每个新的业务领域都需要新的分析和定制调整。.

完全自主的代理仍然遥遥无期。就目前而言，最有效的设置是让人类处于环路中，使操作员更聪明、更快速、装备更好。.

起初，进展是渐进的。只有当核心系统连接起来、信息顺畅流动时，才会出现重大的效率提升。.

技术的发展也比项目快。我们八个月前使用的工具已经过时。这就是为什么我们专注于一年内收回成本的用例--在底层技术发生转变之前。.

更重要的是，公司必须建立内部能力--data 工程师、data 科学家、人工智能用户体验设计师，以及现在被称为情境工程师或人工智能黑带的人员：他们深入了解流程，并能将转型分解为可实现的步骤。作为一家公司，建立这些能力将使您能够更快地建立新的代理工作流程（随着技术的发展），这将成为您在竞争中脱颖而出的真正利器。.

最后，虽然这些计划最终会融入正常的业务运营，但在开始时必须进行强有力的管理--将技术和业务观点结合起来。这种平衡才能将实验转化为变革。.

未来十年

Gen AI 的炒作可能已经超过了采用的速度，但其潜力是真实存在的。就像之前的互联网和智能手机革命一样，这一平台的转变将重塑各行各业--不是通过一夜之间的颠覆，而是通过多年严谨的重塑。.

胜出的组织不仅会采用工具，还会通过工具建立起不断重塑自我的能力。.

联系我们

AI 代理还不能胜任面向消费者的工作，但他们可以胜任内部流程。.

作者