消费者的采用率也仍然相对较低。尽管人们常使用“革命”之类的词汇,但数据显示,大多数用户每周仅使用一次,而非每天使用,这与社交网络或谷歌等平台的频繁使用形成鲜明对比。这表明,生成式人工智能 真正成为消费者的日常习惯。 人们偶尔会使用它——有时甚至会密集使用——但它尚未成为日常生活的基础。换言之,炒作热度仍领先于现实。
尽管有这些报道,我们仍认为生成式人工智能 一场与互联网或智能手机同等规模的根本性变革。互联网为我们带来了大约二十年的创新与企业建设。智能手机革命则催生了由移动应用驱动的十五年增长。我们相信生成式人工智能 推动一场类似的转型时代——或许将带来长达十年或更久的新价值创造。
这种模式在新技术领域十分常见(先是过度乐观,随后是幻灭,最后才真正创造价值,这通常通过高德纳技术成熟度曲线来阐述)。我们认为,许多人工智能领域的领军人物在断言整个经济领域很快将被人工智能取代时,其实是在过度炒作。 这是因为在成熟企业中,要实现真正可用的AI并非易事:它需要相对干净的数据、流程映射以及深入的实验——即便如此,往往仍需人类参与其中。然而,我们正在见证幕后取得的切实进展,相关案例表明,利用多智能体系统来自动化并取代重复性任务,可能会带来更持久、更基础的生产力提升。
我们认为,领导者不应试图预测10年后会发生什么,而应思考未来两年内能够切实实现什么。根据我们自2024年底以来开展的项目来看,自主人工智能(agent AI)正证明自己是真正的变革力量(至少在短期内如此),为企业创造了切实的价值。 现实情况是,虽然每个项目的财务收益都不错,但都没有令人惊叹。这些渐进式的收益类似于精益管理,微软首席执行官萨蒂亚·纳德拉也曾作过这样的类比。
基于我们在成功部署主动型人工智能系统的多个项目中的实践经验,我们发现,要成功应用这项技术,必须穿透炒作的迷雾,明确该技术的能力边界,并将这些能力与明确的创造价值机会相匹配。此外,还需采取务实的“边实验边学习”方法来实施多智能体系统。
“代理工作流范式”的兴起
过去几年里,人工智能技术的发展日趋成熟,并迅速经历了至少三个不同的阶段:
- 提示词(2022):早期的热情主要集中在“强力提示词”上。在概念验证(POC)阶段,提示词似乎效果显著。但在实际生产环境中,其可靠性迅速下降。业务流程通常要求95%至99%的准确率。根据50多个案例的经验,我们推测仅靠提示词很少能超过70%。
- 检索增强生成(RAG,2023):RAG通过将生成式人工智能 与知识库进行锚定,从而提高了稳定性。同样,概念验证(POC)结果看似颇具前景,但实际部署的复杂性往往暴露了系统缺陷,导致准确率低得无法接受。
- 代理系统(2024年至今):最新的进展涉及由小型专用代理组成的网络。有些代理负责分发问题,有些执行范围狭窄的任务,还有些则负责检查并纠正输出结果。至关重要的是,代币成本的下降使得级联式多代理系统在商业上变得可行。这种分层设计显著提高了系统的可靠性。
今年秋季,以智能代理为核心的商业举措如雨后春笋般涌现。OpenAI与 Stripe 和 Shopify 建立了合作伙伴关系。谷歌则宣布推出“智能代理支付协议”(Agent Payment Protocol),旨在实现购买和交易流程的自动化。尽管企业可能会受科技巨头的引领而跃跃欲试,但这或许并非可持续价值的第一波浪潮将涌现之处。 在贝恩公司最近的一项消费者调查中,76%的受访者表示不愿使用智能代理系统进行购物——其中大多数人将安全与隐私问题列为犹豫的主要原因。
面向客户的场景与当前人工智能代理的能力并不匹配。这些场景杂乱无章且难以预测;输入数据是非结构化的,语气和语境不断变化,而监管机构和消费者对“幻觉”或错误几乎零容忍。 多智能体系统虽能达到较高的准确度,但实现这一目标需要将每个智能体视为幼儿般对待。你不会要求幼儿独自摆好晚餐的餐桌。但如果你将任务分解,并一步步引导——“先放一个盘子”、“接着放叉子”、“然后是杯子”——幼儿就能做出有意义的贡献。 关键在于,环境也必须受到控制:没有吵闹的兄弟姐妹,没有分散注意力的宠物,且只有一位家长下达指令。但通过开发结构类似于指导幼儿的多智能体系统——分解任务、逐一分配任务、检查任务准确性——我们正在构建出精度惊人的系统。
值得注意的是,这些系统通常用于后端流程,由于涉及人工干预,因此并不要求绝对完美。相比之下,尽管前端实验可能令人振奋,但它们不太可能成为企业创造真实价值的首要领域。后端和运营流程是沃土,因为它们具有结构化且重复性强的特点——这使得它们更适合主动型工作流自动化。 范围明确的任务、界定清晰的环境以及结构化的输入,能够催生出真正具有实质性贡献的项目。
在企业层面构建代理系统
在企业级应用中,设计此类系统在概念上虽简单,但在实际运行中却要求极高。作为构建多智能体系统的通用框架,1) 任务会被发送至路由器智能体(如 Google ADK),该智能体会像家长指导幼儿一样,将任务分解为子任务; 2) 随后,各个任务代理分别完成这些子任务,各自负责任务中较小的一部分,就像家长让一个孩子把杯子放在桌上,让另一个孩子把叉子放好一样;之后 3) 验证代理会检查这些子任务的结果;4) 如果发现错误,改进代理会建议进行调整。
一个由工具、方法论和服务构成的快速发展的生态系统为这种方法提供了支持,这些工具对于非核心流程而言非常理想。但当涉及核心运营时——在这些场景中,数据完整性与对“幻觉”的管控至关重要——您需要定制开发的代理程序、与企业系统的深度集成,以及更完善的管控措施和防护机制。
案例分析:重塑现场运营
举个例子,让我们来看看我们与一家欧洲大型互联网服务提供商合作的一个项目。 我们的目标是缩短服务呼叫的解决时间并降低相关成本。大多数人都曾有过这样的经历:因网络连接中断而致电客服中心,反复说明情况,最终只能等待技术人员上门。幕后发生(或未能发生)的事情颇具启示意义:技术人员往往在缺乏完整背景信息的情况下抵达现场,被迫从头开始排查故障。这导致了漫长的停机时间——有时甚至超过一个月——并造成数千小时的人工时间浪费。
我们决定从小处着手。我们专注于构建一个以帮助技术人员更快、更好地完成任务为核心的系统——它是在工作流程中的辅助工具,而非独立运行的系统。 为此,我们整合了来自15个以上信息系统的数据,为技术人员提供故障报告摘要以及此前尝试过的解决方案记录。这使他们能够对任务(例如排查客户的网络连接问题)有一个整体把握,并在前往现场的途中阅读或收听相关信息。这样一来,他们一到现场就能立即着手解决问题,从而节省了以往用于了解问题背景而常被浪费的时间。
接下来,我们开发了一项功能,用于生成最佳后续处理建议。另一项功能则是一个对话式界面,技术人员可以通过自然语言查询该互联网公司的底层IT系统,从而找出问题的根本原因。 最后,我们实现了许多简单且重复性操作的自动化:例如,当客户信息关联错误时自动更正CRM记录,或在社区中央接线盒中的交换机发生故障时自动触发网络重置。这为技术人员节省了大量时间,因为他们无需再致电内部呼叫中心寻求协助,即可自行完成这些微小的调整来解决问题。
在长达八个月的时间里,我们采取迭代开发的方式——梳理流程、解决痛点,并逐步增加功能,同时每周都会听取现场技术人员对这款平板电脑解决方案的反馈。
结果:
- 解决时间缩短60%
- 每年可节省超过100万欧元
- 客户净推荐值显著提升
基于这些结果,客户希望将该方案扩展至另外七个地区。这需要投入大量额外工作:虽然方法论和部分代理组件可以复用,但每个地区的IT系统各不相同。每次部署都需要进行新的集成和数据映射。扩展至这七个地区所需的总工作量,相当于最初每个新增地区所需工作量的两倍。
多智能体系统实施面临的挑战
如上所述,多智能体系统的实现确实能够创造真正的价值,但鲜少有人谈及其实际的实施工作。我们究竟面临了哪些现实情况和障碍?
快速测试与规模化部署。
我们是否从一开始就构建了一个良好的可扩展架构?尽管我们很想这么说,但这根本是不可能的。正如创新者通过迭代探索来寻找产品与市场的契合点一样,多智能体系统的用例和解决方案也是在我们进行快速实验的循环过程中逐步演变而来的。与此同时,用于构建这些系统的技术、方法论和服务也迅速发展。
我们并没有从完整的系统开始。相反,我们最初以一个大型语言模型(LLM)加 RAG 作为核心组件,以此基本解决了首个用例。 在测试过程中,我们发现需要将系统拆分为执行更专业化任务的多个小型代理,以提升可靠性;随着时间推移,这逐渐演变为一个完全基于代理的系统。最终,我们开发出了一个高度可靠、切实有效的系统,并创造了实际价值。基于这些经验和现有的成果,我们正在将其重构为一种更稳健的架构,这种架构不仅能更好地支持公司其他部门的扩展,也更易于维护。
问题区域与根本原因。
根据经验,我们发现领导者和中层管理者大致知道哪些流程耗时或费力,但他们对复杂性所在及机遇所在的看法却缺乏依据。 只有一线操作人员才真正了解这些。这意味着,在真正开始构建之前,你需要做两件事:1) 花足够的时间从管理者的角度理解问题,同时 2) 与一线操作人员交流,了解他们认为任何特定问题的根本原因是什么。
例如,管理者会指出流程中存在时间或资源浪费的环节(例如在共享服务中心),并要求我们寻找合适的“知识条目”,以便操作员能更快地解决问题。 然而,当我们开始直接与客服人员合作时,发现一半的客服人员能在10秒内找到这些“知识条目”,而另一半则需要几分钟才能找到相同的信息,因为他们不擅长在系统中搜索。这并不是代理型人工智能能很好解决的问题——这是培训问题。 但我们还发现,领导层和管理者完全忽略了一个事实:客服人员在结束客户通话后,大约有50%的时间都花在填写CRM系统上。这对代理型AI来说是个理想的应用场景——它能转录通话内容并将所有信息填入相应字段,从而大幅加快流程并提升数据质量。客服人员只需核对并点击“确定”即可。
阻碍你前进的不是IT系统,而是人。
我们工作中最耗时且最复杂的部分,在于参与关键的管理层讨论、争取利益相关者的支持,以及识别并解决因我们的工作而产生的依赖关系。从技术角度来看,为了使解决方案正常运行而与十几个IT系统进行集成确实很复杂,但真正的挑战在于,所有这些系统都有各自的开发团队,且时间表、优先级和路线图各不相同。仅是开放API接口并进行全面测试,可能就需要两周的时间。 而要将我们的工作纳入这些系统的各自路线图中,则耗费了更长、更长的时间。我们协调的大多数团队都将这项工作降级处理了数月之久,声称(从他们的角度来看可能确实有理)还有更重要的工作需要优先处理。
模型可能会产生幻觉,而且确实会产生幻觉。
代理系统目前仍相当不稳定,且可能产生幻觉,因此必须建立强有力的防护机制和检查机制,具体表现为“作为裁判的大语言模型”(即验证代理)。 代理系统的提示语必须既足够有力,又足够简洁,才能让代理正确执行任务。这需要精妙的把握、时间投入,以及数据科学和数据工程技能,才能使这些代理系统具备足够高的可靠性,从而在您的业务中运行。换言之,优秀的开发人员和丰富的业务经验仍然至关重要。
“能动性转化”这一新兴学科
我们还能从这个案例中汲取哪些更具普适性的经验?从许多方面来看,这仿佛是在重新发现精益管理——从头开始对工作流程进行再设计。不同之处在于,如今的工具集功能强大得多,不仅能够实现渐进式优化,还能进行全面的流程再设计,甚至跨越部门界限。
除了数据和人工智能能力之外,成功的关键还在于对流程的深刻理解——即洞悉现状、描绘未来蓝图,并将之转化为可实施的具体步骤。从这个意义上说,我们正见证“精益黑带”的回归,只不过这一次,它们是由生成式人工智能驱动的。
这项工作细致而有条理,并不光鲜亮丽。你必须一步一个脚印地推进。这种方法的扩展在于方法论,而非靠什么魔法。每个新的业务领域都需要全新的分析和量身定制的调整。
完全自主的智能体仍遥遥无期。目前,最有效的方案是让人类始终参与其中——这能让操作员变得更聪明、更敏捷,并拥有更强大的能力。
起初,进展往往是循序渐进的。只有当核心系统实现互联、信息流通顺畅时,效率才会显著提升。
技术的演进速度也快于项目推进。八个月前我们使用的工具如今已显过时。正因如此,我们专注于那些能在一年内收回成本的应用场景——在底层技术发生变革之前。
更重要的是,企业必须培养内部人才——包括数据工程师、数据科学家、生成式人工智能 设计师,以及如今被称为“情境工程师”或生成式人工智能 ”的人才:这些人深刻理解业务流程,能够将转型分解为切实可行的步骤。作为企业,培养这些能力将使您能够更快地构建新的自主工作流(随着技术的发展),这将成为在竞争中脱颖而出的真正优势。
最后,尽管这些举措最终将融入日常业务运营,但必须以健全的治理机制为起点——这种机制应将技术视角与业务视角有机结合。正是这种平衡,才能将实验转化为变革。
未来十年
尽管生成式人工智能炒作可能已超前于其实际应用,但其潜力确是真实存在的。正如此前互联网和智能手机革命一样,这场平台变革将重塑各行各业——不是通过一夜之间的颠覆,而是通过数年有条不紊的革新。
成功的组织不仅会采用工具,还会借助这些工具建立持续自我革新的能力。

博客










