Artefact 早前关于 "人工智能工作的未来 "的研究认为,人工智能将增强重复性和乏味性工作,并将其转变为人工智能监管。继这项研究之后,《代理监督的未来》深入探讨了企业如何做好准备,监督和管理这些新型智能系统的性能、安全性和战略价值,并最终围绕代理人工智能监督重塑工作。本综述总结了该研究的主要见解和建议,为希望建立值得信赖、影响力大的代理的公司提供了一本实用的手册,在技术和业务管理之间架起了一座桥梁。.

下载调查问卷

代理型人工智能有何不同?

代理人工智能系统不是传统软件。它们是概率性的,这意味着它们的输出虽然受到输入环境的强烈影响,但在每次运行时都会发生变化。相反,传统软件是由确定性规则驱动的,如果设计得当,是完全可以信赖的,因为它们不断应用相同、不变和正确的逻辑。然而,传统软件的局限性在于它无法解决新的问题,哪怕是稍有不同的问题。人工智能代理解决了这一范围限制,但却牺牲了可靠性。它们将自然语言能力与跨内部工具、应用程序接口或 database 自主行动的能力相结合,以解决新问题。这种灵活性能够在客户支持、运营、人力资源和采购等领域创造令人印象深刻的价值。.

但是,代理人工智能系统也颠覆了软件管理方面的长期假设。传统的代码只需测试一次就可以放心部署,而代理系统在部署时必须考虑到风险,并不断进行监控、评估和改进。因此,代理治理的未来不仅关乎部署时的认证,还关乎大规模的持续监督。.

核心权衡:价值与风险

企业在人工智能代理方面面临着一个核心挑战:概率逻辑不存在零风险。因此,人工智能代理开发团队需要在风险可接受的情况下实现价值。一方面,高度放任的代理可能会带来价值,但也会带来运营、声誉、道德或财务风险。另一方面,高度受限的代理可能是安全的,喜欢浅层次和简单的响应,但提供的效用有限。.

必须明确管理这种价值与风险的权衡。企业必须定义 “价值 ”在上下文中的含义(任务成功率、用户参与度、生产率提升),以及必须控制的风险:幻觉、延迟、偏差、声誉受损或成本超支。在人工智能代理生命周期的每一步:设计、开发、部署和运行时,监督都成为调整这种平衡的运行机制。.

监督三步骤:观察、评估、行动

要实现这种平衡,企业需要围绕三大核心能力建立代理监督:

  1. 观察:捕捉结构化遥测 data--输入、输出、工具调用、错误和人为反馈。.
  2. 评估:使用质量指标和风险指标,根据企业确定的目标和控制阈值评估绩效。.
  3. 行动:升级和管理事故、重新培训模型、调整防护栏或回滚代理更新。.

这个过程被称为 “主动监督”, 这与 DevOps 的做法如出一辙,但必须针对人工智能的概率和不断发展的性质进行调整,并从技术团队扩展到业务流程和团队(客户成功、人力资源、法律、运营等)。.

监督从代理人出生开始

代理治理早在部署之前就已开始。业务和技术团队必须从探索阶段就开始合作,以确定成功标准、识别风险类型并决定评估策略。这种共同设计方法可确保代理不仅在技术上强大,而且从一开始就与业务优先事项保持一致。.

在设计阶段,团队往往需要建立反映所需代理行为的 “地面实况 ”datasets。这些对于培训和评估都至关重要。在开发阶段,团队必须确定多个指标的成功/失败发布阈值。成功不再是二元对立的(例如,所有测试都通过),而是概率性的(例如,任务成功率大于 90%,毒性小于 2%),这就要求管理者定义 “足够好 ”是什么样子。.

监督工作不会在部署时结束。持续监控生产对评估和改进代理至关重要。当发生事故时,负责人工解决的业务团队必须将预期的正确行为反馈给代理团队,从而丰富和改进地面实况 dataset。.

基于指标的部署需要业务投入

代理治理的一大创新是根据多维指标阈值释放代理。这包括传统的 性能指标 (准确性、延迟)、, 业务指标 (任务完成),以及 风险度量 (毒性、偏见、违反政策)。.

至关重要的是,将代理推广到生产阶段的决定权不应只掌握在技术团队手中。业务利益相关者必须定义可接受的风险阈值并批准部署标准。管理成为人工智能工程师、产品经理、合规官和领域专家的共同责任。.

法学硕士作为法官的作用

评估 LLM 生成的结果可能既主观又耗时。这就是 "法律硕士即法官 "技术发挥作用的地方。这包括使用独立的 LLM 对其他 LLM 的输出进行评分,评估响应的相关性、事实性或语气。.

虽然有些人可能对使用人工智能来评判人工智能持怀疑态度,但经验表明,独立模型可以可靠地评估生成的输出结果。不过,可靠的 “LLM-as-a-Judge ”的条件是简单,并且只要求二元判断,如 “可接受或不可接受”。换句话说,生成特定二进制标准的 “简单人工智能 ”在评判生成冗长文本的 "复杂人工智能 "时非常有效。这种技术加快了评估流程,减少了每个案例对人工评判员的依赖,尽管在高风险的评审中,人工评判仍然是必不可少的。.

护栏是安全网,从第一天开始就要设置

评估是通过主动控制防止已知故障模式的防护网的重要组成部分。护栏可应用于输入层(如过滤提示注入)、输出层(如阻止不安全的完成),或通过中间逻辑(如工具访问条件)。.

但是,护栏是有取舍的。太严格,会造成拒绝循环或无声故障,降低用户体验。太松则会超出风险承受能力。护栏必须随着代理的能力和业务成熟度而发展,从严格的护栏开始,以确保信任,然后逐渐放松,在控制风险的同时提高价值。因此,设计、测试和调整防护栏不是一次性任务,而是持续监管生命周期的一部分。.

事件处理:人力监督员的崛起

即使是仪表完善的系统,也难免会出现故障。代理监督的一个关键部分就是通过防护栏检测故障,并将其上报给人类团队。这些故障可能包括违反安全规定、任务失败、输出模糊或工具误用。.

督导工作必须设计得有吸引力、可持续和富有成效。一线主管需要

  • 丰富的结构化背景data:完整的跟踪日志、触发说明、用户元 data:完整的跟踪日志、触发说明、用户元 data。.
  • 简化界面决策工作流程、默认建议、后备选项。.
  • 智能路由:根据专业知识和负载平衡分配升级。.
  • 疲劳管理确保警报数量和复杂程度在可控范围内。.

如果监督工作做得好,就会成为一个良性循环:人的决定会影响到 datasets 的再培训,并完善护栏政策。监督不仅仅是为了遏制,它还能推动长期的药剂改进。.

工具:AgentOps 堆栈

要实现这一切,企业必须采用一类新的工具:AgentOps 堆栈。其中包括 LangSmith、Langfuse、DeepEval、Ragas、PRISM Eval、Giskard、Arize、Weights & Biases 和 Robust Intelligence for 等平台:

  • 可观察性
  • 评估
  • 地面实况标注
  • 实验跟踪
  • 护栏协调

大多数平台都结合了这些功能,但每个平台都有各自的优势。有些更注重可观察性,有些注重代理部署,有些则注重安全等垂直风险。这些工具与 DevOps 和 MLOps 平台如出一辙,但针对代理系统的特定需求进行了调整。我们建议将这些工具与现有的 CI/CD 管道和 data platforms 集成,以保持可追溯性和重用性。.

治理是一项团队运动

研究的主要结论之一是,代理管理不能仅仅是人工智能工程师的责任。业务团队必须共同设计警戒线,定义可接受的风险阈值,并参与升级协议。法律、合规、营销和支持部门必须能够访问针对其风险量身定制的仪表板。.

这意味着一种新的治理形式,一种将人工智能的可观察性与业务责任相结合的治理形式。我们建议不是按照代理,而是按照风险类型(如法律、运营、品牌)来组织监督团队,以便对多个代理进行横向监督。没有这样的组织,就很难扩大代理信任的规模。.

DataOps 的作用

代理人工智能揭示了企业 data 质量的缺陷,这在以前的系统中是很少见的。如果不对底层信息库进行管理,基于检索的代理往往会发现陈旧、敏感或不相关的 data。这就是为什么代理治理必须与 DataOps 齐头并进。事故不仅要追溯到代理的提示逻辑,还要追溯到为其提供信息的 data 管道。.

如果操作得当,AgentOps 可以增强企业的 data governance 能力。反之亦然。.

实用入门手册

为了帮助企业从理论走向实践,我们提出了四点建议:

  1. 从真实项目开始,而不是原型: 将治理工作重点放在用于生产的高价值代理上。构建真实的系统,而不是随意的演示,以便尽早发现运行中的现实问题。.
  2. 在开发工具时,首先考虑开发人员: 选择支持工程工作流程的 Observability 工具。业务仪表板很有帮助,但开发人员的采用对于收集高质量的元 data至关重要。.
  3. 明确风险所有权: 确定哪些职能部门拥有哪些风险。谁对安全、隐私、偏见或用户体验下降负责?建立升级路径和签核规则。.
  4. 将 AgentOps 与 DataOps 相统一: 将代理和 data 管道视为一枚硬币的两面。共同监督 data 质量和代理行为,诊断事故的根本原因。.

结论:从监督到战略优势

代理监督不仅要防止伤害,还要实现大规模信任。通过建立共享的衡量标准、强大的工具和协作协议,企业可以释放代理系统的全部价值,同时将风险控制在可控范围内。.

代理治理将迅速发展。但其基础是永恒的:清晰、协作和不断学习。企业若能及早掌握这一规律,不仅能避免代价高昂的错误,还能建立持久的竞争优势。.