Artefact Survey "The future of Agentic Supervision" - Key Insights

Artefact 早前关于 "人工智能工作的未来 "的研究认为，人工智能将增强重复性和乏味性工作，并将其转变为人工智能监管。继这项研究之后，《代理监督的未来》深入探讨了企业如何做好准备，监督和管理这些新型智能系统的性能、安全性和战略价值，并最终围绕代理人工智能监督重塑工作。本综述总结了该研究的主要见解和建议，为希望建立值得信赖、影响力大的代理的公司提供了一本实用的手册，在技术和业务管理之间架起了一座桥梁。.

下载调查问卷

代理型人工智能有何不同？

代理人工智能系统不是传统软件。它们是概率性的，这意味着它们的输出虽然受到输入环境的强烈影响，但在每次运行时都会发生变化。相反，传统软件是由确定性规则驱动的，如果设计得当，是完全可以信赖的，因为它们不断应用相同、不变和正确的逻辑。然而，传统软件的局限性在于它无法解决新的问题，哪怕是稍有不同的问题。人工智能代理解决了这一范围限制，但却牺牲了可靠性。它们将自然语言能力与跨内部工具、应用程序接口或 database 自主行动的能力相结合，以解决新问题。这种灵活性能够在客户支持、运营、人力资源和采购等领域创造令人印象深刻的价值。.

但是，代理人工智能系统也颠覆了软件管理方面的长期假设。传统的代码只需测试一次就可以放心部署，而代理系统在部署时必须考虑到风险，并不断进行监控、评估和改进。因此，代理治理的未来不仅关乎部署时的认证，还关乎大规模的持续监督。.

核心权衡：价值与风险

企业在人工智能代理方面面临着一个核心挑战：概率逻辑不存在零风险。因此，人工智能代理开发团队需要在风险可接受的情况下实现价值。一方面，高度放任的代理可能会带来价值，但也会带来运营、声誉、道德或财务风险。另一方面，高度受限的代理可能是安全的，喜欢浅层次和简单的响应，但提供的效用有限。.

必须明确管理这种价值与风险的权衡。企业必须定义 “价值 ”在上下文中的含义（任务成功率、用户参与度、生产率提升），以及必须控制的风险：幻觉、延迟、偏差、声誉受损或成本超支。在人工智能代理生命周期的每一步：设计、开发、部署和运行时，监督都成为调整这种平衡的运行机制。.

监督三步骤：观察、评估、行动

要实现这种平衡，企业需要围绕三大核心能力建立代理监督：

观察:捕捉结构化遥测 data--输入、输出、工具调用、错误和人为反馈。.
评估:使用质量指标和风险指标，根据企业确定的目标和控制阈值评估绩效。.
行动:升级和管理事故、重新培训模型、调整防护栏或回滚代理更新。.

这个过程被称为 “主动监督”, 这与 DevOps 的做法如出一辙，但必须针对人工智能的概率和不断发展的性质进行调整，并从技术团队扩展到业务流程和团队（客户成功、人力资源、法律、运营等）。.

监督从代理人出生开始

代理治理早在部署之前就已开始。业务和技术团队必须从探索阶段就开始合作，以确定成功标准、识别风险类型并决定评估策略。这种共同设计方法可确保代理不仅在技术上强大，而且从一开始就与业务优先事项保持一致。.

在设计阶段，团队往往需要建立反映所需代理行为的 “地面实况 ”datasets。这些对于培训和评估都至关重要。在开发阶段，团队必须确定多个指标的成功/失败发布阈值。成功不再是二元对立的（例如，所有测试都通过），而是概率性的（例如，任务成功率大于 90%，毒性小于 2%），这就要求管理者定义 “足够好 ”是什么样子。.

监督工作不会在部署时结束。持续监控生产对评估和改进代理至关重要。当发生事故时，负责人工解决的业务团队必须将预期的正确行为反馈给代理团队，从而丰富和改进地面实况 dataset。.

基于指标的部署需要业务投入

代理治理的一大创新是根据多维指标阈值释放代理。这包括传统的 性能指标 (准确性、延迟）、, 业务指标 (任务完成），以及 风险度量 (毒性、偏见、违反政策）。.

至关重要的是，将代理推广到生产阶段的决定权不应只掌握在技术团队手中。业务利益相关者必须定义可接受的风险阈值并批准部署标准。管理成为人工智能工程师、产品经理、合规官和领域专家的共同责任。.

法学硕士作为法官的作用

评估 LLM 生成的结果可能既主观又耗时。这就是 "法律硕士即法官 "技术发挥作用的地方。这包括使用独立的 LLM 对其他 LLM 的输出进行评分，评估响应的相关性、事实性或语气。.

虽然有些人可能对使用人工智能来评判人工智能持怀疑态度，但经验表明，独立模型可以可靠地评估生成的输出结果。不过，可靠的 “LLM-as-a-Judge ”的条件是简单，并且只要求二元判断，如 “可接受或不可接受”。换句话说，生成特定二进制标准的 “简单人工智能 ”在评判生成冗长文本的 "复杂人工智能 "时非常有效。这种技术加快了评估流程，减少了每个案例对人工评判员的依赖，尽管在高风险的评审中，人工评判仍然是必不可少的。.

护栏是安全网，从第一天开始就要设置

评估是通过主动控制防止已知故障模式的防护网的重要组成部分。护栏可应用于输入层（如过滤提示注入）、输出层（如阻止不安全的完成），或通过中间逻辑（如工具访问条件）。.

但是，护栏是有取舍的。太严格，会造成拒绝循环或无声故障，降低用户体验。太松则会超出风险承受能力。护栏必须随着代理的能力和业务成熟度而发展，从严格的护栏开始，以确保信任，然后逐渐放松，在控制风险的同时提高价值。因此，设计、测试和调整防护栏不是一次性任务，而是持续监管生命周期的一部分。.

事件处理：人力监督员的崛起

即使是仪表完善的系统，也难免会出现故障。代理监督的一个关键部分就是通过防护栏检测故障，并将其上报给人类团队。这些故障可能包括违反安全规定、任务失败、输出模糊或工具误用。.

督导工作必须设计得有吸引力、可持续和富有成效。一线主管需要

丰富的结构化背景data：完整的跟踪日志、触发说明、用户元 data：完整的跟踪日志、触发说明、用户元 data。.
简化界面决策工作流程、默认建议、后备选项。.
智能路由：根据专业知识和负载平衡分配升级。.
疲劳管理确保警报数量和复杂程度在可控范围内。.

如果监督工作做得好，就会成为一个良性循环：人的决定会影响到 datasets 的再培训，并完善护栏政策。监督不仅仅是为了遏制，它还能推动长期的药剂改进。.

工具：AgentOps 堆栈

要实现这一切，企业必须采用一类新的工具：AgentOps 堆栈。其中包括 LangSmith、Langfuse、DeepEval、Ragas、PRISM Eval、Giskard、Arize、Weights & Biases 和 Robust Intelligence for 等平台：

可观察性
评估
地面实况标注
实验跟踪
护栏协调

大多数平台都结合了这些功能，但每个平台都有各自的优势。有些更注重可观察性，有些注重代理部署，有些则注重安全等垂直风险。这些工具与 DevOps 和 MLOps 平台如出一辙，但针对代理系统的特定需求进行了调整。我们建议将这些工具与现有的 CI/CD 管道和 data platforms 集成，以保持可追溯性和重用性。.

治理是一项团队运动

研究的主要结论之一是，代理管理不能仅仅是人工智能工程师的责任。业务团队必须共同设计警戒线，定义可接受的风险阈值，并参与升级协议。法律、合规、营销和支持部门必须能够访问针对其风险量身定制的仪表板。.

这意味着一种新的治理形式，一种将人工智能的可观察性与业务责任相结合的治理形式。我们建议不是按照代理，而是按照风险类型（如法律、运营、品牌）来组织监督团队，以便对多个代理进行横向监督。没有这样的组织，就很难扩大代理信任的规模。.

DataOps 的作用

代理人工智能揭示了企业 data 质量的缺陷，这在以前的系统中是很少见的。如果不对底层信息库进行管理，基于检索的代理往往会发现陈旧、敏感或不相关的 data。这就是为什么代理治理必须与 DataOps 齐头并进。事故不仅要追溯到代理的提示逻辑，还要追溯到为其提供信息的 data 管道。.

如果操作得当，AgentOps 可以增强企业的 data governance 能力。反之亦然。.

实用入门手册

为了帮助企业从理论走向实践，我们提出了四点建议：

从真实项目开始，而不是原型： 将治理工作重点放在用于生产的高价值代理上。构建真实的系统，而不是随意的演示，以便尽早发现运行中的现实问题。.
在开发工具时，首先考虑开发人员： 选择支持工程工作流程的 Observability 工具。业务仪表板很有帮助，但开发人员的采用对于收集高质量的元 data至关重要。.
明确风险所有权： 确定哪些职能部门拥有哪些风险。谁对安全、隐私、偏见或用户体验下降负责？建立升级路径和签核规则。.
将 AgentOps 与 DataOps 相统一： 将代理和 data 管道视为一枚硬币的两面。共同监督 data 质量和代理行为，诊断事故的根本原因。.

结论：从监督到战略优势

代理监督不仅要防止伤害，还要实现大规模信任。通过建立共享的衡量标准、强大的工具和协作协议，企业可以释放代理系统的全部价值，同时将风险控制在可控范围内。.

代理治理将迅速发展。但其基础是永恒的：清晰、协作和不断学习。企业若能及早掌握这一规律，不仅能避免代价高昂的错误，还能建立持久的竞争优势。.

联系我们

Artefact 调查 “代理监督的未来”--主要观点

作者

未找到