L'étude précédente d'Artefactsur l'avenir du travail avec l'IA a conclu que le travail répétitif et fastidieux sera augmenté par l'IA agentique et transformé en supervision agentique. Suite à cette étude, The Future of Agentic Supervision (L'avenir de la supervision agentique) examine en profondeur comment les organisations peuvent se préparer à superviser et à gérer la performance, la sécurité et la valeur stratégique de ces nouveaux systèmes intelligents et, à terme, réinventer le travail autour de la supervision par l'IA agentique. Cette synthèse résume les principales idées et recommandations de l'étude, en faisant le lien entre la gouvernance technique et commerciale avec un manuel pratique pour les entreprises qui cherchent à construire des agents dignes de confiance et à fort impact.

Télécharger l'enquête

En quoi l'IA agentique est-elle différente ?

Les systèmes d'IA agentique ne sont pas des logiciels traditionnels. Ils sont probabilistes, ce qui signifie que leurs résultats, bien que fortement influencés par le contexte d'entrée, varient à chaque exécution. Les logiciels traditionnels, au contraire, sont régis par des règles déterministes, auxquelles on peut faire entièrement confiance si elles sont bien conçues, parce qu'elles Postuler constamment la même logique, invariante et correcte. La limite des logiciels traditionnels est toutefois qu'ils ne peuvent pas résoudre un problème nouveau, même légèrement différent. Les agents d'intelligence artificielle résolvent cette limitation du champ d'application au détriment de la fiabilité. Ils intègrent des capacités de langage naturel avec le pouvoir d'agir de manière autonome à travers des outils internes, des API ou des bases de données pour résoudre de nouveaux problèmes. Cette flexibilité permet une création de valeur impressionnante dans les domaines de l'assistance à la clientèle, des opérations, des ressources humaines et de l'approvisionnement.

Mais les systèmes d'IA agentique bouleversent également les hypothèses de longue date en matière de gouvernance des logiciels. Alors que le code traditionnel est testé une fois et déployé en toute confiance, les agents doivent être déployés en tenant compte des risques, et être constamment contrôlés, évalués et améliorés. L'avenir de la gouvernance agentique ne se résume donc pas à la certification au moment du déploiement, mais aussi à la supervision continue à grande échelle.

Le principal compromis : valeur ou risque

Les entreprises sont confrontées à un défi majeur avec les agents d'IA : le risque zéro n'existe pas avec la logique probabiliste. Par conséquent, les équipes de développement d'agents d'IA doivent apporter de la valeur avec un risque acceptable. D'une part, des agents très permissifs peuvent apporter de la valeur mais aussi poser des risques opérationnels, de réputation, éthiques ou financiers. D'autre part, les agents très contraignants peuvent être sûrs, préférant des réponses simples et superficielles, mais offrir une utilité limitée.

Ce compromis entre valeur et risque doit être géré de manière explicite. Les entreprises doivent définir ce que signifie la "valeur" dans le contexte (taux de réussite des tâches, engagement des utilisateurs, gains de productivité) ainsi que les risques qui doivent être contrôlés : hallucination, latence, biais, atteinte à la réputation ou dépassement des coûts. La supervision devient le mécanisme opérationnel qui assure cet équilibre à chaque étape du cycle de vie de l'agent d'IA : lors de la conception, du développement, du déploiement et de l'exécution.

La supervision en trois étapes : Observer, Évaluer, Agir

Pour parvenir à cet équilibre, les entreprises doivent mettre en place une supervision agentique autour de trois capacités essentielles :

  1. Observation: Saisir des datatélémétriques structurées data, sorties, appels d'outils, erreurs et réactions humaines.
  2. Évaluation: Utiliser des mesures de qualité et des indicateurs de risque pour évaluer les performances par rapport aux objectifs et aux seuils de contrôle définis par l'entreprise.
  3. Action: Signaler et gérer les incidents, recycler les modèles, ajuster les garde-fous ou annuler les mises à jour des agents.

Ce processus, appelé " supervision active ", reflète les pratiques DevOps mais doit être adapté à la nature probabiliste et évolutive de l'IA, et étendu au-delà des équipes techniques pour englober les processus et les équipes métiers (Customer Success, RH, Juridique, Opérations, etc.).

La supervision commence dès la naissance de l'agent

La gouvernance agentique commence bien avant le déploiement. Les équipes techniques et commerciales doivent collaborer dès la phase d'exploration pour définir les critères de réussite, identifier les types de risques et décider de la stratégie d'évaluation. Cette approche de co-conception garantit que les agents sont non seulement techniquement robustes, mais aussi alignés sur les priorités de l'entreprise dès le départ.

In the design phase, teams often need to build “ground truth” datasets that reflect desired agent behavior. These become essential for both training and evaluation. During development, teams must determine go/no-go release thresholds across multiple metrics. Success is no longer binary (e.g., all tests pass); it’s probabilistic (e.g., >90% on task success, <2% toxicity), requiring governance to define what “good enough” looks like.

La supervision ne s'arrête pas au déploiement. Le contrôle continu de la production est essentiel pour évaluer et perfectionner les agents. Lorsqu'un incident survient, l'équipe commerciale responsable de la résolution manuelle doit communiquer à l'équipe d'agents le comportement correct attendu, ce qui permet d'enrichir et d'améliorer l'ensemble des données de référence.

Le déploiement basé sur des mesures nécessite l'apport des entreprises

Une innovation majeure dans la gouvernance des agents est l'idée que les agents sont libérés sur la base de seuils de mesure multidimensionnels. Cela inclut les mesures de performance traditionnelles (précision, latence), les mesures commerciales (achèvement des tâches) et les mesures de risque (toxicité, partialité, violation de la politique).

Il est essentiel que la décision de mettre un agent en production ne relève pas uniquement des équipes techniques. Les parties prenantes de l'entreprise doivent définir des seuils de risque acceptables et approuver les critères de déploiement. La gouvernance devient une responsabilité partagée entre les ingénieurs en IA, les chefs de produit, les responsables de la conformité et les experts du domaine.

Le rôle du LLM en tant que juge

L'évaluation des résultats générés par le LLM peut être subjective et prendre du temps. C'est là que les techniques de LLM-as-a-Judge entrent en jeu. Elles consistent à utiliser des LLM indépendants pour évaluer les résultats d'autres LLM, en évaluant la pertinence, la factualité ou le ton de la réponse.

Bien que certains soient sceptiques quant à l'utilisation de l'IA pour juger l'IA, l'expérience montre que des modèles indépendants peuvent évaluer de manière fiable les résultats générés. Toutefois, la condition d'un LLM-as-a-Judge fiable est la simplicité et le fait de ne demander que des jugements binaires tels que "acceptable ou non". En d'autres termes, une "IA simple" générant des critères binaires spécifiques est très efficace pour juger une "IA complexe" générant de longs textes. Cette technique permet d'accélérer les processus d'évaluation et de réduire la dépendance à l'égard des évaluateurs humains pour chaque cas, même si le jugement humain reste essentiel dans les examens à fort enjeu.

Les garde-fous sont des filets de sécurité à mettre en place dès le premier jour.

L'évaluation est un élément essentiel des garde-fous qui préviennent les modes de défaillance connus par des contrôles proactifs. Les garde-fous peuvent être appliqués au niveau de l'entrée (par exemple, filtrer les injections rapides), au niveau de la sortie (par exemple, bloquer les achèvements dangereux) ou par le biais d'une logique intermédiaire (par exemple, conditions d'accès à l'outil).

Mais les garde-fous sont assortis de compromis. Trop strictes, elles provoquent des boucles de rejet ou des échecs silencieux qui dégradent l'expérience utilisateur. Trop lâches, la tolérance au risque est dépassée. Les garde-fous doivent évoluer avec les capacités de l'agent et la maturité de l'entreprise, en commençant par des garde-fous stricts pour garantir la confiance et en les assouplissant progressivement pour améliorer la valeur tout en contrôlant les risques. Par conséquent, la conception, le test et le réglage des garde-fous ne sont pas des tâches ponctuelles, mais font partie du cycle de vie de la supervision.

Traitement des incidents : La montée en puissance des superviseurs humains

Même avec des systèmes bien instrumentés, les incidents sont inévitables. Une partie essentielle de la supervision agentique consiste à détecter les défaillances avec des garde-fous et à les transmettre à des équipes humaines. Il peut s'agir de violations de la sécurité, d'échecs de tâches, de résultats ambigus ou d'une mauvaise utilisation des outils.

Le travail de supervision doit être conçu pour être engageant, durable et productif. Les superviseurs de première ligne ont besoin

  • Contexte riche et structuré: journaux de suivi complets, explications sur les déclencheurs, métadonnées de l'utilisateur.
  • Interfaces simplifiées: flux de décisions, recommandations par défaut, options de repli.
  • Routage intelligent: attribution des escalades en fonction de l'expertise et de l'équilibrage de la charge.
  • Gestion de la fatigue: veiller à ce que le volume et la complexité des alertes soient gérables.

Lorsqu'elle est bien faite, la supervision devient une boucle vertueuse : les décisions humaines alimentent les ensembles de données de recyclage et affinent les politiques de garde-fou. La supervision n'est pas seulement une question de confinement, elle permet d'améliorer les agents à long terme.

L'outillage : La pile AgentOps

Pour rendre tout cela opérationnel, les entreprises doivent adopter une nouvelle classe d'outils : la pile AgentOps. Il s'agit de plateformes telles que LangSmith, Langfuse, DeepEval, Ragas, PRISM Eval, Giskard, Arize, Weights & Biases et Robust Intelligence for :

  • Observabilité
  • L'évaluation
  • Annotation de la vérité de terrain
  • Suivi des expériences
  • Orchestration du garde-fou

La plupart des plateformes combinent ces caractéristiques, mais chacune possède des atouts spécifiques. Certaines se concentrent davantage sur l'observabilité, d'autres sur le déploiement agentique, d'autres encore sur un risque vertical comme la sécurité. Ces outils reflètent les plateformes DevOps et MLOps mais sont adaptés aux besoins spécifiques des systèmes agentiques. Nous recommandons d'intégrer ces outils aux pipelines CI/CD et aux plateformes de data existantes afin de maintenir la traçabilité et la réutilisation.

La gouvernance est un sport d'équipe

L'une des principales conclusions de l'étude est que la gouvernance des agents ne peut pas être la seule responsabilité des ingénieurs en IA. Les équipes commerciales doivent concevoir ensemble des garde-fous, définir des seuils de risque acceptables et participer à des protocoles d'escalade. Les services juridiques, de conformité, de marketing et d'assistance doivent avoir accès à des tableaux de bord adaptés à leurs risques.

Cela implique une nouvelle forme de gouvernance, qui allie l'observabilité de l'IA à la responsabilité de l'entreprise. Nous recommandons d'organiser les équipes de supervision non pas par agent mais par type de risque (par exemple, juridique, opérationnel, de marque), ce qui permet une supervision horizontale entre plusieurs agents. Sans une telle organisation, il sera difficile d'étendre la confiance agentique.

Le rôle de DataOps

L'IA agentique révèle les failles de la qualité des data entreprise comme peu de systèmes l'ont fait auparavant. Les agents basés sur la recherche font souvent apparaître des data périmées, sensibles ou non pertinentes si les référentiels sous-jacents ne sont pas contrôlés. C'est pourquoi la gouvernance agentique doit aller de pair avec le DataOps. Les incidents doivent être tracés non seulement à partir de la logique de l'agent, mais aussi à partir des pipelines de data qui l'alimentent.

L'AgentOps, lorsqu'il est bien fait, renforce la gouvernance des data l'entreprise. Et vice versa.

Un guide pratique pour démarrer

Pour aider les entreprises à passer de la théorie à la pratique, nous proposons quatre recommandations :

  1. Commencer par des projets réels, et non des prototypes : Concentrer les efforts de gouvernance sur les agents de grande valeur destinés à la production. Construisez des systèmes réels, et non des démonstrations jetables, afin de découvrir rapidement les réalités opérationnelles.
  2. Pensez d'abord au développeur en matière d'outils : Choisissez des outils d'observabilité qui soutiennent les flux de travail de l'ingénierie. Les tableaux de bord sont utiles, mais l'adoption par les développeurs est essentielle pour collecter des métadonnées de qualité.
  3. Clarifier la propriété des risques : Définissez quelles fonctions sont responsables de quels risques. Qui est responsable de la sécurité, de la protection de la vie privée, de la partialité ou de la dégradation de l'interface utilisateur ? Établissez des voies d'escalade et des règles d'approbation.
  4. Unifier AgentOps et DataOps : Traiter les agents et les pipelines de data comme les deux faces d'une même pièce. Supervisez conjointement la qualité des data et le comportement des agents pour diagnostiquer les causes profondes des incidents.

Conclusion : De la supervision à l'avantage stratégique

La supervision agentique ne consiste pas seulement à prévenir les dommages, mais aussi à instaurer la confiance à grande échelle. En établissant des mesures partagées, des outils robustes et des protocoles de collaboration, les organisations peuvent exploiter toute la valeur des systèmes agentiques tout en gardant les risques sous contrôle.

La gouvernance des agents évoluera rapidement. Mais ses fondements sont intemporels : clarté, collaboration et apprentissage continu. Les entreprises qui adoptent cette discipline dès le début éviteront non seulement des erreurs coûteuses, mais elles se forgeront un avantage concurrentiel durable.