Une étude antérieure Artefactintitulée « L'avenir du travail avec l'IA » concluait que les tâches répétitives et fastidieuses seraient prises en charge par l'IA agentique et transformées en supervision agentique. Dans le prolongement de cette étude, « L'avenir de la supervision agentique » examine en détail comment les organisations peuvent se préparer à superviser et à gérer les performances, la sécurité et la valeur stratégique de ces nouveaux systèmes intelligents, et, à terme, réinventer le travail autour de la supervision par IA agentique. Cette synthèse résume les principaux enseignements et recommandations de l'étude, faisant le lien entre la gouvernance technique et la gouvernance d'entreprise grâce à un guide pratique destiné aux entreprises qui souhaitent créer des agents fiables et à fort impact.
En quoi l'IA agentique est-elle différente ?
Les systèmes d'IA agentique ne sont pas des logiciels traditionnels. Ils sont probabilistes, ce qui signifie que leurs résultats, bien que fortement influencés par le contexte d'entrée, varient à chaque exécution. Les logiciels traditionnels, au contraire, sont régis par des règles déterministes auxquelles on peut se fier entièrement s'ils sont bien conçus, car ils Postuler constamment Postuler même logique, invariante et correcte. La limite des logiciels traditionnels réside toutefois dans leur incapacité à résoudre un problème nouveau, même légèrement différent. Les agents IA surmontent cette limitation de portée au détriment de la fiabilité. Ils intègrent des capacités de langage naturel à la capacité d'agir de manière autonome à travers des outils internes, des API ou des bases de données pour résoudre de nouveaux problèmes. Cette flexibilité permet une création de valeur impressionnante dans les domaines du service client, des opérations, des ressources humaines et des achats.
Mais les systèmes d'IA agentique remettent également en cause des principes établis de longue date en matière de gouvernance logicielle. Alors que le code traditionnel est testé une seule fois puis déployé en toute confiance, les agents doivent être déployés en tenant compte des risques, et faire l'objet d'une surveillance, d'une évaluation et d'une amélioration constantes. L'avenir de la gouvernance agentique ne repose donc pas uniquement sur la certification au moment du déploiement, mais aussi sur une supervision continue à grande échelle.
Le dilemme central : valeur contre risque
Les entreprises sont confrontées à un défi majeur avec les agents IA : le risque zéro n'existe pas dans le cadre de la logique probabiliste. Par conséquent, les équipes chargées du développement d'agents IA doivent créer de la valeur tout en maintenant un niveau de risque acceptable. D'un côté, les agents très permissifs peuvent apporter de la valeur, mais ils présentent également des risques opérationnels, de réputation, éthiques ou financiers. De l'autre, les agents très contraints peuvent être sûrs, privilégiant des réponses superficielles et simples, mais leur utilité reste limitée.
Ce compromis entre valeur et risque doit être géré de manière explicite. Les entreprises doivent définir ce que signifie la « valeur » dans ce contexte (taux de réussite des tâches, engagement des utilisateurs, gains de productivité) ainsi que les risques à maîtriser : hallucinations, latence, biais, atteinte à la réputation ou dépassements de coûts. La supervision devient le mécanisme opérationnel qui permet d'ajuster cet équilibre à chaque étape du cycle de vie de l'agent IA : lors de la conception, du développement, du déploiement et de l'exécution.
La supervision en trois étapes : observer, évaluer, agir
Pour parvenir à cet équilibre, les entreprises doivent mettre en place une supervision active articulée autour de trois compétences fondamentales :
- Remarque: Capturez datade télémétrie structurées : entrées, sorties, appels d'outils, erreurs et commentaires des utilisateurs.
- Évaluation: utiliser des indicateurs de qualité et des indicateurs de risque pour évaluer les performances par rapport aux objectifs définis par l'entreprise et aux seuils de contrôle.
- Action: signaler et gérer les incidents, réentraîner les modèles, ajuster les mesures de sécurité ou annuler les mises à jour des agents.
Ce processus, appelé« supervision active », s'inspire des pratiques DevOps, mais doit être adapté à la nature probabiliste et évolutive de l'IA, et étendu au-delà des équipes techniques pour englober les processus métier et les équipes (réussite client, RH, service juridique, opérations, etc.).
La supervision commence dès la naissance de l'agent
La gouvernance des agents commence bien avant le déploiement. Les équipes métier et techniques doivent collaborer dès la phase d'exploration afin de définir les critères de réussite, d'identifier les types de risques et de déterminer la stratégie d'évaluation. Cette approche de co-conception garantit que les agents sont non seulement techniquement robustes, mais aussi alignés sur les priorités métier dès le départ.
In the design phase, teams often need to build “ground truth” datasets that reflect desired agent behavior. These become essential for both training and evaluation. During development, teams must determine go/no-go release thresholds across multiple metrics. Success is no longer binary (e.g., all tests pass); it’s probabilistic (e.g., >90% on task success, <2% toxicity), requiring governance to define what “good enough” looks like.
La supervision ne s'arrête pas au déploiement. Il est essentiel d'assurer une surveillance continue de l'environnement de production pour évaluer et affiner les agents. Lorsqu'un incident survient, l'équipe métier chargée de la résolution manuelle doit communiquer le comportement correct attendu à l'équipe chargée des agents, enrichissant et améliorant ainsi l'ensemble de données de référence.
Un déploiement fondé sur des indicateurs nécessite la contribution des services opérationnels
Une innovation majeure en matière de gouvernance des agents réside dans le fait que ceux-ci sont déployés en fonction de seuils métriques multidimensionnels. Cela inclutles indicateurs de performancetraditionnels (précision, latence),les indicateurs métier(réalisation des tâches) etles indicateurs de risque(toxicité, biais, violation des règles).
Il est essentiel que la décision de faire passer un agent en production ne repose pas uniquement sur les équipes techniques. Les parties prenantes métier doivent définir des seuils de risque acceptables et approuver les critères de déploiement. La gouvernance devient alors une responsabilité partagée entre les ingénieurs en IA, les chefs de produit, les responsables de la conformité et les experts métier.
Le rôle du LLM en tant que juge
L'évaluation des résultats générés par les grands modèles de langage (LLM) peut être subjective et prendre beaucoup de temps. C'est là qu'interviennent les techniques dites « LLM-as-a-Judge ». Celles-ci consistent à utiliser des LLM indépendants pour noter les résultats d'autres LLM, en évaluant la pertinence, l'exactitude factuelle ou le ton des réponses.
Si certains peuvent se montrer sceptiques quant à l'utilisation de l'IA pour évaluer l'IA, l'expérience montre que des modèles indépendants sont capables d'évaluer de manière fiable les résultats générés. Toutefois, pour qu'un LLM puisse jouer le rôle de juge de manière fiable, il doit rester simple et se limiter à des jugements binaires tels que « acceptable ou non ». En d'autres termes, une « IA simple » générant des critères binaires spécifiques est très efficace pour évaluer une « IA complexe » générant des textes volumineux. Cette technique accélère les processus d'évaluation et réduit le recours à des évaluateurs humains pour chaque cas, même si le jugement humain reste essentiel dans les évaluations à enjeux élevés.
Les garde-corps constituent des filets de sécurité à mettre en place dès le premier jour
L'évaluation est un élément essentiel des garde-fous qui permettent de prévenir les modes de défaillance connus grâce à des contrôles proactifs. Les garde-fous peuvent être mis en œuvre au niveau de l'entrée (par exemple, en filtrant les injections de ligne de commande), au niveau de la sortie (par exemple, en bloquant les complétions dangereuses) ou via une logique intermédiaire (par exemple, les conditions d'accès aux outils).
Mais les garde-fous impliquent des compromis. S’ils sont trop stricts, ils provoquent des boucles de rejet ou des échecs silencieux qui nuisent à l’expérience utilisateur. S’ils sont trop laxistes, le seuil de tolérance au risque est dépassé. Les garde-fous doivent évoluer au rythme des capacités de l’agent et de la maturité de l’entreprise, en commençant par des garde-fous stricts pour instaurer la confiance, puis en les assouplissant progressivement afin d’accroître la valeur tout en maîtrisant les risques. Par conséquent, la conception, le test et le réglage des garde-fous ne constituent pas une tâche ponctuelle, mais font partie du cycle de vie continu de la supervision.
Gestion des incidents : l'essor des superviseurs humains
Même avec des systèmes dotés de dispositifs de surveillance performants, les incidents sont inévitables. Un aspect essentiel de la supervision des agents consiste à détecter les défaillances à l'aide de mécanismes de sécurité et à les signaler aux équipes humaines. Il peut s'agir de violations des règles de sécurité, d'échecs dans l'exécution des tâches, de résultats ambigus ou d'une mauvaise utilisation des outils.
Le poste de superviseur doit être conçu pour être motivant, durable et productif. Les superviseurs de première ligne ont besoin :
- Contexte riche et structuré: journaux de trace complets, explications sur les déclencheurs, métadonnées utilisateur.
- Interfaces simplifiées: processus décisionnels, recommandations par défaut, solutions de repli.
- Routage intelligent: attribuer les escalades en fonction de l'expertise et de la répartition de la charge.
- Gestion de la fatigue: veiller à ce que le volume et la complexité des alertes restent gérables.
Lorsqu'elle est bien menée, la supervision s'inscrit dans un cercle vertueux : les décisions humaines alimentent les ensembles de données de réentraînement et affinent les règles de sécurité. La supervision ne se limite pas à la limitation des risques, elle favorise l'amélioration à long terme de l'agent.
Outils : la pile AgentOps
Pour mettre tout cela en pratique, les entreprises doivent adopter une nouvelle catégorie d'outils : la pile AgentOps. Celle-ci comprend des plateformes telles que LangSmith, Langfuse, DeepEval, Ragas, PRISM Eval, Giskard, Arize, Weights & Biases et Robust Intelligence, destinées à :
- Observabilité
- Évaluation
- Annotation des données de référence
- Suivi des expériences
- Orchestration de Guardrail
La plupart des plateformes combinent ces fonctionnalités, mais chacune possède ses propres atouts. Certaines mettent davantage l'accent sur l'observabilité, d'autres sur le déploiement d'agents, d'autres encore sur un domaine spécifique tel que la sécurité. Ces outils s'inspirent des plateformes DevOps et MLOps, mais sont adaptés aux besoins spécifiques des systèmes basés sur des agents. Nous recommandons d'intégrer ces outils aux pipelines CI/CD et data existants afin de garantir la traçabilité et la réutilisation.
La gouvernance est un travail d'équipe
L'une des principales conclusions de l'étude est que la gouvernance des agents ne peut pas incomber uniquement aux ingénieurs en IA. Les équipes opérationnelles doivent participer à la conception des garde-fous, définir les seuils de risque acceptables et prendre part aux protocoles d'escalade. Les services juridiques, de conformité, de marketing et d'assistance doivent disposer d'un accès à des tableaux de bord adaptés à leurs risques.
Cela implique une nouvelle forme de gouvernance, qui allie la traçabilité de l'IA à la responsabilité de l'entreprise. Nous recommandons d'organiser les équipes de supervision non pas par agent, mais par type de risque (par exemple, juridique, opérationnel, image de marque), ce qui permet un contrôle horizontal couvrant plusieurs agents. Sans une telle organisation, il sera difficile de renforcer la confiance envers les agents.
Le rôle du DataOps
L'IA agentique met en évidence les failles de data d'entreprise comme peu de systèmes l'ont fait auparavant. Les agents basés sur la recherche font souvent remonter data obsolètes, sensibles ou non pertinentes data les référentiels sous-jacents ne sont pas correctement gérés. C'est pourquoi la gouvernance agentique doit aller de pair avec le DataOps. Les incidents doivent être retracés non seulement jusqu'à la logique de l'agent, mais aussi jusqu'aux data qui l'alimentent.
Lorsqu'il est correctement mis en œuvre, AgentOps renforce data d'entreprise. Et inversement.
Un guide pratique pour bien démarrer
Pour aider les entreprises à passer de la théorie à la pratique, nous formulons quatre recommandations :
- Commencez par des projets concrets, pas par des prototypes : concentrez vos efforts de gouvernance sur les agents à forte valeur ajoutée destinés à la production. Construisez des systèmes réels, pas des démos éphémères, afin de mettre rapidement en lumière les réalités opérationnelles.
- En matière d'outils, privilégiez les développeurs : optez pour des outils d'observabilité adaptés aux workflows d'ingénierie. Les tableaux de bord métier sont utiles, mais l'adhésion des développeurs est essentielle pour collecter des métadonnées de qualité.
- Préciser la responsabilité des risques : déterminer quelles fonctions sont responsables de quels risques. Qui est responsable de la sécurité, de la confidentialité, des biais ou de la dégradation de l'expérience utilisateur ? Définir les procédures d'escalade et les règles de validation.
- Harmoniser l'AgentOps et le DataOps : considérer les agents et data comme les deux faces d'une même médaille. Superviser conjointement data et le comportement des agents afin d'identifier les causes profondes des incidents.
Conclusion : De la supervision à l'avantage stratégique
La supervision des agents ne vise pas seulement à prévenir les dommages, mais aussi à instaurer la confiance à grande échelle. En mettant en place des indicateurs communs, des outils fiables et des protocoles collaboratifs, les organisations peuvent exploiter pleinement le potentiel des systèmes basés sur des agents tout en maîtrisant les risques.
La gouvernance des agents va évoluer rapidement. Mais ses principes fondamentaux sont intemporels : clarté, collaboration et apprentissage continu. Les entreprises qui adopteront cette approche dès le début éviteront non seulement des erreurs coûteuses, mais se forgeront également un avantage concurrentiel durable.

BLOG






