Artefact's eerdere onderzoek naar The Future of Work with AI concludeerde dat repetitief en vervelend werk zal worden uitgebreid door agentische AI en zal worden getransformeerd tot agentisch toezicht. Als vervolg op dit onderzoek neemt The Future of Agentic Supervision een diepe duik in hoe organisaties zich kunnen voorbereiden op het overzien en beheren van de prestaties, veiligheid en strategische waarde van deze nieuwe intelligente systemen, en uiteindelijk het werk opnieuw kunnen uitvinden rondom agentisch AI . Deze synthese vat de belangrijkste inzichten en aanbevelingen uit het onderzoek samen, waarbij een brug wordt geslagen tussen technische en zakelijke governance met een praktisch draaiboek voor bedrijven die op zoek zijn naar betrouwbare agents met een grote impact.

Download de enquête

Wat maakt agentische AI anders?

Agentic AI systemen zijn geen traditionele software. Ze zijn probabilistisch, wat betekent dat hun output, hoewel sterk beïnvloed door de inputcontext, bij elke run varieert. Traditionele software wordt daarentegen gedreven door deterministische regels, die volledig te vertrouwen zijn als ze goed ontworpen zijn, omdat ze constant dezelfde, invariante en correcte logica toepassen. De beperking van traditionele software is echter dat het geen nieuw, zelfs licht afwijkend probleem kan oplossen. AI lossen deze beperking op ten koste van de betrouwbaarheid. Ze integreren natuurlijke taalcapaciteiten met de kracht om autonoom te handelen via interne tools, API's of databases om nieuwe problemen op te lossen. Deze flexibiliteit maakt een indrukwekkende waardecreatie mogelijk bij klantenservice, operations, HR en inkoop.

Maar agentic AI doorbreken ook aloude aannames over software governance. Waar traditionele code één keer wordt getest en met vertrouwen wordt ingezet, moeten agents worden ingezet met het oog op risico's en voortdurend worden gemonitord, geëvalueerd en verbeterd. De toekomst van agentic governance gaat daarom niet alleen over certificering tijdens de inzet, maar ook over voortdurende supervisie op schaal.

De centrale afweging: waarde versus risico

Ondernemingen worden geconfronteerd met een belangrijke uitdaging met AI : er bestaat niet zoiets als nul risico met probabilistische logica. Als gevolg hiervan moeten AI waarde leveren met aanvaardbare risico's. Aan de ene kant kunnen zeer tolerante agents waarde leveren, maar ook operationele, ethische of financiële risico's met zich meebrengen. Aan de andere kant kunnen zeer beperkte agenten veilig zijn en de voorkeur geven aan oppervlakkige en eenvoudige reacties, maar beperkte bruikbaarheid bieden.

Deze afweging tussen waarde en risico moet expliciet worden beheerd. Bedrijven moeten definiëren wat "waarde" betekent in de context (succespercentage van taken, betrokkenheid van gebruikers, productiviteitswinst) en welke risico's moeten worden beheerst: hallucinatie, latentie, vooringenomenheid, reputatieschade of kostenoverschrijdingen. Supervisie wordt het operationele mechanisme dat deze balans afstemt bij elke stap van de levenscyclus van AI : bij het ontwerp, de ontwikkeling, de inzet en de uitvoering.

Supervisie in drie stappen: Observeren, Evalueren, Handelen

Om dit evenwicht te bereiken, moeten bedrijven agentgericht toezicht opbouwen rond drie kerncompetenties:

  1. Observatie: Leg gestructureerde datavast data, uitvoer, gereedschapsoproepen, fouten en menselijke feedback.
  2. Evaluatie: Gebruik kwaliteitsmaatstaven en risico-indicatoren om de prestaties te beoordelen ten opzichte van door het bedrijf gedefinieerde doelstellingen en controledrempels.
  3. Actie: Incidenten escaleren en beheren, modellen hertrainen, vangrails aanpassen of agentupdates terugdraaien.

Dit proces, dat "actief toezicht" wordt genoemd, weerspiegelt DevOps-praktijken, maar moet worden aangepast aan de probabilistische, evoluerende aard van AI en moet verder gaan dan de technische teams en ook bedrijfsprocessen en -teams omvatten (Customer Success, HR, Legal, Operations, enz.).

Supervisie begint bij de geboorte van een agent

Agentic governance begint ruim voor de uitrol. Zakelijke en technische teams moeten vanaf de verkenningsfase samenwerken om succescriteria te definiëren, risicotypes te identificeren en te beslissen over de evaluatiestrategie. Deze gezamenlijke ontwerpbenadering zorgt ervoor dat agents niet alleen technisch robuust zijn, maar ook vanaf het begin zijn afgestemd op de bedrijfsprioriteiten.

In the design phase, teams often need to build “ground truth” datasets that reflect desired agent behavior. These become essential for both training and evaluation. During development, teams must determine go/no-go release thresholds across multiple metrics. Success is no longer binary (e.g., all tests pass); it’s probabilistic (e.g., >90% on task success, <2% toxicity), requiring governance to define what “good enough” looks like.

Toezicht houdt niet op bij de inzet. Het continu monitoren van de productie is essentieel voor het evalueren en verfijnen van agents. Wanneer zich een incident voordoet, moet het business team dat verantwoordelijk is voor handmatige oplossingen het verwachte correcte gedrag terugkoppelen naar het agentteam, waardoor de ground-truth dataset wordt verrijkt en verbeterd.

Op statistieken gebaseerde inzet vereist bedrijfsinput

Een belangrijke innovatie in agent governance is het idee dat agenten worden vrijgegeven op basis van multidimensionale metrische drempels. Dit omvat traditionele prestatiemetriek (nauwkeurigheid, latentie), bedrijfsmetriek (taakvoltooiing) en risicometriek (toxiciteit, vooringenomenheid, beleidsschending).

Het is belangrijk dat de beslissing om een agent in productie te nemen niet alleen bij technische teams ligt. Zakelijke belanghebbenden moeten acceptabele risicodrempels definiëren en de inzetcriteria goedkeuren. Governance wordt een gedeelde verantwoordelijkheid van AI , productmanagers, compliance officers en domeinexperts.

De rol van LLM-als-rechter

Het evalueren van door LLM gegenereerde resultaten kan subjectief en tijdrovend zijn. Dat is waar LLM-als-een-jurylid technieken om de hoek komen kijken. Hierbij worden onafhankelijke LLM's gebruikt om de resultaten van andere LLM's te beoordelen op relevantie, feitelijkheid of toon.

Hoewel sommigen misschien sceptisch zijn over het gebruik van AI om AI te beoordelen, leert de ervaring dat onafhankelijke modellen gegenereerde output betrouwbaar kunnen beoordelen. De voorwaarde voor een betrouwbare LLM-als-een-Judge is echter eenvoud en alleen vragen om binaire oordelen zoals "acceptabel of niet". Met andere woorden, "eenvoudige AI" die specifieke binaire criteria genereert, is zeer effectief in het beoordelen van "complexe AI" die lange teksten genereert. Deze techniek versnelt evaluatiepijplijnen en vermindert de afhankelijkheid van menselijke beoordelaars voor elk geval, hoewel menselijke beoordeling essentieel blijft bij beoordelingen waarbij veel op het spel staat.

vangrails zijn vangnetten die vanaf dag 1 moeten worden opgezet

Evaluatie is een essentieel onderdeel van vangrails die bekende faalwijzen voorkomen met proactieve controles. Afschermingen kunnen worden toegepast op het niveau van de invoer (bijv. het filteren van promptinjecties), op het niveau van de uitvoer (bijv. het blokkeren van onveilige voltooiingen) of via intermediaire logica (bijv. toegangsvoorwaarden voor gereedschappen).

Maar vangrails hebben hun nadelen. Als ze te streng zijn, veroorzaken ze afwijzingslussen of stille fouten die de UX verslechteren. Te los, en de risicotolerantie wordt overschreden. De vangrails moeten evolueren met de mogelijkheden van de agent en de bedrijfsvolwassenheid, beginnend met strikte vangrails om vertrouwen te garanderen en geleidelijk losser worden om de waarde te verbeteren en tegelijkertijd de risico's te beheersen. Daarom is het ontwerpen, testen en tunen van vangrails geen eenmalige taak, maar onderdeel van de voortdurende supervisielevenscyclus.

Afhandeling van incidenten: De opkomst van menselijke toezichthouders

Zelfs met goed geïnstrumenteerde systemen zijn incidenten onvermijdelijk. Een cruciaal onderdeel van agentisch toezicht is het detecteren van fouten met vangrails en deze escaleren naar menselijke teams. Dit kunnen veiligheidsovertredingen, taakfouten, dubbelzinnige output of verkeerd gebruik van gereedschap zijn.

De supervisietaak moet ontworpen zijn om boeiend, duurzaam en productief te zijn. Eerstelijns supervisors moeten:

  • Rijke, gestructureerde context: volledige trace logs, uitleg over triggers, gebruikersmetagegevens.
  • Gestroomlijnde interfaces: beslissingsworkflows, standaardaanbevelingen, terugvalopties.
  • Slimme routering: escalaties toewijzen op basis van expertise en load balancing.
  • Vermoeidheidsmanagement: ervoor zorgen dat het waarschuwingsvolume en de complexiteit beheersbaar zijn.

Als supervisie goed wordt uitgevoerd, wordt het een opwaartse spiraal: menselijke beslissingen voeden datasets met hertraining en verfijnen het beleid van guardrails. Toezicht gaat niet alleen over beheersing, het zorgt voor verbetering van agenten op de lange termijn.

Tooling: De AgentOps-stack

Om dit alles operationeel te maken, moeten bedrijven een nieuwe klasse tools gebruiken: de AgentOps stack. Dit zijn platforms zoals LangSmith, Langfuse, DeepEval, Ragas, PRISM Eval, Giskard, Arize, Weights & Biases en Robust Intelligence for:

  • Waarneembaarheid
  • Evaluatie
  • Grondwaarheidsannotatie
  • Experiment volgen
  • Leuning orkestratie

De meeste platformen combineren deze kenmerken, maar elk platform heeft zijn eigen sterke punten. Sommige richten zich meer op observeerbaarheid, andere op agentische inzet, weer andere op een verticale risicofactor zoals beveiliging. Deze tools zijn een afspiegeling van DevOps en MLOps platforms, maar zijn aangepast aan de specifieke behoeften van agentische systemen. We raden aan om deze tools te integreren met bestaande CI/CD-pijplijnen en data om de traceerbaarheid en het hergebruik te behouden.

Bestuur is een teamsport

Een van de belangrijkste conclusies van het onderzoek is dat agent governance niet alleen de verantwoordelijkheid van AI kan zijn. Zakelijke teams moeten meewerken aan het ontwerpen van vangrails, het definiëren van aanvaardbare risicodrempels en deelnemen aan escalatieprotocollen. Legal, compliance, marketing en support moeten toegang hebben tot dashboards die zijn afgestemd op hun risico's.

Dit impliceert een nieuwe vorm van bestuur, een die AI combineert met zakelijke verantwoordelijkheid. We raden aan om toezichtteams niet per agent te organiseren, maar per risicotype (bijv. juridisch, operationeel, merk), zodat horizontaal toezicht over meerdere agenten mogelijk is. Zonder een dergelijke organisatie zal het moeilijk zijn om agentic trust op te schalen.

De rol van DataOps

Agentic AI onthult de gebreken in de kwaliteit van data zoals maar weinig systemen eerder hebben gedaan. Agenten die gegevens ophalen, komen vaak achterhaalde, gevoelige of irrelevante data tegen als de onderliggende repositories niet zijn gecureerd. Daarom moet agentic governance hand in hand gaan met DataOps. Incidenten moeten niet alleen worden getraceerd naar de logica van de agent, maar ook naar de data die de agent voeden.

AgentOps, als het goed wordt uitgevoerd, versterkt de enterprise data governance. En omgekeerd.

Een praktisch draaiboek om aan de slag te gaan

Om bedrijven te helpen de stap van theorie naar praktijk te zetten, doen we vier aanbevelingen:

  1. Begin met echte projecten, niet met prototypes: Richt governance-inspanningen op hoogwaardige agents die bedoeld zijn voor productie. Bouw echte systemen, geen wegwerpdemo's, om de operationele realiteit in een vroeg stadium te ontdekken.
  2. Denk bij tooling eerst aan de ontwikkelaar: Kies Observability tools die engineering workflows ondersteunen. Zakelijke dashboards zijn nuttig, maar goedkeuring door ontwikkelaars is cruciaal voor het verzamelen van kwalitatieve metadata.
  3. Verduidelijk het eigenaarschap van risico's: Definieer welke functies eigenaar zijn van welke risico's. Wie is verantwoordelijk voor beveiliging, privacy, vooringenomenheid of UX-degradatie? Stel escalatiepaden en regels voor aftekenen vast.
  4. Verenig AgentOps met DataOps: behandel agents en data als twee zijden van dezelfde medaille. Houd gezamenlijk toezicht op data en het gedrag van agents om de hoofdoorzaken van incidenten vast te stellen.

Conclusie: Van toezicht naar strategisch voordeel

Agentgericht toezicht gaat niet alleen over het voorkomen van schade, het gaat over het mogelijk maken van vertrouwen op schaal. Door gedeelde meetwaarden, robuuste tools en samenwerkingsprotocollen op te stellen, kunnen organisaties de volledige waarde van agentic systemen ontsluiten en tegelijkertijd de risico's onder controle houden.

Agent governance zal snel evolueren. Maar de basis is tijdloos: duidelijkheid, samenwerking en continu leren. Ondernemingen die deze discipline in een vroeg stadium omarmen, zullen niet alleen kostbare fouten vermijden, maar ook een duurzaam concurrentievoordeel opbouwen.