In het eerdere onderzoek van Artefact naar De toekomst van werk met AI werd geconcludeerd dat repetitief en vervelend werk zal worden uitgebreid door agentische AI en zal worden omgevormd tot agentisch toezicht. Als vervolg op dit onderzoek neemt The Future of Agentic Supervision een diepe duik in hoe organisaties zich kunnen voorbereiden op het overzien en beheren van de prestaties, veiligheid en strategische waarde van deze nieuwe intelligente systemen, en uiteindelijk het werk opnieuw kunnen uitvinden rondom agentisch AI-toezicht. Deze synthese vat de belangrijkste inzichten en aanbevelingen uit het onderzoek samen, waarbij een brug wordt geslagen tussen technische en zakelijke governance met een praktisch draaiboek voor bedrijven die betrouwbare agents met een grote impact willen bouwen.
Wat maakt agentic AI anders?
Agentic AI-systemen zijn geen traditionele software. Ze zijn probabilistisch, wat betekent dat hun output, hoewel sterk beïnvloed door de inputcontext, bij elke run varieert. Traditionele software wordt daarentegen aangestuurd door deterministische regels, die volledig te vertrouwen zijn als ze goed ontworpen zijn, omdat ze constant dezelfde, onveranderlijke en correcte logica toepassen. De limiet van traditionele software is echter dat het geen nieuw, zelfs geen licht afwijkend probleem kan oplossen. AI-agenten lossen deze beperking van de reikwijdte op ten koste van de betrouwbaarheid. Ze integreren natuurlijke taalcapaciteiten met het vermogen om autonoom te handelen via interne tools, API's of databases om nieuwe problemen op te lossen. Deze flexibiliteit maakt een indrukwekkende waardecreatie mogelijk bij klantenondersteuning, operations, HR en inkoop.
Maar agentic AI-systemen verstoren ook aloude aannames in softwarebeheer. Waar traditionele code één keer wordt getest en met vertrouwen wordt ingezet, moeten agents worden ingezet met het oog op risico's, en voortdurend worden gecontroleerd, geëvalueerd en verbeterd. De toekomst van agentic governance gaat daarom niet alleen over certificering tijdens de uitrol, maar ook over doorlopend toezicht op schaal.
De centrale afweging: waarde versus risico
Ondernemingen worden geconfronteerd met een belangrijke uitdaging met AI-agenten: er bestaat niet zoiets als nul risico met probabilistische logica. Daarom moeten AI-agentontwikkelingsteams waarde leveren met aanvaardbare risico's. Aan de ene kant kunnen zeer tolerante agents waarde leveren, maar ook operationele, ethische of financiële risico's of risico's voor de reputatie met zich meebrengen. Aan de andere kant kunnen zeer beperkte agenten veilig zijn en de voorkeur geven aan oppervlakkige en eenvoudige reacties, maar beperkte bruikbaarheid bieden.
Deze afweging tussen waarde en risico moet expliciet worden beheerd. Bedrijven moeten definiëren wat “waarde” in de context betekent (succespercentage van taken, betrokkenheid van gebruikers, productiviteitswinst) en welke risico's beheerst moeten worden: hallucinatie, latentie, vooringenomenheid, reputatieschade of kostenoverschrijdingen. Supervisie wordt het operationele mechanisme dat deze balans afstemt bij elke stap van de levenscyclus van de AI-agent: bij het ontwerp, de ontwikkeling, de inzet en de uitvoering.
Supervisie in drie stappen: Observeren, Evalueren, Handelen
Om dit evenwicht te bereiken, moeten bedrijven agentschappelijk toezicht opbouwen rond drie kerncapaciteiten:
- Observatie: Leg gestructureerde telemetrie data-ingangen, uitgangen, gereedschapsoproepen, fouten en menselijke feedback vast.
- Evaluatie: Gebruik kwaliteitsmetriek en risico-indicatoren om de prestaties te beoordelen ten opzichte van door het bedrijf gedefinieerde doelstellingen en controledrempels.
- Actie: Incidenten escaleren en beheren, modellen hertrainen, vangrails aanpassen of agentupdates terugdraaien.
Dit proces, genaamd “actief toezicht”, Deze aanpak weerspiegelt DevOps-praktijken, maar moet worden aangepast aan de probabilistische, evoluerende aard van AI, en verder gaan dan de technische teams en ook bedrijfsprocessen en -teams omvatten (Customer Success, HR, Legal, Operations, enz.).
Supervisie begint bij de geboorte van een agent
Agentic governance begint ruim voor de uitrol. Zakelijke en technische teams moeten vanaf de verkenningsfase samenwerken om succescriteria te definiëren, risicotypes te identificeren en een besluit te nemen over de evaluatiestrategie. Deze gezamenlijke ontwerpbenadering zorgt ervoor dat agents niet alleen technisch robuust zijn, maar ook vanaf het begin afgestemd zijn op de bedrijfsprioriteiten.
In de ontwerpfase moeten teams vaak “ground truth” datasets maken die het gewenste gedrag van de agent weergeven. Deze zijn essentieel voor zowel training als evaluatie. Tijdens de ontwikkeling moeten teams de go/no-go vrijgavedrempels bepalen voor meerdere meetwaarden. Succes is niet langer binair (bijv. alle tests slagen); het is probabilistisch (bijv. >90% op taaksucces, <2% toxiciteit), waardoor governance moet definiëren hoe “goed genoeg” eruit ziet.
Toezicht houdt niet op bij de inzet. Voortdurend toezicht houden op de productie is essentieel voor het evalueren en verfijnen van agents. Wanneer zich een incident voordoet, moet het business team dat verantwoordelijk is voor de handmatige oplossing het verwachte correcte gedrag terugkoppelen naar het agententeam, waardoor de ground-truth dataset wordt verrijkt en verbeterd.
Op statistieken gebaseerde implementatie vereist bedrijfsinput
Een belangrijke innovatie in agentbeheer is het idee dat agenten worden vrijgegeven op basis van multidimensionale metrische drempels. Dit omvat traditionele prestatiecijfers (nauwkeurigheid, latentie), bedrijfsstatistieken (taakvoltooiing), en risicometriek (toxiciteit, partijdigheid, beleidsovertreding).
Cruciaal is dat de beslissing om een agent naar productie te promoveren niet alleen bij technische teams ligt. Zakelijke belanghebbenden moeten aanvaardbare risicodrempels definiëren en uitrolcriteria goedkeuren. Governance wordt een gedeelde verantwoordelijkheid van AI-engineers, productmanagers, compliance officers en domeinexperts.
De rol van LLM-als-rechter
Het evalueren van door LLM gegenereerde uitvoer kan subjectief en tijdrovend zijn. Dat is waar LLM-als-een-jurylid technieken om de hoek komen kijken. Hierbij worden onafhankelijke LLM's gebruikt om de resultaten van andere LLM's te beoordelen op relevantie, feitelijkheid of toon.
Hoewel sommigen misschien sceptisch zijn over het gebruik van AI om AI te beoordelen, leert de ervaring dat onafhankelijke modellen gegenereerde output betrouwbaar kunnen beoordelen. De voorwaarde voor een betrouwbare LLM-als-een-Judge is echter eenvoud en alleen vragen om binaire oordelen zoals “aanvaardbaar of niet”. Met andere woorden, “eenvoudige AI” die specifieke binaire criteria genereert, is zeer effectief in het beoordelen van “complexe AI” die lange teksten genereert. Deze techniek versnelt evaluatiepijplijnen en vermindert de afhankelijkheid van menselijke beoordelaars voor elk geval, hoewel menselijke beoordeling essentieel blijft bij beoordelingen waarbij veel op het spel staat.
vangrails zijn vangnetten die vanaf dag 1 moeten worden opgezet
Evaluatie is een essentieel onderdeel van vangrails die bekende faalwijzen voorkomen met proactieve controles. Afschermingen kunnen worden toegepast op het ingangsniveau (bijv. het filteren van promptinjecties), op het uitvoerniveau (bijv. het blokkeren van onveilige voltooiingen) of via intermediaire logica (bijv. toegangsvoorwaarden voor gereedschappen).
Maar vangrails hebben hun nadelen. Te streng, en ze veroorzaken afwijzingslussen of stille fouten die de UX verslechteren. Te los, en de risicotolerantie wordt overschreden. De vangrails moeten evolueren met de mogelijkheden en de bedrijfsvolwassenheid van de agent, te beginnen met strikte vangrails om vertrouwen te garanderen, en ze geleidelijk losser te maken om de waarde te verbeteren en tegelijkertijd de risico's te beheersen. Daarom is het ontwerpen, testen en afstellen van vangrails geen eenmalige taak, maar onderdeel van de voortdurende supervisielevenscyclus.
Afhandeling van incidenten: De opkomst van menselijke toezichthouders
Zelfs met goed geïnstrumenteerde systemen zijn incidenten onvermijdelijk. Een cruciaal onderdeel van agentisch toezicht is het detecteren van fouten met vangrails en deze escaleren naar menselijke teams. Dit kunnen veiligheidsovertredingen, taakfouten, dubbelzinnige output of verkeerd gebruik van gereedschap zijn.
De supervisietaak moet ontworpen zijn om boeiend, duurzaam en productief te zijn. Front-line supervisors moeten:
- Rijke, gestructureerde context: volledige trace logs, trigger uitleg, gebruiker metadata.
- Gestroomlijnde interfacesbeslissingsworkflows, standaardaanbevelingen, terugvalopties.
- Slimme routering: escalaties toewijzen op basis van expertise en load balancing.
- Beheer van vermoeidheidZorg ervoor dat het volume en de complexiteit van waarschuwingen beheersbaar blijven.
Als supervisie goed wordt uitgevoerd, wordt het een opwaartse spiraal: menselijke beslissingen voeden de herscholing van datasets en verfijnen het veiligheidsbeleid. Toezicht gaat niet alleen over beheersing, het zorgt voor verbetering van agenten op de lange termijn.
Tooling: De AgentOps-stack
Om dit alles operationeel te maken, moeten bedrijven een nieuwe klasse tools gebruiken: de AgentOps stack. Deze omvatten platforms zoals LangSmith, Langfuse, DeepEval, Ragas, PRISM Eval, Giskard, Arize, Weights & Biases en Robust Intelligence for:
- Waarneembaarheid
- Evaluatie
- Grondwaarheidsannotatie
- Experiment volgen
- Leuning orkestratie
De meeste platformen combineren deze kenmerken, maar elk platform heeft zijn eigen sterke punten. Sommige richten zich meer op observeerbaarheid, andere op agentische implementatie, weer andere op een verticale risicofactor zoals beveiliging. Deze tools zijn een afspiegeling van DevOps- en MLOps-platforms, maar zijn aangepast aan de specifieke behoeften van agentische systemen. Wij raden aan om deze tools te integreren met bestaande CI/CD-pijplijnen en data platforms om de traceerbaarheid en het hergebruik te behouden.
Bestuur is een teamsport
Een van de belangrijkste conclusies van het onderzoek is dat agent governance niet alleen de verantwoordelijkheid van AI-engineers kan zijn. Bedrijfsteams moeten meewerken aan het ontwerpen van vangrails, het definiëren van aanvaardbare risicodrempels en deelnemen aan escalatieprotocollen. Legal, compliance, marketing en support moeten toegang hebben tot dashboards die op hun risico's zijn afgestemd.
Dit impliceert een nieuwe vorm van bestuur, één die AI-observeerbaarheid combineert met bedrijfsverantwoordelijkheid. Wij raden aan om toezichtteams niet per agent te organiseren, maar per risicotype (bijv. juridisch, operationeel, merk), zodat horizontaal toezicht op meerdere agenten mogelijk is. Zonder een dergelijke organisatie zal het moeilijk zijn om agentic trust op te schalen.
De rol van DataOps
Agentic AI onthult de gebreken in de kwaliteit van bedrijfs data zoals maar weinig systemen dat hebben gedaan. Op retrieval gebaseerde agents leggen vaak oudbakken, gevoelige of irrelevante data bloot als de onderliggende repositories niet gecureerd zijn. Daarom moet agentic governance hand in hand gaan met DataOps. Incidenten moeten niet alleen getraceerd worden naar de prompt logica van de agent, maar ook naar de data pijplijnen die de agent voeden.
AgentOps versterkt, als het goed wordt uitgevoerd, de data governance van de onderneming. En omgekeerd.
Een praktisch draaiboek om aan de slag te gaan
Om bedrijven te helpen de stap van theorie naar praktijk te zetten, doen wij vier aanbevelingen:
- Begin met echte projecten, niet met prototypes: Richt governance-inspanningen op hoogwaardige agents die bedoeld zijn voor productie. Bouw echte systemen, geen wegwerpdemo's, om operationele realiteiten in een vroeg stadium te ontdekken.
- Denk bij tooling eerst aan de ontwikkelaar: Kies Observability tools die engineering workflows ondersteunen. Bedrijfsdashboards zijn nuttig, maar acceptatie door ontwikkelaars is essentieel voor het verzamelen van kwalitatieve metadata.
- Verduidelijk het eigenaarschap van risico's: Definieer welke functies eigenaar zijn van welke risico's. Wie is verantwoordelijk voor verslechtering van beveiliging, privacy, vooringenomenheid of UX? Stel escalatiepaden en aftekenregels op.
- Verenig AgentOps met DataOps: Behandel agents en data pijplijnen als twee zijden van dezelfde medaille. Houd gezamenlijk toezicht op de kwaliteit van data en het gedrag van agenten om de hoofdoorzaken van incidenten vast te stellen.
Conclusie: Van toezicht naar strategisch voordeel
Agentgericht toezicht gaat niet alleen over het voorkomen van schade, het gaat over het mogelijk maken van vertrouwen op schaal. Door gedeelde meetgegevens, robuuste tooling en samenwerkingsprotocollen op te stellen, kunnen organisaties de volledige waarde van agentic systemen ontsluiten en tegelijkertijd de risico's onder controle houden.
Agent governance zal snel evolueren. Maar de basis is tijdloos: duidelijkheid, samenwerking en voortdurend leren. Ondernemingen die deze discipline in een vroeg stadium omarmen, zullen niet alleen dure fouten vermijden, maar ook een duurzaam concurrentievoordeel opbouwen.

BLOG






