AI een eerder onderzoek Artefactover „De toekomst van werk met AI dat repetitief en saai werk zal worden ondersteund door agentische AI zal worden omgevormd tot agentisch toezicht. In het verlengde van dit onderzoek gaat 'The Future of Agentic Supervision' dieper in op de vraag hoe organisaties zich kunnen voorbereiden op het toezicht op en het beheer van de prestaties, veiligheid en strategische waarde van deze nieuwe intelligente systemen, en uiteindelijk het werk rond agentische AI opnieuw kunnen vormgeven. Deze samenvatting vat de belangrijkste inzichten en aanbevelingen uit het onderzoek samen en slaat een brug tussen technisch en zakelijk bestuur met een praktisch draaiboek voor bedrijven die betrouwbare, impactvolle agenten willen bouwen.

Download de enquête

Wat maakt agentische AI ?

Agentische AI zijn geen traditionele software. Ze zijn probabilistisch, wat betekent dat hun output – hoewel sterk beïnvloed door de context van de input – bij elke uitvoering varieert. Traditionele software daarentegen wordt aangestuurd door deterministische regels, die bij een goed ontwerp volledig te vertrouwen zijn, omdat ze voortdurend dezelfde, onveranderlijke en correcte logica toepassen. De beperking van traditionele software is echter dat deze geen nieuw, zelfs maar enigszins afwijkend probleem kan oplossen. AI lossen deze beperking op, ten koste van de betrouwbaarheid. Ze integreren natuurlijke taalverwerkingsmogelijkheden met de kracht om autonoom te handelen binnen interne tools, API's of databases om nieuwe problemen op te lossen. Deze flexibiliteit maakt indrukwekkende waardecreatie mogelijk op het gebied van klantenservice, bedrijfsvoering, HR en inkoop.

Maar agentische AI zetten ook lang gekoesterde aannames op het gebied van softwarebeheer op losse schroeven. Waar traditionele code eenmalig wordt getest en vervolgens met vertrouwen wordt geïmplementeerd, moeten agenten worden ingezet met het oog op de risico’s, en voortdurend worden gemonitord, geëvalueerd en verbeterd. De toekomst van agentisch beheer draait daarom niet alleen om certificering op het moment van implementatie, maar ook om voortdurend toezicht op grote schaal.

De belangrijkste afweging: waarde versus risico

Bedrijven staan bij AI voor een fundamentele uitdaging: bij probabilistische logica bestaat er niet zoiets als nulrisico. Daarom moeten ontwikkelteams AI waarde creëren met een aanvaardbaar risico. Enerzijds kunnen zeer soepele agenten weliswaar waarde opleveren, maar brengen ze ook operationele, reputatie-, ethische of financiële risico’s met zich mee. Anderzijds zijn sterk beperkte agenten weliswaar veilig en geven ze de voorkeur aan oppervlakkige en eenvoudige reacties, maar bieden ze slechts beperkte bruikbaarheid.

Deze afweging tussen waarde en risico moet expliciet worden beheerd. Bedrijven moeten vaststellen wat ‘waarde’ in deze context inhoudt (succespercentage van taken, gebruikersbetrokkenheid, productiviteitswinst) en welke risico’s moeten worden beheerst: hallucinaties, vertraging, vertekening, reputatieschade of kostenoverschrijdingen. Toezicht vormt het operationele mechanisme waarmee dit evenwicht in elke fase van de levenscyclus AI wordt bijgesteld: tijdens het ontwerp, de ontwikkeling, de implementatie en de uitvoering.

Begeleiding in drie stappen: observeren, evalueren, handelen

Om dit evenwicht te bereiken, moeten bedrijven hun actieve toezicht baseren op drie kerncompetenties:

  1. Opmerking: Leg gestructureerde telemetrie datavast: invoer, uitvoer, toolaanroepen, fouten en feedback van gebruikers.
  2. Evaluatie: Gebruik kwaliteitsmaatstaven en risico-indicatoren om de prestaties te toetsen aan de door het bedrijf vastgestelde doelstellingen en controledrempels.
  3. Actie: escaleren en beheren van incidenten, modellen opnieuw trainen, veiligheidsmaatregelen aanpassen of updates van agents terugdraaien.

Dit proces, dat‘actief toezicht’ wordt genoemd, sluit aan bij DevOps-praktijken, maar moet worden aangepast aan het probabilistische, voortdurend veranderende karakter van AI en moet worden uitgebreid tot buiten de technische teams, zodat ook bedrijfsprocessen en andere teams (Customer Success, HR, Juridische Zaken, Operations, enz.) erbij worden betrokken.

Het toezicht begint bij de geboorte van een agent

Agentgebaseerd beheer begint al ruim voor de implementatie. Zakelijke en technische teams moeten vanaf de verkenningsfase samenwerken om succescriteria vast te stellen, risicotypes in kaart te brengen en een evaluatiestrategie te bepalen. Deze gezamenlijke ontwerpbenadering zorgt ervoor dat agenten niet alleen technisch robuust zijn, maar ook vanaf het begin aansluiten bij de zakelijke prioriteiten.

In the design phase, teams often need to build “ground truth” datasets that reflect desired agent behavior. These become essential for both training and evaluation. During development, teams must determine go/no-go release thresholds across multiple metrics. Success is no longer binary (e.g., all tests pass); it’s probabilistic (e.g., >90% on task success, <2% toxicity), requiring governance to define what “good enough” looks like.

Monitoring houdt niet op bij de implementatie. Het continu monitoren van de productieomgeving is essentieel voor het evalueren en verfijnen van agents. Wanneer zich een incident voordoet, moet het bedrijfsteam dat verantwoordelijk is voor de handmatige oplossing het verwachte correcte gedrag terugkoppelen aan het agententeam, waardoor de dataset met de werkelijke situatie wordt verrijkt en verbeterd.

Voor een op statistieken gebaseerde implementatie is input van de bedrijfszijde nodig

Een belangrijke vernieuwing op het gebied van agentbeheer is het idee dat agenten worden vrijgegeven op basis van drempelwaarden voor multidimensionale statistieken. Hieronder vallen traditioneleprestatiestatistieken(nauwkeurigheid, vertraging),bedrijfsstatistieken(voltooiing van taken) enrisicostatistieken(schadelijkheid, vooringenomenheid, schending van het beleid).

Het is van cruciaal belang dat de beslissing om een systeem naar de productiefase te brengen niet uitsluitend bij de technische teams ligt. Zakelijke belanghebbenden moeten aanvaardbare risicodrempels vaststellen en de implementatiecriteria goedkeuren. Het beheer wordt een gedeelde verantwoordelijkheid van AI , productmanagers, compliance-medewerkers en domeinexperts.

De rol van LLM als rechter

Het beoordelen van door LLM’s gegenereerde resultaten kan subjectief en tijdrovend zijn. Daar komen ‘LLM-as-a-Judge’-technieken om de hoek kijken. Hierbij worden onafhankelijke LLM’s ingezet om de resultaten van andere LLM’s te beoordelen, waarbij wordt gekeken naar de relevantie, de feitelijke juistheid of de toon van de antwoorden.

Hoewel sommigen sceptisch staan tegenover het gebruik AI AI te beoordelen, leert de ervaring dat onafhankelijke modellen gegenereerde output betrouwbaar kunnen beoordelen. De voorwaarde voor een betrouwbare LLM-as-a-Judge is echter eenvoud, waarbij alleen om binaire oordelen wordt gevraagd, zoals „aanvaardbaar of niet“. Met andere woorden: AIeenvoudige AIdie specifieke binaire criteria genereert, is zeer effectief bij het beoordelen van "complexe AIdie lange teksten genereert. Deze techniek versnelt evaluatieprocessen en vermindert de afhankelijkheid van menselijke beoordelaars voor elk geval, hoewel menselijk oordeel essentieel blijft bij beoordelingen met hoge inzet.

Vangrails zijn veiligheidsnetten die vanaf dag één moeten worden geplaatst

Evaluatie is een essentieel onderdeel van beveiligingsmaatregelen die bekende storingspatronen proactief voorkomen. Deze maatregelen kunnen worden toegepast op invoerniveau (bijvoorbeeld het filteren van prompt-injecties), op uitvoerniveau (bijvoorbeeld het blokkeren van onveilige aanvullingen) of via tussenliggende logica (bijvoorbeeld voorwaarden voor toegang tot tools).

Maar veiligheidsmaatregelen brengen ook nadelen met zich mee. Zijn ze te streng, dan leiden ze tot afwijzingscycli of verborgen fouten die de gebruikerservaring aantasten. Zijn ze te soepel, dan wordt de risicotolerantie overschreden. Veiligheidsmaatregelen moeten meegroeien met de mogelijkheden van de agent en de zakelijke volwassenheid van de organisatie: begin met strenge maatregelen om vertrouwen te wekken, en versoepel deze geleidelijk om de waarde te vergroten terwijl de risico’s onder controle blijven. Daarom is het ontwerpen, testen en afstemmen van guardrails geen eenmalige taak, maar maakt het deel uit van de doorlopende supervisiecyclus.

Incidentafhandeling: de opkomst van menselijke supervisors

Zelfs bij goed uitgeruste systemen zijn incidenten onvermijdelijk. Een cruciaal onderdeel van agentgebaseerd toezicht is het opsporen van storingen in de veiligheidsmaatregelen en het doorgeven daarvan aan menselijke teams. Het kan daarbij gaan om veiligheidsovertredingen, mislukte taken, onduidelijke resultaten of verkeerd gebruik van tools.

De leidinggevende functie moet zo worden vormgegeven dat deze boeiend, duurzaam en productief is. Leidinggevenden in de frontlinie hebben het volgende nodig:

  • Uitgebreide, gestructureerde context: volledige trace-logboeken, uitleg over triggers, gebruikersmetadata.
  • Gestroomlijnde interfaces: besluitvormingsprocessen, standaardaanbevelingen, alternatieve opties.
  • Slimme routebepaling: wijs escalaties toe op basis van expertise en werkverdeling.
  • Omgaan met vermoeidheid: zorg ervoor dat de werkdruk en de complexiteit van de taken beheersbaar blijven.

Als het goed wordt uitgevoerd, ontstaat er een positieve spiraal: menselijke beslissingen worden verwerkt in datasets voor hertraining en zorgen voor verfijning van de veiligheidsregels. Toezicht draait niet alleen om het inperken van risico’s, maar stimuleert ook de verbetering van de agent op de lange termijn.

Tooling: De AgentOps-stack

Om dit alles in de praktijk te brengen, moeten bedrijven een nieuw soort tools gaan gebruiken: de AgentOps-stack. Hiertoe behoren platforms als LangSmith, Langfuse, DeepEval, Ragas, PRISM Eval, Giskard, Arize, Weights & Biases en Robust Intelligence voor:

  • Waarneembaarheid
  • Evaluatie
  • Annotatie van de werkelijke situatie
  • Experimenten bijhouden
  • Coördinatie van vangrails

De meeste platforms combineren deze functies, maar elk platform heeft zijn eigen specifieke sterke punten. Sommige richten zich meer op observability, andere op de implementatie van agents, en weer andere op een specifiek risicogebied zoals beveiliging. Deze tools lijken op DevOps- en MLOps-platforms, maar zijn aangepast aan de specifieke behoeften van agentsystemen. Wij raden aan om deze tools te integreren met bestaande CI/CD-pijplijnen en data om de traceerbaarheid en herbruikbaarheid te waarborgen.

Bestuur is een teamsport

Een van de belangrijkste conclusies van het onderzoek is dat het beheer van agents niet uitsluitend de verantwoordelijkheid van AI mag zijn. Bedrijfsteams moeten meewerken aan het ontwerpen van veiligheidsmaatregelen, aanvaardbare risicodrempels vaststellen en betrokken zijn bij escalatieprotocollen. De afdelingen Juridische Zaken, Compliance, Marketing en Ondersteuning moeten toegang hebben tot dashboards die zijn afgestemd op hun specifieke risico’s.

Dit vereist een nieuwe vorm van bestuur, waarbij AI wordt gecombineerd met zakelijke verantwoordingsplicht. Wij raden aan om toezichtsteams niet per actor, maar per risicotype (bijvoorbeeld juridisch, operationeel, merkgerelateerd) in te delen, zodat horizontaal toezicht over meerdere actoren mogelijk wordt. Zonder een dergelijke organisatie zal het moeilijk zijn om het vertrouwen in actoren op te schalen.

De rol van DataOps

Agentic AI de tekortkomingen in data van bedrijven AI zoals weinig andere systemen dat eerder hebben gedaan. Op het ophalen van gegevens gebaseerde agents brengen vaak verouderde, gevoelige of irrelevante data naar boven data de onderliggende opslagplaatsen niet goed worden beheerd. Daarom moet agentic governance hand in hand gaan met DataOps. Incidenten moeten niet alleen worden herleid tot de logica achter de prompt van de agent, maar ook tot de data deze voeden.

Als AgentOps op de juiste manier wordt toegepast, versterkt het data binnen de onderneming. En omgekeerd.

Een praktisch handboek om aan de slag te gaan

Om bedrijven te helpen de stap van theorie naar praktijk te zetten, doen we vier aanbevelingen:

  1. Begin met echte projecten, geen prototypes: richt je inspanningen op hoogwaardige componenten die bedoeld zijn voor productie. Bouw echte systemen, geen wegwerpdemo’s, om de operationele realiteit in een vroeg stadium in kaart te brengen.
  2. Denk bij het kiezen van tools in de eerste plaats aan de ontwikkelaars: kies observability-tools die de workflows van de engineering ondersteunen. Bedrijfsdashboards zijn nuttig, maar het is van cruciaal belang dat ontwikkelaars deze tools omarmen om kwalitatief hoogwaardige metadata te verzamelen.
  3. Maak duidelijk wie verantwoordelijk is voor welke risico’s: bepaal welke afdelingen verantwoordelijk zijn voor welke risico’s. Wie is verantwoordelijk voor beveiliging, privacy, vooringenomenheid of verslechtering van de gebruikerservaring? Stel escalatieprocedures en goedkeuringsregels vast.
  4. Breng AgentOps en DataOps samen: beschouw agents en data als twee kanten van dezelfde medaille. Houd gezamenlijk toezicht op data en het gedrag van agents om de onderliggende oorzaken van incidenten vast te stellen.

Conclusie: Van toezicht naar strategisch voordeel

Bij agentgebaseerd toezicht gaat het niet alleen om het voorkomen van schade, maar ook om het op grote schaal mogelijk maken van vertrouwen. Door gezamenlijke maatstaven, robuuste tools en samenwerkingsprotocollen vast te stellen, kunnen organisaties de volledige waarde van agentgebaseerde systemen benutten en tegelijkertijd de risico’s onder controle houden.

Het beheer van agents zal zich snel ontwikkelen. Maar de basis ervan is tijdloos: duidelijkheid, samenwerking en voortdurend leren. Bedrijven die deze werkwijze al in een vroeg stadium omarmen, zullen niet alleen kostbare fouten voorkomen, maar ook een duurzaam concurrentievoordeel opbouwen.