AI Agents Aren’t Ready for Consumer-Facing Work – But They Can Excel at Internal Processes.

Lees het artikel op

Ook de adoptie door consumenten blijft relatief laag. Ondanks het gebruik van woorden als “revolutie,” data toont dat de meeste gebruikers wekelijks en niet dagelijks gebruiken, in tegenstelling tot het frequentere gebruik van sociale netwerken of platforms zoals Google. Dit suggereert dat gen-AI nog geen echte gewoonte voor consumenten is geworden. Mensen gebruiken het af en toe - soms intensief - maar het is nog geen vast onderdeel van hun dagelijks leven geworden. De hype loopt met andere woorden nog voor op de realiteit.

Ondanks deze reports geloven wij dat gen-AI een fundamentele verschuiving inhoudt op dezelfde schaal als het internet of de smartphone. Het internet gaf ons ruwweg twee decennia van innovatie en bedrijfsopbouw. De smartphone-revolutie zorgde voor 15 jaar groei, gevoed door mobiele apps. Wij denken dat gen-AI een vergelijkbaar tijdperk van transformatie zal inluiden - misschien wel een decennium of langer van nieuwe waardecreatie.

Een dergelijk patroon komt vaak voor bij nieuwe technologieën (het buitensporige optimisme gevolgd door ontgoocheling en vervolgens echte waardecreatie, vaak verwoord via de hype-cyclus van Gartner). Naar onze mening overdrijven veel van de toonaangevende AI-voorstanders wanneer ze stellige beweringen doen dat hele delen van de economie binnenkort vervangen zullen worden door AI. Dat komt omdat echte, functionele AI in gevestigde bedrijven hard werken is: het vereist relatief schone data, het in kaart brengen van processen en diepgaande experimenten, en zelfs dan is er vaak een mens bij nodig. We zien echter echte vooruitgang achter de schermen, waarvan voorbeelden suggereren dat het gebruik van multi-agent systemen om repetitieve taken te automatiseren en te vervangen kan leiden tot een langere, meer fundamentele stijging van de productiviteit.

Wij vinden dat leiders niet moeten proberen te raden wat er over 10 jaar gaat gebeuren. In plaats daarvan moeten ze zich afvragen wat ze realistisch gezien in de komende twee jaar kunnen bereiken. Op basis van de projecten die we sinds eind 2024 hebben gedaan, blijkt agentic AI de echte gamechanger te zijn (ten minste op de korte termijn), die bedrijven echte waarde biedt. De realiteit is ook dat de financiële winsten per project goed zijn, maar geen van alle zijn oogverblindend. Deze incrementele winsten zijn hier verwant aan Lean, een vergelijking die Microsoft CEO Satya Nadella heeft ook.

Op basis van ons werk aan een portfolio van projecten die agentic AI-systemen met succes implementeren, hebben we gemerkt dat succes met deze technologie vereist dat men door de hype heen snijdt, begrijpt wat de technologie kan en die mogelijkheden koppelt aan duidelijke kansen om waarde te creëren. Het vereist ook een praktische benadering van experimenteren en leren bij de implementatie van multi-agentsystemen.

De opkomst van het Agentic Workflow Paradigma

De afgelopen paar jaar heeft de volwassenheid van AI-technologie zich snel ontwikkeld via ten minste drie verschillende fasen:

Prompting (2022): Het eerste enthousiasme ging uit naar “power prompts”. In proofs of concept (POC's) leken de prompts te werken. Maar in de productie daalde de betrouwbaarheid snel. Bedrijfsprocessen vereisen doorgaans een nauwkeurigheid van 95-99%. Op basis van onze ervaring met meer dan 50 gevallen denken we dat prompts alleen zelden boven de 70% uitkomen.
Retrieval-Augmented Generation (RAG, 2023): RAG verbeterde de stabiliteit door gen AI-outputs te verankeren aan kennisbanken. Ook hier zagen de POC's er veelbelovend uit, maar de complexiteit van de productie legde vaak zwakke punten bloot die leidden tot een onaanvaardbaar lage nauwkeurigheid.
Agentic systemen (2024 tot nu): De meest recente ontwikkelingen betreffen netwerken van kleine, gespecialiseerde agenten. Sommige sturen vragen door. Anderen voeren nauw gedefinieerde taken uit. Weer andere controleren en corrigeren uitvoer. Cruciaal is dat de dalende kosten van tokens cascadering van multi-agent systemen nu commercieel haalbaar maken. Dit gelaagde ontwerp verbetert de betrouwbaarheid aanzienlijk.

Dit najaar was er een explosie van commerciële initiatieven op het gebied van agentic. OpenAI lanceerde Samenwerkingsverbanden met Stripe en Shopify. Google heeft zijn Agent Payment Protocol aangekondigd, die het aankoop- en transactieproces automatiseert. Hoewel bedrijven in de verleiding kunnen komen om het voorbeeld van de techgiganten te volgen, is dit misschien niet waar de eerste golf van duurzame waarde zal ontstaan. In een Recent onderzoek van Bain onder consumenten, 76% gaf aan dat ze zich niet op hun gemak zouden voelen bij het gebruik van agentic systemen voor aankopen - de meesten noemden bezorgdheid over veiligheid en privacy als reden voor hun terughoudendheid.

Klantgerichte contexten zijn niet geschikt voor de huidige mogelijkheden van AI-agenten. Ze zijn rommelig en onvoorspelbaar; input is ongestructureerd, toon en context veranderen voortdurend en regelgevers en consumenten hebben weinig tolerantie voor hallucinaties of fouten. Multi-agent systemen kan hoge nauwkeurigheidsniveaus bereiken, maar dit vereist dat u elke individuele agent behandelt als een kleuter. U zou een peuter niet vragen om de eettafel te dekken. Maar als u de taak opdeelt en hem stap voor stap begeleidt - “zet eerst een bord neer”, “voeg nu de vorken toe”, “daarna de glazen” - dan kan de peuter een zinvolle bijdrage leveren. Cruciaal is ook dat de omgeving gecontroleerd wordt: geen luidruchtige broertjes of zusjes, geen afleidende huisdieren en slechts één ouder die instructies geeft. Maar door multi-agent systemen te ontwikkelen die gestructureerd zijn zoals u een peuter instrueert - de taak opsplitsen, taken één voor één uitvoeren, controleren of de taken nauwkeurig zijn - bouwen we opmerkelijk nauwkeurige systemen.

Deze systemen zijn met name vaak voor back-end processen, waarbij perfectie niet essentieel is omdat er een mens bij betrokken is. Hoewel front-end experimenten inspirerend kunnen zijn, is het daarentegen onwaarschijnlijk dat ze het eerste gebied zijn waar echte ondernemingswaarde wordt gecreëerd. Back-end en operationele processen zijn vruchtbare grond omdat ze gestructureerd en repetitief zijn - veel beter geschikt voor agentic workflow automation. Strak afgebakende taken, goed gedefinieerde omgevingen en gestructureerde input kunnen projecten opleveren die een zinvolle bijdrage leveren.

Agentic systemen bouwen op bedrijfsniveau

Op bedrijfsschaal is het ontwerpen van deze systemen conceptueel eenvoudig, maar operationeel veeleisend. Als algemeen raamwerk voor het bouwen van multi-agent systemen, 1) wordt een taak naar een routeragent zoals Google ADK gestuurd die, zoals een ouder een kleuter instrueert, de taak in subtaken verdeelt; 2) worden de subtaken vervolgens uitgevoerd door individuele taakagenten die een kleiner deel van de taak uitvoeren, zoals de ouder een kleuter vertelt om de bril op tafel te zetten en een andere om de vorken te zetten; waarna 3) de resultaten van deze subtaken worden gecontroleerd door een validatieagent; en 4) als er een fout wordt ontdekt, beveelt een verbeteragent een aanpassing aan.

Een snelgroeiend ecosysteem van tools, methodologieën en diensten ondersteunt deze aanpak, en deze zijn uitstekend voor niet-kernprocessen. Maar wanneer u naar kernactiviteiten gaat - waar data integriteit en controle over hallucinaties essentieel zijn - hebt u op maat gemaakte agents, diepere integratie met bedrijfssystemen en betere controle en vangrails nodig.

Een praktijkvoorbeeld: Veldwerk opnieuw uitvinden

Ter illustratie een project dat we deden met een grote Europese internetprovider. Ons doel was om zowel de oplostijd als de kosten voor servicegesprekken te verminderen. De meeste mensen hebben wel eens een helpdesk gebeld over een verbroken verbinding, informatie meerdere keren herhaald en uiteindelijk op een technicus gewacht. Wat er achter de schermen gebeurt (of niet gebeurt) is veelzeggend: technici komen vaak aan met onvolledige informatie en moeten het probleem vanaf nul oplossen. Dit leidt tot lange downtime, soms meer dan een maand, en duizenden verspilde operator-uren.

We besloten klein te beginnen. We richtten ons op het bouwen van een systeem dat technici zou helpen om hun taken sneller en beter uit te voeren - een hulpmiddel in het proces, geen op zichzelf staande agent. Als onderdeel van deze inspanning integreerden we data uit meer dan 15 informatiesystemen, waardoor de technici een overzicht kregen van de gerapporteerde storingen en een geschiedenis van welke oplossingen geprobeerd waren. Zo kregen ze een overzicht van de taak - bijvoorbeeld het oplossen van een probleem met de verbinding van een klant - dat ze onderweg konden lezen of beluisteren. Op die manier konden ze meteen aan de slag om het probleem op te lossen zodra ze aankwamen, waardoor ze tijd bespaarden die vaak verloren ging met het uitzoeken van het probleem.

Vervolgens maakten we een functie die aanbevelingen genereerde voor de volgende beste actie om het probleem op te lossen. Een andere functie omvatte een conversatie-interface waarmee de technicus de onderliggende IT-systemen van het internetbedrijf in natuurlijke taal kon bevragen om de hoofdoorzaken te vinden. Tot slot hebben we veel eenvoudige en repetitieve acties geautomatiseerd: bijvoorbeeld het corrigeren van CRM-records wanneer het verkeerde huishouden was gekoppeld of het activeren van netwerkresets wanneer een schakelaar in de connectorbox van de centrale buurt niet goed werkte. Dit bespaarde de technicus enorm veel tijd, omdat hij het interne callcenter niet hoefde te bellen om te helpen met kleine wijzigingen om de reparatie uit te voeren.

Gedurende acht maanden werkten we iteratief door processen in kaart te brengen, pijnpunten op te lossen en stap voor stap functionaliteit toe te voegen, met wekelijkse feedback van veldtechnici die de tablet-gebaseerde oplossing testten.

De resultaten:

60% reductie in resolutietijd
Jaarlijks terugkerende besparingen van meer dan een miljoen euro
Aanzienlijke verbetering in klant netto promoter score

Op basis van deze resultaten wilde de klant het systeem opschalen naar nog zeven regio's. Dit vergde veel meer werk: De methodologie en sommige agentcomponenten waren herbruikbaar, maar elke regio had andere IT-systemen. Voor elke uitrol waren nieuwe integraties en data mappings nodig. Uitbreiden naar elk van de zeven regio's kostte de helft van de oorspronkelijke inspanning van de oorspronkelijke één per regio toegevoegd.

De uitdagingen van het implementeren van multi-agent systemen

Zoals hierboven geïllustreerd, kunnen multi-agent systeemimplementaties met succes echte waarde creëren, maar te weinig mensen praten over het echte werk van de implementatie ervan. Wat waren de realiteiten en wegversperringen die we tegenkwamen?

Snel testen vs. opschalen.

Hebben we het vanaf het begin in een mooie schaalbare architectuur gebouwd? Hoe graag we dat ook zouden willen, het zou onmogelijk zijn geweest. Net zoals innovators iteratief de product-market-fit ontdekken, ontwikkelden de use-cases van het multi-agentsysteem en de oplossing zich iteratief terwijl we ons bezighielden met een cyclus van snelle experimenten. Daarnaast ontwikkelden de technologie, methodologie en diensten om deze systemen te bouwen zich snel.

We zijn niet begonnen met het volledige systeem. In plaats daarvan begonnen we met één LLM plus RAG als centraal onderdeel om in principe de eerste use case op te lossen. Terwijl we testten, leerden we dat we het systeem moesten opdelen in kleinere agenten die meer gespecialiseerde taken uitvoerden om de betrouwbaarheid te vergroten; langzaam evolueerde dit naar een volledig agentgericht systeem. Uiteindelijk ontwikkelden we een zeer betrouwbaar, functionerend systeem dat waarde levert. Met deze kennis en de resultaten die we nu hebben, bouwen we het om tot een architectuur die veel robuuster is voor het schalen van andere delen van het bedrijf en die gemakkelijker onderhouden kan worden.

Probleemzones vs. hoofdoorzaken.

Als vuistregel hebben we ontdekt dat leiders en middenmanagers ongeveer weten welke processen veel tijd of moeite kosten, maar dat ze slecht geïnformeerd zijn over waar de complexiteit en de kansen liggen. Alleen de operators weten dit. De implicatie is dat u twee dingen moet doen voordat u echt kunt beginnen met bouwen: 1) voldoende tijd besteden aan het begrijpen van de problemen vanuit het perspectief van de manager, maar ook 2) met de operators praten over wat zij zien als de hoofdoorzaak van een bepaald probleem.

Managers wezen ons bijvoorbeeld op delen van het proces waar tijd of middelen verspild werden (bijv. in het gedeelde servicecentrum) en zeiden dat we moesten zoeken naar de juiste “kennisitems” voor de operator om een probleem sneller op te lossen. Toen we echter rechtstreeks met de operators gingen werken, ontdekten we dat de helft van de operators de “kennisitems” binnen 10 seconden vond, terwijl de andere helft er minuten over deed om dezelfde informatie te vinden omdat ze niet goed waren in het doorzoeken van het systeem. Dit is geen probleem dat agentic AI goed kan oplossen, het is een trainingsprobleem. Maar we ontdekten ook dat leiders en managers volledig over het hoofd hadden gezien dat de operators ongeveer 50% van hun tijd besteden aan het invullen van het CRM na klantgesprekken. Dit is een goed probleem voor een agent, die het gesprek kan transcriberen en alle informatie in de juiste velden kan zetten, waardoor het proces enorm wordt versneld en de data kwaliteit wordt verbeterd. De operator hoeft alleen maar te controleren en op OK te drukken.

IT-systemen vertragen u niet - dat doen mensen.

De meest inspannende en complexe onderdelen van ons werk waren het verkrijgen van de juiste managementbesprekingen, het overtuigen van belanghebbenden en het identificeren en oplossen van afhankelijkheden die door ons werk ontstonden. Integreren met een dozijn IT-systemen om de oplossing te laten werken is complex vanuit technologisch oogpunt, maar de echte uitdaging is dat al deze systemen hun eigen ontwikkelingsteams hebben met verschillende tijdlijnen, prioriteiten en routekaarten. API-eindpunten beschikbaar maken en testen kan twee weken werk zijn. Het duurde veel, veel langer om in de respectievelijke roadmaps van deze systemen te komen. De meeste teams waarmee we samenwerkten, gaven dit werk enkele maanden lang geen prioriteit, met de bewering (waarschijnlijk terecht vanuit hun standpunt) dat ze belangrijker werk hadden dat prioriteit had.

Modellen kunnen en zullen hallucineren.

Agenten zijn nog steeds erg onstabiel en kunnen hallucineren, waardoor er sterke vangrails en controles nodig zijn in de vorm van LLM-als-een-rechter (de validatieagent). De systeemprompt van de agent moet sterk genoeg zijn en toch licht genoeg voor de agent om taken goed uit te voeren. Dit vereist nuance, tijd en data wetenschappelijke en data technische vaardigheden om deze agentic systemen te laten werken met een betrouwbaarheid die hoog genoeg is om ze in uw bedrijf te laten werken. Met andere woorden, goede ontwikkelaars en ervaring in het bedrijfsleven zijn nog steeds zeer relevant.

De nieuwe discipline van geëngageerde transformatie

Welke meer algemene lessen kunnen we uit de casus trekken? In veel opzichten voelt het als het herontdekken van Lean-reengineering vanaf het begin. Het verschil is dat de toolset van vandaag veel krachtiger is en niet alleen incrementele optimalisatie mogelijk maakt, maar een volledig herontwerp van processen, zelfs over afdelingen heen.

Naast data en AI-mogelijkheden hangt succes af van diepgaande proceskennis - de huidige toestand begrijpen, de toekomstige toestand voor ogen houden en dat vertalen in kleine, bouwbare stappen. In die zin zien we de terugkeer van “Lean zwarte banden,” maar deze keer worden ze aangedreven door gen-AI.

Het werk is gedetailleerd en methodisch, niet glamoureus. U moet stap voor stap te werk gaan. De aanpak schaalt in methode, niet in magie. Elk nieuw bedrijfsgebied vereist een nieuwe analyse en aanpassing op maat.

Volledig autonome agenten zijn nog ver weg. Voorlopig houdt de meest effectieve opstelling een mens aan het lijntje, zodat de operator slimmer, sneller en beter uitgerust is.

In het begin is de vooruitgang incrementeel. Pas wanneer de kernsystemen op elkaar aansluiten en de informatiestroom soepel verloopt, is er sprake van grote efficiëntievoordelen.

Technologie evolueert ook sneller dan projecten. De tools die we acht maanden geleden gebruikten, zijn nu al verouderd. Daarom richten wij ons op use cases die zich binnen een jaar terugverdienen - voordat de onderliggende technologie verandert.

Nog belangrijker is dat bedrijven interne capaciteiten opbouwen-data ingenieurs, data wetenschappers, gen AI UX ontwerpers, en wat sommigen nu contextingenieurs of gen AI black belts noemen: mensen die processen doorgronden en transformatie in haalbare stappen kunnen opsplitsen. Door deze capaciteiten als bedrijf op te bouwen, kunt u sneller nieuwe agentic workflows bouwen (naarmate de technologie zich ontwikkelt), wat een echte differentiator kan zijn ten opzichte van de concurrentie.

Tot slot is het, hoewel deze initiatieven uiteindelijk in de normale bedrijfsvoering zullen worden geïntegreerd, essentieel om ze met een sterk bestuur te starten - een bestuur dat technische en zakelijke perspectieven verenigt. Dat evenwicht zorgt ervoor dat experimenteren verandert in transformatie.

Het komende decennium

De hype van Gen AI is misschien groter dan de adoptie, maar het potentieel is echt. Net als de internet- en smartphonerevoluties daarvoor, zal deze platformverschuiving industrieën opnieuw vormgeven - niet door disruptie van de ene op de andere dag, maar door jaren van gedisciplineerd opnieuw uitvinden.

De organisaties die winnen, zullen niet alleen tools gebruiken; ze zullen het vermogen opbouwen om zichzelf voortdurend opnieuw uit te vinden met behulp van deze tools.

Neem contact met ons op

AI Agenten zijn nog niet klaar voor consumentenwerk - maar ze kunnen wel uitblinken in interne processen.

Auteurs