AI op de lange termijn, deel 3: Wat dit nu eigenlijk betekent voor organisaties

Victor Coimbra is opgenomen in de Forbes Under 30 Brazil-lijst vanwege zijn uitmuntende bijdragen aan AI . Hij was medeoprichter van de Latijns-Amerikaanse tak Artefact, die inmiddels is uitgegroeid tot een wereldwijd tech-centrum met 200 medewerkers. Hij beschikt over diepgaande expertise in het opschalen AI en het samenstellen van hoogpresterende tech-teams op internationale markten.

We hebben het probleem (deel 1) en de mogelijke oplossingen (deel 2) besproken. Nu de moeilijkere vraag: wat betekent dit allemaal voor de manier waarop organisaties daadwerkelijk functioneren?

Dit is mijn eerlijke mening. De technologie bestaat wel, maar is nog niet volwassen. De richting is duidelijk, maar het tijdschema is dat niet. De meeste organisaties die AI 2026 langlopende AI opzetten, zullen dure lessen leren. Een enkeling zal er daadwerkelijk voordeel uit halen.

Het verschil zal uiteindelijk neerkomen op drie zaken: waar ze worden ingezet, hoe ze worden bestuurd en of ze begrijpen wat ‘autonoom’ in de praktijk eigenlijk inhoudt.

De overgang van assistent naar werknemer

Dit is de fundamentele verandering. We maken al jaren gebruik van AI : systemen die mensen helpen hun werk sneller te doen. Langdurig werkende AI iets heel anders: systemen die zelfstandig taken uitvoeren.

Dit onderscheid is van belang voor de organisatieopzet.

Taken die minder dan een kwartier in beslag nemen, zijn een bekend terrein. Concepten, suggesties, snelle opzoekacties. Dat zijn de dingen waar AI al sinds 2023 goed in zijn. Menselijk toezicht is vanzelfsprekend, omdat er altijd mensen bij betrokken zijn.

Het interessante bereik ligt tussen één en acht uur. Volledig afgeronde opdrachten. Volledige implementaties. Werk waarvoor vroeger een mens een ochtend of een middag nodig had. Volgens de huidige schattingen ligt de betrouwbaarheid in dit bereik tussen de 50 en 70%. Goed genoeg om bruikbaar te zijn. Niet goed genoeg om er blindelings op te vertrouwen.

Als het langer dan 24 uur duurt, begeven we ons op onbekend terrein. Autonomie op projectniveau. Langdurig onderzoek. Werk dat meerdere dagen in beslag neemt. Die grens ligt misschien in het verschiet, maar is er nog niet. Wie iets anders beweert, probeert je iets aan te smeren.

57 procent van de ondervraagde bedrijven zet momenteel AI productiedoeleinden. Dat percentage klinkt indrukwekkend, totdat je kijkt naar wat er daadwerkelijk gebeurt: bij 68 procent is binnen tien stappen menselijke tussenkomst nodig. De meeste AIis niet meer dan veredelde assistentie met iets meer speelruimte.

Uw interface wordt een delegatie-interface

Als AI op de lange termijn AI , zal de manier waarop mensen ermee omgaan fundamenteel veranderen.

Een assistent-interface is gebaseerd op realtime samenwerking. Je stelt een vraag, het systeem reageert, je past je vraag aan, het systeem reageert opnieuw. De mens is hierbij voortdurend betrokken. Dit werkt prima voor korte taken.

Een delegatie-interface gaat uit van een asynchrone overdracht. U stelt een doel vast, controleert regelmatig de voortgang en ontvangt de resultaten. De mens is tijdens de uitvoering niet aanwezig.

Bedenk eens wat dit betekent voor de manier waarop het werk wordt aangepakt:

Het bijhouden van de voortgang vervangt het gesprek. Gebruikers hebben dashboards nodig waarop te zien is wat de AI , wat hij op dit moment doet en wat hij van plan is te gaan doen. Het resultaat is niet de chat, maar een statusrapport.
Controlepunten maken een voortdurend heen-en-weer-proces overbodig. In plaats van stapsgewijs te verfijnen, keuren gebruikers het plan op vastgestelde momenten goed of af. „Bekijk het plan voordat je aan het werk gaat.” „Geef je goedkeuring voor de aanpak voordat deze wordt uitgevoerd.”
Audittrails worden verplicht. Als er zes uur na het begin van een autonome sessie iets misgaat, moet je kunnen achterhalen wat er is gebeurd. Alles vastleggen is geen paranoia, maar een operationele noodzaak.
Herstel na storingen wordt een functie. AI wel eens falen. De vraag is of het op een gecontroleerde manier faalt, vastlegt wat er mis is gegaan en mensen in staat stelt om vanuit een logische toestand verder te gaan.

De meeste huidige AI zijn hier niet op ontworpen. Ze gaan ervan uit dat er mensen meekijken. Voor AI die langdurig actief is, AI producten AI die ervan uitgaan dat er geen mensen meekijken.

Goed bestuur is geen optie

AI urenlang werkt, kan ook urenlang fouten maken. Fouten stapelen zich op voordat ze bij een menselijke controle worden opgemerkt. Een financiële dienstverlener verloor 2 miljoen dollar aan dubbele verwerking als gevolg van gebrekkig statusbeheer bij AI hun AI . Dat is geen hypothetisch scenario – het gebeurde in 2025.

Het nieuwe kader wordt gekenmerkt door beperkte autonomie: duidelijke operationele grenzen, audittrails en beslissingsmomenten die menselijke tussenkomst vereisen.

De praktische aspecten

Afbakening van toegangsrechten. De AI geen toegang hebben tot meer dan wat voor de taak nodig is. Een AI concurrenten, mag geen toegang hebben om klantgegevens te wijzigen. Dit klinkt vanzelfsprekend. In de praktijk verlenen organisaties echter te ruime toegangsrechten, omdat dit eenvoudiger is dan het bepalen van de minimaal noodzakelijke reikwijdte.

Beslissingslogboek. Niet alleen de uitkomsten, maar ook het redeneringsproces. Als AI een verkeerde beslissing AI , moet je begrijpen waarom. „Het heeft een fout gemaakt“ is geen analyse van de onderliggende oorzaak.

Escalatietriggers. Bepaal van tevoren in welke gevallen menselijke goedkeuring vereist is. Uitgaven boven een bepaalde drempel. Het wijzigen van data. Externe communicatie. Deze triggers moeten expliciet worden vastgelegd en mogen niet aan het oordeel AIworden overgelaten.

Wijzigingen bijhouden. Elke wijziging is traceerbaar en ongedaan te maken. Versiebeheer is onmisbaar voor AI dingen verandert. Je moet in staat zijn om fouten ongedaan te maken.

Data is belangrijker dan je denkt

AI duidelijke input AI om duidelijke output te kunnen genereren. Organisaties die niet beschikken over hoogwaardige, gestructureerde informatie, hebben moeite om waarde te halen uit autonome systemen.

Dit is het minder aantrekkelijke deel. Voordat je langdurige AI implementeert, heb je het volgende nodig: schone, consistente gegevensformaten; goed gedocumenteerde koppelingen tussen systemen; duidelijke verantwoordelijkheid voor data ; en processen voor het afhandelen van fouten.

Wat erin gaat, komt er ook weer uit – maar op grote schaal, urenlang, met zich opstapelende fouten. Problemen Data die bij dashboards al vervelend waren, krijgen bij autonome AI catastrofale gevolgen.

Storingen waarmee u te maken kunt krijgen

Uit een sectoranalyse uit 2025 kwamen 14 specifieke faalpatronen in AI naar voren. Dit zijn de patronen die organisaties vaak overvallen:

Opeenstapeling van fouten. De AI een verkeerde veronderstelling. Op basis daarvan onderneemt hij actie. De volgende stap bouwt voort op dat gebrekkige werk. De stap daarna vergroot de fout nog verder. Tegen de tijd dat een mens het doorheeft, is de hele workflow gebaseerd op verkeerde uitgangspunten. Dit is geen hypothetisch scenario. Het komt regelmatig voor.

Een slecht ontworpen overdracht. Juist bij de overgangen tussen AI of tussen AI mensen gaan er dingen mis. Een organisatie 40% van de klanten afhaken omdat gebruikers in de war raakten toen het ene AI halverwege de interactie het stokje doorgaf aan een ander. De overdracht werkte wel. De ervaring niet.

Corruptie binnen de overheid. In langlopende systemen stapelen de problemen zich op. Oude beslissingen blijven van kracht terwijl ze eigenlijk hadden moeten worden ingetrokken. Gelijktijdige bewerkingen leiden tot conflicten. De AI het oog wat het eigenlijk wilde bereiken.

Gedeelde kwetsbaarheden. Als al uw AI dezelfde onderliggende functionaliteiten, hebben ze dezelfde zwakke punten. Ze zullen in dezelfde uitzonderingsgevallen falen. Ze zullen dezelfde blinde vlekken hebben. Diversificatie gaat niet alleen om functionaliteit, maar ook om veerkracht.

De rode draad: dit zijn geen individuele storingen. Het zijn systeemstoringen. Je kunt ze niet opsporen door afzonderlijke onderdelen afzonderlijk te testen. Je moet de volledige workflow onder realistische omstandigheden en binnen realistische tijdsbestekken testen.

Waar de reële kansen liggen

Gezien alle kanttekeningen: waar zouden organisaties AI 2026 dan eigenlijk langlopende AI moeten inzetten?

Begin met de zone van één tot acht uur. Taken die lang genoeg duren om van zelfstandigheid te profiteren, maar kort genoeg om de schade te beperken. Implementatieprojecten met duidelijke specificaties. Het samenvatten van onderzoek uit vastgestelde bronnen. Het documenteren van processen op basis van bestaand materiaal. Het genereren van rapporten met gestructureerde input.

Zoek naar taken waarvan de voltooiing meetbaar is. Als je niet duidelijk kunt definiëren wat succes inhoudt, AI dit AI op betrouwbare wijze realiseren. Taken die menselijk inzicht vereisen om te beoordelen, zijn ongeschikt voor geautomatiseerd werk.

Richt je op taken die vaak worden uitgesteld omdat ze langdurige concentratie vereisen. Dat zijn de echte kansen. De taken die mensen uitstellen omdat ze vier ononderbroken uren nodig hebben. De procesverbeteringen die er nooit van komen. De documentatie is altijd verouderd. De analyse is altijd onvolledig.

Zorg voor controlemomenten op regelmatige tijdstippen. Vier uur autonoom werken mag niet betekenen dat er vier uur lang geen menselijk toezicht is. Bouw controlemomenten in. Niet omdat je de AIwantrouwt, maar omdat fouten zich opstapelen en vroegtijdige opsporing de schade beperkt.

Meet de daadwerkelijke succespercentages, niet de prestaties in de demo. Dit is belangrijk. Benchmarkprestaties zeggen niets over de prestaties in de praktijk. Uit onderzoek van METR bleek dat nul procent van het AI werk bruikbaar was zonder nabewerking, zelfs als de geautomatiseerde controles waren geslaagd. Uw interne metingen moeten een weerspiegeling zijn van echte kwaliteitsnormen, niet van ideale omstandigheden.

De historische parallel, opnieuw bekeken

De stoommachine werd al tientallen jaren voordat fabrieken erop werden afgestemd, uitgevonden. Fabriekseigenaren wisten hoe ze waterkrachtcentrales moesten exploiteren. Ze beschikten over werkprocessen, expertise en complete bedrijfsmodellen die op de oude aanpak waren gebaseerd. De nieuwe technologie vereiste nieuwe structuren, nieuwe werkprocessen en een nieuwe manier van denken over waar het werk plaatsvond en hoe het verliep.

Ik gebruikte deze vergelijking in de oorspronkelijke versie van dit artikel, met één voorbehoud: de stoommachine werkte betrouwbaar. AI huidige, al lang bestaande AI niet – nog niet, en ook niet consistent.

Dat voorbehoud geldt nog steeds. Maar de richting waarin de investeringen gaan, is onmiskenbaar. Elke groteorganisatie op duurzame bedrijfsvoering. Elke serieuze gebruiker zoekt naar oplossingen voor de huidige beperkingen. Elk bedrijfsplatform breidt zijn infrastructuur uit voor AI langere tijd draaien.

De vraag voor organisaties is niet of ze op deze verandering moeten inspelen. De vraag is hoe ze dat op verantwoorde wijze kunnen doen: door eerst een goed bestuurskader op te zetten en pas daarna de capaciteit uit te breiden, door de werkelijke situatie te meten in plaats van alleen maar demonstraties, en door klein te beginnen voordat ze opschalen.

Organisaties die wachten tot de technologie volwassen is, lopen het risico achterop te raken wanneer dat moment aanbreekt. Organisaties die de technologie te vroeg implementeren, zullen daar een dure les aan leren. De juiste aanpak is weloverwogen experimenteren met de nodige veiligheidsmaatregelen.

Drie vragen voor uw organisatie

Welke taken in uw vakgebied vereisen langdurige, intensieve concentratie? Zoek naar werkzaamheden die urenlang geconcentreerd werk vereisen, in plaats van slechts enkele minuten. De taken die mensen uitstellen omdat ze langdurige concentratie vereisen – dat zijn de taken die in aanmerking komen voor proefprojecten.

Kun je het succes van autonoom werk op betrouwbare wijze meten? Niet in de zin van „heeft het resultaat opgeleverd?“, maar „heeft het resultaat opgeleverd dat aan je daadwerkelijke normen voldoet?“ Als je succes niet kunt definiëren en meten, kun je niet beoordelen of AI .

Is uw governance-infrastructuur klaar voor werkzaamheden die plaatsvinden terwijl niemand toekijkt? Logboekregistratie. Toegangsbeheer. Escalatiecriteria. Herstelmechanismen. Audittrails. De infrastructuur voor delegatie moet aanwezig zijn voordat delegatie zin heeft.
2026 zal waarschijnlijk niet het jaar zijn AI betrouwbaar AI bij langdurige taken. Een succespercentage van vijftig procent bij taken van twee uur betekent nog steeds dat het de helft van de tijd misgaat.

Maar het zou wel eens het jaar kunnen zijn waarin AI voor specifieke toepassingen operationeel haalbaar AI – goed genoeg voor implementatie in de productie, mits er voldoende toezicht is en er ruimte is voor fouten.

Het eerlijke antwoord: niemand weet precies wanneer deze systemen volwassen zullen zijn. De signalen wijzen erop dat het de moeite waard is om dat uit te zoeken.

Referenties

Wetenschappelijke artikelen

Het bouwen van productieklare AI schaalbaar langetermijngeheugen — arxiv.org/abs/2504.19413
Op meerdere grafieken gebaseerde geheugenarchitectuur voor AI arxiv.org/abs/2601.03236
AI meten AI de productie — arxiv.org/abs/2512.04123

Brancherapporten Reports whitepapers

Foutmodi in AI — Microsoft
Lessen uit 2025 over AI vertrouwen — Google Cloud
De stand van zaken in AI — LangChain
Benchmark versus praktijkevaluatie — METR

Technische documentatie

Hoe we ons multi-agent onderzoekssysteem hebben ontwikkeld — Anthropic
Specificatie van het Model Context Protocol — modelcontextprotocol.io
Documentatie over Fresh-Start Cycling („Ralph Wiggum“) — Geoffrey Huntley (ghuntley.com/ralph/)

Neem contact met ons op