Victor Coimbra is opgenomen in de Forbes Under 30 Brazil lijst voor zijn opmerkelijke bijdragen aan AI-innovatie. Hij was medeoprichter van de Latijns-Amerikaanse activiteiten van Artefact, die nu dienen als een wereldwijde tech hub met 200 werknemers. Hij heeft veel expertise in het schalen van AI-oplossingen en het bouwen van high-performance tech teams in internationale markten.

We hebben het probleem behandeld (Deel 1) en de benaderingen (Deel 2). Nu de moeilijkere vraag: wat betekent dit alles voor hoe organisaties eigenlijk werken?

Dit is mijn eerlijke mening. De technologie is echt, maar onvolwassen. Het traject is duidelijk, maar de tijdlijn niet. De meeste organisaties die in 2026 langlopende AI inzetten, zullen dure lessen leren. Een paar zullen echte voordelen behalen.

Het verschil zit hem in drie dingen: waar ze worden ingezet, hoe ze regeren en of ze begrijpen wat “autonoom” in de praktijk betekent.

De verschuiving van assistent naar werknemer

Dit is de fundamentele overgang. We hebben al jaren AI-assistenten, systemen die mensen helpen om hun werk sneller te doen. Langdurige AI staat voor iets anders: systemen die werk zelfstandig afmaken.

Het onderscheid is belangrijk voor het organisatieontwerp.

Taken van minder dan een kwartier zijn volwassen terrein. Kladjes, suggesties, snel opzoeken. De dingen die AI-assistenten al goed doen sinds 2023. Menselijk toezicht is impliciet omdat er altijd mensen aanwezig zijn.

De interessante zone is één tot acht uur. Volledige deliverables. Volledige implementaties. Werk waarvoor vroeger een mens een ochtend of een middag moest gaan zitten. Huidige schattingen schatten de betrouwbaarheid in dit bereik op 50-70%. Goed genoeg om nuttig te zijn. Niet goed genoeg om blindelings op te vertrouwen.

Na 24 uur bevinden we ons op experimenteel terrein. Autonomie op projectniveau. Aanhoudend onderzoek. Dagenlang werk. Die grens komt er misschien aan, maar hij is er nog niet. Iedereen die iets anders beweert, verkoopt iets.

Zevenenvijftig procent van de ondervraagde bedrijven heeft nu AI in productie. Dat aantal klinkt indrukwekkend, totdat u kijkt naar wat ze eigenlijk doen: 68% vereist menselijke tussenkomst binnen tien stappen. De meeste “productie-AI” is veredelde assistentie met iets langere leibanden.

Uw interface wordt een delegatie-interface

Als langlopende AI werkt, verandert de manier waarop mensen ermee omgaan fundamenteel.

Een assistent-interface gaat uit van real-time samenwerking. U vraagt, zij antwoordt, u verfijnt, zij herhaalt. De mens is de hele tijd aanwezig. Dit werkt prima voor korte taken.

Een delegatie-interface gaat uit van asynchrone overdracht. U specificeert een doelstelling, controleert periodiek de voortgang, ontvangt deliverables. De mens is afwezig tijdens de uitvoering.

Bedenk wat dit betekent voor de manier waarop werk wordt beheerd:

  • Voortgangscontrole vervangt conversatie. Gebruikers hebben dashboards nodig die laten zien wat de AI heeft gedaan, wat het aan het doen is, wat het van plan is om hierna te doen. De output is niet de chat, maar een statusrapport.
  • Checkpoints vervangen heen-en-weer. In plaats van iteratief te verfijnen, keuren gebruikers goed of af bij gedefinieerde poorten. “Bekijk het plan voordat u met het werk begint.” “Teken af op de aanpak vóór de uitvoering.”
  • Controlesporen worden verplicht. Als er zes uur na een autonome sessie iets fout gaat, moet u reconstrueren wat er is gebeurd. Alles vastleggen is geen paranoia, maar een operationele noodzaak.
  • Foutherstel wordt een functie. AI zal falen. De vraag is of het netjes faalt, documenteert wat er fout ging en mensen in staat stelt om vanuit een verstandige toestand verder te gaan.

De meeste huidige AI-producten zijn hier niet voor ontworpen. Ze gaan ervan uit dat mensen kijken. Langdurige AI vereist producten die ervan uitgaan dat mensen dat niet doen.

Governance is niet optioneel

AI die urenlang werkt, kan ook urenlang fouten maken. Fouten stapelen zich op voordat ze door mensen worden opgemerkt. Een financiële dienstverlener verloor $2M aan dubbele verwerking door slecht statusbeheer in hun AI-implementatie. Dat is geen hypothetische situatie - het gebeurde in 2025.

Het opkomende raamwerk is begrensde autonomie: duidelijke operationele limieten, controlesporen en beslispunten die menselijke betrokkenheid triggeren.

De praktische elementen

Toestemming scoping. De AI mag geen toegang hebben die verder gaat dan wat de taak vereist. Een AI die onderzoek doet naar concurrenten mag geen toegang hebben om klantgegevens te wijzigen. Dit klinkt voor de hand liggend. In de praktijk verlenen organisaties te veel toegang, omdat dit gemakkelijker is dan de minimaal benodigde reikwijdte te bepalen.

Besluitregistratie. Niet alleen uitkomsten - het redeneerpad. Als AI een slechte beslissing neemt, moet u begrijpen waarom. “Het maakte een fout” is geen analyse van de hoofdoorzaak.

Escalatietriggers. Bepaal van tevoren waarvoor menselijke goedkeuring nodig is. Uitgaven boven een drempel. Klant data wijzigen. Extern communiceren. Deze triggers moeten expliciet zijn en mogen niet aan het oordeel van de AI worden overgelaten.

Wijzigingen bijhouden. Elke wijziging is traceerbaar en omkeerbaar. Versiebeheer is niet optioneel voor AI die dingen verandert. U moet ongedaan kunnen maken wat er fout is gegaan.

Data Kwaliteit is belangrijker dan u denkt

AI heeft duidelijke input nodig om duidelijke output te produceren. Organisaties zonder gestructureerde informatie van hoge kwaliteit hebben moeite om waarde te halen uit autonome systemen.

Dit is het niet-sexy gedeelte. Voordat u langlopende AI implementeert, hebt u het volgende nodig: schone, consistente informatieformaten, goed gedocumenteerde verbindingen tussen systemen, duidelijk eigenaarschap van de data kwaliteit en processen voor het afhandelen van fouten.

Garbage in, garbage out, maar op grote schaal, urenlang, met steeds meer fouten. Data kwaliteitsproblemen die vervelend waren met dashboards worden catastrofaal met autonome AI.

Faalwijzen die u zult tegenkomen

Een brancheanalyse uit 2025 identificeerde 14 unieke faalpatronen in AI-systemen. Dit zijn de patronen die organisaties verrassen:

Cascaderende fouten. De AI maakt een verkeerde veronderstelling. Het handelt op basis van die veronderstelling. De volgende stap bouwt voort op gebrekkig werk. De stap daarna verergert de fout. Tegen de tijd dat een mens het merkt, werkt de hele workflow op basis van foutieve aannames. Dit is niet hypothetisch. Het komt vaak voor.

Slecht ontwerp van handoff. Overgangen tussen AI-systemen of tussen AI en mensen zijn waar dingen stuk gaan. Een e-commercebedrijf zag 40% klanten vertrekken omdat gebruikers in de war raakten toen het ene AI-systeem halverwege de interactie overging op het andere. De overdracht werkte. De ervaring niet.

Staatscorruptie. Langlopende systemen stapelen problemen op. Oude beslissingen blijven bestaan terwijl ze ongeldig gemaakt hadden moeten worden. Gelijktijdige bewerkingen veroorzaken conflicten. De AI verliest uit het oog wat hij probeerde te bereiken.

Gedeelde kwetsbaarheden. Als al uw AI dezelfde onderliggende capaciteiten gebruikt, deelt het zwakheden. Het zal in dezelfde randgevallen falen. Ze zal dezelfde blinde vlekken hebben. Diversificatie gaat niet alleen over capaciteiten, maar ook over veerkracht.

De rode draad: dit zijn geen individuele fouten. Het zijn systeemfouten. U kunt ze niet opvangen door afzonderlijke componenten afzonderlijk te testen. U moet de hele workflow onder realistische omstandigheden en binnen realistische tijdsbestekken testen.

Waar de realistische kansen liggen

Gezien alle voorbehouden, waar moeten organisaties in 2026 eigenlijk langlopende AI inzetten?

Begin met de zone van één tot acht uur. Taken lang genoeg om te profiteren van autonomie, kort genoeg om schade te beperken. Implementatieprojecten met duidelijke specificaties. Synthese van onderzoek uit bepaalde bronnen. Procesdocumentatie van bestaande materialen. Rapporten maken met gestructureerde input.

Zoek werk met een meetbare voltooiing. Als u succes niet duidelijk kunt definiëren, kan AI het niet op betrouwbare wijze bereiken. Taken die een menselijk oordeel vereisen om te evalueren zijn slechte kandidaten voor autonoom werk.

Richt u op werk dat vermeden wordt omdat het een voortdurende focus vereist. Dit zijn de echte kansen. De taken die mensen uitstellen omdat ze vier ononderbroken uren nodig hebben. De procesverbeteringen die nooit gebeuren. De documentatie is altijd verouderd. De analyse is altijd onvolledig.

Vereis controlepunten op gepaste intervallen. Vier uur autonoom werken betekent niet vier uur zonder menselijk bewustzijn. Bouw evaluatiepunten in. Niet omdat u de AI wantrouwt, maar omdat fouten zich opstapelen en vroege detectie de schade beperkt.

Meet werkelijke succespercentages, niet de demoprestaties. Dit is belangrijk. Benchmarkprestaties voorspellen geen prestaties in de echte wereld. METR ontdekte dat nul procent van het door AI gegenereerde werk bruikbaar was zonder opschoning, zelfs als de geautomatiseerde controles slaagden. Uw interne meting moet reële kwaliteitsnormen weerspiegelen, geen geïdealiseerde omstandigheden.

De historische parallel, opnieuw bekeken

De stoommachine was al tientallen jaren uitgevonden voordat fabrieken eromheen werden gebouwd. Moleneigenaren wisten hoe ze molens moesten laten draaien die door water werden aangedreven. Ze hadden werkstromen, expertise en hele bedrijfsmodellen die op de oude aanpak waren gebouwd. De nieuwe technologie vereiste nieuwe structuren, nieuwe werkstromen, nieuwe manieren van denken over waar het werk gebeurde en hoe het stroomde.

Ik gebruikte deze analogie in de oorspronkelijke versie van dit artikel, met een voorbehoud: de stoommachine werkte betrouwbaar. De huidige langlopende AI doet dat niet - nog niet, niet consequent.

Dat voorbehoud geldt nog steeds. Maar de richting van de investeringen is onmiskenbaar. Elk groot AI-bedrijf optimaliseert voor duurzame werking. Elke serieuze toepasser bouwt workarounds voor de huidige beperkingen. Elk bedrijfsplatform voegt infrastructuur toe voor langer lopend AI-werk.

De vraag voor organisaties is niet of ze zich met deze verschuiving bezig moeten houden. De vraag is hoe ze op een verantwoorde manier kunnen meedoen: eerst governance opbouwen en dan pas capaciteiten, de realiteit meten in plaats van demo's, en klein beginnen voordat ze gaan schalen.

Organisaties die wachten tot de technologie volwassen is, kunnen een achterstand oplopen. Organisaties die de technologie te vroeg inzetten, zullen dure lessen leren. Het smalle pad is bewust experimenteren met de juiste vangrails.

Drie vragen voor uw organisatie

Welke langdurige, aandachtsintensieve taken bestaan er in uw domein? Zoek naar werk dat urenlange, niet minutenlange, geconcentreerde inspanningen vereist. De taken die mensen uitstellen omdat ze langdurige concentratie vereisen - dat zijn de kandidaten voor proefprogramma's.

Kunt u het succes van autonoom werk betrouwbaar meten? Niet “heeft het output opgeleverd”, maar “heeft het output opgeleverd die aan uw werkelijke normen voldoet”. Als u succes niet kunt definiëren en meten, kunt u niet evalueren of AI werkt.

Is uw governance-infrastructuur klaar voor werk dat gebeurt terwijl niemand kijkt? Loggen. Toestemmingscontroles. Escalatie triggers. Herstelmechanismen. Controlesporen. De infrastructuur voor delegatie moet bestaan voordat delegatie zinvol is.
2026 zal waarschijnlijk niet het jaar zijn waarin AI betrouwbaar wordt bij langlopende taken. Vijftig procent succes bij taken van twee uur betekent nog steeds de helft van de tijd falen.

Maar het kan zijn dat de AI die een jaar draait operationeel levensvatbaar wordt voor specifieke gebruikssituaties - goed genoeg voor productie-implementatie met het juiste toezicht en de juiste fouttolerantie.

Het eerlijke antwoord: niemand weet precies wanneer deze systemen volwassen zullen worden. De signalen suggereren dat het de moeite waard is om erachter te komen.

 

Referenties

Onderzoeksartikelen

Industrie rapporten en whitepapers

  • Faalwijzen in AI-systemen - Microsoft
  • Lessen uit 2025 over AI en vertrouwen - Google Cloud
  • De staat van AI-engineering - LangChain
  • Benchmark vs. evaluatie in de echte wereld - METR

Technische documentatie

  • Hoe we ons multi-agent onderzoekssysteem bouwden - Antropic
  • Specificatie protocol modelcontext - modelcontextprotocol.io
  • Fresh-Start Fietsdocumentatie (“Ralph Wiggum”) - Geoffrey Huntley (ghuntley.com/ralph/)