Victor Coimbra is opgenomen in de Forbes Under 30 Brazil-lijst vanwege zijn uitmuntende bijdragen aan AI . Hij was medeoprichter van de Latijns-Amerikaanse tak Artefact, die inmiddels is uitgegroeid tot een wereldwijd tech-centrum met 200 medewerkers. Hij beschikt over diepgaande expertise in het opschalen AI en het samenstellen van hoogpresterende tech-teams op internationale markten.

In maart 2025 publiceerde een onderzoeksorganisatie genaamd METR een bevinding die minder aandacht kreeg dan ze verdiende. Ze hadden iets gemeten wat niet erg in de mode was: hoe lang AI aan taken konden werken voordat ze het begaven. Niet wat ze tijdens één enkele interactie konden doen. METR wilde weten hoe lang ze een samenhangende, nuttige inspanning konden volhouden.

Hun methodologie was rigoureus: 170 taken op het gebied van software, onderzoek en probleemoplossing. Referentiewaarden van menselijke prestaties, afkomstig uit 236 testruns door domeinexperts. Statistische modellen om de kans op succes te voorspellen op basis van de duur van de taak.

De belangrijkste bevinding: het vermogen om taken te voltooien was zes jaar lang onafgebroken elke zeven maanden verdubbeld.

Halverwege 2024 konden toonaangevende AI taken betrouwbaar uitvoeren waar een menselijke expert ongeveer negentien minuten over zou doen. Begin 2025 was die tijd opgelopen tot bijna een uur. De nieuwste systemen doen er meer dan twee uur over. De stijging versnelde.

Maar achter die kop gaat een ingewikkelder verhaal schuil.

De kloof tussen demonstraties en uitvoering

In augustus 2025 publiceerde METR een vervolgonderzoek dat iedereen aan het denken had moeten zetten. Ze testten AI achttien praktische taken – het soort werk dat er in organisaties echt toe doet.

Enkele resultaten zijn:

  • Slaagpercentage van geautomatiseerde tests: 38%.
  • Klaar voor gebruik zonder dat er door mensen hoeft te worden schoongemaakt: 0%.

Nul. Geen enkel door de AI geproduceerd werkstuk AI zonder menselijke tussenkomst klaar voor gebruik. Zelfs als de geautomatiseerde controles werden doorstaan, vertoonde elke output tekortkomingen: ontbrekende documentatie, onvolledige verificatie, kwaliteitsproblemen die in een echte organisatie nooit door de beoordeling zouden komen.

Gemiddelde opruimtijd: 26 minuten – ongeveer een derde van de oorspronkelijke duur van de taak.

Deze kloof tussen geautomatiseerde benchmarks en de bruikbaarheid in de praktijk is het eerste probleem waar niemand het over heeft. AI worden steeds beter in de specifieke aspecten die benchmarks meten. Ze boeken echter veel minder snel vooruitgang als het gaat om de volledige reikwijdte van wat ‘een taak voltooien’ in de praktijk werkelijk inhoudt.

Dit onderscheid is van belang voor iedereen die van plan is te investeren. Een systeem dat weliswaar een test doorstaat, maar onbruikbare resultaten oplevert, is geen systeem dat zelfstandig kan functioneren. Het is een systeem waarvoor iemand anders de rommel moet opruimen.

De productiviteitsparadox

Hier is het tweede probleem. In juli 2025 voerde METR een gecontroleerd onderzoek uit onder zestien ervaren professionals. De vraag: maakt AI mensen AI sneller?

Verwacht resultaat vóór het onderzoek: 24% snellere verwerking.
Werkelijk resultaat: 19% vertraging.

Mensen die gebruik maakten van AI meer AI om taken uit te voeren dan mensen die zonder hulp werkten. En dit is het verontrustende: na afloop van het onderzoek waren de deelnemers er nog steeds van overtuigd dat ze 20% sneller waren geworden. Hun perceptie stond haaks op de werkelijkheid.

Vijf factoren verklaarden de vertraging:

  1. De overhead van het opsporen van fouten. De tijd die werd bespaard bij het genereren van het werk, ging verloren aan het corrigeren van fouten.
  2. Kosten van contextwisseling. Het heen en weer schakelen tussen de suggesties AIen het daadwerkelijke werk zorgde voor een cognitieve belasting.
  3. Leercurve. Zelfs ervaren professionals hebben tijd nodig om te ontdekken hoe ze AI kunnen inzetten.
  4. Verborgen kwaliteitseisen. AI vereiste documentatie, verificatie en opmaak die de systemen niet boden.
  5. Praktijknormen. Gevestigde organisaties hanteren kwaliteitsnormen waaraan AI werk stelselmatig niet voldeed.

Dit verhaal gaat niet over het feit AI nutteloos AI . Het gaat over de kloof tussen de demo’s van leveranciers en de realiteit binnen organisaties. De productiviteitsparadox suggereert dat AI huidige AI voor ervaren professionals die met volwassen processen werken, mogelijk meer werk veroorzaakt dan dat het bespaart.

Waarom AI na verloop van tijd minder goed gaan presteren

Waarom hebben AI moeite met langere taken? Het antwoord ligt in de architectuur, maar de gevolgen zijn van strategisch belang.

Stel je voor AI een werkgeheugen heeft – een beperkte capaciteit om informatie over de huidige taak vast te houden. Naarmate die capaciteit volloopt, gaan de prestaties achteruit. Het systeem raakt de draad kwijt van eerdere beslissingen. Het spreekt zichzelf tegen. Het vergeet wat het probeerde te bereiken.

Iedereen die al eens langer dan dertig minuten met een AI heeft gewerkt, weet dit uit eigen ervaring. Het systeem begint scherp. Na een uur is het beslissingen vergeten die twintig minuten geleden zijn genomen. Het maakt fouten die het eerder wel zou hebben opgemerkt. Het raakt de draad kwijt.

Onderzoek heeft dit in cijfers uitgedrukt. Naarmate de hoeveelheid informatie die AI verwerken toeneemt, kan de nauwkeurigheid met 20 tot 30 procentpunten afnemen. Bij complexe redeneertaken bleek uit een onderzoek dat de nauwkeurigheid daalde van 82% naar 22% naarmate de taak complexer werd.

De wiskunde is meedogenloos. Kleine fouten stapelen zich op. Als er ook maar 1% kans bestaat dat er telkens wanneer het systeem nieuwe informatie verwerkt een cruciaal detail verloren gaat, daalt de kans dat dat detail behouden blijft na 100 interacties tot 37%.

Dit is geen fout in een specifiek product. Het is een inherente beperking van de manier waarop huidige AI werken. En het zorgt ervoor dat er een duidelijke grens ligt tussen wat ze zelfstandig kunnen doen en waar ze alleen bij kunnen helpen.

Niet alle taken zijn even belangrijk

Uit onderzoek van METR bleek nog een complicatie: AI lopen per domein sterk uiteen.

Bij analytische en gestructureerde taken, zoals data en het opstellen van rapporten, blinken de systemen uit: ze kunnen werk aan en dat mensen anders één tot drie uur zou kosten.

Taken waarbij interactie met externe systemen vereist is– zoals browsen, coördinatie tussen verschillende platforms en het verwerken van visuele informatie – laten een 40 tot 100 keer lagere capaciteit zien. Deze taken lopen qua volwassenheid ongeveer twee jaar achter.

Toepassingen in de fysieke wereld, zoals zelfrijdende auto’s, maken veel minder snel vorderingen dan digitale toepassingen.

De implicatie:AI urenlang doorwerken“ is domeinspecifiek. Een systeem dat een analytische taak van twee uur aankan, kan moeite hebben met een coördinatietaak van twintig minuten. De prestatiecurve is niet uniform.

Voor organisaties betekent dit dat AI van AI zorgvuldig moet worden afgestemd op de kenmerken van de taak. In de hype-cyclus wordt AI gezien AI een universele oplossing. De werkelijkheid is echter heel specifiek.

Wat deze trend nu eigenlijk betekent

METR omschreef hun bevindingen als mogelijk „een van de belangrijkste trends in de geschiedenis van de mensheid“. Dat is misschien wat overdreven. Maar de trend houdt al zes jaar aan en de richting is duidelijk.

AI huidige AI bijna feilloos bij taken die mensen minder dan vier minuten kosten. Bij taken die meer dan vier uur in beslag nemen, haalt ze een succespercentage van minder dan 10%. De interessante zone – en de zone die van belang is voor organisatorische beslissingen – ligt ergens daar tussenin.

Dit is mijn eerlijke mening: we beschikken over AI één tot twee uur lang prestaties kan leveren bij duidelijk omschreven taken op specifieke gebieden. Deze systemen kunnen dit echter niet op betrouwbare wijze. Ze kunnen dit niet zonder menselijk toezicht. Ze kunnen dit niet op een manier die voldoet aan de daadwerkelijke kwaliteitsnormen van de organisatie, zonder dat er achteraf nog moet worden bijgewerkt.

Maar de ontwikkeling lijkt erop te wijzen dat deze beperkingen wellicht niet blijvend zijn. Elke groteorganisatie naar een continue werking. Elke serieuze gebruiker zoekt naar oplossingen voor de huidige beperkingen. Elk bedrijfsplatform breidt zijn infrastructuur uit voor AI langere tijd draaien.

De vraag is niet of AI uiteindelijk urenlang AI werken. De vraag is wanneer – en of de huidige generatie oplossingen dat zal bereiken, of dat we nog steeds wachten op een doorbraak die zich nog niet heeft voorgedaan.

In deel 2 zullen we de drie benaderingen bekijken die zijn ontstaan om de AI te verlengen: fresh-start-cycling, selectief geheugen en teamgebaseerde coördinatie.

 

Referenties

Wetenschappelijke artikelen

Brancherapporten Reports whitepapers

  • Foutmodi in AI — Microsoft
  • Lessen uit 2025 over AI vertrouwen — Google Cloud
  • De stand van zaken in AI — LangChain
  • Benchmark versus praktijkevaluatie — METR

Technische documentatie

  • Hoe we ons multi-agent onderzoekssysteem hebben ontwikkeld — Anthropic
  • Specificatie van het Model Context Protocol — modelcontextprotocol.io
  • Documentatie over Fresh-Start Cycling („Ralph Wiggum“) — Geoffrey Huntley (ghuntley.com/ralph/)