Victor Coimbra is opgenomen in de Forbes Under 30 Brazil lijst voor zijn opmerkelijke bijdragen aan AI-innovatie. Hij was medeoprichter van de Latijns-Amerikaanse activiteiten van Artefact, die nu dienen als een wereldwijde tech hub met 200 werknemers. Hij heeft veel expertise in het schalen van AI-oplossingen en het bouwen van high-performance tech teams in internationale markten.

In maart 2025 publiceerde een onderzoeksorganisatie met de naam METR een bevinding die minder aandacht kreeg dan het verdiende. Ze hadden iets onmodieus gemeten: hoe lang AI systemen aan taken konden werken voordat ze kapot gingen. Niet wat ze in één enkele interactie konden doen. METR wilde weten hoe lang ze samenhangende, nuttige inspanningen konden leveren.

Hun methodologie was rigoureus: 170 taken op het gebied van software, onderzoek en probleemoplossing. Menselijke basislijnen van 236 taken uitgevoerd door domeinexperts. Statistische modellering om succeskansen te voorspellen op basis van taakduur.

De belangrijkste bevinding: de capaciteiten om taken uit te voeren zijn al zes jaar lang elke zeven maanden verdubbeld.

Halverwege 2024 konden toonaangevende AI-systemen betrouwbaar taken voltooien waar een menselijke expert ongeveer negentien minuten over zou doen. Begin 2025 was dat al bijna een uur. De nieuwste systemen halen meer dan twee uur. De curve versnelde.

Maar achter die krantenkop gaat een ingewikkelder verhaal schuil.

De kloof tussen demo's en levering

In augustus 2025 publiceerde METR een vervolg dat iedereen aan het denken had moeten zetten. Ze testten AI op achttien echte taken - het soort werk dat er echt toe doet in organisaties.

Enkele resultaten zijn:

  • Slaagpercentage geautomatiseerde test: 38%.
  • Klaar voor gebruik zonder menselijke reiniging: 0%.

Nul. Geen enkel werkstuk dat door de AI werd geproduceerd, was klaar voor gebruik zonder menselijke tussenkomst. Zelfs als de geautomatiseerde controles slaagden, vertoonde elke output hiaten: ontbrekende documentatie, onvolledige verificatie, kwaliteitsproblemen die een beoordeling in een echte organisatie nooit zouden overleven.

Gemiddelde opruimtijd: 26 minuten - ongeveer een derde van de oorspronkelijke taakduur.

Deze kloof tussen geautomatiseerde benchmarks en echte bruikbaarheid is het eerste probleem waar niemand over praat. AI-systemen worden steeds beter in de enge dingen die benchmarks meten. Ze worden veel langzamer beter in de volledige reikwijdte van wat “een taak voltooien” in de praktijk betekent.

Dit onderscheid is belangrijk voor iedereen die investeringen plant. Een systeem dat een test doorstaat maar onbruikbare uitvoer produceert, is geen systeem dat autonoom kan werken. Het is een systeem dat iemand nodig heeft om het op te ruimen.

De productiviteitsparadox

Hier is het tweede probleem. In juli 2025 voerde METR een gecontroleerd onderzoek uit met zestien ervaren professionals. De vraag: maakt AI mensen daadwerkelijk sneller?

Verwacht resultaat vóór het onderzoek: 24% snelheidsverbetering.
Werkelijk resultaat: 19% vertraging.

Mensen die AI gebruikten deden er langer over om taken te voltooien dan mensen die zonder hulp werkten. En hier komt het verontrustende gedeelte: na het onderzoek dachten de deelnemers nog steeds dat ze een versnelling van 20% hadden gekregen. Hun perceptie was volledig omgekeerd aan de werkelijkheid.

Vijf factoren verklaarden de vertraging:

  1. Debug-overhead. Er ging tijd verloren met het corrigeren van fouten.
  2. Contextomschakelingskosten. Het heen en weer bewegen tussen de suggesties van de AI en het eigenlijke werk zorgde voor cognitieve belasting.
  3. Leercurve. Zelfs ervaren professionals besteden tijd aan het uitzoeken hoe ze AI effectief kunnen gebruiken.
  4. Verborgen kwaliteitseisen. AI-uitvoer vereiste documentatie, verificatie en opmaak die de systemen niet leverden.
  5. Normen uit de echte wereld. Volwassen organisaties hebben kwaliteitsbalken waar het door AI gegenereerde werk systematisch niet aan voldeed.

Dit is geen verhaal over AI die nutteloos is. Het is een verhaal over de kloof tussen verkopersdemo's en de organisatorische realiteit. De productiviteitsparadox suggereert dat voor ervaren professionals op volwassen processen, de huidige AI-hulp meer werk kan creëren dan het bespaart.

Waarom AI-systemen na verloop van tijd degraderen

Waarom hebben AI-systemen moeite met langere taken? Het antwoord is architecturaal, maar de implicaties zijn strategisch.

Zie AI als iemand met een werkgeheugen - een beperkte capaciteit om informatie over de huidige taak vast te houden. Als die capaciteit vol raakt, gaan de prestaties achteruit. Het systeem verliest eerdere beslissingen uit het oog. Het spreekt zichzelf tegen. Het vergeet wat het probeerde te bereiken.

Iedereen die een AI-assistent langer dan dertig minuten heeft gebruikt, weet dit uit eerste hand. Het systeem begint scherp. Na een uur is het beslissingen van twintig minuten geleden vergeten. Het introduceert fouten die het eerder zou hebben opgemerkt. Het raakt de draad kwijt.

Onderzoek heeft dit gekwantificeerd. Naarmate de hoeveelheid informatie die AI moet bijhouden toeneemt, kan de nauwkeurigheid met 20-30 procentpunten dalen. Bij complexe redeneertaken bleek uit één onderzoek dat de nauwkeurigheid daalde van 82% naar 22% naarmate de complexiteit van de taak toenam.

De wiskunde is onvergeeflijk. Kleine fouten stapelen zich op. Als er ook maar een kans van 1% is dat een kritiek detail verloren gaat telkens als het systeem nieuwe informatie verwerkt, dan daalt de kans dat dat detail behouden blijft na 100 interacties tot 37%.

Dit is geen fout in een bepaald product. Het is een inherente beperking van hoe de huidige AI-systemen werken. En het creëert een hard plafond voor wat ze kunnen bezitten versus waar ze alleen maar bij kunnen helpen.

Niet alle taken zijn gelijk

Het onderzoek van METR bracht nog een complicatie aan het licht: Het AI-vermogen varieert enorm per domein.

Analytische en gestructureerde taken zoals data analyse en rapportgeneratie laten zien dat de systemen zeer capabel zijn en werk aankunnen waar mensen één tot drie uur voor nodig zouden hebben.

Taken die interactie met externe systemen vereisen-browsing, coördinatie tussen platforms, verwerking van visuele informatie, tonen een 40-100x lager vermogen. Ze lopen ruwweg twee jaar achter in volwassenheid.

Toepassingen in de fysieke wereld zoals autonome voertuigen verbeteren veel langzamer dan digitale taken.

De implicatie: “AI kan urenlang werken” is domeinspecifiek. Een systeem dat een analytische taak van twee uur aankan, kan moeite hebben met een coördinatietaak van twintig minuten. De capaciteitencurve is niet uniform.

Voor organisaties betekent dit dat de inzet van AI zorgvuldig moet worden afgestemd op de kenmerken van de taak. De hype-cyclus behandelt AI als een oplossing voor algemene doeleinden. De realiteit is zeer specifiek.

Wat de trend eigenlijk betekent

METR beschreef hun bevindingen als mogelijk “een van de belangrijkste trends in de menselijke geschiedenis”. Dat is misschien wat overdreven. Maar de trend houdt al zes jaar aan, en de richting is duidelijk.

De huidige AI slaagt bijna perfect bij taken die mensen minder dan vier minuten kosten. Het succes is minder dan 10% bij taken die meer dan vier uur duren. De interessante zone - en de zone die belangrijk is voor organisatorische beslissingen - ligt daar ergens tussenin.

Hier is mijn eerlijke beoordeling: we hebben AI die één tot twee uur kan werken aan goed gedefinieerde taken in specifieke domeinen. Deze systemen kunnen dit niet betrouwbaar. Ze kunnen dit niet zonder menselijk toezicht. Ze kunnen dit niet doen op een manier die voldoet aan echte organisatorische kwaliteitsnormen zonder opschoning.

Maar het traject suggereert dat deze beperkingen misschien niet blijvend zijn. Elk groot AI-bedrijf optimaliseert voor duurzame werking. Elke serieuze toepasser bouwt workarounds voor de huidige beperkingen. Elk bedrijfsplatform voegt infrastructuur toe voor langer lopend AI-werk.

De vraag is niet of AI uiteindelijk voor uren zal werken. De vraag is wanneer - en of de huidige generatie oplossingen zover zal komen, of dat we nog steeds wachten op een doorbraak die nog niet heeft plaatsgevonden.

In Deel 2, We zullen de drie benaderingen onderzoeken die naar voren zijn gekomen voor het verlengen van de werkduur van AI: fresh-start cycling, selectief geheugen en teamgebaseerde coördinatie.

 

Referenties

Onderzoeksartikelen

Industrie rapporten en whitepapers

  • Faalwijzen in AI-systemen - Microsoft
  • Lessen uit 2025 over AI en vertrouwen - Google Cloud
  • De staat van AI-engineering - LangChain
  • Benchmark vs. evaluatie in de echte wereld - METR

Technische documentatie

  • Hoe we ons multi-agent onderzoekssysteem bouwden - Antropic
  • Specificatie protocol modelcontext - modelcontextprotocol.io
  • Fresh-Start Fietsdocumentatie (“Ralph Wiggum”) - Geoffrey Huntley (ghuntley.com/ralph/)