Victor Coimbra wurde für seine herausragenden Beiträge zur AI in die „Forbes Under 30 Brazil“-Liste aufgenommen. Er war Mitbegründer der lateinamerikanischen Niederlassung Artefact, die heute als globaler Technologie-Hub mit 200 Mitarbeitern fungiert. Er verfügt über fundierte Fachkenntnisse in der Skalierung AI und dem Aufbau leistungsstarker Tech-Teams auf internationalen Märkten.

Im März 2025 veröffentlichte eine Forschungsorganisation namens METR eine Erkenntnis, die weniger Beachtung fand, als sie verdient hätte. Sie hatten etwas Unmodisches gemessen: wie lange AI an Aufgaben arbeiten konnten, bevor sie ausfielen. Nicht, was sie in einer einzigen Interaktion leisten konnten. METR wollte wissen, wie lange sie eine kohärente, nützliche Leistung aufrechterhalten konnten.

Ihre Methodik war streng: 170 Aufgaben aus den Bereichen Software, Forschung und Problemlösung. Referenzwerte von Menschen aus 236 Durchläufen durch Fachexperten. Statistische Modellierung zur Vorhersage der Erfolgswahrscheinlichkeit auf der Grundlage der Aufgabendauer.

Das wichtigste Ergebnis: Die Fähigkeit, Aufgaben zu erledigen, hatte sich sechs Jahre lang ununterbrochen alle sieben Monate verdoppelt.

Mitte 2024 konnten führende AI Aufgaben zuverlässig erledigen, für die ein menschlicher Experte etwa neunzehn Minuten gebraucht hätte. Anfang 2025 hatte sich diese Zeit auf fast eine Stunde verlängert. Die neuesten Systeme benötigen über zwei Stunden. Die Kurve stieg immer steiler an.

Hinter dieser Schlagzeile verbirgt sich jedoch eine komplexere Geschichte.

Die Kluft zwischen Demos und Umsetzung

Im August 2025 veröffentlichte METR eine Folgestudie, die jedem zu denken geben sollte. Sie testeten AI achtzehn realen Aufgaben – also bei der Art von Arbeit, die in Unternehmen tatsächlich von Bedeutung ist.

Einige Ergebnisse sind:

  • Erfolgsquote bei automatisierten Tests: 38 %.
  • Ohne manuelle Nachbearbeitung einsatzbereit: 0 %.

Null. Kein einziges von der AI erstelltes Ergebnis AI ohne menschliches Eingreifen einsatzbereit. Selbst wenn die automatisierten Prüfungen bestanden wurden, wies jede Ausgabe Mängel auf: fehlende Dokumentation, unvollständige Überprüfung, Qualitätsprobleme, die in einem echten Unternehmen niemals einer Überprüfung standhalten würden.

Durchschnittliche Aufräumzeit: 26 Minuten – etwa ein Drittel der ursprünglichen Dauer der Aufgabe.

Diese Kluft zwischen automatisierten Benchmarks und der tatsächlichen Benutzerfreundlichkeit ist das erste Problem, über das niemand spricht. AI werden in den engen Bereichen, die Benchmarks messen, immer besser. Im Hinblick auf das gesamte Spektrum dessen, was „eine Aufgabe erledigen“ in der Praxis tatsächlich bedeutet, verbessern sie sich jedoch viel langsamer.

Diese Unterscheidung ist für jeden wichtig, der Investitionen plant. Ein System, das zwar einen Test besteht, aber unbrauchbare Ergebnisse liefert, ist kein System, das autonom funktionieren kann. Es ist ein System, bei dem jemand hinterher aufräumen muss.

Das Produktivitätsparadoxon

Hier ist das zweite Problem. Im Juli 2025 führte METR eine kontrollierte Studie mit sechzehn erfahrenen Fachleuten durch. Die Frage: Macht AI Menschen AI schneller?

Erwartetes Ergebnis vor der Studie: 24 % Beschleunigung.
Tatsächliches Ergebnis: 19 % Verlangsamung.

Personen, die AI nutzten, AI länger, um Aufgaben zu erledigen, als Personen, die ohne Unterstützung arbeiteten. Und hier kommt der beunruhigende Teil: Nach der Studie glaubten die Teilnehmer immer noch, sie hätten eine Geschwindigkeitssteigerung von 20 % erzielt. Ihre Wahrnehmung stand in krassem Gegensatz zur Realität.

Fünf Faktoren erklärten den Rückgang:

  1. Aufwand für die Fehlersuche. Die Zeit, die bei der Erstellung der Arbeit eingespart wurde, ging durch die Korrektur von Fehlern wieder verloren.
  2. Kosten des Kontextwechsels. Der Wechsel zwischen den Vorschlägen AIund der eigentlichen Arbeit verursachte eine kognitive Belastung.
  3. Lernkurve. Selbst erfahrene Fachleute brauchen Zeit, um herauszufinden, wie sie AI einsetzen können.
  4. Versteckte Qualitätsanforderungen. AI erforderten eine Dokumentation, Überprüfung und Formatierung, die die Systeme nicht bereitstellten.
  5. Praxisnahe Standards. Etablierte Unternehmen haben Qualitätsstandards, die AI Ergebnisse systematisch nicht erfüllen konnten.

Hier geht es nicht darum, AI nutzlos AI . Es geht vielmehr um die Kluft zwischen den Vorführungen der Anbieter und der Realität in den Unternehmen. Das Produktivitätsparadoxon legt nahe, dass AI derzeitige AI für erfahrene Fachkräfte, die mit ausgereiften Prozessen arbeiten, unter Umständen mehr Arbeit verursacht, als sie einspart.

Warum AI mit der Zeit an Leistung verlieren

Warum tun sich AI bei längeren Aufgaben schwer? Die Antwort liegt in der Architektur, doch die Auswirkungen sind strategischer Natur.

Stellen Sie sich AI ein Arbeitsgedächtnis vor – eine begrenzte Kapazität, um Informationen über die aktuelle Aufgabe zu speichern. Wenn diese Kapazität erschöpft ist, lässt die Leistung nach. Das System verliert den Überblick über frühere Entscheidungen. Es widerspricht sich selbst. Es vergisst, was es eigentlich erreichen wollte.

Jeder, der schon einmal länger als dreißig Minuten mit einem AI gearbeitet hat, weiß das aus eigener Erfahrung. Das System läuft zunächst reibungslos. Nach einer Stunde hat es jedoch Entscheidungen vergessen, die es vor zwanzig Minuten getroffen hat. Es macht Fehler, die es früher noch erkannt hätte. Es verliert den Faden.

Dies wurde durch Forschungsergebnisse belegt. Mit zunehmender Menge an Informationen, AI verarbeiten AI , kann die Genauigkeit um 20 bis 30 Prozentpunkte sinken. Eine Studie hat gezeigt, dass bei komplexen Denkaufgaben die Genauigkeit mit steigender Komplexität der Aufgabe von 82 % auf 22 % sank.

Die Mathematik ist gnadenlos. Kleine Fehler summieren sich. Wenn bei jeder Verarbeitung neuer Informationen durch das System auch nur eine Wahrscheinlichkeit von 1 % besteht, dass ein entscheidendes Detail verloren geht, sinkt die Wahrscheinlichkeit, dass dieses Detail erhalten bleibt, nach 100 Interaktionen auf 37 %.

Dies ist kein Fehler eines bestimmten Produkts. Es handelt sich um eine inhärente Einschränkung der Funktionsweise aktueller AI . Und sie setzt eine klare Grenze zwischen dem, was sie eigenständig bewältigen können, und dem, bei dem sie lediglich unterstützen können.

Nicht alle Aufgaben sind gleich

Die Untersuchungen von METR brachten eine weitere Komplikation zutage: AI variiert je nach Fachgebiet erheblich.

Bei analytischen und strukturierten Aufgaben wie data und der Erstellung von Berichten zeigen sich große Leistungsfähigkeiten – die Systeme bewältigen Aufgaben, für die Menschen ein bis drei Stunden benötigen würden.

Aufgaben, die eine Interaktion mit externen Systemen erfordern– wie das Durchsuchen von Daten, die plattformübergreifende Koordination oder die Verarbeitung visueller Informationen – weisen eine 40- bis 100-mal geringere Leistungsfähigkeit auf. Sie liegen in ihrer Reife etwa zwei Jahre zurück.

Anwendungen in der physischen Welt, wie beispielsweise autonome Fahrzeuge, entwickeln sich wesentlich langsamer als digitale Anwendungen.

Die Schlussfolgerung: Die AussageAI stundenlang arbeiten“ ist domänenspezifisch. Ein System, das eine zweistündige Analyseaufgabe bewältigt, könnte bei einer zwanzigminütigen Koordinationsaufgabe Schwierigkeiten haben. Die Leistungskurve verläuft nicht gleichmäßig.

Für Unternehmen bedeutet dies, dass AI von AI sorgfältig auf die jeweiligen Aufgabenmerkmale abgestimmt werden muss. Der Hype-Zyklus stellt AI Allzwecklösung dar. Die Realität sieht jedoch ganz anders aus.

Was dieser Trend tatsächlich bedeutet

METR bezeichnete seine Erkenntnisse als möglicherweise „einen der wichtigsten Trends in der Geschichte der Menschheit“. Das mag etwas übertrieben sein. Doch dieser Trend hält nun schon seit sechs Jahren an, und die Richtung ist eindeutig.

AI heutige AI nahezu perfekte Ergebnisse bei Aufgaben, für die Menschen weniger als vier Minuten benötigen. Bei Aufgaben, die mehr als vier Stunden in Anspruch nehmen, liegt die Erfolgsquote unter 10 %. Der interessante Bereich – und der Bereich, der für unternehmerische Entscheidungen von Bedeutung ist – liegt irgendwo dazwischen.

Hier ist meine ehrliche Einschätzung: Wir verfügen über AI bei klar definierten Aufgaben in bestimmten Bereichen ein bis zwei Stunden lang durchhalten kann. Diese Systeme können dies jedoch nicht zuverlässig leisten. Sie können dies nicht ohne menschliche Aufsicht tun. Und sie können dies nicht auf eine Weise tun, die den tatsächlichen Qualitätsstandards des Unternehmens entspricht, ohne dass nachbearbeitet werden muss.

Die Entwicklung deutet jedoch darauf hin, dass diese Einschränkungen möglicherweise nicht von Dauer sind. Jedes große AI optimiert seine Systeme für den Dauerbetrieb. Jeder ernsthafte Anwender entwickelt Umgehungslösungen für die derzeitigen Einschränkungen. Jede Unternehmensplattform erweitert ihre Infrastruktur um Funktionen für länger laufende AI .

Die Frage ist nicht, ob AI irgendwann stundenlang funktionieren AI . Die Frage ist, wann – und ob die aktuelle Generation von Lösungen dieses Ziel erreichen wird oder ob wir noch auf einen Durchbruch warten, der noch nicht eingetreten ist.

In Teil 2 werden wir die drei Ansätze untersuchen, die sich zur Verlängerung der Arbeitsdauer AI herauskristallisiert haben: Fresh-Start-Zyklen, selektives Gedächtnis und teamorientierte Koordination.

 

Referenzen

Forschungsarbeiten

Reports Whitepapers

  • Fehlerursachen in AI — Microsoft
  • Erkenntnisse aus dem Jahr 2025 zu AI Vertrauen – Google Cloud
  • Stand der AI – LangChain
  • Benchmark-Test vs. Praxistest — METR

Technische Dokumentation

  • Wie wir unser Multi-Agenten-Forschungssystem entwickelt haben — Anthropic
  • Spezifikation des Model Context Protocol — modelcontextprotocol.io
  • „Fresh-Start Cycling“-Dokumentation („Ralph Wiggum“) – Geoffrey Huntley (ghuntley.com/ralph/)