Victor Coimbra wurde in der Forbes Under 30 Brazil Liste für seine herausragenden Beiträge zur KI-Innovation ausgezeichnet. Er war Mitbegründer der lateinamerikanischen Niederlassung von Artefact, die heute als globaler Tech-Hub mit 200 Mitarbeitern fungiert. Er verfügt über umfassende Erfahrung in der Skalierung von KI-Lösungen und dem Aufbau von leistungsstarken Technologie-Teams auf internationalen Märkten.

Im März 2025 veröffentlichte eine Forschungsorganisation namens METR eine Erkenntnis, die weniger Beachtung fand, als sie verdient hätte. Sie hatten etwas Unmodisches gemessen: wie lange AI-Systeme Aufgaben ausführen konnten, bevor sie ausfielen. Nicht, was sie in einer einzelnen Interaktion leisten konnten. METR wollte wissen, wie lange sie eine kohärente, sinnvolle Leistung aufrechterhalten konnten.

Ihre Methodik war rigoros: 170 Aufgaben aus den Bereichen Software, Forschung und Problemlösung. Menschliche Basiswerte aus 236 Durchläufen von Fachexperten. Statistische Modellierung zur Vorhersage der Erfolgswahrscheinlichkeit auf der Grundlage der Aufgabendauer.

Das wichtigste Ergebnis: Die Fähigkeit, Aufgaben zu erledigen, hat sich seit sechs Jahren alle sieben Monate verdoppelt.

Mitte 2024 konnten führende KI-Systeme zuverlässig Aufgaben erledigen, für die ein menschlicher Experte etwa neunzehn Minuten benötigen würde. Anfang 2025 waren es dann schon fast eine Stunde. Die neuesten Systeme erreichen über zwei Stunden. Die Kurve hat sich beschleunigt.

Aber hinter dieser Schlagzeile verbirgt sich eine kompliziertere Geschichte.

Die Lücke zwischen Demos und Lieferung

Im August 2025 veröffentlichte METR einen Folgebericht, der jeden zum Nachdenken anregen sollte. Sie testeten KI an achtzehn realen Aufgaben - die Art von Arbeit, die in Unternehmen tatsächlich wichtig ist.

Einige Ergebnisse sind:

  • Automatisierter Test wird bestanden: 38%.
  • Sofort einsatzbereit, ohne dass eine menschliche Reinigung erforderlich ist: 0%.

Null. Kein einziges von der KI produziertes Werk war ohne menschliches Zutun einsatzbereit. Selbst wenn die automatisierten Prüfungen bestanden wurden, wies jede Ausgabe Lücken auf: fehlende Dokumentation, unvollständige Verifizierung, Qualitätsprobleme, die eine Überprüfung in einem echten Unternehmen niemals überstehen würden.

Durchschnittliche Bereinigungszeit: 26 Minuten - etwa ein Drittel der ursprünglichen Aufgabendauer.

Diese Kluft zwischen automatisierten Benchmarks und der realen Benutzerfreundlichkeit ist das erste Problem, über das niemand spricht. KI-Systeme werden immer besser in den engen Bereichen, die Benchmarks messen. Sie verbessern sich viel langsamer, wenn es darum geht, was die Erledigung einer Aufgabe in der Praxis wirklich bedeutet.

Diese Unterscheidung ist für jeden wichtig, der Investitionen plant. Ein System, das einen Test besteht, aber unbrauchbare Ergebnisse produziert, ist kein System, das autonom arbeiten kann. Es ist ein System, das jemanden braucht, der hinter ihm aufräumt.

Das Produktivitätsparadoxon

Hier ist das zweite Problem. Im Juli 2025 führte METR eine kontrollierte Studie mit sechzehn erfahrenen Fachleuten durch. Die Frage: Macht KI die Menschen tatsächlich schneller?

Erwartetes Ergebnis vor der Studie: 24% Beschleunigung.
Tatsächliches Ergebnis: 19% Verlangsamung.

Menschen, die KI nutzten, brauchten länger, um Aufgaben zu erledigen, als Menschen, die ohne Unterstützung arbeiteten. Und jetzt kommt der beunruhigende Teil: Nach der Studie glaubten die Teilnehmer immer noch, sie hätten eine Beschleunigung von 20% erhalten. Ihre Wahrnehmung war völlig verkehrt zur Realität.

Fünf Faktoren erklären die Verlangsamung:

  1. Overhead bei der Fehlersuche. Zeitersparnis bei der Erzeugung von Arbeit, die durch die Korrektur von Fehlern verloren ging.
  2. Kosten für den Kontextwechsel. Der Wechsel zwischen den Vorschlägen der KI und der eigentlichen Arbeit führte zu einer kognitiven Belastung.
  3. Lernkurve. Selbst erfahrene Profis brauchen Zeit, um herauszufinden, wie sie KI effektiv einsetzen können.
  4. Versteckte Qualitätsanforderungen. Die KI-Ausgabe erforderte eine Dokumentation, Überprüfung und Formatierung, die die Systeme nicht bieten konnten.
  5. Normen der realen Welt. Reife Unternehmen haben Qualitätsstandards, die KI-generierte Arbeit systematisch nicht erfüllt.

Dies ist keine Geschichte darüber, dass KI nutzlos ist. Es ist eine Geschichte über die Kluft zwischen den Demos der Anbieter und der Unternehmensrealität. Das Produktivitätsparadoxon deutet darauf hin, dass die derzeitige KI-Hilfe für erfahrene Fachleute in ausgereiften Prozessen möglicherweise mehr Arbeit verursacht als sie einspart.

Warum KI-Systeme mit der Zeit schlechter werden

Warum tun sich KI-Systeme mit längeren Aufgaben schwer? Die Antwort ist architektonisch, aber die Auswirkungen sind strategisch.

Stellen Sie sich vor, dass KI einen Arbeitsspeicher hat - eine begrenzte Kapazität, um Informationen über die aktuelle Aufgabe zu speichern. Wenn diese Kapazität erschöpft ist, sinkt die Leistung. Das System verliert den Überblick über frühere Entscheidungen. Es widerspricht sich selbst. Es vergisst, was es eigentlich erreichen wollte.

Jeder, der einen KI-Assistenten länger als dreißig Minuten benutzt hat, weiß das aus erster Hand. Das System beginnt scharf. Nach einer Stunde hat es Entscheidungen, die es vor zwanzig Minuten getroffen hat, vergessen. Es fügt Fehler ein, die es früher hätte erkennen können. Es verliert den Faden.

Die Forschung hat dies quantifiziert. Wenn die Menge der Informationen, die KI verarbeiten muss, wächst, kann die Genauigkeit um 20-30 Prozentpunkte sinken. Bei komplexen Denkaufgaben zeigte eine Studie, dass die Genauigkeit von 82% auf 22% fällt, wenn die Komplexität der Aufgabe zunimmt.

Die Mathematik ist unversöhnlich. Kleine Fehler summieren sich. Wenn auch nur eine 1% Chance besteht, dass ein kritisches Detail jedes Mal verloren geht, wenn das System neue Informationen verarbeitet, sinkt nach 100 Interaktionen die Chance, dieses Detail zu behalten, auf 37%.

Es handelt sich dabei nicht um einen Fehler in einem bestimmten Produkt. Es ist eine inhärente Einschränkung der Funktionsweise aktueller KI-Systeme. Und es schafft eine harte Grenze für das, was sie besitzen können, im Gegensatz zu dem, bei dem sie nur helfen können.

Nicht alle Aufgaben sind gleich

Die Recherchen von METR ergaben eine weitere Komplikation: Die KI-Fähigkeiten variieren dramatisch je nach Bereich.

Analytische und strukturierte Aufgaben wie die data-Analyse und die Erstellung von Berichten zeigen, dass die Systeme in der Lage sind, Arbeiten zu erledigen, für die ein Mensch eine bis drei Stunden benötigen würde.

Aufgaben, die eine Interaktion mit externen Systemen erfordern-Browsing, plattformübergreifende Koordination, Umgang mit visuellen Informationen- zeigen 40-100x geringere Fähigkeiten. Sie liegen etwa zwei Jahre hinter der Reife zurück.

Anwendungen in der physischen Welt wie autonome Fahrzeuge verbessern sich viel langsamer als digitale Aufgaben.

Die Implikation: “KI kann stundenlang arbeiten” ist domänenspezifisch. Ein System, das eine zweistündige analytische Aufgabe bewältigt, kann mit einer zwanzigminütigen Koordinationsaufgabe Schwierigkeiten haben. Die Fähigkeitskurve ist nicht einheitlich.

Für Unternehmen bedeutet dies eine sorgfältige Abstimmung des KI-Einsatzes auf die Aufgabenmerkmale. Im Hype-Zyklus wird KI als Allzwecklösung behandelt. Die Realität ist jedoch sehr spezifisch.

Was der Trend tatsächlich bedeutet

METR beschrieb ihre Ergebnisse als “einen der wichtigsten Trends in der Geschichte der Menschheit”. Das ist vielleicht etwas übertrieben. Aber der Trend hält seit sechs Jahren an, und die Richtung ist klar.

Heutige KI ist bei Aufgaben, für die Menschen weniger als vier Minuten benötigen, nahezu perfekt. Bei Aufgaben, die mehr als vier Stunden dauern, ist sie weniger als 10% erfolgreich. Der interessante Bereich - und der Bereich, der für Unternehmensentscheidungen wichtig ist - liegt irgendwo dazwischen.

Hier meine ehrliche Einschätzung: Wir haben eine KI, die sich ein bis zwei Stunden lang um genau definierte Aufgaben in bestimmten Bereichen kümmern kann. Diese Systeme können dies nicht zuverlässig tun. Sie können dies nicht ohne menschliche Aufsicht tun. Sie können dies nicht auf eine Art und Weise tun, die echten organisatorischen Qualitätsstandards entspricht, ohne sie zu bereinigen.

Aber die Entwicklung deutet darauf hin, dass diese Einschränkungen nicht von Dauer sein werden. Jedes große KI-Unternehmen optimiert für einen dauerhaften Betrieb. Jeder ernsthafte Anwender entwickelt Umgehungslösungen für aktuelle Einschränkungen. Jede Unternehmensplattform fügt eine Infrastruktur für länger andauernde KI-Arbeit hinzu.

Die Frage ist nicht, ob KI irgendwann stundenlang funktionieren wird. Die Frage ist, wann - und ob die aktuelle Generation von Lösungen das Ziel erreichen wird oder ob wir noch auf einen Durchbruch warten, der noch nicht stattgefunden hat.

Unter Teil 2, In diesem Abschnitt werden wir die drei Ansätze untersuchen, die sich für die Verlängerung der KI-Arbeitsdauer herauskristallisiert haben: Frischstart-Zyklen, selektives Gedächtnis und teambasierte Koordination.

 

Referenzen

Forschungspapiere

Branchenberichte & Whitepapers

  • Fehlermodi in KI-Systemen - Microsoft
  • Lektionen aus dem Jahr 2025 über KI und Vertrauen - Google Cloud
  • Stand der KI-Technik - LangChain
  • Benchmark vs. Bewertung in der realen Welt - METR

Technische Dokumentation

  • Wie wir unser Multi-Agenten-Forschungssystem aufgebaut haben - Anthropic
  • Spezifikation des Modellkontextprotokolls - modelcontextprotocol.io
  • Fresh-Start Cycling Dokumentation (“Ralph Wiggum”) - Geoffrey Huntley (ghuntley.com/ralph/)