{"id":1083983,"date":"2026-02-06T10:28:09","date_gmt":"2026-02-06T10:28:09","guid":{"rendered":"https:\/\/www.artefact.com\/?post_type=blog&#038;p=1083983"},"modified":"2026-02-10T16:18:03","modified_gmt":"2026-02-10T16:18:03","slug":"long-run-ai-agents-part-1-the-problem-nobody-talks-about","status":"publish","type":"blog","link":"https:\/\/www.artefact.com\/de\/blog\/long-run-ai-agents-part-1-the-problem-nobody-talks-about\/","title":{"rendered":"Langzeit-AI-Agenten, Teil 1: Das Problem, \u00fcber das niemand spricht"},"content":{"rendered":"<p><em><a href=\"https:\/\/www.linkedin.com\/in\/victor-coimbra-999a02a0\/\" target=\"_blank\" rel=\"noopener\">Victor Coimbra<\/a> wurde in der Forbes Under 30 Brazil Liste f\u00fcr seine herausragenden Beitr\u00e4ge zur KI-Innovation ausgezeichnet. Er war Mitbegr\u00fcnder der lateinamerikanischen Niederlassung von Artefact, die heute als globaler Tech-Hub mit 200 Mitarbeitern fungiert. Er verf\u00fcgt \u00fcber umfassende Erfahrung in der Skalierung von KI-L\u00f6sungen und dem Aufbau von leistungsstarken Technologie-Teams auf internationalen M\u00e4rkten.<\/em><\/p>\n<p>Im M\u00e4rz 2025 ver\u00f6ffentlichte eine Forschungsorganisation namens METR eine Erkenntnis, die weniger Beachtung fand, als sie verdient h\u00e4tte. Sie hatten etwas Unmodisches gemessen: wie lange AI-Systeme Aufgaben ausf\u00fchren konnten, bevor sie ausfielen. Nicht, was sie in einer einzelnen Interaktion leisten konnten. METR wollte wissen, wie lange sie eine koh\u00e4rente, sinnvolle Leistung aufrechterhalten konnten.<\/p>\n<p>Ihre Methodik war rigoros: 170 Aufgaben aus den Bereichen Software, Forschung und Probleml\u00f6sung. Menschliche Basiswerte aus 236 Durchl\u00e4ufen von Fachexperten. Statistische Modellierung zur Vorhersage der Erfolgswahrscheinlichkeit auf der Grundlage der Aufgabendauer.<\/p>\n<p>Das wichtigste Ergebnis: Die F\u00e4higkeit, Aufgaben zu erledigen, hat sich seit sechs Jahren alle sieben Monate verdoppelt.<\/p>\n<p>Mitte 2024 konnten f\u00fchrende KI-Systeme zuverl\u00e4ssig Aufgaben erledigen, f\u00fcr die ein menschlicher Experte etwa neunzehn Minuten ben\u00f6tigen w\u00fcrde. Anfang 2025 waren es dann schon fast eine Stunde. Die neuesten Systeme erreichen \u00fcber zwei Stunden. Die Kurve hat sich beschleunigt.<\/p>\n<p>Aber hinter dieser Schlagzeile verbirgt sich eine kompliziertere Geschichte.<\/p>\n<h2>Die L\u00fccke zwischen Demos und Lieferung<\/h2>\n<p>Im August 2025 ver\u00f6ffentlichte METR einen Folgebericht, der jeden zum Nachdenken anregen sollte. Sie testeten KI an achtzehn realen Aufgaben - die Art von Arbeit, die in Unternehmen tats\u00e4chlich wichtig ist.<\/p>\n<p>Einige Ergebnisse sind:<\/p>\n<ul>\n<li>Automatisierter Test wird bestanden: 38%.<\/li>\n<li>Sofort einsatzbereit, ohne dass eine menschliche Reinigung erforderlich ist: 0%.<\/li>\n<\/ul>\n<p>Null. Kein einziges von der KI produziertes Werk war ohne menschliches Zutun einsatzbereit. Selbst wenn die automatisierten Pr\u00fcfungen bestanden wurden, wies jede Ausgabe L\u00fccken auf: fehlende Dokumentation, unvollst\u00e4ndige Verifizierung, Qualit\u00e4tsprobleme, die eine \u00dcberpr\u00fcfung in einem echten Unternehmen niemals \u00fcberstehen w\u00fcrden.<\/p>\n<p>Durchschnittliche Bereinigungszeit: 26 Minuten - etwa ein Drittel der urspr\u00fcnglichen Aufgabendauer.<\/p>\n<p>Diese Kluft zwischen automatisierten Benchmarks und der realen Benutzerfreundlichkeit ist das erste Problem, \u00fcber das niemand spricht. KI-Systeme werden immer besser in den engen Bereichen, die Benchmarks messen. Sie verbessern sich viel langsamer, wenn es darum geht, was die Erledigung einer Aufgabe in der Praxis wirklich bedeutet.<\/p>\n<p>Diese Unterscheidung ist f\u00fcr jeden wichtig, der Investitionen plant. Ein System, das einen Test besteht, aber unbrauchbare Ergebnisse produziert, ist kein System, das autonom arbeiten kann. Es ist ein System, das jemanden braucht, der hinter ihm aufr\u00e4umt.<\/p>\n<h2>Das Produktivit\u00e4tsparadoxon<\/h2>\n<p>Hier ist das zweite Problem. Im Juli 2025 f\u00fchrte METR eine kontrollierte Studie mit sechzehn erfahrenen Fachleuten durch. Die Frage: Macht KI die Menschen tats\u00e4chlich schneller?<\/p>\n<p><strong>Erwartetes Ergebnis vor der Studie: 24% Beschleunigung.<\/strong><br \/>\n<strong>Tats\u00e4chliches Ergebnis: 19% Verlangsamung.<\/strong><\/p>\n<p>Menschen, die KI nutzten, brauchten l\u00e4nger, um Aufgaben zu erledigen, als Menschen, die ohne Unterst\u00fctzung arbeiteten. Und jetzt kommt der beunruhigende Teil: Nach der Studie glaubten die Teilnehmer immer noch, sie h\u00e4tten eine Beschleunigung von 20% erhalten. Ihre Wahrnehmung war v\u00f6llig verkehrt zur Realit\u00e4t.<\/p>\n<p>F\u00fcnf Faktoren erkl\u00e4ren die Verlangsamung:<\/p>\n<ol>\n<li><strong>Overhead bei der Fehlersuche.<\/strong> Zeitersparnis bei der Erzeugung von Arbeit, die durch die Korrektur von Fehlern verloren ging.<\/li>\n<li><strong>Kosten f\u00fcr den Kontextwechsel.<\/strong> Der Wechsel zwischen den Vorschl\u00e4gen der KI und der eigentlichen Arbeit f\u00fchrte zu einer kognitiven Belastung.<\/li>\n<li><strong>Lernkurve.<\/strong> Selbst erfahrene Profis brauchen Zeit, um herauszufinden, wie sie KI effektiv einsetzen k\u00f6nnen.<\/li>\n<li><strong>Versteckte Qualit\u00e4tsanforderungen.<\/strong> Die KI-Ausgabe erforderte eine Dokumentation, \u00dcberpr\u00fcfung und Formatierung, die die Systeme nicht bieten konnten.<\/li>\n<li><strong>Normen der realen Welt.<\/strong> Reife Unternehmen haben Qualit\u00e4tsstandards, die KI-generierte Arbeit systematisch nicht erf\u00fcllt.<\/li>\n<\/ol>\n<p>Dies ist keine Geschichte dar\u00fcber, dass KI nutzlos ist. Es ist eine Geschichte \u00fcber die Kluft zwischen den Demos der Anbieter und der Unternehmensrealit\u00e4t. Das Produktivit\u00e4tsparadoxon deutet darauf hin, dass die derzeitige KI-Hilfe f\u00fcr erfahrene Fachleute in ausgereiften Prozessen m\u00f6glicherweise mehr Arbeit verursacht als sie einspart.<\/p>\n<h2>Warum KI-Systeme mit der Zeit schlechter werden<\/h2>\n<p>Warum tun sich KI-Systeme mit l\u00e4ngeren Aufgaben schwer? Die Antwort ist architektonisch, aber die Auswirkungen sind strategisch.<\/p>\n<p>Stellen Sie sich vor, dass KI einen Arbeitsspeicher hat - eine begrenzte Kapazit\u00e4t, um Informationen \u00fcber die aktuelle Aufgabe zu speichern. Wenn diese Kapazit\u00e4t ersch\u00f6pft ist, sinkt die Leistung. Das System verliert den \u00dcberblick \u00fcber fr\u00fchere Entscheidungen. Es widerspricht sich selbst. Es vergisst, was es eigentlich erreichen wollte.<\/p>\n<p>Jeder, der einen KI-Assistenten l\u00e4nger als drei\u00dfig Minuten benutzt hat, wei\u00df das aus erster Hand. Das System beginnt scharf. Nach einer Stunde hat es Entscheidungen, die es vor zwanzig Minuten getroffen hat, vergessen. Es f\u00fcgt Fehler ein, die es fr\u00fcher h\u00e4tte erkennen k\u00f6nnen. Es verliert den Faden.<\/p>\n<p>Die Forschung hat dies quantifiziert. Wenn die Menge der Informationen, die KI verarbeiten muss, w\u00e4chst, kann die Genauigkeit um 20-30 Prozentpunkte sinken. Bei komplexen Denkaufgaben zeigte eine Studie, dass die Genauigkeit von 82% auf 22% f\u00e4llt, wenn die Komplexit\u00e4t der Aufgabe zunimmt.<\/p>\n<p>Die Mathematik ist unvers\u00f6hnlich. Kleine Fehler summieren sich. Wenn auch nur eine 1% Chance besteht, dass ein kritisches Detail jedes Mal verloren geht, wenn das System neue Informationen verarbeitet, sinkt nach 100 Interaktionen die Chance, dieses Detail zu behalten, auf 37%.<\/p>\n<p>Es handelt sich dabei nicht um einen Fehler in einem bestimmten Produkt. Es ist eine inh\u00e4rente Einschr\u00e4nkung der Funktionsweise aktueller KI-Systeme. Und es schafft eine harte Grenze f\u00fcr das, was sie besitzen k\u00f6nnen, im Gegensatz zu dem, bei dem sie nur helfen k\u00f6nnen.<\/p>\n<h2>Nicht alle Aufgaben sind gleich<\/h2>\n<p>Die Recherchen von METR ergaben eine weitere Komplikation: Die KI-F\u00e4higkeiten variieren dramatisch je nach Bereich.<\/p>\n<p><strong>Analytische und strukturierte Aufgaben<\/strong> wie die data-Analyse und die Erstellung von Berichten zeigen, dass die Systeme in der Lage sind, Arbeiten zu erledigen, f\u00fcr die ein Mensch eine bis drei Stunden ben\u00f6tigen w\u00fcrde.<\/p>\n<p><strong>Aufgaben, die eine Interaktion mit externen Systemen erfordern<\/strong>-Browsing, plattform\u00fcbergreifende Koordination, Umgang mit visuellen Informationen- zeigen 40-100x geringere F\u00e4higkeiten. Sie liegen etwa zwei Jahre hinter der Reife zur\u00fcck.<\/p>\n<p><strong>Anwendungen in der physischen Welt<\/strong> wie autonome Fahrzeuge verbessern sich viel langsamer als digitale Aufgaben.<\/p>\n<p>Die Implikation: \u201cKI kann stundenlang arbeiten\u201d ist dom\u00e4nenspezifisch. Ein System, das eine zweist\u00fcndige analytische Aufgabe bew\u00e4ltigt, kann mit einer zwanzigmin\u00fctigen Koordinationsaufgabe Schwierigkeiten haben. Die F\u00e4higkeitskurve ist nicht einheitlich.<\/p>\n<p>F\u00fcr Unternehmen bedeutet dies eine sorgf\u00e4ltige Abstimmung des KI-Einsatzes auf die Aufgabenmerkmale. Im Hype-Zyklus wird KI als Allzweckl\u00f6sung behandelt. Die Realit\u00e4t ist jedoch sehr spezifisch.<\/p>\n<h2>Was der Trend tats\u00e4chlich bedeutet<\/h2>\n<p>METR beschrieb ihre Ergebnisse als \u201ceinen der wichtigsten Trends in der Geschichte der Menschheit\u201d. Das ist vielleicht etwas \u00fcbertrieben. Aber der Trend h\u00e4lt seit sechs Jahren an, und die Richtung ist klar.<\/p>\n<p>Heutige KI ist bei Aufgaben, f\u00fcr die Menschen weniger als vier Minuten ben\u00f6tigen, nahezu perfekt. Bei Aufgaben, die mehr als vier Stunden dauern, ist sie weniger als 10% erfolgreich. Der interessante Bereich - und der Bereich, der f\u00fcr Unternehmensentscheidungen wichtig ist - liegt irgendwo dazwischen.<\/p>\n<p>Hier meine ehrliche Einsch\u00e4tzung: Wir haben eine KI, die sich ein bis zwei Stunden lang um genau definierte Aufgaben in bestimmten Bereichen k\u00fcmmern kann. Diese Systeme k\u00f6nnen dies nicht zuverl\u00e4ssig tun. Sie k\u00f6nnen dies nicht ohne menschliche Aufsicht tun. Sie k\u00f6nnen dies nicht auf eine Art und Weise tun, die echten organisatorischen Qualit\u00e4tsstandards entspricht, ohne sie zu bereinigen.<\/p>\n<p>Aber die Entwicklung deutet darauf hin, dass diese Einschr\u00e4nkungen nicht von Dauer sein werden. Jedes gro\u00dfe KI-Unternehmen optimiert f\u00fcr einen dauerhaften Betrieb. Jeder ernsthafte Anwender entwickelt Umgehungsl\u00f6sungen f\u00fcr aktuelle Einschr\u00e4nkungen. Jede Unternehmensplattform f\u00fcgt eine Infrastruktur f\u00fcr l\u00e4nger andauernde KI-Arbeit hinzu.<\/p>\n<p>Die Frage ist nicht, ob KI irgendwann stundenlang funktionieren wird. Die Frage ist, wann - und ob die aktuelle Generation von L\u00f6sungen das Ziel erreichen wird oder ob wir noch auf einen Durchbruch warten, der noch nicht stattgefunden hat.<\/p>\n<p><em>Unter <a href=\"https:\/\/www.artefact.com\/de\/blog\/long-run-ai-agents-part-2-three-approaches-that-actually-work\/\">Teil 2<\/a>, In diesem Abschnitt werden wir die drei Ans\u00e4tze untersuchen, die sich f\u00fcr die Verl\u00e4ngerung der KI-Arbeitsdauer herauskristallisiert haben: Frischstart-Zyklen, selektives Ged\u00e4chtnis und teambasierte Koordination.<\/em><\/p>\n<p>&nbsp;<\/p>\n<h3>Referenzen<\/h3>\n<p><span style=\"text-decoration: underline;\">Forschungspapiere<\/span><\/p>\n<ul>\n<li>Aufbau produktionsreifer KI mit skalierbarem Langzeitspeicher - <a href=\"https:\/\/arxiv.org\/abs\/2504.19413\" target=\"_blank\" rel=\"noopener\">arxiv.org\/abs\/2504.19413<\/a><\/li>\n<li>Multi-Graph basierte Speicherarchitektur f\u00fcr KI - <a href=\"http:\/\/arxiv.org\/abs\/2601.03236\" target=\"_blank\" rel=\"noopener\">arxiv.org\/abs\/2601.03236<\/a><\/li>\n<li>KI in der Produktion messen - <a href=\"http:\/\/arxiv.org\/abs\/2512.04123\" target=\"_blank\" rel=\"noopener\">arxiv.org\/abs\/2512.04123<\/a><\/li>\n<\/ul>\n<p><span style=\"text-decoration: underline;\">Branchenberichte &amp; Whitepapers<\/span><\/p>\n<ul>\n<li>Fehlermodi in KI-Systemen - Microsoft<\/li>\n<li>Lektionen aus dem Jahr 2025 \u00fcber KI und Vertrauen - Google Cloud<\/li>\n<li>Stand der KI-Technik - LangChain<\/li>\n<li>Benchmark vs. Bewertung in der realen Welt - METR<\/li>\n<\/ul>\n<p><span style=\"text-decoration: underline;\">Technische Dokumentation<\/span><\/p>\n<ul>\n<li>Wie wir unser Multi-Agenten-Forschungssystem aufgebaut haben - Anthropic<\/li>\n<li>Spezifikation des Modellkontextprotokolls - modelcontextprotocol.io<\/li>\n<li>Fresh-Start Cycling Dokumentation (\u201cRalph Wiggum\u201d) - Geoffrey Huntley (<a href=\"http:\/\/ghuntley.com\/ralph\/\" target=\"_blank\" rel=\"noopener\">ghuntley.com\/ralph\/<\/a>)<\/li>\n<\/ul>","protected":false},"excerpt":{"rendered":"<p>Im M\u00e4rz 2025 ver\u00f6ffentlichte eine Forschungsorganisation namens METR eine Erkenntnis, die weniger Beachtung fand, als sie verdient h\u00e4tte. Sie hatten etwas Unmodisches gemessen: wie lange AI-Systeme Aufgaben ausf\u00fchren konnten, bevor sie ausfielen. Nicht, was sie in einer einzelnen Interaktion leisten konnten. METR wollte wissen, wie lange sie eine koh\u00e4rente, sinnvolle Leistung aufrechterhalten konnten.<\/p>","protected":false},"featured_media":1086605,"parent":0,"template":"","meta":{"_acf_changed":false,"ep_exclude_from_search":false},"blog-category":[2995],"blog-language":[2991],"class_list":["post-1083983","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-ai-technology","blog-language-en"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.artefact.com\/de\/wp-json\/wp\/v2\/blog\/1083983","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.artefact.com\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/www.artefact.com\/de\/wp-json\/wp\/v2\/types\/blog"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.artefact.com\/de\/wp-json\/wp\/v2\/media\/1086605"}],"wp:attachment":[{"href":"https:\/\/www.artefact.com\/de\/wp-json\/wp\/v2\/media?parent=1083983"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/www.artefact.com\/de\/wp-json\/wp\/v2\/blog-category?post=1083983"},{"taxonomy":"blog-language","embeddable":true,"href":"https:\/\/www.artefact.com\/de\/wp-json\/wp\/v2\/blog-language?post=1083983"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}