Long-run AI agents, part 2: Three approaches that actually work

Victor Coimbra wurde in der Forbes Under 30 Brazil Liste für seine herausragenden Beiträge zur KI-Innovation ausgezeichnet. Er war Mitbegründer der lateinamerikanischen Niederlassung von Artefact, die heute als globaler Tech-Hub mit 200 Mitarbeitern fungiert. Er verfügt über umfassende Erfahrung in der Skalierung von KI-Lösungen und dem Aufbau von leistungsstarken Technologie-Teams auf internationalen Märkten.

Unter Teil 1, Wir haben das Problem untersucht: KI-Systeme verschlechtern sich mit der Zeit, Benchmark-Leistungen verschleiern Produktionsfehler, und selbst erfahrene Fachleute arbeiten mit KI-Hilfe langsamer als ohne sie. Die Tendenz ist vielversprechend. Die aktuelle Realität ist chaotisch.

Wie bauen Sie also Systeme auf, die tatsächlich über Stunden hinweg Leistung erbringen?

Es gibt drei Ansätze aus verschiedenen Gemeinschaften, die sich alle mit demselben grundlegenden Problem befassen: Wie kann ein KI-System kohärente Fortschritte erzielen, wenn sein Arbeitsspeicher begrenzt ist?

Ansatz 1: Frisch gestarteter Radsport

Ende 2025 ging eine Technik mit dem absurden Namen "Ralph Wiggum" unter Praktikern viral. Der Name stammt von einer Simpsons-Figur – bewusst albern, denn die Kernidee ist fast schon peinlich einfach.

Lassen Sie die KI arbeiten. Wenn sie anfängt, sich zu verschlechtern, stoppen Sie sie. Beginnen Sie neu. Lassen Sie sie dort weitermachen, wo sie aufgehört hat.

Das war's. Die KI arbeitet an einer Aufgabe, bis ihre Leistung nachlässt. Dann hält sie an, speichert ihren Fortschritt in einer Datei und beendet die Sitzung. Eine neue Sitzung beginnt mit einem Neuanfang. Die KI liest, was erreicht wurde, identifiziert, was noch fehlt, und macht weiter.

Die Philosophie: Hören Sie auf, die Speicherbegrenzung zu bekämpfen. Arbeiten Sie mit ihr. Jede Arbeitssitzung arbeitet unabhängig. Der Fortschritt findet in Dokumenten und Aufzeichnungen statt, nicht im Kopf der KI.

So sieht das in der Praxis aus

Eine typische Implementierung verläuft in drei Phasen:

Phase 1 (Anforderungen): Mensch und KI arbeiten zusammen, um zu ermitteln, was getan werden muss. Das Ergebnis ist ein klares Spezifikationsdokument.
Phase 2 (Planung): KI analysiert die Lücke zwischen der Spezifikation und dem aktuellen Stand. Ergebnis: eine nach Prioritäten geordnete Liste von Aufgaben. Noch keine eigentliche Arbeit.
Phase 3 (Ausführung): AI bearbeitet eine Aufgabe pro Sitzung. Schließen Sie die Aufgabe ab, überprüfen Sie, ob sie funktioniert hat, dokumentieren Sie, was getan wurde, und beenden Sie die Sitzung. Neue Sitzung. Wiederholen Sie.

Die wichtigste Einschränkung: Aufgaben müssen einen klar messbaren Abschluss haben. Dieser Ansatz eignet sich schlecht für mehrdeutige Anforderungen, Ermessensentscheidungen oder Sondierungsarbeiten ohne klare Endpunkte.

Ergebnisse von Early Adopters

Die Zahlen aus der Praxis sind beeindruckend, auch wenn sie eher aus Selbstversuchen-reports als aus kontrollierten Studien stammen.

Ein Berater lieferte ein Projekt, das $50.000 gekostet hätte, für weniger als $300 an KI-Kosten - und führte über Nacht automatisierte Sitzungen durch. Ein Startup-Team lieferte über Nacht sechs wichtige Ergebnisse mit funktionierenden Ausgaben, Verifizierung und Dokumentation. Ein Praktiker entwickelte ein komplettes Produkt in drei Monaten mit automatisierten Sitzungen.

Typische Kosten liegen zwischen $50-100 für umfangreiche Projekte mit mehr als 50 Arbeitssitzungen. Jede Sitzung dauert 30-45 Minuten vor dem Radfahren.

Anthropic hat diesen Ansatz im Dezember 2025 formalisiert und die offizielle Unterstützung freigegeben. Das Muster wurde von einer Umgehungslösung zu einer anerkannten Methode.

Die Begrenzung

Dieser Ansatz ist deterministisch in einer unvorhersehbaren Welt. Wie ein Praktiker es ausdrückt: “Es ist besser, vorhersehbar zu scheitern als unvorhersehbar erfolgreich zu sein.”

Das ist sowohl die Stärke als auch die Einschränkung. Der Radsport funktioniert, wenn Sie den Erfolg klar definieren können. Es ist schwierig, wenn Erfolg subjektiv ist, wenn Qualität implizit ist und wenn die “richtige” Antwort nur durch menschliches Urteilsvermögen erkannt werden kann.

Ansatz 2: Selektives Gedächtnis

Beim Fresh-Start-Radfahren wird alles zwischen den Sitzungen weggeworfen. Jeder Zyklus beginnt völlig neu. Was wäre, wenn Sie die wichtigen Teile selektiv bewahren könnten?

Das selektive Gedächtnis verfolgt einen anderen Ansatz: Es extrahiert und speichert die wesentlichen Informationen und verwirft den Rest. Anstatt ganz von vorne anzufangen, erbt die KI eine kuratierte Zusammenfassung dessen, was wichtig ist.

Das Zwei-Rollen-Muster

Eine gängige Implementierung verwendet zwei spezialisierte KI-Rollen:

Rolle einrichten: Läuft nur zu Beginn. Stellt den Kontext her, identifiziert die wichtigsten Informationen und erstellt erste Referenzdokumente.
Arbeitsrolle: Verwaltet alle nachfolgenden Sitzungen. Bewahrt die Kontinuität durch drei Artefakte: eine Fortschrittsanzeige, die abgeschlossene und noch ausstehende Arbeiten anzeigt, eine Checkliste mit den als erledigt oder verbleibend markierten Punkten und eine Änderungshistorie, die zeigt, was geändert wurde und warum.

Der Beginn der Sitzung ist eindeutig: Bestätigen Sie den aktuellen Stand, prüfen Sie die Fortschrittsdokumente, wählen Sie die verbleibende Arbeit mit der höchsten Priorität aus, überprüfen Sie die Ausgangssituation vor der neuen Arbeit.

Der Unterschied zum Neustart: die Kompressionsstufe. Die Arbeitsrolle erbt eine kuratierte Zusammenfassung des relevanten Kontexts. Untersuchungen haben ergeben, dass dieser Ansatz es der KI ermöglicht, lange Aufgabensequenzen mit nur 16% der Informationen zu erledigen, die sie sonst benötigen würde. Eine Reduzierung des Overheads um 84%.

Fortgeschrittenes Gedächtnis: Bewahrung von Beziehungen

Der Stand der Technik beim selektiven Gedächtnis bewahrt nicht nur Fakten, sondern auch Beziehungen.

Denken Sie daran, wie sich Menschen an Projekte erinnern. Wir erinnern uns nicht nur an einzelne Fakten. Wir erinnern uns daran, dass diese Entscheidung zu dieser Konsequenz führte, dass diese Person diese Verantwortung trägt, dass dieses Dokument mit dieser Anforderung zusammenhängt. Die Zusammenhänge sind genauso wichtig wie der Inhalt.

Fortschrittliche KI-Gedächtnissysteme erfassen jetzt diese Beziehungen. Beim Speichern von Informationen extrahieren sie nicht nur, was passiert ist, sondern auch, wer daran beteiligt war, was damit zusammenhing und warum es wichtig war. Wenn sie Informationen abrufen, können sie den Kontext rekonstruieren, indem sie diesen Beziehungssträngen folgen.

Leistungskennzahlen aus diesen Systemen: 26% Verbesserung der Qualitätsbewertungen. 90%+ Reduzierung des Informations-Overheads unter Beibehaltung der Kohärenz. Signifikant bessere Handhabung von Aufgaben, die sich über mehrere Sitzungen erstrecken.

Der Kompromiss

Selektiver Speicher erhöht die Komplexität. Sie brauchen eine Infrastruktur für die Speicherung und den Abruf. Sie müssen entscheiden, was Sie behalten und was Sie verwerfen wollen. Sie müssen darauf vertrauen, dass die Komprimierung das Wesentliche bewahrt.

Dies ist kein gelöstes Problem. Speichersysteme können wichtige Details verlieren. Die Komprimierung kann zu subtilen Verzerrungen führen. Die KI kann den falschen Kontext zur falschen Zeit abrufen. Die Reduzierung des 84% klingt beeindruckend, bis der 16%, den Sie behalten haben, etwas Wesentliches vermissen lässt.

Ansatz 3: Team-Koordination

Was, wenn die Antwort nicht eine KI mit besserem Gedächtnis ist, sondern viele KI-Systeme mit klaren Rollen?

Bei der Teamkoordination wird komplexe Arbeit in spezialisierte Rollen aufgeteilt, die von einem zentralen Manager koordiniert werden. Jede Rolle hat einen begrenzten Aufgabenbereich, einen begrenzten Informationsbedarf und eine spezifische Aufgabe. Der Manager behält das Gesamtbild im Auge und leitet nur relevante Informationen an die einzelnen Mitarbeiter weiter.

Das Muster hinter den Kulissen

Führende KI-Unternehmen verwenden dies intern. Die Struktur:

Koordinator: Ein leistungsfähiges KI-System, das für die Analyse von Anfragen, die Planung der Vorgehensweise, die Pflege des Speichers und die Leitung von Spezialisten zuständig ist.

Fachleute: Fokussierte KI-Systeme, die parallel für bestimmte Aufgaben arbeiten.

Das Ergebnis: Teambasierte Systeme übertreffen einzelne KI-Systeme bei komplexen Forschungsaufgaben um 90%. Das ist keine marginale Verbesserung. Eine nahezu Verdopplung der Leistung.

Die wichtigste Erkenntnis: Das Informationsmanagement erklärt 80% der Leistungsunterschiede bei teambasierter KI. Die spezifischen Tools und KI-Modelle sind weniger wichtig als die Art und Weise, wie Informationen zwischen den Rollen fließen.

Zwei Koordinationsmuster

Übergabe-Muster: Ein KI-System übergibt mitten in einer Aufgabe die Kontrolle an ein anderes. Jedes System weiß über das andere Bescheid und entscheidet, wann es die Kontrolle abgibt. Der Arbeitsablauf wird fortgesetzt, aber die Verantwortung geht über. Funktioniert gut bei sequentiellen, abgestuften Arbeitsabläufen.

Manager-Muster: Ein zentraler Koordinator weist die Arbeit den Spezialisten zu und sammelt die Ergebnisse. Die Spezialisten liefern die Ergebnisse zurück; der Koordinator behält die Kontrolle und trifft die Entscheidungen. Keine Übergabe des Hauptthreads. Eignet sich gut für parallele Verarbeitung und Ergebnissynthese.

Die Wahl hängt von Ihrem Arbeitsablauf ab. Übergaben funktionieren gut, wenn sich die Aufgaben auf natürliche Weise in Phasen aufteilen. Manager-Muster eignen sich gut, wenn Sie eine parallele Verarbeitung mit zentraler Entscheidungsfindung benötigen.

Standardisierung der Industrie

Im Jahr 2025 hat die Branche standardisiert, wie KI-Systeme miteinander und mit externen Ressourcen verbunden werden. Stellen Sie sich das wie die Standardisierung von Steckdosen vor - die Produkte verschiedener Hersteller können jetzt zusammenarbeiten.

Ein Standard definiert, wie KI mit Informationsquellen und Tools verbunden wird. Ein anderer definiert, wie KI-Systeme miteinander kommunizieren. Zusammen ermöglichen sie Bausteine, die in verschiedenen Konfigurationen zusammengesetzt werden können.

Das ist wichtig, weil es Modularität ermöglicht. Ein von einem Team entwickelter Arbeitsablauf kann Komponenten enthalten, die von einem anderen Team entwickelt wurden. Speichersysteme werden austauschbar. Informationsquellen werden auffindbar. Das “KI-Ökosystem” ist kein Marketing - es ist eine technische Realität, die diese Standards ermöglichen.

Die Gemeinkosten

Teambasierte KI verbraucht etwa 15x mehr Ressourcen als KI mit Einzelinteraktion. Das sind die Kosten für die Koordination. Bei einfachen Aufgaben überwiegt dieser Aufwand jeden Nutzen. Bei komplexen Aufgaben rechtfertigt die verbesserte Zuverlässigkeit die Kosten.

Auch die Fehlermöglichkeiten sind komplexer. Ein schlechtes Übergabekonzept führte bei einem E-Commerce-Unternehmen zu 40% Kundenabbrüchen, als KI-Übergänge die Benutzer verwirrten. Kaskadenartige Ausfälle können sich in KI-Netzwerken ausbreiten. In einer Branchenanalyse aus dem Jahr 2025 wurden 14 eindeutige Fehlermuster in den Bereichen Systemdesign, Koordinationspannen und Qualitätsprüfung identifiziert.

Die Wahl des richtigen Ansatzes

Hier ist, wie ich über diese Optionen denke:

Frisch gestarteter Radsport funktioniert, wenn die Aufgaben eindeutig messbar abgeschlossen sind, Sie vorhersehbare, schrittweise Fortschritte tolerieren können, der Fortschritt vollständig in Dokumenten und Aufzeichnungen festgehalten werden kann und Sie Einfachheit der Raffinesse vorziehen.
Selektives Gedächtnis funktioniert, wenn Aufgaben die Erhaltung von Beziehungen über mehrere Sitzungen hinweg erfordern, Sie über eine Infrastruktur für die Speicherung und den Abruf verfügen, Effizienz im großen Maßstab wichtig ist und Sie in den Aufbau von Komprimierungssystemen investieren können.
Team-Koordination funktioniert, wenn Aufgaben auf natürliche Weise in spezialisierte Teilaufgaben zerfallen, Sie parallele Verarbeitung benötigen, der Koordinationsaufwand (15x Ressourcen) akzeptabel ist und Sie komplexere Fehlermodi handhaben können.

Die meisten Produktionssysteme werden Elemente aus allen drei Bereichen kombinieren. Ein teambasiertes System, bei dem jeder Spezialist den Fresh-Start-Zyklus verwendet. Ein Koordinator mit Speichererweiterung, der zustandslose Arbeiter anleitet. Die Ansätze sind komplementär, nicht exklusiv.

Der gemeinsame Nenner: Alle drei Ansätze externalisieren Informationen, die die KI intern nicht zuverlässig verwalten kann. Sie unterscheiden sich darin, wie viel sie externalisieren und wie sie die Abfrage verwalten.

Unter Teil 3, werden wir untersuchen, was langfristige KI für Unternehmen bedeutet: wie sich die Arbeit verändert, welche Governance erforderlich ist und wo die realistischen Chancen im Jahr 2026 liegen.

Referenzen

Forschungspapiere

Aufbau produktionsreifer KI mit skalierbarem Langzeitspeicher - arxiv.org/abs/2504.19413
Multi-Graph basierte Speicherarchitektur für KI - arxiv.org/abs/2601.03236
KI in der Produktion messen - arxiv.org/abs/2512.04123

Branchenberichte & Whitepapers

Fehlermodi in KI-Systemen - Microsoft
Lektionen aus dem Jahr 2025 über KI und Vertrauen - Google Cloud
Stand der KI-Technik - LangChain
Benchmark vs. Bewertung in der realen Welt - METR

Technische Dokumentation

Wie wir unser Multi-Agenten-Forschungssystem aufgebaut haben - Anthropic
Spezifikation des Modellkontextprotokolls - modelcontextprotocol.io
Fresh-Start Cycling Dokumentation (“Ralph Wiggum”) - Geoffrey Huntley (ghuntley.com/ralph/)

Kontaktieren Sie uns

Langfristige AI-Agenten, Teil 2: Drei Ansätze, die tatsächlich funktionieren

Autor