Einleitung
In einem früheren Beitrag habe ich untersucht, wie acht unabhängige Forschungsteams zu derselben Erkenntnis gelangten: Anstatt Speichersysteme um das Modell herum aufzubauen, sollte das Modell selbst darauf trainiert werden, den Speicher als erlernte Fähigkeit zu verwalten. Das Post-Memory-Training – also der Einsatz von bestärkendem Lernen in der Phase nach dem Training – bringt Agenten hervor, die entscheiden, was gespeichert, gelöscht, konsolidiert und abgerufen werden soll, wobei alle diese Vorgänge im Hinblick auf die Aufgabenerfüllung optimiert sind.
Was sich seitdem jedoch entwickelt hat, ist noch interessanter. Die Forschung ist auf zwei weitere Entwicklungen gestoßen. Rekursive Sprachmodelle betrachten das Kontextmanagement nicht mehr als Abruf, sondern als Navigation. Produktionssysteme wie OpenClaw beweisen, dass diese Ideen auch außerhalb von Benchmark-Tests funktionieren. Das Gesamtbild deutet auf etwas hin, das über eine bloße Verbesserung des Gedächtnisses hinausgeht.
Es weist einen demokratischen Weg zur Skalierung autonomer Agenten auf – einen Weg, der weder Feinabstimmung noch knappe Rechenressourcen oder fundierte Kenntnisse im Bereich des maschinellen Lernens erfordert. Hier erfahren Sie, wie die Navigationskomponente und die Produktionsergebnisse zusammenpassen.
Kontext als Navigation: der Paradigmenwechsel bei RLM
Folgendes ist mir in letzter Zeit besonders aufgefallen: Während die Post-Memory-Training-Community Agenten beibrachte, mit Kontext umzugehen, wurde das Problem in einem parallelen Forschungszweig völlig neu definiert.
Die von Alex Zhang, Tim Kraska und Omar Khattab vorgestellten rekursiven Sprachmodelle gehen davon aus, dass es sich beim Context Engineering nicht um ein Abrufproblem handelt. Es ist vielmehr ein Navigationsproblem. Dieser Unterschied ist entscheidend.
Beim traditionellen RAG wird die Wissensbasis als Datenbank behandelt, die abgefragt wird. Man bettet Textabschnitte ein, berechnet Ähnlichkeitswerte und übernimmt die besten k Ergebnisse in die Eingabeaufforderung. Das Modell nimmt passiv entgegen, was das Abrufsystem als relevant einstuft. Das Modell selbst hat keinen Einfluss darauf, was es zu sehen bekommt.
RLMs kehren diesen Ansatz um. Das Modell erhält Zugriff auf eine persistente Python-REPL-Umgebung. Lange Eingaben werden als Variablen geladen. Das Modell kann diese untersuchen, durchsuchen, partitionieren und rekursive Unterabfragen starten, wobei es neue LLM-Instanzen startet, die Teile parallel verarbeiten und Ergebnisse zurückgeben. Das Modell navigiert durch seinen Kontext so, wie ein Entwickler durch einen Code-Bestand navigiert: indem es diesen erkundet, filtert und selektiv das liest, was es benötigt.
Die Zahlen belegen dies. RLMs verarbeiten Eingaben, die bis zu zwei Größenordnungen über das native Kontextfenster des Modells hinausgehen, ohne dass es zu Leistungseinbußen kommt. Bei realen Datensätzen mit mehr als 1,5 Millionen Zeichen schneiden RLMs deutlich besser ab als herkömmliche LLMs und gängige Long-Context-Scaffolds. Eine nachtrainierte Version, RLM-Qwen3-8B, übertrifft ihr Basismodell im Durchschnitt um 28,3 % und nähert sich bei drei Aufgaben mit langem Kontext der Qualität von GPT-5 – und das bei einem 8-Milliarden-Modell.
Was dies zu einer Ergänzung zum Post-Memory-Training macht, ist die Trennung der Aufgabenbereiche. Beim Post-Memory-Training wird den Agenten beigebracht, was sie sich merken und was sie vergessen sollen – also die redaktionellen Entscheidungen bezüglich der Zustandsverwaltung. RLMs bringen den Agenten bei, wie sie Kontexte erkunden können, die sie noch nicht im Gedächtnis gespeichert haben. Bei dem einen geht es darum, zu verwalten, was sich im Kopf des Agenten befindet. Bei dem anderen geht es darum, sich in dem zu orientieren, was außerhalb davon liegt.
Die Kombination ist leistungsfähiger als jede der beiden Komponenten für sich genommen. Ein Agent, der sich in großen externen Kontexten zurechtfindet und einen kompakten internen Speicherzustand verwalten kann, verfügt über die beiden Fähigkeiten, die für wirklich lang andauernde autonome Arbeitsabläufe erforderlich sind: umfassendes Bewusstsein und selektives Behalten.
Der OpenClaw-Moment
Theorie ist nützlich. Praktische Erfahrungen sind besser.
OpenClaw – das Open-Source-Framework AI , das nach seiner Veröffentlichung Ende Januar 2026 in weniger als einer Woche über 100.000 GitHub-Stars erhielt – ist eines der ersten Systeme, das zeigt, dass diese Prinzipien auch außerhalb von Forschungs-Benchmarks in großem Maßstab funktionieren.
Die Architektur von OpenClaw verkörpert die oben beschriebene Konvergenz. Das Speichersystem nutzt strukturiertes Markdown mit Zeitstempeln und Metadaten, das als reine Textdateien gespeichert wird – ohne proprietäre Datenbanken und ohne verschlüsselte Blobs. Kontextbezogene Suchvorgänge erfolgen über eine semantische Suche, bei der der Agent verwandte frühere Unterhaltungen findet, selbst wenn der Nutzer völlig andere Begriffe verwendet. Der Speicherfluss zwischen den integrierten Tools erfolgt automatisch, sodass Informationen, die in einem Chat erwähnt wurden, verfügbar sind, wenn der Agent in einem Code-Editor oder Browser arbeitet.
Was OpenClaw für diese Diskussion relevant macht, ist nicht nur seine Speicherarchitektur. Es ist die Zugänglichkeit seines Ansatzes. OpenClaw-Agenten können autonom Code schreiben, um neue Fähigkeiten zu entwickeln und ein Langzeitgedächtnis zu pflegen – und das alles ohne Feinabstimmung. Der Agent lernt durch Nutzung, nicht durch Gradientenabstieg. Die Speicherverwaltung erfolgt auf der Anwendungsebene, nicht auf der Modellebene, was bedeutet, dass jedes Team das System bereitstellen und anpassen kann.
Version 2026.2.3 zielt speziell auf das Zuverlässigkeitsproblem ab, das lang laufende Workflows zum Erliegen bringt: verbesserte Konsistenz bei der Tool-Ausführung, Sitzungsverwaltung, Speicherzuverlässigkeit und Agentenisolierung für eine stabile, lang laufende Automatisierung. Dies sind keine Forschungsfunktionen. Es handelt sich um Produktionskorrekturen für genau die Fehlermodi, die die Forschung im Bereich Post-Memory-Training identifiziert.
So sehe ich den OpenClaw-Moment: Es ist das erste weit verbreitete System, das beweist, dass man Agenten mit beständigem, selbstverwaltetem Speicher entwickeln kann, ohne auf die üblichen Hindernisse zu stoßen: keine Kosten für die Feinabstimmung, keine hohen Rechenanforderungen, kein tiefgreifendes ML-Fachwissen. Der Agent verwaltet seinen eigenen Kontext. Der Nutzer konfiguriert den Arbeitsablauf. Das System läuft.
So sieht Demokratisierung in der Praxis aus.
Übersetzungen für Unternehmen: Warum dies die Skalierungsgleichung verändert
Lassen Sie mich diese Konvergenz in operative Auswirkungen übersetzen.
Die Kostenbarriere sinkt
Die Rechenanforderungen für das Post-Memory-Training liegen um eine Größenordnung unter denen für das Fine-Tuning. AgeMem trainiert auf einem einzigen Knoten mit 8xA100. Memory-R1 benötigt 152 Beispiele. Die 51-prozentige Kontextreduktion von MemAct und der konstante Speicher-Overhead von MEM1 führen direkt zu geringeren Inferenzkosten im großen Maßstab. Für ein Unternehmen, das täglich 30.000 Agentengespräche zu je 0,14 US-Dollar abwickelt, halbiert eine 50-prozentige Kontextreduktion nicht nur die Kosten – sie verändert auch, was wirtschaftlich rentabel ist. Aufgaben, deren Bearbeitung durch Agenten bei längeren Interaktionen zu kostspielig war, werden nun realisierbar.
Die Fachkompetenz-Hürde fällt
Für die Feinabstimmung sind ML-Ingenieure erforderlich, die sich mit verteiltem Training, Belohnungsdesign, Gradienten-Debugging und Checkpoint-Management auskennen. Post-Memory-Training und RLM-ähnliche Navigation finden auf der Anwendungsebene statt. OpenClaw arbeitet mit Markdown-Dateien und Konfigurationen. Der Schwerpunkt verlagert sich von der Frage „Kannst du ein Modell trainieren?“ hin zu „Kannst du einen Workflow entwerfen?“ – was einen weitaus größeren Talentpool erschließt.
Zuverlässigkeit über lange Zeiträume
Das ist der größere Gewinn. Der Grund, warum 60 % der Multi-Agenten-Pilotprojekte nicht skalierbar sind, sind nicht die Kosten – es ist der Verlust an Zuverlässigkeit. Agenten, die über mehr als 50 Runden hinweg keinen konsistenten Zustand aufrechterhalten können, sind für die wichtigsten Arbeitsabläufe praktisch nutzlos: mehrstufige Forschung, komplexer Kundenservice, Code-Migration und Incident Response.
Das Post-Memory-Training geht dieses Problem direkt an. MEM1 bietet bei 16 Zielen eine nahezu konstante Leistung. MemAgent gewährleistet über 3,5 Millionen Token hinweg eine gleichbleibende Genauigkeit. RLMs verarbeiten Eingaben, die zwei Größenordnungen über die nativen Fenster hinausgehen, ohne dass es zu Leistungseinbußen kommt. Diese Kombination – Agenten, die sich in einem breiten Kontext zurechtfinden und einen kompakten internen Zustand beibehalten – macht mehrstündige autonome Arbeitsabläufe erst möglich.
Drei Dinge, auf die Sie in Ihrem Stack achten sollten
- Das Gedächtnis als trainierbare Fähigkeit, nicht als starre Struktur. Die heute im Einsatz befindlichen heuristischen Gedächtnissysteme (Mem0, Zep, LangChain Memory) bieten einen echten Mehrwert. Doch erlernte Gedächtnisrichtlinien schneiden besser ab als manuell entworfene, insbesondere bei längeren Aufgaben. Prüfen Sie, ob sich Ihre Gedächtnisebene weiterentwickeln kann.
- Navigation statt reiner Informationsgewinnung. Wenn Ihre Agenten ausschließlich über RAG auf umfangreiche Wissensdatenbanken zugreifen, verschenken Sie Leistungspotenzial. Das RLM-Muster – bei dem Agenten Werkzeuge erhalten, um ihren Kontext zu erkunden, zu filtern und rekursiv abzufragen – ist eine ergänzende Lösung und für Aufgaben der Tiefenanalyse oft überlegen. Achten Sie darauf, dass diese Funktion in den nächsten 12 Monaten in Agenten-Frameworks Einzug hält.
- Optimierung auf Anwendungsebene statt Anpassung auf Modellebene. Das OpenClaw-Modell – Speicherverwaltung durch Konfiguration und Laufzeitlernen statt durch Gewichtsanpassung – dürfte das Muster sein, das die meisten Unternehmen übernehmen werden. Dazu muss man kein Pionierlabor sein.
Einschränkungen und offene Fragen
Die Annäherung ist real, aber die Unterschiede sind es auch.
data . Das RL-basierte Gedächtnistraining erfordert Umgebungen, in denen der Agent das Gedächtnismanagement in großem Maßstab üben kann. Die meisten Studien verwenden synthetische Aufgaben oder eng gefasste Benchmarks. Ob sich diese Trainingssignale auf die komplexe Vielfalt von Unternehmensabläufen übertragen lassen, ist unbewiesen.
Die Entwicklung von Belohnungssystemen ist eine heikle Angelegenheit. Die Erfahrungen des Mem-Agent-Teams sind aufschlussreich: Die ursprünglichen Belohnungsentwürfe führten dazu, dass die Modelle das Belohnungssystem ausnutzten, anstatt Aufgaben zu lösen. Es waren mehrere Iterationen nötig, bis eine stabile Lösung gefunden wurde. Das ist keine einfache Angelegenheit.
Navigationsaufwand. RLMs benötigen aufgrund des Parallelisierungsaufwands auf Sub-LLM-Ebene durchweg mehr Rechenzeit. Für latenzempfindliche Anwendungen – wie Chatbots oder Echtzeit-Kundensupport – bleibt das herkömmliche RAG die schnellere Option. Der Kompromiss bei RLM zugunsten der Genauigkeit gegenüber der Geschwindigkeit schränkt dessen Einsatzmöglichkeiten auf tiefgehende Analysen und lang andauernde Workflows ein.
Multimodales Gedächtnis steckt noch in den Kinderschuhen. Alle acht nach dem Training veröffentlichten Arbeiten konzentrieren sich auf Text. Agenten, die mit Bildern, strukturierten data, Tool-Ausgaben oder gemischten Modalitäten arbeiten, benötigen Gedächtnissysteme, die heterogene Inhalte verarbeiten können. Dies hat bisher noch niemand gelöst.
Sicherheitsrisiken. Ein Gedächtnis, das Daten speichert und weiterentwickelt, schafft Angriffsvektoren. Böswillige Eingaben könnten das Langzeitgedächtnis manipulieren. Eine übermäßige Speicherung wirft in regulierten Branchen Datenschutzbedenken auf. Die Version 2026.2.3 von OpenClaw geht einigen dieser Probleme mit einem stärkeren Schutz vor Prompt-Injektionen entgegen, doch die weiterreichenden Sicherheitsauswirkungen der erlernten Gedächtnisrichtlinien sind noch kaum erforscht.
Wohin das führen soll
Innerhalb weniger Monate haben sich drei Entwicklungen miteinander verflochten. Das Post-Memory-Training vermittelt Agenten, woran sie sich erinnern sollen. Rekursive Sprachmodelle bringen Agenten bei, wie sie sich in Bereichen zurechtfinden, an die sie sich noch nicht erinnern. Und Produktionssysteme wie OpenClaw beweisen, dass diese Fähigkeiten ohne die üblichen Hindernisse wie Feinabstimmung, knappe Rechenressourcen und tiefgreifendes ML-Fachwissen bereitgestellt werden können.
Der Weg ist klar. In Phase 1 (derzeit) sind heuristische Gedächtnissysteme und RAG der Produktionsstandard. Sie funktionieren. Nutzen Sie sie. In Phase 2 (2026–2027) werden RL-trainierte Speichermodule als Plug-in-Komponenten verfügbar, kleine spezialisierte Modelle, die das Speichermanagement für größere Schlussfolgerungsmodelle übernehmen. Die Navigation im RLM-Stil wird zu einer Standardfähigkeit von Agenten. In Phase 3 (ab 2027) verschmelzen Speichertraining und Kontextnavigation zu Standard-Pipelines nach dem Training, neben der Optimierung von Anweisungen und RL für Schlussfolgerungen.
Ob sich RL on Memory als die Lösung oder als Teil eines größeren Puzzles herausstellt, bleibt offen. Vielleicht ergibt sich im nächsten Jahr etwas ganz anderes. Doch die Zahl der unabhängigen Teams, die zu diesem Ansatz gelangt sind – in Verbindung mit der Geschwindigkeit, mit der Produktionssysteme wie OpenClaw diese Prinzipien übernommen haben –, lässt sich kaum ignorieren. Eine solche Konvergenz hat in der Regel eine Bedeutung.
Für Entwickler, die heute an ihren Systemen arbeiten, lautet die praktische Erkenntnis: Entwerfen Sie Ihre Systeme so, dass die Speicherschicht modular und austauschbar ist, und geben Sie Ihren Agenten Werkzeuge an die Hand, mit denen sie ihren Kontext aktiv erkunden können, anstatt ihn nur passiv zu empfangen. Die heuristischen Systeme, die Sie heute einsetzen, werden irgendwann durch trainierte Systeme ersetzt werden. Wenn Ihre Speicherverwaltung fest in Ihre Pipeline integriert ist, wird dieser Austausch mit hohem Aufwand verbunden sein. Wenn es sich hingegen um eine saubere Schnittstelle handelt, wird es ein Upgrade sein.
Die Agenten, die sich in der Praxis bewähren, werden nicht diejenigen sein, die über die größten Kontextfenster oder die aufwendigsten Modelle verfügen. Es werden diejenigen sein, die gelernt haben, was sie sich merken müssen – und wie sie das finden, was ihnen noch fehlt.

BLOG






