Einführung
In einem früheren Beitrag habe ich untersucht, wie acht unabhängige Forschungsteams zu derselben Erkenntnis kamen: anstatt Speichersysteme um das Modell herum zu bauen, trainiert man das Modell selbst im Umgang mit dem Speicher als erlernte Fähigkeit. Post-Memory-Training – die Verwendung von Reinforcement Learning in der Post-Training-Phase – erzeugt Agenten, die entscheiden, was gespeichert, gelöscht, konsolidiert und abgerufen wird, alles optimiert für den Erfolg bei der Erledigung von Aufgaben.
Aber was seitdem passiert ist, ist noch interessanter. Die Forschung ist mit zwei anderen Entwicklungen kollidiert. Rekursive Sprachmodelle die Verwaltung von Kontexten als Navigation und nicht als Abfrage neu zu gestalten. Produktionssysteme wie OpenClaw beweisen, dass diese Ideen auch außerhalb von Benchmarks funktionieren. Das Gesamtbild deutet auf etwas Größeres hin als eine verbesserte Speicherkapazität.
Sie zeigt auf eine demokratischer Weg zur Skalierung autonomer Agenten - eine, die keine Feinabstimmung, knappe Rechenleistung oder tiefgreifende ML-Expertise erfordert. Hier sehen Sie, wie die Navigation und der Produktionsnachweis zusammenpassen.
Kontext als Navigation: der RLM-Paradigmenwechsel
Hier ist das, was mir in letzter Zeit aufgefallen ist. Während die Post-Memory-Trainingsgemeinschaft den Agenten beibrachte, den Kontext zu verwalten, gab es eine parallele Forschungslinie, die das Problem völlig neu formulierte.
Rekursive Sprachmodelle, die von Alex Zhang, Tim Kraska und Omar Khattab vorgestellt wurden, schlagen vor, dass Kontext-Engineering kein Abfrageproblem ist. Es ist ein Navigationsproblem. Der Unterschied ist wichtig.
Die traditionelle RAG behandelt die Wissensdatenbank als data-Basis, die Sie abfragen. Sie betten Chunks ein, berechnen Ähnlichkeitsscores und ziehen die Top-k-Ergebnisse in die Eingabeaufforderung. Das Modell empfängt passiv alles, was das Abfragesystem als relevant erachtet. Das Modell selbst hat keinen Einfluss darauf, was es sieht.
RLMs kehren dies um. Das Modell erhält Zugriff auf eine persistente Python REPL-Umgebung. Lange Eingaben werden als Variablen geladen. Das Modell kann sie inspizieren, durchforsten, partitionieren und rekursive Unterabfragen starten, um neue LLM-Instanzen zu erzeugen, die Teile parallel verarbeiten und Ergebnisse zurückgeben. Das Modell navigiert in seinem Kontext so, wie ein Entwickler in einer Codebasis navigiert: durch Erkunden, Filtern und selektives Lesen dessen, was es braucht.
Die Zahlen belegen dies. RLMs verarbeiten Eingaben, die bis zu zwei Größenordnungen über das native Kontextfenster des Modells hinausgehen, ohne Verschlechterung. Bei realen data-Sätzen mit mehr als 1,5 Millionen Zeichen schneiden RLMs deutlich besser ab als Standard-LLMs und herkömmliche lange Kontextgerüste. Eine nachtrainierte Version, RLM-Qwen3-8B, übertrifft sein Basismodell um 28.3% im Durchschnitt und nähert sich der GPT-5-Qualität bei drei Aufgaben mit langem Kontext - von einem 8B-Modell.
Der Unterschied zum Post-Memory-Training liegt in der Trennung der Bereiche. Beim Post-Memory-Training lernen die Agenten, was sie sich merken und was sie vergessen sollen - die redaktionellen Entscheidungen über die Zustandsverwaltung. RLMs bringen den Agenten bei, wie sie den Kontext erkunden können, den sie noch nicht im Gedächtnis gespeichert haben. Bei dem einen geht es um die Verwaltung dessen, was sich im Kopf des Agenten befindet. Bei dem anderen geht es darum, sich außerhalb des Kopfes zurechtzufinden.
Die Kombination ist leistungsfähiger als jedes einzelne Element für sich. Ein Agent, der in großen externen Kontexten navigieren und einen kompakten internen Speicherstatus verwalten kann, verfügt über die beiden Fähigkeiten, die für wirklich lang andauernde autonome Arbeitsabläufe erforderlich sind: breites Bewusstsein und selektive Speicherung.
Der OpenClaw-Moment
Theorie ist nützlich. Beweise für die Produktion sind besser.
OpenClaw - das Open-Source-Framework für KI-Agenten, das in weniger als einer Woche nach seinem Start Ende Januar 2026 mehr als 100.000 GitHub-Sterne erhielt, ist eines der ersten Systeme, das diese Prinzipien außerhalb von Forschungsbenchmarks in großem Maßstab demonstriert.
Die Architektur von OpenClaw verkörpert die oben beschriebene Konvergenz. Sein Speichersystem verwendet strukturierte Markdown-Dateien mit Zeitstempeln und Metadata, die als reine Textdateien gespeichert werden - keine proprietären data-Basen, keine verschlüsselten Blobs. Die kontextbezogene Suche erfolgt über eine semantische Suche, bei der der Agent verwandte frühere Konversationen findet, selbst wenn der Benutzer völlig andere Wörter verwendet. Der Speicher fließt automatisch über integrierte Tools, so dass Informationen, die in einem Chat erwähnt wurden, verfügbar sind, wenn der Agent in einem Code-Editor oder Browser arbeitet.
Was OpenClaw für diese Diskussion relevant macht, ist nicht nur seine Speicherarchitektur. Es ist die Zugänglichkeit seines Ansatzes. OpenClaw-Agenten können autonom Code schreiben, um neue Fähigkeiten zu entwickeln und das Langzeitgedächtnis aufrechtzuerhalten, und das alles ohne Feinabstimmung. Der Agent lernt durch Anwendung, nicht durch Gradientenabstieg. Die Speicherverwaltung findet auf der Anwendungsebene statt, nicht auf der Modellebene, was bedeutet, dass jedes Team es einsetzen und anpassen kann.
Version 2026.2.3 zielt speziell auf das Zuverlässigkeitsproblem ab, das lang andauernde Arbeitsabläufe zunichte macht: verbesserte Konsistenz der Werkzeugausführung, Sitzungsverwaltung, Speicherzuverlässigkeit und Agentenisolierung für stabile lang andauernde Automatisierung. Dies sind keine Forschungsfunktionen. Es handelt sich um Produktionskorrekturen für genau die Fehlermodi, die die Post-Memory-Trainingsforschung identifiziert hat.
Hier ist, wie ich den OpenClaw-Moment lese. Es ist das erste weit verbreitete System, das beweist, dass man Agenten mit dauerhaftem, selbstverwaltetem Speicher bauen kann, ohne die traditionellen Hürden zu überwinden: keine Kosten für die Feinabstimmung, keine knappen Rechenkapazitäten, kein tiefes ML-Fachwissen. Der Agent verwaltet seinen eigenen Kontext. Der Benutzer konfiguriert den Arbeitsablauf. Das System läuft.
So sieht die Demokratisierung in der Praxis aus.
Unternehmensübersetzung: Warum dies die Skalierungsgleichung ändert
Lassen Sie mich diese Konvergenz in operative Auswirkungen übersetzen.
Die Kostenbarriere fällt
Die Rechenanforderungen für das Post-Memory-Training liegen eine Größenordnung unter der Feinabstimmung. AgeMem trainiert auf einem einzelnen 8xA100-Knoten. Memory-R1 benötigt 152 Beispiele. Die 51%-Kontextreduzierung von MemAct und der konstante Speicher-Overhead von MEM1 führen direkt zu niedrigeren Inferenzkosten im großen Maßstab. Für ein Unternehmen, das 30.000 Agentengespräche pro Tag zu je $0,14 führt eine Kontextreduzierung von 50% nicht nur zu einer Halbierung der Kosten - sie ändert auch, was wirtschaftlich machbar ist. Aufgaben, die für Agenten bei längeren Interaktionen zu teuer waren, werden machbar.
Die Wissensbarriere fällt
Die Feinabstimmung erfordert ML-Ingenieure, die sich mit verteiltem Training, Reward-Design, Gradienten-Debugging und Checkpoint-Management auskennen. Post-Memory-Training und RLM-ähnliche Navigation werden auf der Anwendungsebene durchgeführt. OpenClaw arbeitet mit Markdown-Dateien und Konfiguration. Das Fachwissen verlagert sich von “können Sie ein Modell trainieren” zu “können Sie einen Workflow entwerfen” - ein weitaus größerer Talentpool.
Verlässlichkeit über lange Zeiträume
Dies ist der größere Preis. Der Grund, warum 60% der Multi-Agenten-Piloten nicht skalierbar sind, sind nicht die Kosten - es ist die Verschlechterung der Zuverlässigkeit. Agenten, die nicht in der Lage sind, einen kohärenten Zustand über 50+ Runden aufrechtzuerhalten, sind für die wichtigsten Arbeitsabläufe unbrauchbar: mehrstufige Recherchen, komplexer Kundenservice, Code-Migration, Reaktion auf Zwischenfälle.
Das Post-Memory-Training spricht dieses Problem direkt an. MEM1 hält die Leistung bei 16 Zielen nahezu konstant. MemAgent behält die Genauigkeit über 3,5 Millionen Token hinweg bei. RLMs verarbeiten Eingaben, die um zwei Größenordnungen über die nativen Fenster hinausgehen, ohne dass es zu Beeinträchtigungen kommt. Diese Kombination - Agenten, die in einem breiten Kontext navigieren und einen kompakten internen Status beibehalten - macht mehrstündige autonome Arbeitsabläufe erst möglich.
Drei Dinge, die Sie in Ihrem Stapel beachten sollten
- Das Gedächtnis als trainierbare Fähigkeit, nicht als feste Leitung. Die heuristischen Speichersysteme, die heute in Produktion sind (Mem0, Zep, LangChain-Speicher), bieten einen echten Mehrwert. Gelernte Speicherrichtlinien übertreffen jedoch die von Hand entworfenen, insbesondere wenn die Aufgaben länger werden. Prüfen Sie, ob sich Ihre Speicherschicht weiterentwickeln kann.
- Navigation über Abruf. Wenn Ihre Agenten nur über RAG auf große Wissensdatenbanken zugreifen, lassen Sie die Leistung auf dem Tisch liegen. Das RLM-Muster - das den Agenten Werkzeuge zur Verfügung stellt, mit denen sie ihren Kontext erkunden, filtern und rekursiv abfragen können - ist eine Ergänzung und oft überlegen für tiefgehende Analyseaufgaben. Achten Sie darauf, dass diese Fähigkeit in den nächsten 12 Monaten in Agenten-Frameworks auftauchen wird.
- Optimierung auf der Anwendungsebene gegenüber Anpassung auf der Modellebene. Das OpenClaw-Modell - Speicherverwaltung durch Konfiguration und Lernen während der Laufzeit statt durch Änderung der Gewichtung - ist wahrscheinlich das Muster, das die meisten Unternehmen übernehmen werden. Dazu müssen Sie kein Frontier Lab sein.
Beschränkungen und offene Fragen
Die Konvergenz ist real, aber die Lücken sind es auch.
Ausbildung data Knappheit. RL-basiertes Speichertraining erfordert Umgebungen, in denen der Agent die Speicherverwaltung in großem Umfang üben kann. Die meisten Arbeiten verwenden synthetische Aufgaben oder enge Benchmarks. Ob sich diese Trainingssignale auf die chaotische Vielfalt der Arbeitsabläufe in Unternehmen übertragen lassen, ist nicht bewiesen.
Reward Engineering ist anfällig. Die Erfahrungen des mem-agent Teams sind lehrreich: Die ersten Belohnungsentwürfe führten dazu, dass die Modelle Belohnungen im Format spielten, anstatt Aufgaben zu lösen. Sie durchliefen mehrere Iterationen, bevor sie ein stabiles Rezept fanden. Das ist kein Plug-and-Play.
Navigation über Kopf. RLMs benötigen aufgrund des Parallelisierungs-Overheads für Sub-LLMs durchweg mehr Wall-Clock-Zeit. Für latenzempfindliche Anwendungen - Chatbots, Echtzeit-Kundensupport - bleibt die traditionelle RAG die schnellere Option. Der Kompromiss zwischen RLM und Genauigkeit ist schneller als die Geschwindigkeit, was seine Anwendbarkeit für tiefgreifende Analysen und langlaufende Workflows einschränkt.
Das multimodale Gedächtnis ist früh. Alle acht Post-Training-Papiere konzentrieren sich auf Text. Agenten, die mit Bildern, strukturierten data, Werkzeugausgaben oder gemischten Modalitäten arbeiten, brauchen Speichersysteme, die mit heterogenen Inhalten umgehen können. Niemand hat dies bisher gelöst.
Sichere Oberfläche. Speicher, der bestehen bleibt und sich weiterentwickelt, schafft Angriffsvektoren. Angreifende Eingaben könnten das Langzeitgedächtnis vergiften. Eine zu lange Speicherung gibt Anlass zu Bedenken hinsichtlich des Datenschutzes in regulierten Branchen. Die Version 2026.2.3 von OpenClaw behebt einige dieser Probleme mit einem stärkeren Schutz vor Prompt Injection, aber die weiteren Sicherheitsauswirkungen von erlernten Speicherrichtlinien sind noch nicht ausreichend erforscht.
Wohin die Reise geht
Innerhalb weniger Monate sind drei Entwicklungen zusammengelaufen. Post-Memory-Training lehrt die Agenten, was sie sich merken sollen. Rekursive Sprachmodelle bringen den Agenten bei, wie sie durch das navigieren können, was sie sich noch nicht gemerkt haben. Und Produktionssysteme wie OpenClaw beweisen, dass diese Fähigkeiten ohne die traditionellen Hürden der Feinabstimmung, der knappen Rechenleistung und der tiefen ML-Expertise bereitgestellt werden können.
Die Marschrichtung ist klar. In Phase 1 (jetzt) sind heuristische Speichersysteme und RAG der Produktionsstandard. Sie funktionieren. Verwenden Sie sie. In Phase 2 (2026-2027) werden RL-trainierte Speichermodule als Plug-in-Komponenten verfügbar, kleine spezialisierte Modelle, die die Speicherverwaltung für größere Argumentationsmodelle übernehmen. RLM-ähnliche Navigation wird zu einer Standard-Agentenfunktion. In Phase 3 (2027+) werden das Gedächtnistraining und die Kontextnavigation in die Standard-Pipelines nach dem Training integriert, zusammen mit der Befehlsabstimmung und dem RL-Schlussfolgern.
Ob sich RL on memory als die Antwort oder als ein Teil eines größeren Puzzles erweist, bleibt offen. Nächstes Jahr könnte etwas ganz anderes herauskommen. Aber die Anzahl der unabhängigen Teams, die zu diesem Ansatz gekommen sind - in Kombination mit der Geschwindigkeit, mit der Produktionssysteme wie OpenClaw die Prinzipien übernommen haben - ist schwer von der Hand zu weisen. Diese Art von Konvergenz bedeutet normalerweise etwas.
Für die Praktiker, die heute bauen, gilt: Entwerfen Sie Ihre Systeme so, dass die Speicherebene modular und austauschbar ist, und geben Sie Ihren Agenten Werkzeuge an die Hand, mit denen sie in ihrem Kontext navigieren können, anstatt ihn nur passiv zu empfangen. Die heuristischen Systeme, die Sie jetzt einsetzen, werden irgendwann gegen trainierte Systeme ausgetauscht werden. Wenn Ihre Speicherverwaltung fest mit Ihrer Pipeline verdrahtet ist, wird dieser Tausch teuer werden. Wenn es sich um eine saubere Schnittstelle handelt, wird es ein Upgrade sein.
Die Agenten, die in der Produktion skalieren, werden nicht diejenigen mit den größten Kontextfenstern oder den teuersten Modellen sein. Sie werden diejenigen sein, die gelernt haben, was sie sich merken müssen - und wie sie finden, was sie nicht haben.

BLOG






