Einleitung

Das Post-Memory-Training war in den letzten Monaten ein Schwerpunkt meiner Arbeit. Wenn Sie meine jüngsten Beiträge zu Kontextmanagement, Speicherarchitekturen und der immer wiederkehrenden Frage, warum Agenten nach Runde 50 an Leistung verlieren, verfolgt haben, dann laufen diese Themen in diesem Artikel zusammen.

Das ursprüngliche Muster war klar genug. Acht unabhängige Forschungsteams kamen zu demselben Ergebnis: Man sollte aufhören, Speichersysteme um das Modell herum aufzubauen, und stattdessen das Modell selbst trainieren, den Speicher als erlernte Fähigkeit zu verwalten. Diese Übereinstimmung war von großer Bedeutung.

Es weist einen demokratischen Weg zur Skalierung autonomer Agenten auf. Einen Weg, der keine Feinabstimmung erfordert – einen kostspieligen und technisch anspruchsvollen Prozess, der auf knappe Rechenressourcen und fundiertes Fachwissen im Bereich des maschinellen Lernens angewiesen ist. Das Post-Memory-Training findet in der Nachtrainingsphase statt: dieselbe Optimierungsphase, die uns die Fähigkeit zur Befolgung von Anweisungen und zum logischen Denken gebracht hat, wird nun auf das Management kognitiver Zustände angewendet. Und da es auf bestehenden Modellen aufbaut, ist es auch für Teams zugänglich, die es sich niemals leisten könnten, ein Modell von Grund auf neu zu trainieren.

Die Feinabstimmungswand

In der jüngeren Geschichte AIgalt bislang eine einfache Grundannahme: Wenn man möchte, dass sich ein Modell anders verhält, muss man es feinabstimmen. Die Gewichte anpassen. Für den jeweiligen Anwendungsbereich optimieren. Das Problem ist, dass die Feinabstimmung mittlerweile nur noch einer immer kleiner werdenden Zahl von Organisationen vorbehalten ist.

Das Trainieren eines Modells mit 70 Milliarden Parametern erfordert Hunderte von High-End-GPUs, die tagelang oder wochenlang laufen müssen. Ein einziger Feinabstimmungslauf für ein Modell wie Llama 3.1 70B kostet je nach Größe des Datensatzes und Dauer zwischen 50.000 und 200.000 US-Dollar an Rechenleistung. Der Zugang zu diesen Rechenressourcen ist begrenzt. NVIDIA H100-Cluster sind Monate im Voraus ausgebucht, und das Fachwissen zur Verwaltung verteilter Trainingsaufträge ist rar. Die meisten Unternehmensteams verfügen nicht über ML-Ingenieure, die Belohnungsfunktionen entwerfen, Gradientenprobleme beheben oder die Wiederherstellung von Checkpoints über Cluster mit mehreren Knoten hinweg verwalten können.

Das Ergebnis ist ein zweistufiges System. Nur eine Handvoll Pionierlabore und gut finanzierte Start-ups können das Modellverhalten individuell anpassen. Alle anderen nutzen die Modelle unverändert und binden sie in Prompt-Engineering- und Retrieval-Pipelines ein, die jedoch an ihre Grenzen stoßen, sobald die Aufgaben umfangreich und komplex werden.

Das Post-Memory-Training durchbricht diese Dynamik. Es verändert die Gewichte des Basismodells für das Domänenwissen nicht. Stattdessen trainiert es in der Nachtrainingsphase mithilfe von bestärkendem Lernen ein bestimmtes Verhalten – nämlich das Speichermanagement. Der Rechenaufwand ist um eine Größenordnung geringer. Die gesamte Trainingspipeline von AgeMem läuft auf einem einzigen 8xA100-Knoten. Memory-R1 erzielt seine Ergebnisse mit 152 Trainingsbeispielen. MemAct trainiert ein 14-Milliarden-Modell, das die Genauigkeit von 16-mal größeren Modellen erreicht. Dies sind keine Ressourcenanforderungen für Frontier-Lab. Diese sind zugänglich.

Die Folge: Unternehmen, die es sich bisher nicht leisten konnten, ein Grundmodell fein abzustimmen, können ihre Agenten nun so trainieren, dass sie den Speicher intelligent verwalten. Das ist keine schrittweise Verbesserung. Es ist ein Wandel hinsichtlich der Frage, wer Agenten entwickeln kann, die tatsächlich über das Demonstrationsstadium hinaus funktionieren.

Die Lücke, die Architektur allein nicht schließen kann

Das Problem lässt sich konkret wie folgt darstellen: Ein einzelnes Gespräch mit einem AI verursacht durchschnittlich Token-Kosten in Höhe von etwa 0,14 $. Rechnet man das auf 3.000 Mitarbeiter hoch, die den Dienst zehnmal täglich nutzen, ergeben sich API-Gebühren in Höhe von 126.000 $ pro Monat. Mit zunehmender Länge der Gesprächshistorie steigen die Kosten quadratisch an, da bei jedem neuen Gesprächsschritt alle vorherigen Schritte erneut verarbeitet werden. Ein Agent, der einen Workflow mit 100 Runden abwickelt, kostet nicht das Zehnfache dessen, was ein Workflow mit 10 Runden kostet. Die Kosten liegen eher beim 100-Fachen.

Die Branche hat mit größeren Kontextfenstern experimentiert. Mittlerweile verfügen wir über Modelle, die eine Million Token oder mehr verarbeiten können. Doch drei Probleme bestehen weiterhin. Die Modell-Attention lässt bei langen Sequenzen nach. Der von der UC Berkeley dokumentierte „Lost-in-the-Middle“-Effekt zeigt, dass die Leistung abnimmt, wenn relevante Informationen nahe an Kontextgrenzen liegen. Die Kosten für die Brute-Force-Verarbeitung von Kontext sind auf Unternehmensebene nicht tragbar. Und die meisten Unternehmensabläufe überschreiten immer noch selbst Millionen-Token-Fenster, wenn man Tool-Ausgaben, strukturierte data und den akkumulierten Status berücksichtigt.

Die Branche hat sich an der „Retrieval-Augmented Generation“ versucht. RAG ist zwar hilfreich, aber es liefert Ergebnisse, die semantisch ähnlich sind, nicht jedoch operativ relevant. Eine entscheidende Einschränkung aus Runde 3 kann semantisch weit von der Abfrage in Runde 47 entfernt sein, dennoch für die anstehende Entscheidung von entscheidender Bedeutung sein.

Die Branche hat sich an heuristischer Speicherverwaltung versucht. Dabei handelt es sich um regelbasierte Systeme, die den Kontext anhand vordefinierter Logik zusammenfassen, komprimieren oder filtern. Die Architektur von Mem0 erzielt im Vergleich zu Methoden, die den vollständigen Kontext berücksichtigen, eine um 26 % höhere Genauigkeit und eine um 91 % geringere Latenz. Das sind echte Vorteile. Heuristische Systeme haben jedoch eine gemeinsame Einschränkung: Die Regeln werden von Ingenieuren entworfen und nicht aus Erfahrungen gelernt. Sie können sich ohne manuelle Neugestaltung nicht an neue Anwendungsbereiche anpassen.

Die Lücke: Keiner dieser Ansätze bringt dem Agenten bei, was er sich merken soll. Und keiner von ihnen lehrt den Agenten, wie er sich in seinem eigenen Kontext zurechtfinden kann.

Nachtrainingsverfahren für das Gedächtnis: die RL-Konvergenz

Der Begriff „Post-Training“ bezieht sich auf die Optimierung, die nach der Vortrainingsphase des Basismodells stattfindet. Auf diese Weise gelangten wir von rohen Sprachmodellen zu Assistenten, die Anweisungen befolgen (über RLHF), von Assistenten zu Schlussfolgerungsmodellen (über Prozessbelohnungsmodelle) und nun – von Schlussfolgerungsmodellen zu Agenten, die ihren eigenen kognitiven Zustand verwalten.

Der Mechanismus ist das verstärkende Lernen. Anstatt die Speicherverwaltung als externes System aufzubauen, fügt man dem Handlungsraum des Agenten Speicheroperationen hinzu und trainiert ihn, diese sinnvoll einzusetzen. Der Agent lernt, wann er speichern, löschen, konsolidieren und abrufen muss – alles durch Versuch und Irrtum, optimiert im Hinblick auf die Erledigung der Aufgabe. Es sind keine Referenzbeispiele für „korrekte“ Speicherverwaltung erforderlich. Es reicht ein Belohnungssignal: Hat der Agent die Aufgabe letztendlich gelöst?

Acht aktuelle Studien verdeutlichen, wie dies funktioniert.

Die wichtigsten Architekturen

AgeMem stellt dem Agenten sechs Speicherwerkzeuge zur Verfügung – ADD, UPDATE und DELETE für die Langzeitspeicherung sowie RETRIEVE, SUMMARY und FILTER für den Kurzzeitkontext. Das Training erfolgt in drei aufeinander aufbauenden Phasen. Ergebnisse auf Qwen2.5-7B: +49,59 % relative Verbesserung gegenüber Baseline-Modellen ohne Speicher, bei einem um 3–5 % geringeren Verbrauch an Prompt-Token im Vergleich zu RAG-Varianten. Bessere Leistung bei geringerem Kontext.

Memory-R1 unterteilt das Problem in zwei spezialisierte Agenten: einen Speichermanager, der strukturierte Operationen erlernt, und einen Antwortagenten, der Informationen abruft und Schlussfolgerungen zieht. Die Belohnung des Speichermanagers hängt davon ab, ob der Antwortagent die Frage korrekt beantworten kann. Ergebnisse: +28 % F1 gegenüber der besten Baseline auf LoCoMo, wobei nur 152 Trainingsbeispiele verwendet wurden. Zero-Shot-Transfer auf unbekannte Benchmarks ohne erneutes Training.

MemAct erweitert den Aktionsraum um einen „Prune & Write“-Operator – in jedem Schritt kann der Agent vergangene Züge löschen und eine Zusammenfassung des Gedächtnisses anhängen. MemAct-RL-14B erreicht die Genauigkeit von Modellen, die 16-mal größer sind, und reduziert dabei die durchschnittliche Kontextlänge um 51 % sowie die Inferenzlatenz um ca. 40 %.

MEM1 geht am weitesten und behält eine konstante Speichergröße bei. Bei jedem Schritt generiert der Agent einen internen Zustand, der alles Notwendige zusammenfasst, und verwirft anschließend den gesamten bisherigen Kontext. Der Speicherverbrauch bleibt unabhängig von der Aufgabenlänge konstant. MEM1-7B übertrifft Qwen2.5-14B bei Aufgaben mit 16 Zielen. Das Modell hat gelernt, Teilziele separat zu verfolgen, bereits gelöste Fragen zu überspringen und Abfragen selbst zu korrigieren – allesamt emergente Verhaltensweisen.

MemAgent bewältigt den Extremfall: die Verarbeitung von Dokumenten beliebiger Länge mit linearer Komplexität. Das Modell wurde auf einer Kontextlänge von 32.000 Token trainiert und lässt sich auf 3,5 Millionen Token extrapolieren, wobei der Leistungsverlust weniger als 5 % beträgt.

Das Muster, das sich bei allen Modellen zeigt: Ein trainiertes Speichermanagement ist einem untrainierten Speichermanagement überlegen und oft auch größeren Modellen mit untrainiertem Speicher überlegen.

Aber Agenten beizubringen, was sie sich merken sollen, ist nur die halbe Miete. Im nächsten Teil dieses Artikels werde ich mich eingehend mit einer parallelen Entwicklung befassen, die das Problem völlig neu definiert: rekursive Sprachmodelle, die den Kontext nicht als etwas betrachten, das abgerufen werden muss, sondern als etwas, durch das man navigieren kann. Ich werde auch untersuchen, wie Produktionssysteme wie OpenClaw beweisen, dass diese Ideen außerhalb von Benchmarks funktionieren, was diese Konvergenz für die Skalierung in Unternehmen bedeutet und wo noch Lücken bestehen. Die Agenten, die skalierbar sind, werden sich nicht nur besser erinnern – sie werden auch wissen, wie sie das finden, woran sie sich noch nicht erinnert haben.