Inleiding
De afgelopen maanden heb ik me intensief verdiept in post-geheugentraining. Als je mijn recente artikelen over contextbeheer, geheugenarchitecturen en de terugkerende vraag waarom agents na hun vijftigste achteruitgaan hebt gevolgd, dan komen al die onderwerpen in dit artikel samen.
Het oorspronkelijke patroon was duidelijk genoeg. Acht onafhankelijke onderzoeksteams kwamen tot dezelfde conclusie: stop met het bouwen van geheugensystemen rond het model en train het model zelf om geheugen te beheren als een aangeleerde vaardigheid. Die overeenstemming was veelzeggend.
Het wijst de weg naar een democratische aanpak voor het opschalen van autonome agents. Een aanpak die geen fijnafstemming vereist – een kostbaar en technisch veeleisend proces dat afhankelijk is van schaarse rekenkracht en diepgaande expertise op het gebied van machine learning. Post-memory training vindt plaats in de fase na de training: dezelfde optimalisatiefase die ons het volgen van instructies en redeneren heeft opgeleverd, wordt nu toegepast op het beheer van cognitieve toestanden. En omdat het bovenop bestaande modellen werkt, is het toegankelijk voor teams die het zich nooit zouden kunnen veroorloven om een model helemaal vanaf nul te trainen.

De afstemmingsmuur
De standaardaanpak in het grootste deel van de recente geschiedenis AIwas eenvoudig: als je wilt dat een model zich anders gedraagt, pas het dan nauwkeurig aan. Pas de gewichten aan. Optimaliseer het voor jouw vakgebied. Het probleem is dat het nauwkeurig afstemmen van modellen het domein is geworden van een steeds kleiner wordend aantal organisaties.
Het trainen van een model met 70 miljard parameters vereist honderden high-end GPU’s die dagen of wekenlang draaien. Een enkele fine-tuning-run op een model als Llama 3.1 70B kost tussen de 50.000 en 200.000 dollar aan rekenkracht, afhankelijk van de omvang van de dataset en de duur. De toegang tot die rekenkracht is beperkt. NVIDIA H100-clusters zijn maanden van tevoren volgeboekt en de expertise om gedistribueerde trainingsopdrachten te beheren is schaars. De meeste bedrijfsteams beschikken niet over ML-engineers die beloningsfuncties kunnen ontwerpen, gradiëntproblemen kunnen oplossen of checkpoint-herstel kunnen beheren in clusters met meerdere knooppunten.
Het resultaat is een tweeledig systeem. Een handvol toonaangevende laboratoria en goed gefinancierde start-ups kunnen het gedrag van modellen aanpassen. Alle anderen gebruiken de modellen zoals ze zijn, en integreren ze in systemen voor prompt engineering en informatieverzameling die echter tegen hun grenzen aanlopen zodra taken langdurig en complex worden.
Post-memory-training doorbreekt deze dynamiek. Het past de gewichten van het basismodel niet aan voor domeinkennis. Het traint een bepaald gedrag – geheugenbeheer – met behulp van reinforcement learning in de fase na de training. De rekenvereisten liggen een orde van grootte lager. De volledige trainingspijplijn van AgeMem draait op één enkele 8xA100-node. Memory-R1 bereikt zijn resultaten met 152 trainingsvoorbeelden. MemAct traint een 14B-model om de nauwkeurigheid van 16x grotere modellen te evenaren. Dit zijn geen resource-eisen voor geavanceerde laboratoria. Deze zijn toegankelijk.
De conclusie: organisaties die zich nooit konden veroorloven om een basismodel nauwkeurig af te stemmen, kunnen hun agents nu trainen om op een slimme manier met het geheugen om te gaan. Dat is geen kleine verbetering. Het is een ommekeer in wie er agents kan bouwen die ook daadwerkelijk verder komen dan het demostadium.
De kloof die architectuur alleen niet kan overbruggen
Hier volgt een concrete illustratie van het probleem. Een enkel gesprek met een AI kost gemiddeld ongeveer $ 0,14 aan tokenkosten. Als je dat doorrekent naar 3.000 medewerkers die het tien keer per dag gebruiken, kom je uit op $ 126.000 per maand aan API-kosten. Naarmate de gespreksgeschiedenis groeit, stijgen de kosten kwadratisch, omdat bij elke nieuwe beurt alle voorgaande beurten opnieuw worden verwerkt. Een agent die een workflow van 100 beurtjes afhandelt, kost niet 10 keer zoveel als een workflow van 10 beurtjes. Het kost bijna 100 keer zoveel.
De sector heeft experimenten gedaan met grotere contextvensters. We beschikken nu over modellen die een miljoen tokens of meer aankunnen. Maar er blijven drie problemen bestaan. De aandacht van het model neemt af bij lange reeksen. Het door UC Berkeley gedocumenteerde ‘lost in the middle’-effect laat zien dat de prestaties achteruitgaan wanneer relevante informatie zich dicht bij de contextgrenzen bevindt. De kosten van het brute-forcen van context zijn op organisatieniveau onhoudbaar. En de meeste bedrijfsworkflows overschrijden nog steeds zelfs vensters van een miljoen tokens als je rekening houdt met tool-output, gestructureerde data en de opgebouwde status.
De sector heeft geprobeerd om generatie te combineren met retrieval (RAG). RAG helpt wel, maar haalt informatie op die semantisch vergelijkbaar is, niet wat operationeel relevant is. Een cruciale beperking uit beurt 3 kan semantisch ver afstaan van de zoekopdracht in beurt 47, maar toch essentieel zijn voor de te nemen beslissing.
De sector heeft zich gewaagd aan heuristisch geheugenbeheer: op regels gebaseerde systemen die context samenvatten, comprimeren of filteren op basis van vooraf gedefinieerde logica. De architectuur van Mem0 levert een nauwkeurigheidsverbetering van 26% en een 91% lagere latentie op in vergelijking met methoden die de volledige context gebruiken. Dat zijn echte voordelen. Maar heuristische systemen hebben één beperking: de regels worden ontworpen door ingenieurs en zijn niet afgeleid uit ervaring. Ze kunnen zich niet aanpassen aan nieuwe domeinen zonder handmatig herontwerp.
De tekortkoming: bij geen van deze benaderingen leert de agent zelf wat hij moet onthouden. En bij geen enkele leert de agent hoe hij zich in zijn eigen context moet oriënteren.
Nabewerking voor het geheugen: de convergentie van RL
De term ‘post-training’ verwijst naar de optimalisatie die plaatsvindt na de pre-trainingsfase van het basismodel. Op deze manier zijn we van ruwe taalmodellen gekomen tot assistenten die instructies opvolgen (via RLHF), van assistenten tot redeneringsmodellen (via procesbeloningsmodellen), en nu – van redeneringsmodellen tot agenten die hun eigen cognitieve toestand beheren.
Het mechanisme is reinforcement learning. In plaats van geheugenbeheer als een extern systeem op te zetten, voeg je geheugenbewerkingen toe aan de actieruimte van de agent en train je hem om deze goed te gebruiken. De agent leert wanneer hij gegevens moet opslaan, verwijderen, samenvoegen en ophalen — allemaal via vallen en opstaan, waarbij de prestaties worden geoptimaliseerd met het oog op het voltooien van de taak. Er zijn geen ‘correcte’ voorbeelden van geheugenbeheer nodig. Alleen een beloningssignaal: heeft de agent de taak uiteindelijk opgelost?
Acht recente artikelen geven inzicht in hoe dit werkt.
De belangrijkste architecturen
AgeMem biedt de agent zes geheugentools: ADD, UPDATE en DELETE voor langetermijnopslag, en RETRIEVE, SUMMARY en FILTER voor kortetermijncontext. De training verloopt in drie opeenvolgende fasen. Resultaten op Qwen2.5-7B: een relatieve verbetering van +49,59% ten opzichte van baselines zonder geheugen, waarbij 3–5% minder prompt-tokens worden verbruikt dan bij RAG-varianten. Betere prestaties met minder context.
Memory-R1 verdeelt het probleem over twee gespecialiseerde agents: een Memory Manager die gestructureerde bewerkingen leert en een Answer Agent die informatie opzoekt en redeneert. De beloning voor de Memory Manager hangt af van de vraag of de Answer Agent het juiste antwoord kan geven. Resultaten: +28% F1 ten opzichte van de beste baseline op LoCoMo, met slechts 152 trainingsvoorbeelden. Zero-shot-overdracht naar onbekende benchmarks zonder hertraining.
MemAct breidt de actieruimte uit met een „Prune & Write“-operator: in elke stap kan de agent eerdere beurtgegevens verwijderen en een geheugensamenvatting toevoegen. MemAct-RL-14B evenaart de nauwkeurigheid van modellen die 16 keer zo groot zijn, terwijl de gemiddelde contextlengte met 51% en de inferentielatentie met ongeveer 40% worden verminderd.
MEM1 gaat het verst en houdt het geheugengebruik constant. Bij elke stap genereert de agent een interne toestand waarin alles wat hij nodig heeft wordt gebundeld, waarna alle eerdere context wordt verwijderd. Het geheugengebruik blijft gelijk, ongeacht de lengte van de taak. MEM1-7B presteert beter dan Qwen2.5-14B bij taken met 16 doelstellingen. Het model heeft geleerd om subdoelen afzonderlijk te volgen, opgeloste vragen over te slaan en zoekopdrachten zelf te corrigeren — allemaal spontaan ontstaan gedragingen.
MemAgent pakt het extreme geval aan: het verwerken van documenten van willekeurige lengte met lineaire complexiteit. Het model is getraind op een contextlengte van 32.000 tokens en kan deze prestaties extrapoleren naar 3,5 miljoen tokens met minder dan 5% prestatieverlies.
De rode draad bij al deze modellen: geoptimaliseerd geheugenbeheer presteert beter dan niet-geoptimaliseerd geheugenbeheer, en presteert vaak ook beter dan grotere modellen met niet-geoptimaliseerd geheugen.
Maar agenten leren wat ze moeten onthouden, is slechts het halve verhaal. In het volgende deel van dit artikel ga ik dieper in op een parallelle ontwikkeling die het probleem volledig in een nieuw licht plaatst: recursieve taalmodellen, die context niet zien als iets om op te halen, maar als iets om doorheen te navigeren. Ik zal ook bekijken hoe productiesystemen zoals OpenClaw aantonen dat deze ideeën buiten benchmarks werken, wat deze convergentie betekent voor schaalbaarheid binnen ondernemingen, en waar de resterende hiaten liggen. De agents die schaalbaar zijn, zullen niet alleen beter onthouden — ze zullen ook weten hoe ze moeten vinden wat ze nog niet hebben onthouden.

BLOG






