Inleiding
In een eerder artikel heb ik onderzocht hoe acht onafhankelijke onderzoeksteams tot hetzelfde inzicht kwamen: in plaats van geheugensystemen rond het model te bouwen, moet het model zelf worden getraind om geheugen te beheren als een aangeleerde vaardigheid. Post-geheugentraining – waarbij gebruik wordt gemaakt van reinforcement learning in de fase na de training – levert agents op die zelf bepalen wat ze opslaan, verwijderen, consolideren en ophalen, waarbij alles is geoptimaliseerd voor het voltooien van de taak.
Maar wat er sindsdien is gebeurd, is nog interessanter. Het onderzoek is in aanraking gekomen met twee andere ontwikkelingen. Recursieve taalmodellen benaderen contextbeheer niet langer als het ophalen van informatie, maar als navigatie. Productiesystemen zoals OpenClaw tonen aan dat deze ideeën ook buiten de benchmarks werken. Het totaalbeeld wijst op iets dat verder gaat dan alleen een verbeterd geheugen.
Het wijst op een democratische manier om autonome agents op te schalen – een manier die geen fijnafstemming, schaarse rekenkracht of diepgaande expertise op het gebied van machine learning vereist. Hieronder wordt uitgelegd hoe het navigatiegedeelte en het productiebewijs in elkaar passen.
Context als navigatie: de paradigmaverschuiving van RLM
Dit is wat me de laatste tijd opviel. Terwijl de gemeenschap rond post-memory-training agenten leerde om met context om te gaan, werd het probleem in een parallel onderzoekstraject volledig in een nieuw licht geplaatst.
In het artikel „Recursive Language Models“, geschreven door Alex Zhang, Tim Kraska en Omar Khattab, wordt gesteld dat contextengineering geen zoekprobleem is, maar een navigatieprobleem. Dat verschil is van belang.
Bij traditionele RAG wordt de kennisbank behandeld als een database die je doorzoekt. Je voegt fragmenten in, berekent gelijkenisscores en haalt de beste k resultaten op in de prompt. Het model ontvangt passief wat het opzoeksysteem als relevant beschouwt. Het model heeft zelf geen zeggenschap over wat het te zien krijgt.
RLM’s draaien dit om. Het model krijgt toegang tot een permanente Python REPL-omgeving. Lange invoer wordt als variabelen geladen. Het model kan deze inspecteren, erdoorheen zoeken, ze opsplitsen en recursieve subquery’s uitvoeren, waarbij nieuwe LLM-instanties worden opgestart die delen parallel verwerken en resultaten retourneren. Het model navigeert door zijn context zoals een ontwikkelaar door een codebase navigeert: door te verkennen, te filteren en selectief te lezen wat het nodig heeft.
De cijfers bevestigen dit. RLM’s verwerken invoer die tot twee ordes van grootte groter is dan het oorspronkelijke contextvenster van het model, zonder dat de kwaliteit eronder lijdt. Op datasets uit de praktijk met meer dan 1,5 miljoen tekens presteren RLM’s aanzienlijk beter dan standaard LLM’s en gangbare frameworks voor lange contexten. Een nageschoolde versie, RLM-Qwen3-8B, presteert gemiddeld 28,3% beter dan het basismodel en benadert de kwaliteit van GPT-5 bij drie taken met lange context — vanuit een 8B-model.
Wat dit tot een aanvulling op post-memory-training maakt, is de scheiding van verantwoordelijkheden. Bij post-memory-training leren agenten wat ze moeten onthouden en wat ze moeten vergeten – de redactionele beslissingen over het beheer van de toestand. RLM’s leren agenten hoe ze context moeten verkennen die ze nog niet in het geheugen hebben opgeslagen. Het ene gaat over het beheren van wat zich in het hoofd van de agent bevindt. Het andere gaat over het verkennen van wat zich daarbuiten bevindt.
Deze combinatie is krachtiger dan elk van beide afzonderlijk. Een agent die zich in grote externe contexten kan oriënteren en een compacte interne geheugentoestand kan beheren, beschikt over de twee vaardigheden die nodig zijn voor werkelijk langdurige autonome workflows: een breed overzicht en selectieve informatieopslag.
Het OpenClaw-moment
Theorie is nuttig. Praktijkervaring is beter.
OpenClaw — het open-sourceframework AI dat binnen een week na de lancering eind januari 2026 meer dan 100.000 GitHub-sterren kreeg — is een van de eerste systemen die aantoont dat deze principes ook op grote schaal buiten onderzoeksbenchmarks werken.
De architectuur van OpenClaw belichaamt de hierboven beschreven convergentie. Het geheugensysteem maakt gebruik van gestructureerde Markdown met tijdstempels en metadata, opgeslagen als platte tekstbestanden – geen propriëtaire databases, geen versleutelde blobs. Contextgevoelige zoekopdrachten vinden plaats via semantisch zoeken, waarbij de agent gerelateerde eerdere gesprekken terugvindt, zelfs wanneer de gebruiker totaal andere woorden gebruikt. Gegevens stromen automatisch tussen geïntegreerde tools, zodat informatie die in een chat wordt genoemd, beschikbaar komt wanneer de agent in een code-editor of browser werkt.
Wat OpenClaw relevant maakt voor deze discussie, is niet alleen de geheugenarchitectuur. Het is de toegankelijkheid van de aanpak. OpenClaw-agenten kunnen zelfstandig code schrijven om nieuwe vaardigheden te creëren en een langetermijngeheugen te onderhouden, en dat alles zonder fijnafstemming. De agent leert door gebruik, niet via gradiëntdaling. Het geheugenbeheer vindt plaats op de applicatielaag, niet op de modellaag, wat betekent dat elk team het kan implementeren en aanpassen.
Versie 2026.2.3 richt zich specifiek op het betrouwbaarheidsprobleem dat langlopende workflows tenietdoet: verbeterde consistentie bij de uitvoering van tools, sessiebeheer, geheugenbetrouwbaarheid en agentisolatie voor stabiele, langlopende automatisering. Dit zijn geen onderzoeksfuncties. Het zijn productiecorrecties voor de exacte storingsmodi die onderzoek naar post-geheugentraining identificeert.
Dit is hoe ik het OpenClaw-initiatief zie. Het is het eerste systeem dat op grote schaal wordt toegepast en dat aantoont dat je agents kunt bouwen met duurzaam, zelfbeheerd geheugen, zonder de gebruikelijke belemmeringen: geen kosten voor fijnafstemming, geen hoge rekenkrachtvereisten en geen diepgaande kennis van machine learning. De agent beheert zijn eigen context. De gebruiker stelt de workflow in. Het systeem draait.
Zo ziet democratisering er in de praktijk uit.
Vertalingen voor bedrijven: waarom dit de schaalbaarheid verandert
Laat me deze convergentie vertalen naar de gevolgen voor de bedrijfsvoering.
De kostenbarrière verdwijnt
De rekenvereisten voor training met post-memory liggen een orde van grootte lager dan die voor fine-tuning. AgeMem traint op één enkel 8xA100-knooppunt. Memory-R1 heeft 152 voorbeelden nodig. De contextvermindering van 51% bij MemAct en de constante geheugenoverhead bij MEM1 vertalen zich direct in lagere inferentiekosten op schaal. Voor een onderneming die 30.000 agentgesprekken per dag voert tegen $ 0,14 per stuk, halveert een contextvermindering van 50% niet alleen de kosten, maar verandert het ook wat economisch haalbaar is. Taken die te duur waren voor agenten om af te handelen tijdens langdurige interacties, worden nu haalbaar.
De drempel voor expertise wordt lager
Voor het verfijnen van modellen zijn ML-engineers nodig die verstand hebben van gedistribueerde training, het ontwerpen van beloningsstructuren, het opsporen van fouten in gradiënten en het beheer van checkpoints. Post-memory training en RLM-achtige navigatie vinden plaats op de applicatielaag. OpenClaw werkt met Markdown-bestanden en configuraties. De vereiste expertise verschuift van „kun je een model trainen?“ naar „kun je een workflow ontwerpen?“ — een veel grotere talentenpool.
Betrouwbaarheid op de lange termijn
Dit is de belangrijkste uitdaging. De reden waarom 60% van de proefprojecten met meerdere agents niet opschaalbaar is, ligt niet aan de kosten, maar aan de afnemende betrouwbaarheid. Agents die gedurende meer dan 50 stappen geen samenhangende status kunnen handhaven, zijn operationeel gezien nutteloos voor de workflows die er het meest toe doen: meerstapsonderzoek, complexe klantenservice, codemigratie en incidentafhandeling.
Post-memory-training pakt dit probleem rechtstreeks aan. MEM1 levert bij 16 doelstellingen vrijwel constante prestaties. MemAgent behoudt zijn nauwkeurigheid over 3,5 miljoen tokens. RLMs verwerken invoer die twee ordes van grootte groter is dan de standaard Windows-invoer, zonder dat dit ten koste gaat van de kwaliteit. Deze combinatie – agents die zich door een brede context bewegen en een compacte interne toestand behouden – maakt autonome workflows van meerdere uren haalbaar.
Drie zaken om in de gaten te houden in je stack
- Geheugen als een vaardigheid die getraind kan worden, niet als een vaststaand proces. De heuristische geheugensystemen die momenteel in gebruik zijn (Mem0, Zep, LangChain memory) leveren echte meerwaarde op. Maar aangeleerde geheugenbeleidsregels presteren beter dan handmatig ontworpen regels, vooral naarmate taken langer worden. Ga na of uw geheugenlaag zich kan ontwikkelen.
- Navigatie boven op zoekresultaten. Als uw agents uitsluitend via RAG toegang hebben tot omvangrijke kennisbanken, laat u prestaties liggen. Het RLM-patroon – waarbij agents de middelen krijgen om hun context te verkennen, te filteren en recursief te doorzoeken – vormt een aanvulling hierop en is vaak superieur voor diepgaande analysetaken. Houd de komende 12 maanden in de gaten of deze functionaliteit in agent-frameworks verschijnt.
- Optimalisatie op applicatieniveau boven aanpassing op modelniveau. Het OpenClaw-model – geheugenbeheer via configuratie en leren tijdens de uitvoering in plaats van het aanpassen van gewichten – is waarschijnlijk het model dat de meeste organisaties zullen gaan toepassen. Hiervoor hoef je geen baanbrekend laboratorium te zijn.
Beperkingen en open vragen
De convergentie is reëel, maar dat geldt ook voor de verschillen.
data . Voor op RL gebaseerde geheugentraining zijn omgevingen nodig waarin de agent op grote schaal kan oefenen met geheugenbeheer. In de meeste artikelen wordt gebruikgemaakt van synthetische taken of beperkte benchmarks. Het is nog niet bewezen of deze trainingssignalen ook toepasbaar zijn op de complexe diversiteit van bedrijfsworkflows.
Het ontwerpen van beloningssystemen is een kwetsbaar proces. De ervaring van het mem-agent-team is leerzaam: de eerste ontwerpen leidden ertoe dat modellen de beloningen van het spel misbruikten in plaats van taken op te lossen. Ze hebben meerdere iteraties doorlopen voordat ze een stabiele formule vonden. Dit is geen kwestie van ‘plug-and-play’.
Overhead bij de verwerking. RLM’s vergen doorgaans meer reële tijd vanwege de overhead die gepaard gaat met de parallellisatie op sub-LLM-niveau. Voor toepassingen waarbij latentie van cruciaal belang is — zoals chatbots en realtime klantenondersteuning — blijft traditionele RAG de snellere optie. Bij RLM wordt nauwkeurigheid boven snelheid verkozen, waardoor de toepasbaarheid ervan beperkt blijft tot diepgaande analyses en langdurige workflows.
Multimodaal geheugen staat nog in de kinderschoenen. Alle acht artikelen die na de training zijn verschenen, richten zich op tekst. Agents die werken met afbeeldingen, gestructureerde data, tool-output of gemengde modaliteiten hebben geheugensystemen nodig die heterogene inhoud aankunnen. Dit is nog door niemand opgelost.
Veiligheidsrisico. Geheugen dat blijft bestaan en zich ontwikkelt, creëert aanvalsvectoren. Kwaadwillige invoer kan het langetermijngeheugen besmetten. Het te lang bewaren van gegevens roept privacykwesties op in gereguleerde sectoren. De release 2026.2.3 van OpenClaw pakt een deel hiervan aan met een betere bescherming tegen prompt-injectie, maar de bredere veiligheidsimplicaties van beleerd geheugenbeleid zijn nog onvoldoende onderzocht.
Waar dit naartoe leidt
In een paar maanden tijd zijn drie ontwikkelingen op elkaar afgestemd. Post-memory-training leert agents wat ze moeten onthouden. Recursieve taalmodellen leren agents hoe ze moeten omgaan met informatie die ze nog niet hebben onthouden. En productiesystemen zoals OpenClaw bewijzen dat deze mogelijkheden kunnen worden gerealiseerd zonder de traditionele belemmeringen van fine-tuning, schaarse rekenkracht en diepgaande expertise op het gebied van machine learning.
Het traject is duidelijk. In fase 1 (nu) zijn heuristische geheugensystemen en RAG de productiestandaard. Ze werken. Maak er gebruik van. In fase 2 (2026–2027) komen RL-getrainde geheugenmodules beschikbaar als plug-in-componenten, kleine gespecialiseerde modellen die het geheugenbeheer voor grotere redeneringsmodellen verzorgen. Navigatie in RLM-stijl wordt een standaardcapaciteit van agents. In fase 3 (2027+) versmelten geheugentraining en contextnavigatie tot standaard post-trainingspijplijnen, naast instructie-afstemming en redenerings-RL.
Of RL op het geheugen nu de oplossing blijkt te zijn of slechts een stukje van een grotere puzzel, is nog onduidelijk. Misschien komt er volgend jaar wel iets heel anders naar voren. Maar het aantal onafhankelijke teams dat tot deze aanpak is gekomen – in combinatie met de snelheid waarmee productiesystemen zoals OpenClaw deze principes hebben overgenomen – valt moeilijk te negeren. Dat soort convergentie heeft meestal wel een betekenis.
Voor ontwikkelaars die vandaag de dag aan het bouwen zijn, luidt de praktische les als volgt: ontwerp je systemen zo dat de geheugenlaag modulair en vervangbaar is, en geef je agents de middelen om hun context te doorgronden, in plaats van deze alleen maar passief te ontvangen. De heuristische systemen die je nu implementeert, zullen uiteindelijk worden vervangen door getrainde systemen. Als je geheugenbeheer vast is ingebouwd in je pijplijn, zal die vervanging veel kosten met zich meebrengen. Als het een zuivere interface betreft, zal het een upgrade zijn.
De modellen die in de productie schaalbaar zijn, zullen niet de modellen zijn met de grootste contextvensters of de duurste modellen. Het zullen de modellen zijn die hebben geleerd wat ze moeten onthouden – en hoe ze kunnen achterhalen wat ze nog niet weten.

BLOG






