Inleiding
In een vorig artikel onderzocht ik hoe acht onafhankelijke onderzoeksteams tot hetzelfde inzicht kwamen: in plaats van geheugensystemen rond het model te bouwen, moet het model zelf getraind worden om het geheugen te beheren als een aangeleerde vaardigheid. Post-memory training - met behulp van versterkingsleren in de post-training fase - produceert agenten die beslissen wat ze moeten opslaan, verwijderen, consolideren en terughalen, allemaal geoptimaliseerd voor het voltooien van een taak.
Maar wat er sindsdien is gebeurd, is interessanter. Het onderzoek is in botsing gekomen met twee andere ontwikkelingen. Recursieve Taalmodellen contextbeheer herdefiniëren als navigatie in plaats van opzoeken. Productiesystemen zoals OpenClaw bewijzen dat deze ideeën werken buiten benchmarks om. Het gecombineerde beeld wijst op iets groters dan een verbeterd geheugen.
Het wijst naar een democratisch pad voor het schalen van autonome agenten - waarvoor geen fijnafstemming, schaarse computers of diepgaande ML-expertise nodig is. Hier ziet u hoe het navigatiegedeelte en het productiebewijs in elkaar passen.
Context als navigatie: de RLM paradigmaverschuiving
Dit is wat onlangs mijn aandacht trok. Terwijl de post-memory traininggemeenschap agenten leerde om context te beheren, was er een parallelle onderzoekslijn die het probleem volledig herdefinieerde.
Recursieve Taalmodellen, geïntroduceerd door Alex Zhang, Tim Kraska en Omar Khattab, stelt voor dat context engineering geen opvraagprobleem is. Het is een navigatieprobleem. Het verschil is belangrijk.
Traditionele RAG behandelt de kennisbank als een database die u bevraagt. U sluit chunks in, berekent similariteitsscores en haalt de top-k resultaten op in de prompt. Het model ontvangt passief wat het retrievalsysteem besluit dat relevant is. Het model heeft zelf geen zeggenschap over wat het te zien krijgt.
RLM's draaien dit om. Het model krijgt toegang tot een persistente Python REPL-omgeving. Lange invoergegevens worden als variabelen geladen. Het model kan ze inspecteren, doorzoeken, partitioneren en recursieve subquery's starten, waarbij nieuwe LLM-instanties worden aangemaakt die parallelle chunks verwerken en resultaten terugsturen. Het model navigeert door zijn context zoals een ontwikkelaar door een codebase navigeert: door te verkennen, te filteren en selectief te lezen wat het nodig heeft.
De cijfers bevestigen dit. RLM's verwerken invoer tot twee orden van grootte buiten het eigen contextvenster van het model zonder verslechtering. Op echte datasets van meer dan 1,5 miljoen tekens presteren RLM's aanzienlijk beter dan standaard LLM's en gewone steigers met lange context. Een post-trained versie, RLM-Qwen3-8B, presteert beter dan het basismodel met 28.3% gemiddeld en benadert GPT-5-kwaliteit op drie taken met een lange context - van een 8B-model.
Wat dit complementair maakt aan post-memory training is de scheiding van belangen. Post-memory training leert agenten wat ze moeten onthouden en wat ze moeten vergeten - de redactionele beslissingen over statusbeheer. RLM's leren agenten hoe ze de context kunnen verkennen die ze nog niet in het geheugen hebben opgeslagen. Het ene gaat over het beheren van wat er in het hoofd van de agent zit. Het andere gaat over navigeren door wat daarbuiten is.
De combinatie is krachtiger dan een van beide alleen. Een agent die door grote externe contexten kan navigeren en een compacte interne geheugentoestand kan beheren, heeft de twee mogelijkheden die nodig zijn voor echt langlopende autonome workflows: breed bewustzijn en selectieve retentie.
Het OpenClaw-moment
Theorie is nuttig. Productiebewijs is beter.
OpenClaw - het open-source AI-agent framework dat meer dan 100.000 GitHub-sterren kreeg in minder dan een week na de lancering eind januari 2026 - is een van de eerste systemen die laat zien dat deze principes werken op schaal buiten onderzoeksbenchmarks.
De architectuur van OpenClaw belichaamt de hierboven beschreven convergentie. Het geheugensysteem gebruikt gestructureerde Markdown met tijdstempels en metadata, opgeslagen als gewone tekstbestanden - geen eigen data-bases, geen versleutelde blobs. Contextbewuste opzoekingen gebeuren via semantisch zoeken, waarbij de agent gerelateerde gesprekken uit het verleden vindt, zelfs als de gebruiker compleet andere woorden gebruikt. Geheugen stroomt automatisch door geïntegreerde tools, zodat informatie die in een chat wordt genoemd beschikbaar wordt wanneer de agent in een code-editor of browser werkt.
Wat OpenClaw relevant maakt voor deze discussie is niet alleen de geheugenarchitectuur. Het is de toegankelijkheid van de aanpak. Agenten van OpenClaw kunnen autonoom code schrijven om nieuwe vaardigheden te creëren en het langetermijngeheugen te onderhouden, allemaal zonder fijnafstemming. De agent leert door gebruik, niet door gradiëntdaling. Geheugenbeheer vindt plaats op de applicatielaag, niet op de modellaag, wat betekent dat elk team het kan implementeren en aanpassen.
Versie 2026.2.3 richt zich specifiek op het betrouwbaarheidsprobleem dat langlopende workflows de das omdoet: verbeterde uitvoeringsconsistentie van tools, sessiebeheer, geheugenbetrouwbaarheid en agentisolatie voor stabiele langlopende automatisering. Dit zijn geen onderzoeksfuncties. Het zijn productieoplossingen voor precies die mislukkingen die het onderzoek naar post-memory training aan het licht heeft gebracht.
Dit is hoe ik het OpenClaw-moment lees. Het is het eerste op grote schaal toegepaste systeem dat bewijst dat u agents kunt bouwen met een duurzaam, zelfbeheerd geheugen zonder de traditionele barrières: geen kosten voor fijnafstelling, geen schaarse computereisen, geen diepgaande ML-expertise. De agent beheert zijn eigen context. De gebruiker configureert de workflow. Het systeem draait.
Zo ziet democratisering er in de praktijk uit.
Bedrijfsvertaling: waarom dit de schaalvergelijking verandert
Laat me deze convergentie vertalen naar operationele impact.
De kostenbarrière daalt
De rekenvereisten voor post-memory training zijn een orde van grootte lager dan voor fijnafstemming. AgeMem traint op een enkel 8xA100 knooppunt. Memory-R1 heeft 152 voorbeelden nodig. De 51% contextreductie van MemAct en de constante geheugenoverhead van MEM1 leiden direct tot lagere inferentiekosten op schaal. Voor een onderneming die 30.000 agentconversaties per dag uitvoert tegen $0,14 per conversatie, halveert een contextreductie van 50% niet alleen de kosten - het verandert wat economisch haalbaar is. Taken die te duur waren voor agenten om over langere interacties uit te voeren, worden haalbaar.
De expertisebarrière valt weg
Voor fijnafstelling zijn ML-technici nodig die verstand hebben van gedistribueerde training, beloningsontwerp, gradiënt debuggen en controlepuntbeheer. Post-memory training en RLM-stijl navigatie werken op de applicatielaag. OpenClaw werkt met Markdown-bestanden en configuratie. De expertise verschuift van “kunt u een model trainen” naar “kunt u een workflow ontwerpen” - een veel grotere talentenpool.
Betrouwbaarheid over lange horizonten
Dit is de hoofdprijs. De reden waarom 60% van multi-agent pilots er niet in slagen op te schalen zijn niet de kosten - het is de achteruitgang van de betrouwbaarheid. Agenten die geen coherente status kunnen handhaven gedurende 50+ beurten zijn operationeel onbruikbaar voor de workflows die er het meest toe doen: onderzoek in meerdere stappen, complexe klantenservice, code-migratie, reactie op incidenten.
Post-geheugentraining pakt dit direct aan. MEM1 behoudt vrijwel constante prestaties bij 16 doelstellingen. MemAgent behoudt de nauwkeurigheid over 3,5 miljoen tokens. RLM's verwerken invoer die twee orden van grootte groter is dan het native venster zonder achteruitgang. De combinatie - agenten die door een brede context navigeren en een compacte interne staat behouden - maakt autonome workflows van meerdere uren levensvatbaar.
Drie dingen om in de gaten te houden in uw stapel
- Geheugen als een trainbare vaardigheid, niet als een vaste pijplijn. De heuristische geheugensystemen die vandaag de dag in productie zijn (Mem0, Zep, LangChain geheugen) leveren echte waarde. Maar aangeleerd geheugenbeleid presteert beter dan met de hand ontworpen beleid, vooral als taken langer worden. Evalueer of uw geheugenlaag kan evolueren.
- Navigatie boven ophalen. Als uw agents alleen via RAG toegang krijgen tot grote kennisbanken, laat u prestaties liggen. Het RLM-patroon - agenten hulpmiddelen geven om hun context te verkennen, te filteren en recursief te bevragen - is complementair en vaak superieur voor diepgaande analysetaken. Kijk uit naar deze mogelijkheid in agentframeworks in de komende 12 maanden.
- Toepassingslaagoptimalisatie boven modellaagaanpassing. Het OpenClaw-model - geheugenbeheer door middel van configuratie en runtime learning in plaats van gewichtsaanpassing - is waarschijnlijk het patroon dat de meeste organisaties zullen overnemen. Het vereist niet dat u een grenslaboratorium bent.
Beperkingen en open vragen
De convergentie is reëel, maar de kloven ook.
Training data schaarste. RL-gebaseerde geheugentraining vereist omgevingen waarin de agent geheugenbeheer op schaal kan oefenen. De meeste papers gebruiken synthetische taken of smalle benchmarks. Of deze trainingssignalen ook van toepassing zijn op de rommelige diversiteit van bedrijfsworkflows is niet bewezen.
Beloningstechniek is kwetsbaar. De ervaring van het mem-agent team is leerzaam: aanvankelijke beloningsontwerpen leidden tot modellen die beloningen opmaakten in plaats van taken op te lossen. Ze ondergingen meerdere iteraties voordat ze een stabiel recept vonden. Dit is geen plug-and-play.
Navigatie boven het hoofd. RLM's hebben consequent meer wandkloktijd nodig door sub-LLM parallellisatieoverhead. Voor latentiegevoelige toepassingen - chatbots, real-time klantenondersteuning - blijft traditionele RAG de snellere optie. De RLM-afweging geeft de voorkeur aan nauwkeurigheid boven snelheid, wat de toepasbaarheid beperkt tot diepgaande analyses en langlopende workflows.
Het multimodale geheugen is vroeg. Alle acht papers over post-training richten zich op tekst. Agenten die met afbeeldingen, gestructureerde data, uitvoer van gereedschappen of gemengde modaliteiten werken, hebben geheugensystemen nodig die heterogene inhoud aankunnen. Niemand heeft dit al opgelost.
Veiligheidsoppervlak. Geheugen dat blijft bestaan en evolueert, creëert aanvalsvectoren. Invoer van tegenstanders kan het langetermijngeheugen vergiftigen. Te lange bewaring leidt tot privacyproblemen in gereguleerde industrieën. OpenClaw's 2026.2.3 release pakt dit deels aan met een sterkere bescherming tegen prompt injection, maar de bredere veiligheidsimplicaties van het aangeleerde geheugenbeleid blijven onderbelicht.
Waar gaat dit heen?
Drie ontwikkelingen zijn in een paar maanden tijd samengekomen. Post-memory training leert agenten wat ze moeten onthouden. Recursieve taalmodellen leren agenten hoe ze moeten navigeren door wat ze nog niet hebben onthouden. En productiesystemen zoals OpenClaw bewijzen dat deze mogelijkheden geleverd kunnen worden zonder de traditionele barrières van fijnafstemming, schaarse computers en diepgaande ML-expertise.
Het traject is duidelijk. In fase 1 (nu) zijn heuristische geheugensystemen en RAG de productiestandaard. Ze werken. Gebruik ze. In Fase 2 (2026-2027) worden RL-getrainde geheugenmodules beschikbaar als plug-in componenten, kleine gespecialiseerde modellen die geheugenbeheer afhandelen voor grotere redeneermodellen. Navigatie in RLM-stijl wordt een standaard mogelijkheid voor agenten. In Fase 3 (2027+) gaan geheugentraining en contextnavigatie op in standaard post-training pijplijnen, naast instructietuning en RL redeneren.
Of RL on memory het antwoord blijkt te zijn of een stukje van een grotere puzzel blijft open. Misschien komt er volgend jaar wel iets heel anders uit de bus. Maar het aantal onafhankelijke teams dat tot deze aanpak is gekomen - in combinatie met de snelheid waarmee productiesystemen zoals OpenClaw de principes hebben overgenomen - is moeilijk te verwerpen. Dat soort convergentie betekent meestal iets.
Voor mensen die vandaag de dag aan het bouwen zijn, is de volgende actie te ondernemen: bouw uw systemen zo dat de geheugenlaag modulair en vervangbaar is, en geef uw agenten hulpmiddelen om door hun context te navigeren, in plaats van deze alleen maar passief te ontvangen. De heuristische systemen die u nu gebruikt, zullen uiteindelijk worden vervangen door getrainde systemen. Als uw geheugenbeheer vast in uw pijplijn zit ingebakken, dan zal die verwisseling duur zijn. Als het een schone interface is, zal het een upgrade zijn.
De agenten die in productie schaalbaar zijn, zullen niet degenen zijn met de grootste contextvensters of de duurste modellen. Zij zullen degenen zijn die hebben geleerd wat ze moeten onthouden - en hoe ze moeten vinden wat ze niet hebben.

BLOG






