Part 2 | From memory to navigation: Scaling autonomous agents beyond retrieval

Introduction

Dans un article précédent, j'ai exploré comment huit équipes de recherche indépendantes sont parvenues à la même conclusion : au lieu de construire des systèmes de mémoire autour du modèle, il faut entraîner le modèle lui-même à gérer la mémoire comme une compétence acquise. L'entraînement post-mémoire — utilisant l'apprentissage par renforcement dans la phase post-entraînement — produit des agents qui décident quoi stocker, supprimer, consolider et récupérer, le tout optimisé en fonction de l'achèvement de la tâche.

Mais ce qui s'est passé depuis est plus intéressant. La recherche est entrée en collision avec deux autres développements. Modèles linguistiques récursifs de recadrer la gestion du contexte comme une navigation plutôt qu'une recherche. Les systèmes de production tels que OpenClaw prouvent que ces idées fonctionnent en dehors des bancs d'essai. L'ensemble de ces résultats montre qu'il ne s'agit pas seulement d'une amélioration de la mémoire.

Il pointe vers un voie démocratique pour la mise à l'échelle des agents autonomes - qui ne nécessite pas de réglage fin, de calcul rare ou d'expertise approfondie en ML. Voici comment s'articulent l'élément de navigation et la preuve de production.

Le contexte en tant que navigation : le changement de paradigme du RLM

Voici ce qui a attiré mon attention plus récemment. Alors que la communauté des formateurs en post-mémoire apprenait aux agents à gérer le contexte, une ligne de recherche parallèle recadrait entièrement le problème.

Modèles linguistiques récursifs, introduite par Alex Zhang, Tim Kraska et Omar Khattab, propose que l'ingénierie contextuelle ne soit pas un problème de recherche. Il s'agit d'un problème de navigation. La différence est importante.

Le RAG traditionnel traite la base de connaissances comme une database que vous interrogez. Vous intégrez des morceaux, calculez les scores de similarité et introduisez les résultats les plus importants dans l'invite. Le modèle reçoit passivement tout ce que le système de recherche juge pertinent. Le modèle lui-même n'a aucune influence sur ce qu'il voit.

Les RLMs renversent la situation. Le modèle a accès à un environnement Python REPL persistant. Les entrées longues sont chargées en tant que variables. Le modèle peut les inspecter, les parcourir, les partitionner et lancer des sous-requêtes récursives, en créant de nouvelles instances LLM qui traitent les morceaux en parallèle et renvoient les résultats. Le modèle navigue dans son contexte de la même manière qu'un développeur navigue dans une base de code : en explorant, en filtrant et en lisant sélectivement ce dont il a besoin.

Les chiffres le confirment. Les RLM traitent les entrées jusqu'à deux ordres de grandeur au-delà de la fenêtre contextuelle native du modèle sans dégradation. Sur des ensembles data du monde réel dépassant 1,5 million de caractères, les RLMs surpassent de manière significative les LLMs standards et les échafaudages communs à contexte long. Une version post-entraînée, RLM-Qwen3-8B, Le modèle de base est plus performant que le modèle de base de 28,3% en moyenne et se rapproche de la qualité GPT-5 sur trois tâches en contexte long - à partir d'un modèle 8B.

Ce qui rend cette méthode complémentaire de la formation post-mémoire, c'est la séparation des préoccupations. La formation post-mémoire enseigne aux agents ce qu'il faut retenir et ce qu'il faut oublier - les décisions éditoriales relatives à la gestion de l'état. Les RLM enseignent aux agents comment explorer le contexte qu'ils n'ont pas encore mémorisé. L'un concerne la gestion de ce qui se trouve à l'intérieur de la tête de l'agent. L'autre concerne la navigation dans ce qui se trouve à l'extérieur.

La combinaison est plus puissante que l'une ou l'autre. Un agent capable de naviguer dans de vastes contextes externes et de gérer une mémoire interne compacte possède les deux capacités nécessaires à des flux de travail autonomes de longue durée : une conscience étendue et une rétention sélective.

Le moment OpenClaw

La théorie est utile. Les preuves de production sont meilleures.

OpenClaw - l'agent d'intelligence artificielle open-source qui a gagné plus de 100 000 étoiles GitHub en moins d'une semaine après son lancement fin janvier 2026 - est l'un des premiers systèmes à démontrer que ces principes fonctionnent à grande échelle en dehors des références de la recherche.

L'architecture d'OpenClaw incarne la convergence décrite ci-dessus. Son système de mémoire utilise Markdown structuré avec des horodatages et des métadata, stockés sous forme de fichiers de texte brut - pas de bases data propriétaires, pas de blobs cryptés. Les recherches contextuelles se font par le biais de la recherche sémantique, où l'agent trouve des conversations antérieures connexes, même si l'utilisateur emploie des mots complètement différents. La mémoire circule automatiquement entre les outils intégrés, de sorte que les informations mentionnées dans un chat deviennent disponibles lorsque l'agent travaille dans un éditeur de code ou un navigateur.

Ce qui rend OpenClaw pertinent dans cette discussion n'est pas seulement son architecture de mémoire. C'est l'accessibilité de son approche. Les agents d'OpenClaw peuvent écrire du code de manière autonome pour créer de nouvelles compétences et maintenir la mémoire à long terme, le tout sans réglage fin. L'agent apprend par l'utilisation, et non par la descente de gradient. La gestion de la mémoire se fait au niveau de la couche d'application, et non de la couche de modèle, ce qui signifie que n'importe quelle équipe peut la déployer et la personnaliser.
La version 2026.2.3 cible spécifiquement le problème de fiabilité qui tue les flux de travail à long terme : amélioration de la cohérence de l'exécution des outils, de la gestion des sessions, de la fiabilité de la mémoire et de l'isolation des agents pour une automatisation stable à long terme. Il ne s'agit pas de fonctionnalités de recherche. Il s'agit de correctifs de production pour les modes de défaillance exacts que la recherche sur la formation post-mémoire identifie.

Voici comment je lis le moment OpenClaw. Il s'agit du premier système largement adopté qui prouve que vous pouvez construire des agents dotés d'une mémoire durable et autogérée sans aucun des obstacles traditionnels : pas de coûts de mise au point, pas d'exigences de calcul limitées, pas d'expertise approfondie en ML. L'agent gère son propre contexte. L'utilisateur configure le flux de travail. Le système fonctionne.

C'est à cela que ressemble la démocratisation dans la pratique.

Traduction en entreprise : pourquoi cela change l'équation d'échelle

Permettez-moi de traduire cette convergence en impact opérationnel.

L'obstacle du coût tombe

Les besoins en calcul de l'entraînement post-mémoire sont inférieurs d'un ordre de grandeur à ceux de la mise au point. AgeMem s'entraîne sur un seul nœud 8xA100. Memory-R1 a besoin de 152 exemples. La réduction de contexte 51% de MemAct et la surcharge de mémoire constante de MEM1 se traduisent directement par des coûts d'inférence plus faibles à l'échelle. Pour une entreprise qui gère 30 000 conversations d'agents par jour à $0,14 chacune, une réduction de contexte de 50% ne se contente pas de réduire les coûts de moitié, elle modifie ce qui est économiquement viable. Des tâches qui étaient trop coûteuses pour que les agents les gèrent dans le cadre d'interactions prolongées deviennent réalisables.

La barrière de l'expertise tombe

Le réglage fin nécessite des ingénieurs ML qui comprennent la formation distribuée, la conception des récompenses, le débogage des gradients et la gestion des points de contrôle. L'entraînement post-mémoire et la navigation de type RLM s'effectuent au niveau de la couche applicative. OpenClaw fonctionne avec des fichiers Markdown et une configuration. L'expertise passe de “pouvez-vous entraîner un modèle” à “pouvez-vous concevoir un flux de travail” - une réserve de talents bien plus importante.

Fiabilité à long terme

C'est là le plus important. La raison pour laquelle 60% des projets pilotes multi-agents ne parviennent pas à passer à l'échelle n'est pas le coût - c'est la dégradation de la fiabilité. Les agents qui ne peuvent pas maintenir un état cohérent sur plus de 50 tours sont inutiles sur le plan opérationnel pour les flux de travail les plus importants : recherche en plusieurs étapes, service client complexe, migration de code, réponse aux incidents.

L'entraînement post-mémoire s'attaque directement à ce problème. MEM1 maintient des performances quasi constantes sur 16 objectifs. MemAgent maintient la précision sur 3,5 millions de jetons. Les RLM traitent les entrées deux ordres de grandeur au-delà des fenêtres natives sans dégradation. La combinaison - des agents qui naviguent dans un contexte large et maintiennent un état interne compact - est ce qui rend les flux de travail autonomes de plusieurs heures viables.

Trois éléments à surveiller dans votre pile de documents

La mémoire est une compétence qui peut être entraînée, et non un pipeline fixe. Les systèmes de mémoire heuristiques en production aujourd'hui (Mem0, Zep, LangChain memory) apportent une réelle valeur ajoutée. Mais les politiques de mémoire apprises sont plus performantes que celles conçues à la main, en particulier lorsque les tâches deviennent plus longues. Évaluez si votre couche de mémoire peut évoluer.
La navigation plutôt que la recherche. Si vos agents accèdent à de grandes bases de connaissances par le seul biais de la RAG, vous laissez des performances sur le carreau. Le modèle RLM - qui donne aux agents des outils pour explorer, filtrer et interroger leur contexte de manière récursive - est complémentaire et souvent supérieur pour les tâches d'analyse approfondie. Surveillez l'apparition de cette capacité dans les cadres d'agents au cours des 12 prochains mois.
Optimisation de la couche application par rapport à la personnalisation de la couche modèle. Le modèle OpenClaw - gestion de la mémoire par configuration et apprentissage en cours d'exécution plutôt que par modification du poids - est probablement le modèle que la plupart des organisations adopteront. Vous n'avez pas besoin d'être un laboratoire d'avant-garde.

Limites et questions ouvertes

La convergence est réelle, mais les écarts le sont tout autant.

Formation data rareté. L'apprentissage de la mémoire basé sur le RL nécessite des environnements où l'agent peut s'exercer à la gestion de la mémoire à grande échelle. La plupart des articles utilisent des tâches synthétiques ou des repères étroits. Il n'est pas prouvé que ces signaux d'entraînement s'appliquent à la diversité désordonnée des flux de travail des entreprises.

L'ingénierie de la récompense est fragile. L'expérience de l'équipe mem-agent est instructive : les conceptions initiales des récompenses ont conduit à des modèles de jeu formatant les récompenses au lieu de résoudre des tâches. L'équipe a procédé à de multiples itérations avant de trouver une recette stable. Il ne s'agit pas d'un système prêt à l'emploi.

Navigation au-dessus de la tête. Les RLM requièrent systématiquement plus de temps d'horloge en raison de la surcharge de parallélisation sous-LLM. Pour les applications sensibles à la latence - chatbots, support client en temps réel - le RAG traditionnel reste l'option la plus rapide. Le compromis RLM favorise la précision au détriment de la vitesse, ce qui limite son applicabilité aux analyses approfondies et aux flux de travail de longue durée.

La mémoire multimodale est précoce. Les huit documents de post-formation se concentrent sur le texte. Les agents qui travaillent avec des images, des data structurées, des sorties d'outils ou des modalités mixtes ont besoin de systèmes de mémoire capables de gérer des contenus hétérogènes. Personne n'a encore résolu ce problème.

Surface de sécurité. La mémoire qui persiste et évolue crée des vecteurs d'attaque. Les intrants adverses pourraient empoisonner la mémoire à long terme. La surconservation soulève des problèmes de confidentialité dans les secteurs réglementés. La version 2026.2.3 d'OpenClaw répond à certains de ces problèmes en renforçant la protection contre les injections rapides, mais les implications plus larges en matière de sécurité des politiques de mémoire apprise restent sous-explorées.

Où cela nous mène-t-il ?

Trois évolutions ont convergé en l'espace de quelques mois. La formation post-mémoire apprend aux agents ce dont ils doivent se souvenir. Les modèles de langage récursifs enseignent aux agents comment naviguer dans ce qu'ils n'ont pas encore mémorisé. Et des systèmes de production comme OpenClaw prouvent que ces capacités peuvent être fournies sans les obstacles traditionnels que sont le réglage fin, le calcul rare et l'expertise approfondie en ML.

La trajectoire est claire. Dans la phase 1 (aujourd'hui), les systèmes de mémoire heuristique et le RAG constituent la norme de production. Ils fonctionnent. Utilisez-les. Dans la phase 2 (2026-2027), les modules de mémoire entraînés par RL deviennent disponibles en tant que composants enfichables, de petits modèles spécialisés qui gèrent la mémoire pour des modèles de raisonnement plus importants. La navigation de type RLM devient une capacité standard de l'agent. Dans la phase 3 (2027+), l'entraînement de la mémoire et la navigation dans le contexte se fondent dans des pipelines post-entraînement standard, aux côtés de l'ajustement des instructions et du raisonnement RL.

La question de savoir si RL sur la mémoire s'avère être la réponse ou une pièce d'un puzzle plus vaste reste ouverte. Quelque chose d'entièrement différent pourrait voir le jour l'année prochaine. Mais le nombre d'équipes indépendantes qui sont parvenues à cette approche - combiné à la vitesse à laquelle des systèmes de production comme OpenClaw en ont adopté les principes - est difficile à écarter. Ce type de convergence signifie généralement quelque chose.

Pour les praticiens qui construisent aujourd'hui, l'idée à retenir est la suivante : concevez vos systèmes de manière à ce que la couche mémoire soit modulaire et remplaçable, et donnez à vos agents des outils leur permettant de naviguer dans leur contexte, et pas seulement de le recevoir passivement. Les systèmes heuristiques que vous déployez aujourd'hui seront éventuellement remplacés par des systèmes formés. Si votre gestion de la mémoire est intégrée à votre pipeline, ce remplacement sera coûteux. S'il s'agit d'une interface propre, il s'agira d'une mise à niveau.

Les agents qui s'adapteront à la production ne seront pas ceux qui disposent des plus grandes fenêtres contextuelles ou des modèles les plus coûteux. Ce seront ceux qui auront appris ce qu'il faut retenir - et comment trouver ce qu'ils n'ont pas retenu.

Contactez-nous

Partie 2 | De la mémoire à la navigation : Mise à l'échelle des agents autonomes au-delà de la récupération

Auteur