Introduction

Ces derniers mois, je me suis particulièrement intéressé à l'entraînement post-mémoire. Si vous avez suivi mes récents articles sur la gestion du contexte, les architectures de mémoire et la question récurrente de savoir pourquoi les agents perdent en performance après le tour 50, cet article est le point de convergence de tous ces fils conducteurs.

La tendance initiale était assez claire. Huit équipes de recherche indépendantes sont parvenues à la même conclusion : il fallait cesser de concevoir des systèmes de mémoire autour du modèle et former le modèle lui-même à gérer la mémoire comme une compétence acquise. Cette convergence était significative.

Cette approche ouvre la voie à une méthode démocratique pour faire évoluer les agents autonomes. Une méthode qui ne nécessite pas de réglage fin, processus coûteux et techniquement complexe qui repose sur des ressources informatiques limitées et une expertise approfondie en apprentissage automatique. L'entraînement post-mémoire intervient après la phase d'entraînement : cette même étape d'optimisation qui a permis d'obtenir la capacité à suivre des instructions et à raisonner est désormais appliquée à la gestion de l'état cognitif. Et comme elle s'appuie sur des modèles existants, elle est accessible aux équipes qui n'auraient jamais les moyens d'en entraîner un à partir de zéro.

Le mur de réglage fin

Tout au long de l'histoire récente de l'IA, le principe de base était simple : si l'on souhaite qu'un modèle se comporte différemment, il suffit de le peaufiner. Il faut ajuster les poids et l'optimiser pour son domaine d'application. Le problème, c'est que le peaufinage est désormais l'apanage d'un nombre de plus en plus restreint d'organisations.

L'entraînement d'un modèle de 70 milliards de paramètres nécessite des centaines de GPU haut de gamme fonctionnant pendant des jours, voire des semaines. Un seul cycle de réglage fin sur un modèle tel que Llama 3.1 70B coûte entre 50 000 et 200 000 dollars en ressources de calcul, selon la taille de l'ensemble de données et la durée de l'opération. L'accès à ces ressources informatiques est limité. Les clusters NVIDIA H100 sont réservés des mois à l'avance, et l'expertise nécessaire pour gérer les tâches d'entraînement distribuées est rare. La plupart des équipes d'entreprise ne disposent pas d'ingénieurs en apprentissage automatique capables de concevoir des fonctions de récompense, de déboguer les problèmes de gradient ou de gérer la récupération des points de contrôle sur des clusters à plusieurs nœuds.

Il en résulte un système à deux vitesses. Seule une poignée de laboratoires de pointe et de start-ups bien financées sont en mesure de personnaliser le comportement des modèles. Tous les autres utilisent les modèles tels quels, en les intégrant dans des pipelines d'ingénierie des invites et de recherche qui atteignent leurs limites dès que les tâches deviennent longues et complexes.

L'entraînement post-mémoire rompt avec cette dynamique. Il ne modifie pas les poids du modèle de base pour les connaissances de domaine. Il entraîne un comportement — la gestion de la mémoire — à l'aide de l'apprentissage par renforcement lors de la phase post-entraînement. Les besoins en puissance de calcul sont d'un ordre de grandeur inférieurs. L'ensemble du pipeline d'entraînement d'AgeMem s'exécute sur un seul nœud 8xA100. Memory-R1 obtient ses résultats avec 152 échantillons d'entraînement. MemAct entraîne un modèle de 14 milliards de paramètres pour atteindre la précision de modèles 16 fois plus volumineux. Il ne s'agit pas là d'exigences en ressources dignes d'un laboratoire de pointe. Ces ressources sont accessibles.

En conséquence, les organisations qui n’avaient jamais les moyens d’affiner un modèle de base peuvent désormais former leurs agents à gérer la mémoire de manière intelligente. Il ne s’agit pas d’une simple amélioration progressive, mais d’un véritable tournant quant à qui est désormais en mesure de développer des agents qui fonctionnent réellement au-delà du stade de la démonstration.

Le fossé que l'architecture ne peut combler à elle seule

Voici concrètement en quoi consiste le problème. Une seule conversation avec un agent IA coûte en moyenne environ 0,14 $ en frais de jetons. Si l’on extrapole ce chiffre à 3 000 employés qui l’utilisent dix fois par jour, on arrive à 126 000 $ par mois de frais d’API. À mesure que l’historique des conversations s’allonge, les coûts augmentent de manière quadratique, car chaque nouvel échange nécessite de retraiter tous les échanges précédents. Un agent gérant un flux de travail de 100 tours ne coûte pas 10 fois plus cher qu'un flux de travail de 10 tours. Il coûte plutôt 100 fois plus cher.

Le secteur a testé des fenêtres contextuelles plus vastes. Nous disposons désormais de modèles capables de traiter un million de tokens ou plus. Mais trois problèmes persistent. L'attention du modèle diminue sur les longues séquences. L'effet « perdu au milieu », mis en évidence par l'université de Berkeley, montre une baisse des performances lorsque les informations pertinentes se situent près des limites du contexte. Le coût d'une analyse exhaustive du contexte est insoutenable à l'échelle d'une organisation. Et la plupart des flux de travail en entreprise dépassent encore largement les fenêtres d'un million de tokens lorsqu'on tient compte des sorties des outils, data structurées et de l'état accumulé.

Le secteur a testé la génération assistée par la recherche (RAG). La RAG est utile, mais elle extrait des informations sémantiquement similaires, et non celles qui sont pertinentes sur le plan opérationnel. Une contrainte critique du tour 3 peut être sémantiquement éloignée de la requête du tour 47, tout en étant essentielle à la décision à prendre.

Le secteur a expérimenté la gestion heuristique de la mémoire. Il s'agit de systèmes basés sur des règles qui résument, compressent ou filtrent le contexte selon une logique prédéfinie. L'architecture de Mem0 permet d'améliorer la précision de 26 % et de réduire la latence de 91 % par rapport aux méthodes utilisant le contexte complet. Des gains concrets. Mais les systèmes heuristiques présentent une limite commune : les règles sont conçues par des ingénieurs et ne sont pas issues de l'expérience. Ils ne peuvent pas s'adapter à de nouveaux domaines sans une refonte manuelle.

Le problème : aucune de ces approches n'apprend à l'agent lui-même ce qu'il doit retenir. Et aucune ne lui apprend à s'orienter dans son propre contexte.

Post-entraînement pour la mémoire : la convergence en apprentissage par renforcement

Le terme « post-entraînement » désigne l'optimisation qui intervient après la phase de pré-entraînement du modèle de base. C'est ainsi que nous sommes passés de modèles linguistiques bruts à des assistants capables de suivre des instructions (grâce à l'apprentissage par renforcement avec des instructions), puis d'assistants à des modèles de raisonnement (grâce aux modèles de récompense par processus), et enfin — de modèles de raisonnement à des agents capables de gérer leur propre état cognitif.

Le mécanisme utilisé est l'apprentissage par renforcement. Au lieu de développer une gestion de la mémoire sous forme de système externe, on intègre des opérations de mémoire à l'espace d'action de l'agent et on l'entraîne à les utiliser efficacement. L'agent apprend quand stocker, supprimer, consolider et récupérer des données — le tout par essais et erreurs, en optimisant ses actions pour mener à bien la tâche. Aucun exemple de référence illustrant une gestion « correcte » de la mémoire n'est nécessaire. Un simple signal de récompense suffit : l'agent a-t-il finalement réussi à résoudre la tâche ?

Huit articles récents expliquent comment cela fonctionne.

Les principales architectures

AgeMem fournit à l'agent six outils de mémoire : ADD, UPDATE et DELETE pour le stockage à long terme, ainsi que RETRIEVE, SUMMARY et FILTER pour le contexte à court terme. L'entraînement se déroule en trois étapes progressives. Résultats sur Qwen2.5-7B : amélioration relative de +49,59 % par rapport aux modèles de référence sans mémoire, avec une consommation de tokens de prompt inférieure de 3 à 5 % à celle des variantes RAG. Meilleures performances avec moins de contexte.

Memory-R1 divise le problème en deux agents spécialisés : un gestionnaire de mémoire qui apprend des opérations structurées et un agent de réponse qui extrait les informations et raisonne. La récompense du gestionnaire de mémoire dépend de la capacité de l'agent de réponse à fournir une réponse correcte. Résultats : une amélioration de +28 % du score F1 par rapport à la meilleure référence sur LoCoMo, avec seulement 152 échantillons d'entraînement. Transfert « zero-shot » vers des benchmarks inconnus sans réentraînement.

MemAct enrichit l'espace d'action d'un opérateur « Prune & Write » : à n'importe quelle étape, l'agent peut supprimer des tours de l'historique et ajouter un résumé de mémoire. MemAct-RL-14B atteint la même précision que des modèles 16 fois plus volumineux, tout en réduisant la longueur moyenne du contexte de 51 % et la latence d'inférence d'environ 40 %.

MEM1 va le plus loin en conservant une taille de mémoire constante. À chaque étape, l'agent génère un état interne qui regroupe tout ce dont il a besoin, puis élimine tout le contexte précédent. L'utilisation de la mémoire reste stable, quelle que soit la durée de la tâche. MEM1-7B surpasse Qwen2.5-14B sur des tâches comportant 16 objectifs. Le modèle a appris à suivre les sous-objectifs séparément, à ignorer les questions déjà résolues et à autocorriger les requêtes — autant de comportements émergents.

MemAgent s'attaque au cas extrême : le traitement de documents de longueur arbitraire avec une complexité linéaire. Entraîné sur des contextes de 32 000 tokens, il parvient à extrapoler jusqu'à 3,5 millions de tokens avec une perte de performance inférieure à 5 %.

La tendance qui se dégage de l'ensemble de ces résultats est la suivante : une gestion de la mémoire entraînée surpasse une gestion non entraînée, et surpasse souvent des modèles plus volumineux dotés d'une gestion de la mémoire non entraînée.

Mais apprendre aux agents ce qu’ils doivent retenir n’est qu’une partie du problème. Dans la suite de cet article, je vais m’intéresser de près à un développement parallèle qui redéfinit complètement la problématique : les modèles linguistiques récursifs, qui traitent le contexte non pas comme un élément à récupérer, mais comme un élément à explorer. J'examinerai également comment des systèmes de production tels qu'OpenClaw démontrent que ces idées fonctionnent en dehors des benchmarks, ce que cette convergence signifie pour la mise à l'échelle en entreprise, et où se situent les lacunes restantes. Les agents qui évolueront à grande échelle ne se contenteront pas de mieux mémoriser : ils sauront comment trouver ce qu'ils n'ont pas encore mémorisé.