Introducción
En un artículo anterior, analicé cómo ocho equipos de investigación independientes llegaron a la misma conclusión: en lugar de diseñar sistemas de memoria en torno al modelo, hay que entrenar al propio modelo para que gestione la memoria como una habilidad adquirida. El entrenamiento «post-memoria» —que utiliza el aprendizaje por refuerzo en la fase posterior al entrenamiento— da lugar a agentes que deciden qué almacenar, borrar, consolidar y recuperar, todo ello optimizado para la realización de la tarea.
Pero lo que ha ocurrido desde entonces es aún más interesante. La investigación se ha cruzado con otros dos avances. Los modelos de lenguaje recursivos replantean la gestión del contexto como una cuestión de navegación, en lugar de de recuperación. Sistemas de producción como OpenClaw están demostrando que estas ideas funcionan más allá de las pruebas de rendimiento. El panorama general apunta a algo más importante que una simple mejora de la memoria.
Esto apunta hacia una vía democrática para ampliar la escala de los agentes autónomos, una vía que no requiere ajustes precisos, recursos informáticos limitados ni conocimientos avanzados de aprendizaje automático. A continuación se explica cómo encajan el componente de navegación y los datos de producción.
El contexto como navegación: el cambio de paradigma del RLM
Esto es lo que me ha llamado la atención últimamente. Mientras la comunidad dedicada al entrenamiento de la «postmemoria» enseñaba a los agentes a gestionar el contexto, una línea de investigación paralela estaba replanteando el problema por completo.
Los modelos de lenguaje recursivos, presentados por Alex Zhang, Tim Kraska y Omar Khattab, sostienen que la ingeniería del contexto no es un problema de recuperación, sino de navegación. La diferencia es importante.
El RAG tradicional trata la base de conocimientos como una base de datos a la que se realizan consultas. Se incorporan fragmentos, se calculan puntuaciones de similitud y se extraen los k mejores resultados para incluirlos en la solicitud. El modelo recibe de forma pasiva lo que el sistema de recuperación considera relevante. El modelo en sí mismo no tiene control alguno sobre lo que ve.
Los RLM dan un giro a esto. El modelo obtiene acceso a un entorno REPL de Python persistente. Las entradas largas se cargan como variables. El modelo puede inspeccionarlas, buscarlas, dividirlas y lanzar subconsultas recursivas, creando nuevas instancias de LLM que procesan fragmentos en paralelo y devuelven resultados. El modelo navega por su contexto del mismo modo que un desarrollador navega por un código fuente: explorando, filtrando y leyendo de forma selectiva lo que necesita.
Las cifras lo confirman. Los RLM procesan entradas que superan en hasta dos órdenes de magnitud la ventana de contexto nativa del modelo sin pérdida de calidad. En conjuntos de datos del mundo real que superan los 1,5 millones de caracteres, los RLM superan ampliamente a los LLM estándar y a las estructuras comunes para contextos largos. Una versión posentrenada, RLM-Qwen3-8B, supera a su modelo base en un 28,3 % de media y se acerca a la calidad de GPT-5 en tres tareas de contexto largo —partiendo de un modelo de 8 000 millones de parámetros—.
Lo que hace que esto sea complementario al entrenamiento de posmemoria es la separación de funciones. El entrenamiento de posmemoria enseña a los agentes qué deben recordar y qué deben olvidar: las decisiones editoriales sobre la gestión del estado. Los RLM enseñan a los agentes cómo explorar el contexto que aún no han almacenado en la memoria. Uno se centra en gestionar lo que hay dentro de la mente del agente. El otro, en explorar lo que hay fuera de ella.
La combinación es más potente que cualquiera de las dos por separado. Un agente capaz de desenvolverse en contextos externos amplios y gestionar un estado de memoria interna compacto cuenta con las dos capacidades necesarias para flujos de trabajo autónomos de larga duración: una percepción amplia y una retención selectiva.
El momento OpenClaw
La teoría es útil. Las pruebas prácticas son mejores.
OpenClaw —el marco de trabajo de código abierto AI que consiguió más de 100 000 estrellas en GitHub en menos de una semana tras su lanzamiento a finales de enero de 2026— es uno de los primeros sistemas en demostrar que estos principios funcionan a gran escala fuera de los entornos de pruebas de investigación.
La arquitectura de OpenClaw encarna la convergencia descrita anteriormente. Su sistema de memoria utiliza Markdown estructurado con marcas de tiempo y metadatos, almacenados como archivos de texto sin formato: sin bases de datos propietarias ni blobs cifrados. Las búsquedas contextuales se realizan mediante una búsqueda semántica en la que el agente encuentra conversaciones anteriores relacionadas, incluso cuando el usuario emplea palabras completamente diferentes. La memoria fluye automáticamente entre las herramientas integradas, de modo que la información mencionada en un chat está disponible cuando el agente trabaja en un editor de código o en un navegador.
Lo que hace que OpenClaw sea relevante para este debate no es solo su arquitectura de memoria, sino la accesibilidad de su enfoque. Los agentes de OpenClaw pueden escribir código de forma autónoma para crear nuevas habilidades y mantener una memoria a largo plazo, todo ello sin necesidad de ajustes. El agente aprende a través del uso, no mediante el descenso de gradientes. La gestión de la memoria se lleva a cabo en la capa de aplicación, no en la capa del modelo, lo que significa que cualquier equipo puede implementarlo y personalizarlo.
La versión 2026.2.3 aborda específicamente el problema de fiabilidad que acaba con los flujos de trabajo de larga duración: mejora de la consistencia en la ejecución de herramientas, gestión de sesiones, fiabilidad de la memoria y aislamiento de agentes para una automatización estable y de larga duración. No se trata de características de investigación, sino de correcciones de producción para los modos de fallo exactos que identifica la investigación sobre el entrenamiento post-memoria.
Así es como interpreto el momento OpenClaw. Se trata del primer sistema ampliamente adoptado que demuestra que se pueden crear agentes con memoria duradera y autogestionada sin ninguna de las barreras tradicionales: sin costes de ajuste, sin requisitos de computación exigentes y sin necesidad de conocimientos profundos de aprendizaje automático. El agente gestiona su propio contexto. El usuario configura el flujo de trabajo. El sistema se ejecuta.
Así es como se ve la democratización en la práctica.
Traducción empresarial: por qué esto cambia la ecuación de la escalabilidad
Permítanme traducir esta convergencia en un impacto operativo.
La barrera del coste se reduce
Los requisitos de computación para el entrenamiento post-memoria son un orden de magnitud inferiores a los del ajuste fino. AgeMem se entrena en un único nodo de 8xA100. Memory-R1 necesita 152 ejemplos. La reducción del contexto del 51 % de MemAct y la sobrecarga de memoria constante de MEM1 se traducen directamente en menores costes de inferencia a gran escala. Para una empresa que gestiona 30 000 conversaciones de agentes al día a 0,14 dólares cada una, una reducción del contexto del 50 % no solo reduce los costes a la mitad, sino que cambia lo que es económicamente viable. Las tareas que resultaban demasiado costosas para que los agentes las gestionaran en interacciones prolongadas pasan a ser viables.
Se elimina la barrera de los conocimientos especializados
El ajuste fino requiere ingenieros de aprendizaje automático que comprendan el entrenamiento distribuido, el diseño de recompensas, la depuración de gradientes y la gestión de puntos de control. El entrenamiento post-memoria y la navegación al estilo RLM operan en la capa de aplicación. OpenClaw funciona con archivos Markdown y configuración. La especialización pasa de «¿sabes entrenar un modelo?» a «¿sabes diseñar un flujo de trabajo?», lo que supone un mercado de talento mucho más amplio.
Fiabilidad a largo plazo
Este es el mayor reto. La razón por la que el 60 % de los proyectos piloto con múltiples agentes no logran escalar no es el coste, sino la pérdida de fiabilidad. Los agentes que no pueden mantener un estado coherente durante más de 50 turnos resultan inútiles desde el punto de vista operativo para los flujos de trabajo más importantes: investigación en varias etapas, atención al cliente compleja, migración de código y respuesta a incidentes.
El entrenamiento «post-memoria» aborda este problema de forma directa. MEM1 mantiene un rendimiento casi constante en 16 objetivos. MemAgent conserva la precisión a lo largo de 3,5 millones de tokens. Los RLM procesan entradas dos órdenes de magnitud superiores a las de Windows nativo sin pérdida de calidad. Esta combinación —agentes que se desenvuelven en un contexto amplio y mantienen un estado interno compacto— es lo que hace viables los flujos de trabajo autónomos de varias horas de duración.
Tres aspectos a tener en cuenta en tu pila
- La memoria como una habilidad que se puede entrenar, no como un proceso fijo. Los sistemas de memoria heurística que se utilizan actualmente (Mem0, Zep, LangChain memory) aportan un valor real. Sin embargo, las políticas de memoria aprendidas superan a las diseñadas manualmente, sobre todo a medida que las tareas se alargan. Evalúa si tu capa de memoria puede evolucionar.
- La navegación por encima de la recuperación. Si tus agentes acceden a grandes bases de conocimiento utilizando únicamente RAG, estás dejando de aprovechar todo su potencial. El patrón RLM —que proporciona a los agentes herramientas para explorar, filtrar y consultar de forma recursiva su contexto— es complementario y, a menudo, superior para tareas de análisis en profundidad. Esté atento a la aparición de esta capacidad en los marcos de trabajo de los agentes durante los próximos 12 meses.
- Optimización en la capa de aplicación frente a la personalización en la capa de modelo. El modelo OpenClaw —gestión de la memoria mediante la configuración y el aprendizaje en tiempo de ejecución, en lugar de la modificación de los pesos— es probablemente el patrón que adoptarán la mayoría de las organizaciones. No es necesario ser un laboratorio de vanguardia para ello.
Limitaciones y cuestiones pendientes
La convergencia es real, pero también lo son las diferencias.
data de entrenamiento. El entrenamiento de la memoria basado en el aprendizaje por reinforcement (RL) requiere entornos en los que el agente pueda practicar la gestión de la memoria a gran escala. La mayoría de los artículos utilizan tareas sintéticas o pruebas de rendimiento limitadas. No se ha demostrado si estas señales de entrenamiento se pueden trasladar a la compleja diversidad de los flujos de trabajo empresariales.
El diseño de recompensas es delicado. La experiencia del equipo de mem-agent resulta instructiva: los diseños iniciales de recompensas llevaron a que los modelos se dedicaran a «jugar» con las recompensas del formato en lugar de resolver tareas. Pasaron por múltiples iteraciones antes de dar con una fórmula estable. No es algo que se pueda aplicar sin más.
Sobrecarga de navegación. Los RLM requieren sistemáticamente más tiempo real debido a la sobrecarga que supone la paralelización de los sub-LLM. Para aplicaciones sensibles a la latencia —como los chatbots o la atención al cliente en tiempo real—, el RAG tradicional sigue siendo la opción más rápida. La compensación del RLM prima la precisión sobre la velocidad, lo que limita su aplicabilidad a análisis profundos y flujos de trabajo de larga duración.
La memoria multimodal está en sus inicios. Los ocho artículos publicados tras el entrenamiento se centran en el texto. Los agentes que trabajan con imágenes, data estructurados, resultados de herramientas o modalidades mixtas necesitan sistemas de memoria capaces de gestionar contenidos heterogéneos. Nadie ha resuelto esto todavía.
Superficie de seguridad. La memoria que persiste y evoluciona genera vectores de ataque. Las entradas maliciosas podrían contaminar la memoria a largo plazo. La retención excesiva plantea problemas de privacidad en los sectores regulados. La versión 2026.2.3 de OpenClaw aborda parte de este problema con una protección más sólida contra la inyección de indicaciones, pero las implicaciones más amplias para la seguridad de las políticas de memoria aprendida siguen sin haberse explorado en profundidad.
Hacia dónde se dirige esto
En cuestión de meses se han dado tres avances. El entrenamiento «post-memoria» enseña a los agentes qué deben recordar. Los modelos de lenguaje recursivos enseñan a los agentes a desenvolverse con lo que aún no han memorizado. Y los sistemas de producción como OpenClaw demuestran que estas capacidades pueden implementarse sin las barreras tradicionales que suponen el ajuste fino, la escasez de recursos informáticos y la necesidad de contar con una gran experiencia en aprendizaje automático profundo.
La trayectoria está clara. En la Fase 1 (actualmente), los sistemas de memoria heurística y RAG son el estándar de producción. Funcionan. Úsalos. En la Fase 2 (2026-2027), los módulos de memoria entrenados con RL estarán disponibles como componentes enchufables, pequeños modelos especializados que se encargan de la gestión de la memoria para modelos de razonamiento más grandes. La navegación al estilo RLM se convierte en una capacidad estándar de los agentes. En la Fase 3 (a partir de 2027), el entrenamiento de la memoria y la navegación por el contexto se fusionan en flujos de trabajo estándar posteriores al entrenamiento, junto con el ajuste de instrucciones y el RL de razonamiento.
Aún está por ver si RL en memoria resultará ser la solución o solo una pieza de un rompecabezas más amplio. Es posible que el año que viene surja algo totalmente diferente. Pero el número de equipos independientes que han llegado a este enfoque —junto con la rapidez con la que sistemas de producción como OpenClaw han adoptado estos principios— es difícil de ignorar. Ese tipo de convergencia suele significar algo.
Para los profesionales que desarrollan sistemas hoy en día, la conclusión práctica es la siguiente: diseñen sus sistemas de modo que la capa de memoria sea modular y sustituible, y proporcionen a sus agentes herramientas para interactuar con su contexto, en lugar de limitarse a recibirlo de forma pasiva. Los sistemas heurísticos que implementen ahora acabarán siendo sustituidos por otros entrenados. Si la gestión de la memoria está integrada de forma rígida en su proceso, esa sustitución resultará costosa. Si se trata de una interfaz limpia, será una mejora.
Los agentes que triunfen en la producción no serán aquellos con las ventanas de contexto más amplias ni los modelos más costosos. Serán aquellos que hayan aprendido qué deben recordar —y cómo encontrar lo que no recuerdan—.

BLOG






