Introducción
El entrenamiento postmemoria ha sido uno de mis principales intereses en los últimos meses. Si has seguido mis últimos artículos sobre la gestión del contexto, las arquitecturas de memoria y la recurrente pregunta de por qué los agentes pierden rendimiento a partir de los 50 años, este artículo es donde convergen todos esos temas.
El patrón original era bastante claro. Ocho equipos de investigación independientes llegaron a la misma conclusión: dejar de construir sistemas de memoria basados en el modelo y entrenar al propio modelo para que gestionara la memoria como una habilidad adquirida. Esa convergencia fue significativa.
Apunta hacia una vía democrática para ampliar la escala de los agentes autónomos. Una vía que no requiere ajustes precisos, un proceso costoso y técnicamente exigente que depende de recursos informáticos escasos y de una gran experiencia en aprendizaje automático profundo. El entrenamiento «post-memoria» opera en la fase posterior al entrenamiento: la misma etapa de optimización que nos proporcionó la capacidad de seguir instrucciones y de razonar, ahora aplicada a la gestión del estado cognitivo. Y, dado que funciona sobre la base de modelos ya existentes, es accesible para equipos que nunca podrían permitirse entrenar uno desde cero.

La pared de ajuste fino
La premisa por defecto durante la mayor parte de la historia reciente AIha sido muy sencilla: si quieres que un modelo se comporte de otra manera, afínalo. Ajusta los pesos. Optimízalo para tu ámbito. El problema es que el ajuste fino se ha convertido en un ámbito reservado a un número cada vez menor de organizaciones.
Entrenar un modelo de 70 000 millones de parámetros requiere cientos de GPU de gama alta que funcionen durante días o semanas. Una sola ejecución de ajuste fino en un modelo como Llama 3.1 70B cuesta entre 50 000 y 200 000 dólares en recursos de computación, dependiendo del tamaño del conjunto de datos y de la duración. El acceso a ese equipo informático es limitado. Los clústeres NVIDIA H100 se reservan con meses de antelación, y los conocimientos especializados para gestionar trabajos de entrenamiento distribuidos son escasos. La mayoría de los equipos empresariales no cuentan con ingenieros de aprendizaje automático capaces de diseñar funciones de recompensa, depurar problemas de gradientes o gestionar la recuperación de puntos de control en clústeres de múltiples nodos.
El resultado es un sistema de dos niveles. Unos pocos laboratorios pioneros y startups con buena financiación pueden personalizar el comportamiento de los modelos. El resto utiliza los modelos tal cual, integrándolos en procesos de ingeniería de prompts y de recuperación que alcanzan sus límites cuando las tareas se vuelven largas y complejas.
El entrenamiento post-memoria rompe con esta dinámica. No modifica los pesos del modelo base para el conocimiento del dominio. Entrena un comportamiento —la gestión de la memoria— mediante el aprendizaje por refuerzo en la fase posterior al entrenamiento. Los requisitos de computación son un orden de magnitud menores. Todo el proceso de entrenamiento de AgeMem se ejecuta en un único nodo 8xA100. Memory-R1 logra sus resultados con 152 muestras de entrenamiento. MemAct entrena un modelo de 14 000 millones de parámetros para igualar la precisión de modelos 16 veces más grandes. Estos no son requisitos de recursos de laboratorio de vanguardia. Son accesibles.
La consecuencia es que las organizaciones que antes no podían permitirse ajustar un modelo base ahora pueden entrenar a sus agentes para que gestionen la memoria de forma inteligente. No se trata de una mejora gradual, sino de un cambio en quién puede crear agentes que realmente funcionen más allá de la fase de demostración.
La brecha que la arquitectura por sí sola no puede cerrar
Este es el problema en términos concretos. Una sola conversación con un AI tiene un coste medio por token de unos 0,14 dólares. Si lo extrapolamos a 3.000 empleados que lo utilizan diez veces al día, el gasto en tarifas de API asciende a 126.000 dólares al mes. A medida que aumenta el historial de conversaciones, los costes crecen de forma cuadrática, ya que cada nuevo turno vuelve a procesar todos los turnos anteriores. Un agente que gestiona un flujo de trabajo de 100 turnos no cuesta 10 veces más que uno de 10 turnos. Cuesta más bien 100 veces más.
El sector probó con ventanas de contexto más amplias. Ahora contamos con modelos que admiten un millón de tokens o más. Sin embargo, persisten tres problemas. La atención del modelo se degrada en secuencias largas. El efecto «lost in the middle» (pérdida en el medio), documentado por la Universidad de California en Berkeley, muestra que el rendimiento disminuye cuando la información relevante se encuentra cerca de los límites del contexto. El coste de analizar el contexto por fuerza bruta es insostenible a escala organizativa. Y la mayoría de los flujos de trabajo empresariales siguen superando incluso las ventanas de un millón de tokens cuando se tienen en cuenta los resultados de las herramientas, data estructurados y el estado acumulado.
El sector probó la generación aumentada por recuperación (RAG). La RAG resulta útil, pero recupera lo que es semánticamente similar, no lo que es operativamente relevante. Una restricción fundamental del turno 3 puede estar semánticamente alejada de la consulta del turno 47, pero ser esencial para la decisión en cuestión.
El sector probó la gestión heurística de la memoria: sistemas basados en reglas que resumen, comprimen o filtran el contexto según una lógica predefinida. La arquitectura de Mem0 logra una mejora del 26 % en la precisión y una reducción del 91 % en la latencia en comparación con los métodos de contexto completo. Son ventajas reales. Sin embargo, los sistemas heurísticos comparten una limitación: las reglas las diseñan los ingenieros, no se aprenden de la experiencia. No pueden adaptarse a nuevos ámbitos sin un rediseño manual.
La carencia: ninguno de estos enfoques enseña al propio agente qué debe recordar. Y ninguno de ellos enseña al agente cómo desenvolverse en su propio contexto.
Entrenamiento posterior para la memoria: la convergencia del aprendizaje por reinforcement
El término «posentrenamiento» se refiere a la optimización que tiene lugar tras la fase de preentrenamiento del modelo base. Así es como hemos pasado de modelos lingüísticos sin procesar a asistentes capaces de seguir instrucciones (mediante RLHF), de asistentes a modelos de razonamiento (mediante modelos de recompensa por procesos) y, ahora, de modelos de razonamiento a agentes que gestionan su propio estado cognitivo.
El mecanismo es el aprendizaje por refuerzo. En lugar de crear un sistema externo de gestión de la memoria, se añaden operaciones de memoria al espacio de acción del agente y se le entrena para que las utilice correctamente. El agente aprende cuándo almacenar, borrar, consolidar y recuperar datos, todo ello mediante ensayo y error, optimizando el proceso para completar la tarea. No se necesitan ejemplos de referencia que indiquen cuál es la gestión «correcta» de la memoria. Basta con una señal de recompensa: ¿logró el agente resolver finalmente la tarea?
Ocho artículos recientes explican cómo funciona esto.
Las arquitecturas clave
AgeMem proporciona al agente seis herramientas de memoria: ADD, UPDATE y DELETE para el almacenamiento a largo plazo, y RETRIEVE, SUMMARY y FILTER para el contexto a corto plazo. El entrenamiento se lleva a cabo en tres etapas progresivas. Resultados en Qwen2.5-7B: una mejora relativa del +49,59 % con respecto a los modelos de referencia sin memoria, con un consumo de tokens de prompt entre un 3 % y un 5 % menor que el de las variantes RAG. Mejor rendimiento con menos contexto.
Memory-R1 divide el problema en dos agentes especializados: un gestor de memoria que aprende operaciones estructuradas y un agente de respuesta que recupera información y razona. La recompensa del gestor de memoria depende de si el agente de respuesta es capaz de responder correctamente. Resultados: un aumento del 28 % en el F1 con respecto a la mejor referencia en LoCoMo, utilizando solo 152 muestras de entrenamiento. Transferencia «zero-shot» a bancos de pruebas desconocidos sin necesidad de volver a entrenar.
MemAct amplía el espacio de acción con un operador «Prune & Write»: en cualquier paso, el agente puede eliminar turnos del historial y añadir un resumen de memoria. MemAct-RL-14B alcanza la misma precisión que modelos 16 veces más grandes, al tiempo que reduce la longitud media del contexto en un 51 % y la latencia de inferencia en aproximadamente un 40 %.
MEM1 es el que llega más lejos, ya que mantiene un tamaño de memoria constante. En cada paso, el agente genera un estado interno que consolida todo lo que necesita y, a continuación, descarta todo el contexto anterior. El uso de la memoria se mantiene constante independientemente de la duración de la tarea. MEM1-7B supera a Qwen2.5-14B en tareas con 16 objetivos. El modelo ha aprendido a seguir los subobjetivos por separado, a omitir las preguntas ya resueltas y a autocorregir las consultas, todos ellos comportamientos emergentes.
MemAgent aborda el caso extremo: procesar documentos de longitud arbitraria con complejidad lineal. Entrenado con una longitud de contexto de 32 000 tokens, es capaz de extrapolar hasta 3,5 millones de tokens con una pérdida de rendimiento inferior al 5 %.
La tendencia común a todos ellos es que la gestión de la memoria entrenada supera a la no entrenada y, a menudo, supera a modelos más grandes con memoria no entrenada.
Pero enseñar a los agentes qué deben recordar es solo la mitad de la historia. En la siguiente parte de este artículo, profundizaré en un avance paralelo que replantea el problema por completo: los modelos de lenguaje recursivos, que tratan el contexto no como algo que hay que recuperar, sino como algo por lo que hay que navegar. También analizaré cómo sistemas de producción como OpenClaw están demostrando que estas ideas funcionan fuera de los bancos de pruebas, qué significa esta convergencia para la escalabilidad empresarial y dónde se encuentran las lagunas restantes. Los agentes que escalen no solo recordarán mejor, sino que sabrán cómo encontrar lo que aún no han recordado.

BLOG






