TL;DR
Este artículo presenta LLMOps, una rama especializada que fusiona DevOps y MLOps para gestionar los retos que plantean los grandes modelos lingüísticos (LLMs). Los LLM, como el GPT de OpenAI, utilizan textos extensos data para tareas como la generación de textos y la traducción de idiomas. Los LLMO abordan cuestiones como personalización, cambios de API, deriva data, evaluación de modelos y supervisión a través de herramientas como LangSmith, TruLens y W&B Prompts. Garantiza la adaptabilidad, la evaluación y la supervisión de los LLM en escenarios reales, ofreciendo una solución integral para las organizaciones que aprovechan estos modelos lingüísticos avanzados.
Para guiarle a través de este debate, comenzaremos revisando los principios fundacionales de DevOps y MLOps, y después nos centraremos en LLMOps, comenzando con una breve introducción a los LLM y su utilización por parte de las organizaciones. A continuación, profundizaremos en los principales retos operativos que plantea la tecnología LLM y en cómo los LLMOps los abordan de forma eficaz.
Principios fundamentales para LLMOps : DevOps y MLOps
DevOps, abreviatura de Desarrollo y Operaciones, es un conjunto de prácticas cuyo objetivo es automatizar el proceso de entrega de software, haciéndolo más eficiente, fiable y escalable. Los principios básicos de DevOps incluyen: colaboración, automatización, pruebas continuas, supervisión y orquestación del despliegue.
MLOps, abreviatura de Machine Learning Operations (operaciones de aprendizaje automático), es una extensión de las prácticas DevOps adaptada específicamente a la gestión del ciclo de vida de los modelos de aprendizaje automático. Aborda los retos únicos que plantea la naturaleza iterativa y experimental del desarrollo del aprendizaje automático. Introduce tareas adicionales como el versionado y la gestión de data, así como la experimentación y el entrenamiento de modelos.
LLMOps: Gestión del despliegue y mantenimiento de grandes modelos lingüísticos
LLMOps, abreviatura de Large Language Model Operations (Operaciones con grandes modelos lingüísticos), es una rama especializada de MLOps diseñada específicamente para gestionar los retos y requisitos exclusivos de la gestión de grandes modelos lingüísticos (LLM).
Pero primero, ¿qué son exactamente los LLM?
Los LLM son un tipo de modelo de aprendizaje profundo que utiliza cantidades masivas de texto data para estimar miles de millones de parámetros. Estos parámetros permiten a los LLM comprender y generar textos de calidad humana, traducir idiomas, resumir información compleja y realizar diversas tareas de procesamiento del lenguaje natural.
Cómo utilizan las organizaciones los LLM
Dado que entrenar a los LLM desde cero es extremadamente caro y lleva mucho tiempo, las organizaciones optan por modelos básicos preentrenados, como GPT de OpenAI o LaMDA de Google AI, como punto de partida. Estos modelos, al estar ya entrenados sobre grandes cantidades de data, poseen amplios conocimientos y pueden realizar diversas tareas, como generar texto, traducir idiomas y escribir distintos tipos de contenidos creativos. Para personalizar aún más el resultado del LLM a tareas o dominios específicos, las organizaciones emplean técnicas como la ingeniería de prompt, la generación aumentada por recuperación (RAG) y el ajuste fino. La ingeniería de instrucciones implica la elaboración de instrucciones claras y concisas que guíen al LLM hacia el resultado deseado, mientras que la RAG fundamenta el modelo en información adicional procedente de fuentes externas data, mejorando su rendimiento y relevancia. El ajuste fino, por su parte, implica ajustar los parámetros del LLM utilizando data adicionales específicos para las necesidades de la organización. El esquema que figura a continuación ofrece una visión general del flujo de trabajo del LLMOps, ilustrando cómo se integran estas técnicas en el proceso global.

Por qué necesitamos LLMOps
Los rápidos avances de la tecnología LLM han sacado a la luz varios retos operativos que requieren enfoques especializados.
Algunos de estos retos incluyen :
La necesidad de personalización: Aunque los LLM están preentrenados en cantidades masivas de data, la personalización es esencial para un rendimiento óptimo en tareas específicas. Esto ha llevado al desarrollo de nuevas técnicas de personalización, como ingeniería rápida, generación aumentada por recuperación (RAG) y puesta a punto. RAG ayuda a fundamentar el modelo en la información más precisa al proporcionarle una base de conocimientos externa, mientras que el ajuste fino es más adecuado cuando queremos que el modelo realice tareas específicas o se adhiera a un formato de respuesta concreto, como JSON o SQL. La elección entre RAG y ajuste fino depende de si pretendemos aumentar los conocimientos del modelo o mejorar su rendimiento en una tarea específica.
Cambios en la API: A diferencia de los modelos de ML tradicionales, a menudo se accede a los LLM a través de API de terceros, que pueden modificarse o incluso quedar obsoletos, lo que requiere una supervisión y adaptación continuas. Por ejemplo, Abrir la documentación de la IA menciona explícitamente que sus modelos están sujetos a actualizaciones periódicas, lo que puede requerir que los usuarios actualicen su software o migren a modelos o puntos finales más nuevos.
Data deriva, se refiere a un cambio en las propiedades estadísticas del data de entrada, que se produce con frecuencia en la producción cuando el data encontrado se desvía del data con el que se entrenaron los LLM. Esto puede llevar a la generación de información inexacta o desfasada. Por ejemplo, con el modelo GPT-3.5, su información se limitó hasta septiembre de 2021 antes de que la fecha límite se amplió hasta enero de 2022. En consecuencia, no pudo responder a preguntas sobre acontecimientos más recientes, lo que provocó la frustración de los usuarios.
Evaluación del modelo: En el aprendizaje automático tradicional, nos basamos en métricas como la exactitud, la precisión y el recuerdo para evaluar nuestros modelos. Sin embargo, la evaluación de los LLM es bastante más intrincada, sobre todo cuando no se dispone de la verdad sobre el terreno data y cuando se trata de salidas de lenguaje natural en lugar de valores numéricos.
Supervisión: La supervisión continua de los LLM y de las aplicaciones basadas en ellos es crucial. También es más complicado porque implica múltiples aspectos que deben tenerse en cuenta para garantizar la eficacia y fiabilidad globales de estos modelos lingüísticos. Discutiremos estos aspectos con más detalle en la siguiente sección.
Cómo aborda LLMOps estos retos
LLMOps se basa en los cimientos de MLOps al tiempo que introduce componentes especializados adaptados a los LLM :
Gestión rápida de la ingeniería y la puesta a punto: LLMOps proporciona herramientas como sistemas rápidos de control de versiones para realizar un seguimiento y gestionar diferentes versiones de los avisos. También se integra con marcos de ajuste para automatizar y optimizar el proceso de puesta a punto. Un ejemplo destacado de estas herramientas es LangSmith, un marco diseñado específicamente para gestionar los flujos de trabajo del LLM. Sus completas funciones abarcan versionado rápido, permitiendo la experimentación controlada y la reproducibilidad. Además, LangSmith facilita puesta a punto de LLMs utilizando ejecuciones'data tras un eventual filtrado y enriquecimiento para mejorar el rendimiento del modelo.
Gestión de cambios de la API: LLMOps establece procesos para supervisión Cambios en la API, alertando a operadores ante posibles perturbaciones, y habilitar las reversiones si es necesario.
Adaptación del modelo a los cambios data: LLMOps facilita la adaptación de los LLM a los panoramas evolutivos de data, asegurando que los modelos sigan siendo relevantes y eficaces a medida que cambian los patrones de data. Esto podría lograrse mediante seguimiento de las distribuciones de data y activación de los procesos de adaptación cuando se detecten cambios significativos. Estos procesos pueden incluir:
-> Reentrenamiento o puesta a punto: Dependiendo de la magnitud de la deriva data y de los recursos disponibles, se puede recurrir al reentrenamiento o al ajuste fino para mitigar su impacto.
-> Adaptación del dominio: Puesta a punto del LLM en un dataset del dominio de destino.
-> Destilación de conocimientos: Formar un modelo más pequeño aprovechando los conocimientos y la experiencia de un modelo más grande, potente y actualizado.
Evaluación específica del LLM: El LLMOps emplea nuevas herramientas de evaluación adaptadas a los LLM. Entre ellas se incluyen:
-> Métricas basadas en texto, como la perplejidad; una medida estadística de lo bien que el modelo es capaz de predecir la siguiente palabra de una secuencia. Así como las métricas BLEU y ROUGE, que comparan el texto generado por la máquina con uno o varios textos de referencia generados por humanos. Se utilizan habitualmente en tareas de traducción y resumen.
-> Análisis de las incrustaciones (representaciones vectoriales de palabras o frases), para evaluar la capacidad del modelo de comprender las palabras específicas del contexto y captar las similitudes semánticas. Las técnicas de visualización y agrupación pueden ayudarnos también en la detección de sesgos.
-> Evaluador LLM: Utilizar otros LLM para evaluar nuestro modelo. Por ejemplo, esto puede hacerse atribuyendo una puntuación a la salida del modelo evaluado basada en métricas predefinidas, como la fluidez, la coherencia, la relevancia y la precisión factual.
-> Integración de la retroalimentación humana: LLMOps incorpora mecanismos para recopilar e incorporar la retroalimentación humana en el ciclo de vida del ML, mejorando el rendimiento del LLM y abordando los sesgos.
TruLens es una herramienta que permite la integración de estas evaluaciones en las aplicaciones LLM a través de un enfoque programático conocido como Funciones de retroalimentación.
Seguimiento específico del LLM: LLMOps integra una supervisión continua para realizar un seguimiento de las métricas de rendimiento de LLM, identificar posibles problemas y detectar desviaciones o sesgos conceptuales. Esto incluye:
-> Supervisión funcional; mediante el seguimiento del número de solicitudes, el tiempo de respuesta, el uso de tokens, las tasas de error y el coste.
-> Seguimiento puntual; para garantizar la legibilidad y detectar la toxicidad y otras formas de abuso. W&B Prompts es un conjunto de herramientas diseñadas para supervisar las aplicaciones basadas en LLM. Puede utilizarse para analizar las entradas y salidas de sus LLM, visualizar los resultados intermedios y almacenar y gestionar de forma segura sus avisos.
-> Seguimiento de la respuesta; garantizar la pertinencia y la coherencia del modelo. Esto incluye evitar la generación de contenidos alucinantes o ficticios, así como garantizar la exclusión de material nocivo o inapropiado. La transparencia puede ayudarnos a comprender mejor la respuesta del modelo. Puede establecerse revelando las fuentes de respuesta (en GAR) o incitando al modelo a justificar su razonamiento (cadena de pensamiento).
Esta supervisión data puede utilizarse para mejorar la eficacia operativa. Podemos mejorar la gestión de costes implementando alertas sobre el uso de tokens y empleando estrategias como el almacenamiento en caché de respuestas anteriores. Esto nos permite reutilizarlas para consultas similares sin invocar de nuevo al LLM. Además, podemos minimizar la latencia optando por modelos más pequeños siempre que sea factible y limitando el número de tokens generados.
Conclusión
En este artículo, exploramos la aparición de LLMOps, un descendiente de DevOps y MLOps, diseñado específicamente para abordar los retos operativos que plantean los grandes modelos lingüísticos. Concluyamos con una comparación visual de estas tres metodologías, ilustrando su alcance en el contexto de las empresas usuarias de LLM, que aprovechan estos modelos para crear productos y resolver problemas empresariales.

Aunque las tres metodologías comparten prácticas comunes como CI/CD, versionado y evaluación, cada una tiene áreas de enfoque distintas. DevOps abarca todo el ciclo de vida del desarrollo de software, desde el desarrollo hasta el despliegue y el mantenimiento. MLOps amplía DevOps para abordar los retos específicos de los modelos de aprendizaje automático, incluida la automatización de la formación, el despliegue y la supervisión de los modelos. LLMOps, la última iteración de estas metodologías, se centra específicamente en los LLM. Aunque las empresas usuarias de LLM no necesitan desarrollar sus propios modelos, siguen enfrentándose a retos operativos, como la gestión de los cambios de API y la personalización de los modelos mediante técnicas como la ingeniería rápida y el ajuste fino.