TL;DR

Cet article présente le LLMOps, une branche spécialisée fusionnant le DevOps et le MLOps pour les gérer les défis posés par les grands modèles linguistiques (LLM). Les LLM, comme le GPT de l'OpenAI, utilisent des textes étendus data pour des tâches telles que la génération de textes et la traduction de langues. Les LLMOps s'attaquent à des problèmes tels que personnalisation, modifications de l'API, dérive data, évaluation du modèle et surveillance grâce à des outils tels que LangSmith, TruLens et W&B Prompts. Il garantit l'adaptabilité, l'évaluation et le suivi des modèles linguistiques dans des scénarios réels, offrant ainsi une solution complète aux organisations qui exploitent ces modèles linguistiques avancés.

Pour vous guider dans cette discussion, nous commencerons par revoir les principes fondamentaux de DevOps et MLOps, puis nous nous concentrerons sur LLMOps, en commençant par une brève introduction aux LLM et à leur utilisation par les organisations. Ensuite, nous nous pencherons sur les principaux défis opérationnels posés par la technologie LLM et sur la manière dont le LLMOps les aborde efficacement.

Principes fondamentaux pour LLMOps : DevOps et MLOps

DevOps, abréviation de Development and Operations, est un ensemble de pratiques visant à automatiser le processus de livraison de logiciels, le rendant plus efficace, plus fiable et plus évolutif. Les principes fondamentaux de DevOps comprennent : la collaboration, l'automatisation, les tests continus, la surveillance et l'orchestration du déploiement.

MLOps, abréviation de Machine Learning Operations, est une extension des pratiques DevOps spécifiquement adaptée à la gestion du cycle de vie des modèles d'apprentissage automatique. Elle répond aux défis uniques posés par la nature itérative et expérimentale du développement de l'apprentissage automatique. Elle introduit des tâches supplémentaires telles que la gestion des versions de data, ainsi que l'expérimentation et l'entraînement des modèles.

LLMOps : Gestion du déploiement et de la maintenance de grands modèles linguistiques

LLMOps, abréviation de Large Language Model Operations, est une branche spécialisée de MLOps spécialement conçue pour relever les défis et répondre aux exigences uniques de la gestion de grands modèles linguistiques (LLM).

Mais tout d'abord, qu'est-ce qu'un LLM exactement ?

Les LLM sont un type de modèle d'apprentissage profond qui utilise des quantités massives de texte data pour estimer des milliards de paramètres. Ces paramètres permettent aux LLM de comprendre et de générer des textes de qualité humaine, de traduire des langues, de résumer des informations complexes et d'effectuer diverses tâches de traitement du langage naturel.

Comment les organisations utilisent-elles les LLM ?

La formation de LLM à partir de zéro étant extrêmement coûteuse et chronophage, les organisations optent pour des modèles de base pré-entraînés, tels que GPT d'OpenAI ou LaMDA de Google AI, comme point de départ. Ces modèles, déjà entraînés sur de grandes quantités de data, possèdent des connaissances étendues et peuvent effectuer diverses tâches, notamment la génération de texte, la traduction de langues et la rédaction de différents types de contenu créatif. Pour personnaliser davantage les résultats du LLM en fonction de tâches ou de domaines spécifiques, les organisations utilisent des techniques telles que l'ingénierie des messages, la génération augmentée par la recherche (RAG) et le réglage fin. L'ingénierie des messages implique la création d'instructions claires et concises qui guident le LLM vers le résultat souhaité, tandis que la RAG fonde le modèle sur des informations supplémentaires provenant de sources data externes, améliorant ainsi ses performances et sa pertinence. Le réglage fin, quant à lui, consiste à ajuster les paramètres du LLM en utilisant des data supplémentaires spécifiques aux besoins de l'organisation. Le schéma ci-dessous donne un aperçu du flux de travail des LLMOps, illustrant la manière dont ces techniques s'intègrent dans le processus global.

Pourquoi nous avons besoin des LLMOps

Les progrès rapides de la technologie LLM ont mis en lumière plusieurs défis opérationnels qui nécessitent des approches spécialisées.

Parmi ces défis, citons :

  • Le besoin de personnalisation: Alors que les LLM sont pré-entraînés sur des quantités massives de data, la personnalisation est essentielle pour une performance optimale sur des tâches spécifiques. Cela a conduit au développement de nouvelles techniques de personnalisation, telles que ingénierie rapide, la génération augmentée par la recherche (RAG) et peaufinage. RAG aide le modèle à s'appuyer sur les informations les plus précises en lui fournissant une base de connaissances externe, tandis que le réglage fin est plus approprié lorsque nous voulons que le modèle exécute des tâches spécifiques ou respecte un format de réponse particulier tel que JSON ou SQL. Le choix entre le RAG et le réglage fin dépend de la question de savoir si nous voulons améliorer les connaissances du modèle ou ses performances dans le cadre d'une tâche spécifique.

  • Modifications de l'API: Contrairement aux modèles ML traditionnels, les LLM sont souvent accessibles via des API tierces, qui peuvent être modifiées ou même supprimées, ce qui nécessite une surveillance et une adaptation continues. Par exemple, Documentation sur l'IA ouverte mentionne explicitement que ses modèles font l'objet de mises à jour régulières, ce qui peut obliger les utilisateurs à mettre à jour leur logiciel ou à migrer vers des modèles ou des terminaux plus récents.

  • Data dérive, L'expression "changement dans les propriétés statistiques de l'entrée data" désigne un changement dans les propriétés statistiques de l'entrée data, qui se produit fréquemment dans la production lorsque la data rencontrée s'écarte de la data sur laquelle les LLM ont été formés. Cela peut conduire à la production d'informations inexactes ou obsolètes. Par exemple, avec le modèle GPT-3.5, ses informations ont été limitées jusqu'en septembre 2021 avant que le modèle GPT-3.5 ne soit utilisé. la date limite a été repoussée à janvier 2022. Par conséquent, il n'a pas pu répondre aux questions concernant des événements plus récents, ce qui a provoqué la frustration des utilisateurs.

  • Évaluation du modèle: Dans l'apprentissage automatique traditionnel, nous nous appuyons sur des mesures telles que l'exactitude, la précision et le rappel pour évaluer nos modèles. Cependant, l'évaluation des LLM est beaucoup plus complexe, en particulier en l'absence de vérité terrain data et lorsqu'il s'agit de sorties en langage naturel plutôt que de valeurs numériques.

  • Contrôle: Le contrôle continu des LLM et des applications basées sur les LLM est crucial. Il est également plus compliqué car il implique de multiples aspects qui doivent être pris en compte pour garantir l'efficacité et la fiabilité globales de ces modèles de langage. Nous discuterons de ces aspects plus en détail dans la section suivante.

Comment les LLMOps relèvent ces défis

LLMOps s'appuie sur les fondements de MLOps tout en introduisant des éléments spécialisés adaptés aux LLM :

  • Gestion rapide de l'ingénierie et de la mise au point: LLMOps fournit des outils tels que les systèmes de contrôle de version rapides pour suivre et gérer les différentes versions des messages-guides. Il s'intègre également à des cadres d'affinage pour automatiser et optimiser le processus de mise au point. Un exemple frappant de ces outils est LangSmith, un cadre spécialement conçu pour gérer les flux de travail du LLM. Ses fonctionnalités complètes comprennent versionnement de l'invite, permettant une expérimentation contrôlée et la reproductibilité. En outre, LangSmith facilite peaufinage de LLMs utilisant les runs ’data après un éventuel filtrage et enrichissement pour améliorer la performance du modèle.

  • Gestion des modifications de l'API: Les LLMOps établissent des processus pour surveillance Changements dans l'API, alerte les opérateurs à des perturbations potentielles, et l'activation des rollbacks si nécessaire.

  • Adaptation du modèle au changement data: LLMOps facilite l'adaptation des LLM aux paysages data en évolution, en veillant à ce que les modèles restent pertinents et performants à mesure que les modèles data changent. Cet objectif pourrait être atteint en surveiller les distributions de data et déclencher des processus d'adaptation lorsque des changements significatifs sont détectés. Ces processus peuvent inclure
    -> Recyclage ou mise au point: En fonction de l'ampleur de la dérive du data et des ressources disponibles, il est possible de recourir au recyclage ou à la mise au point pour en atténuer l'impact.
    -> Adaptation du domaine: Mise au point du LLM sur un dataset du domaine cible.
    -> Distillation des connaissances: Former un modèle plus petit en tirant parti des connaissances et de l'expertise d'un modèle plus grand, plus puissant et plus moderne.

  • Évaluation spécifique au LLM: LLMOps utilise de nouveaux outils d'évaluation adaptés aux LLM. Il s'agit notamment de
    -> Mesures basées sur le texte, Les mesures de la complexité, telles que la perplexité, sont une mesure statistique de la capacité du modèle à prédire le mot suivant dans une séquence. Ainsi que les mesures BLEU et ROUGE, qui comparent un texte généré par une machine à un ou plusieurs textes de référence générés par des humains. Elles sont couramment utilisées pour les tâches de traduction et de résumé.
    -> Analyser les enchâssements (représentations vectorielles de mots ou de phrases), afin d'évaluer la capacité du modèle à comprendre les mots spécifiques au contexte et à saisir les similitudes sémantiques. Les techniques de visualisation et de regroupement peuvent également nous aider à détecter les biais.
    -> Evaluateur LLMs: Utiliser d'autres LLM pour évaluer notre modèle. Par exemple, cela peut se faire en attribuant un score à la sortie du modèle évalué sur la base de métriques prédéfinies, telles que la fluidité, la cohérence, la pertinence et l'exactitude factuelle.
    -> Intégration du retour d'information humain: LLMOps incorpore des mécanismes de collecte et d'intégration du retour d'information humain dans le cycle de vie du ML, améliorant ainsi les performances du LLM et corrigeant les préjugés.
    TruLens est un outil qui permet d'intégrer ces évaluations dans les applications du programme d'éducation et de formation tout au long de la vie par le biais d'une approche programmatique connue sous le nom de fonctions de rétroaction.

  • Suivi spécifique au LLM: LLMOps intègre un contrôle continu pour suivre les mesures de performance du LLM, identifier les problèmes potentiels et détecter les dérives ou les distorsions du concept. Cela comprend :
    -> Contrôle fonctionnel; en suivant le nombre de demandes, le temps de réponse, l'utilisation des jetons, les taux d'erreur et les coûts.
    -> Un suivi rapide; pour assurer la lisibilité et pour détecter la toxicité et d'autres formes d'abus. Promesses W&B est un ensemble d'outils conçus pour surveiller les applications basées sur les LLM. Il peut être utilisé pour analyser les entrées et les sorties de vos LLM, visualiser les résultats intermédiaires et stocker et gérer vos invites en toute sécurité.
    -> Suivi des réponses; garantir la pertinence et la cohérence du modèle. Il s'agit notamment d'empêcher la génération de contenus hallucinatoires ou fictifs, et de veiller à l'exclusion de tout matériel nuisible ou inapproprié. La transparence peut nous aider à mieux comprendre la réponse du modèle. Elle peut être établie en révélant les sources de réponse (dans RAG) ou en invitant le modèle à justifier son raisonnement (chaîne de pensée).

Cette surveillance data peut être utilisée pour améliorer l'efficacité opérationnelle. Nous pouvons améliorer la gestion des coûts en mettant en place des alertes sur l'utilisation des jetons et en employant des stratégies telles que la mise en cache des réponses précédentes. Cela nous permet de les réutiliser pour des requêtes similaires sans avoir à invoquer à nouveau le LLM. En outre, nous pouvons minimiser la latence en optant pour des modèles plus petits lorsque cela est possible et en limitant le nombre de jetons générés.

Conclusion

Dans cet article, nous avons exploré l'émergence de LLMOps, un descendant de DevOps et MLOps, spécifiquement conçu pour répondre aux défis opérationnels posés par les grands modèles de langage. Terminons par une comparaison visuelle de ces trois méthodologies, illustrant leur portée dans le contexte des entreprises utilisatrices de LLM, qui s'appuient sur ces modèles pour créer des produits et résoudre des problèmes commerciaux.

Bien que ces trois méthodologies partagent des pratiques communes telles que CI/CD, le versionnage et l'évaluation, elles ont chacune des domaines d'intérêt distincts. DevOps couvre l'ensemble du cycle de développement des logiciels, du développement au déploiement et à la maintenance. MLOps étend DevOps pour répondre aux défis spécifiques des modèles d'apprentissage automatique, y compris l'automatisation de la formation, du déploiement et de la surveillance des modèles. LLMOps, la dernière itération de ces méthodologies, se concentre spécifiquement sur les LLM. Même si les entreprises utilisatrices de LLM n'ont pas besoin de développer leurs propres modèles, elles sont toujours confrontées à des défis opérationnels, notamment la gestion des changements d'API et la personnalisation des modèles grâce à des techniques telles que l'ingénierie prompte et le réglage fin.

Moyen Blog par Artefact.

Cet article a été initialement publié sur Medium.com.
Suivez-nous sur notre Medium Blog !