Introduction

Depuis son émergence explosive au milieu de l'année 2022, l'IA générative a rapidement attiré l'attention du monde entier. Initialement centrée sur la modalité du langage, elle s'est depuis étendue à de nouvelles voies passionnantes, notamment les modèles d'images, d'audio et de vidéo. Au début de l'année 2023, les spéculations sur l'impact potentiel de la technologie sur les entreprises de divers secteurs se sont multipliées, accompagnées de cas d'adoption précoces passionnants. Au fur et à mesure que les développeurs ont commencé à élaborer des solutions avec ces modèles, la perception générale a évolué vers l'émergence continue de versions plus récentes, plus grandes et, espérons-le, meilleures des modèles les plus largement utilisés.

À l'aube de 2024, un constat s'impose : le déploiement de l'IA ne se résume pas à l'adoption du modèle le plus récent et le plus volumineux disponible sur le marché. S'il est courant de penser que les solutions d'IA sont prêtes à l'emploi ou que l'augmentation de la taille du modèle entraîne automatiquement de meilleurs résultats, cette approche répond rarement aux besoins spécialisés de la plupart des entreprises. En réalité, les applications réussies nécessitent des solutions d'IA adaptées, flexibles et efficaces.

Pour y parvenir, nous nous tournons vers les systèmes d'IA composés. Contrairement aux modèles uniques et monolithiques, les systèmes d'IA composés intègrent de multiples composants d'IA spécialisés, chacun étant optimisé pour un rôle spécifique. Cette structure garantit un haut niveau de personnalisation, d'adaptabilité et de précision, transformant l'IA d'un outil général en une solution sur mesure. En combinant des composants d'IA plus petits et interconnectés, les entreprises peuvent atteindre des performances et des résultats qui dépassent de loin la portée des seuls modèles disponibles sur étagère. Par conséquent, pour un impact commercial optimal dans toutes les industries, nous soutenons qu'une vision stratégique devrait donner la priorité à des conceptions de systèmes plus intelligents plutôt qu'à la simple construction de modèles plus grands et plus exigeants en termes de calcul.

Comprendre les systèmes d'IA composés

Le laboratoire de recherche en intelligence artificielle de Berkeley (BAIR) définit un système d'IA composé comme un système "qui s'attaque à des tâches d'IA en utilisant de multiples composants en interaction, y compris de multiples appels à des modèles, à des récupérateurs ou à des outils externes". Par exemple, le système Retrieval Augmented Generation (RAG) est un système composé qui combine un grand modèle de langage (LLM), un mécanisme de recherche d'informations et une base de données vectorisée. En revanche, un modèle d'IA génératif est un modèle statistique; par exemple, un LLM prédit le prochain mot dans un texte sur la base d'une formation data.

Dans ce contexte, un modèle peut être considéré comme un bloc unique, tandis qu'un système d'IA composé s'apparente davantage à une machine composée de plusieurs blocs, chacun remplissant une fonction spécifique pour atteindre l'objectif global du système.

class="img-responsive

Modèles et systèmes composés d'IA. Source d'information

En quoi ces systèmes sont-ils utiles ?

Spécialisation : Un gros marteau n'est pas l'outil idéal pour tout faire

Lorsqu'il s'agit de répondre à des applications spécifiques ou aux besoins de l'industrie, il peut s'avérer insuffisant de s'appuyer sur un modèle d'IA polyvalent tel que GPT-4. Bien que puissants, ces modèles sont conçus pour traiter un large éventail de tâches et peuvent ne pas disposer des connaissances spécialisées requises pour des applications particulières, ce qui conduit à des rendements décroissants au-delà d'un certain point.

Par exemple, une institution financière cherchant à développer un chatbot pour l'analyse des investissements ou la gestion de patrimoine a besoin d'un système qui intègre à la fois des connaissances spécialisées et une expertise propre à l'entreprise. Compte tenu de la nature du secteur, il y aurait des préoccupations concernant la confidentialité (l'entreprise pourrait exiger des solutions sur site et l'utilisation exclusive de modèles ouverts), la précision (les solutions doivent être d'une précision irréprochable) et l'efficacité. L'utilisation de modèles linguistiques, même les plus puissants, en tant que solution autonome ne serait certainement pas le meilleur choix. Au contraire, un système d'IA composé pourrait être très efficace en intégrant de multiples composants spécialisés, tels que des systèmes de génération assistée par récupération (RAG) et des agents d'IA sur mesure. Cette approche garantit que chaque partie du système est optimisée pour son rôle spécifique.

Flexibilité : Les systèmes modulaires s'adaptent facilement à l'évolution des besoins

Lorsqu'un système est construit à partir de composants modulaires, le remplacement ou la mise à niveau des pièces individuelles devient beaucoup plus simple. Le même principe s'applique aux systèmes d'IA composés, qui sont construits à partir de plusieurs blocs. Si un composant d'une solution d'IA composée devient obsolète ou ne répond plus aux nouvelles exigences de conformité, il peut être remplacé sans qu'il soit nécessaire de procéder à une révision complète de l'ensemble du système. Par exemple, si un nouveau modèle plus adapté est disponible, il peut être intégré au système pour remplacer l'ancienne version. De même, si un mécanisme de recherche d'informations plus efficace est mis au point, il peut être remplacé sans perturber l'ensemble du système. Cette flexibilité s'étend au-delà des modèles et des systèmes de recherche à d'autres composants, tels que les unités de traitement data , les moteurs d'analyse ou les modules de conformité.

Évolutivité : Des essaims de composants intelligents plus performants qu'un seul géant

La nature modulaire des systèmes d'IA composés offre des avantages significatifs en termes d'évolutivité. En permettant aux composants individuels d'être mis à l'échelle de manière indépendante, ces systèmes peuvent gérer efficacement des volumes et une complexité croissants sur le site data sans nécessiter une refonte complète.

Un système peut être mis à l'échelle en le répliquant dans un réseau de systèmes, ce qui permet théoriquement une mise à l'échelle infinie. C'est pourquoi un modèle linguistique unique, quelle que soit sa taille ou sa puissance (à l'heure actuelle), ne peut pas rechercher efficacement un élément d'information spécifique dans une très grande base de données. Pour augmenter les capacités de recherche d'un modèle, vous devrez inévitablement créer un système à plusieurs composants pour améliorer la fonction de recherche. Si même les tâches les plus simples, comme la recherche d'informations, ne peuvent pas être efficacement mises à l'échelle par un seul modèle, il devient évident que les composants individuels ne peuvent pas, à eux seuls, prendre en charge des applications complexes à grande échelle.

Pourquoi les systèmes d'intelligence artificielle composés ont-ils un sens pour les entreprises ?

D'un point de vue commercial, l'adoption de systèmes d'IA composés va au-delà de la sophistication technique - elle offre des avantages stratégiques qui s'alignent directement sur les objectifs de l'entreprise. On pourrait même affirmer que si une entreprise souhaite tirer parti de l'IA générative, elle n'a pas d'autre choix que de construire (ou d'acheter) un système composé. Bien que cela puisse sembler simple, cela remet en question l'hypothèse courante selon laquelle les modèles autonomes et prêts à l'emploi sont suffisants pour répondre à des demandes spécialisées.

Amélioration de la satisfaction des clients

Les modèles d'IA les plus avancés ne peuvent pas, à eux seuls, créer une expérience personnalisée. Celle-ci ne peut être obtenue qu'au moyen d'un système composé qui permet de fournir des expériences client hautement personnalisées et pertinentes sur le plan contextuel. Par exemple, le système Custom Neural Voice de Microsoft associe des LLM généraux à une formation vocale personnalisée, ce qui permet aux marques de créer des assistants numériques qui s'alignent précisément sur le ton et le style qui leur sont propres. Ce niveau de personnalisation est particulièrement puissant dans les secteurs en contact avec la clientèle, tels que la publicité, où les clients réagissent positivement lorsqu'ils se sentent spéciaux et compris. D'un point de vue commercial, la combinaison de cette technologie avec la possibilité d'ajouter un contexte permet d'obtenir des résultats personnalisés, ce qui, en fin de compte, améliore la satisfaction des clients.

Rapport coût-efficacité

Contrairement aux modèles individuels qui fournissent un niveau de qualité fixe à un coût fixe, l'IA composée offre des configurations flexibles en termes de coût et de qualité. Par exemple, les entreprises peuvent intégrer un modèle plus petit, adapté aux instructions, avec des composants spécialisés, tels que des heuristiques de recherche, afin d'obtenir des résultats de haute qualité à un coût inférieur à celui des modèles plus grands et autonomes. Cette flexibilité permet d'utiliser des modèles plus petits, potentiellement open-source, qui, avec une ingénierie ciblée, peuvent fournir des résultats comparables à des solutions plus coûteuses.

Un meilleur contrôle et une plus grande confiance

Pour les entreprises, il est essentiel que les résultats de l'IA soient fiables et dignes de confiance. S'appuyer uniquement sur des modèles individuels peut rendre difficile l'obtention de résultats toujours factuels et bien formatés. Par exemple, un ancien client du secteur de l'éducation m'a demandé une solution pour remplir automatiquement des demandes d'inscription sur la base de leur école ( data ) et d'autres informations. Au départ, j'ai passé des mois à mettre au point un système séquentiel basé sur une ingénierie avancée des requêtes, sans utiliser d'approche composée. Les résultats se sont améliorés, mais ils n'ont jamais été assez proches de ce que nous pouvions présenter comme des candidatures entièrement remplies. Ce n'est qu'avec l'introduction du concept de RAG que des résultats entièrement contrôlés ont commencé à apparaître. Cependant, même le RAG seul n'était pas suffisant ; des composants supplémentaires étaient nécessaires pour catégoriser les informations, maintenir la cohérence du contexte et gérer d'autres nuances. Ce n'est qu'ensuite que nous avons obtenu la fiabilité et la précision dont le client avait besoin.

Conclusion

L'examen du paysage actuel de l'IA dans les applications industrielles révèle une tendance claire : s'appuyer sur un modèle unique pour exécuter des fonctions complexes s'avère souvent peu fiable. À mesure que les cas d'utilisation deviennent plus complexes et que l'adoption par les entreprises augmente, la demande de solutions d'IA hautement spécialisées et performantes est appelée à croître. Pour répondre à cette demande, il faut orchestrer une architecture de solution qui intègre des modèles améliorés et spécialisés, en évitant le piège d'un champ d'application étroit et unilatéral.

La communauté des développeurs est en ébullition avec des applications passionnantes couvrant des domaines allant de la médecine à la vente au détail, toutes construites en assemblant des composants spécialisés plus petits dans des solutions puissantes et personnalisées.

Même l'IA, à elle seule, n'est pas assez intelligente pour atteindre les objectifs stratégiques de l'entreprise. Elle doit être complétée par une forme supérieure d'intelligence orchestrée.

Annexe

Exemples de systèmes d'IA composés

Les pages qui suivent présentent une collection de systèmes d'IA composés, intéressants et percutants, qui mettent en évidence l'utilité de ce concept. Quelle que soit l'infrastructure utilisée par les développeurs, l'objectif est d'observer comment la combinaison de plusieurs composants d'IA avec d'autres outils peut permettre d'atteindre un objectif très spécifique.

RAG améliore le résultat d'un LLM en fournissant un contexte spécifique obtenu à partir d'une base de données vectorisée qui se trouve en dehors de la formation originale du modèle data. Alors que les LLM sont formés sur de vastes ensembles de données et exploitent des milliards de paramètres pour générer des réponses, le RAG va encore plus loin. Il permet au LLM d'accéder à des informations spécifiques et actualisées et d'y faire référence, qu'elles soient spécifiques à un domaine ou tirées de la base de connaissances interne d'une organisation. Ce processus améliore considérablement la pertinence, la précision et l'utilité du contenu généré, sans qu'il soit nécessaire de réentraîner le modèle.

Les entreprises qui disposent de vastes ensembles de données et qui ont besoin d'une méthode efficace pour organiser les connaissances internes peuvent déployer cette solution sur site, en utilisant le modèle de leur choix, pour récupérer des éléments d'information précis. Par exemple, les analystes financiers peuvent rapidement localiser les adresses data pertinentes dans les rapports historiques sans avoir à les passer manuellement au crible. Le modèle, enrichi de ces informations contextuelles, génère également des réponses plus précises et plus utiles, rationalisant ainsi l'ensemble du processus de recherche d'informations.

L'architecture type d'un RAG est décrite ci-dessous :

class="img-responsive

Architecture générale du RAG

Le tableau suivant présente quelques systèmes d'IA composés courants(source) :

class="img-responsive

Autres lectures sur d'autres systèmes d'IA composés intéressants