Lire l'article sur

class="lazyload

Contexte

ADEO a développé ungraphe de connaissances complet qui couvre l'ensemble de son catalogue de produits. Parallèlement, l'entreprise publie de nombreux articles de bricolage sur son site web. Cependant, ces articles ne sont pas reliés au graphe de connaissances, ce qui nous empêche d'identifier avec précision quels produits ou entités de la taxonomie sont mentionnés dans le contenu. En reliant ces articles au graphe de connaissances, ADEO pourrait considérablement améliorer l'expérience utilisateur grâce à des fonctionnalités de recherche plus intelligentes, des recommandations personnalisées et un contenu plus attrayant et enrichi.

Cette initiative marque le dernier chapitre en date d'une collaboration fructueuse et durable entre Adeo, Google et Artefact. S'appuyant sur une expertise commune en matière de data, de commerce de détail et de technologies de pointe, ce projet s'inscrit dans la continuité de notre démarche visant à réinventer le paysage du commerce de détail numérique. Notre alliance stratégique avec Google a joué un rôle déterminant dans la mise en place des outils et de l'infrastructure nécessaires à la réalisation de ce projet ambitieux.

La pierre angulaire : le graphe de connaissances d'Adeo et le potentiel des articles « à faire soi-même »

Au cœur de ce projet se trouve le solide Knowledge Graph d’Adeo — une base de données orientée graphe sophistiquée qui héberge la taxonomie de l’entreprise —, qui constitue une méthode structurée de classification et de catégorisation de l’information. Ce réseau de data interconnectés, qui comprend actuellement environ500 000 relations avec23 000 sujets uniques,41 prédicats et225 000 objets, représente une mine d’informations sur les produits, les catégories et leurs relations. Voici quelques exemples simples de relations que l’on peut trouver dans ce Knowledge Graph :

Exemples d'entités et de relations

Cependant, une grande partie des informations utiles se trouve dans les nombreuxarticles de bricolage publiés sur le site web de Leroy Merlin. Ces articles, riches en conseils pratiques et en instructions, mentionnent souvent des entités déjà présentes dans le Knowledge Graph d’Adeo. Le défi ? Iln’ existaitaucun moyen automatisé d’identifier ces mentions et d’établir les liens essentiels entre le contenu textuel et les connaissances structurées.

Combler cette lacune permet de dégagerune valeur commerciale considérable, en particulier dans le contexte de la transformation en cours vers l'IA et l'IA générative. En extrayant automatiquement des entités à partir d'articles et d'autres data textuelles data les reliant dans le graphe de connaissances data , ce faisant, en l'enrichissant, nous pouvons :

  • Améliorer la pertinence des résultats de recherche :activezla recherche sémantique, qui permet aux utilisateurs de trouver des articles en fonction des concepts sous-jacents plutôt que de simples mots-clés.
  • Améliorer les recommandations de produits :analyser les éléments abordés dans un article afin de recommander directement au lecteur des produits, des outils et des ressources pertinents.
  • Enrichir et personnaliser le contenu :enrichir dynamiquement les articles à l'aide de liens vers des entités pertinentes du Knowledge Graph, afin d'offrir aux utilisateurs un contexte plus complet et des informations connexes.

Explorer le paysage : NER et NEL avec les grands modèles de langage

La tâche à accomplir — identifier les mentions d'entités dans un texte et les relier à une base de connaissances prédéfinie — relève des domaines bien établis dela reconnaissance d'entités nommées (NER)et de la liaison d'entités nommées (NEL). Traditionnellement, pour obtenir des performances élevées, il fallait entraîner des modèles spécialisés sur de vastes ensembles de données étiquetées. Bien qu'il existe des modèles NER/NEL puissants, leur nature dataconstituaitun obstacle à nos besoins de déploiement rapide.

Nous avons donc opté pour uneapproche différente: exploiter la puissance desgrands modèles linguistiques (LLM)pour mettre en place notre pipeline d'extraction. Si les LLM ne nécessitent que peu, voire aucune data d'entraînement spécifique à la tâche data ce qui permet une mise en œuvre et des itérations plus rapides —, ils requièrent néanmoins data annotéespour leur évaluation. À cette fin, l'équipe Adeo a constitué unensemble de validation complet, ce qui a nécessité un effort humain considérable et une expertise métier approfondie. Cet ensemble de données est essentiel pour mesurer de manière fiable les performances du pipeline.

Notre objectif premier n'était pas d'atteindre une précision parfaite dès le départ. Nous nous sommes plutôt attachés à mettre en place un pipeline fonctionnel permettant de fournirdes textes pré-annotés aux annotateurs humains. Cela accélère considérablement le processus d'annotation, rendant ainsi beaucoup plus efficace le réglage fin futur des modèles spécialisés.

Notre modèle innovant en deux étapes

Pour traiter la reconnaissance des entités nommées (NER) et la localisation des entités nommées (NEL), nous avons mis au point un pipeline robuste en deux étapes

Le réseau NER/NEL à deux niveaux

1. Reconnaissance d'entités nommées (NER) : identification des entités candidates

Cette étape identifie les mentions d'entités pertinentes dans les articles de bricolage à l'aide d'un modèle de langage de grande capacité (LLM). Nous gérons la longueur des articles grâce au découpage en segments :les longs articles sont divisés en segments gérables (500 mots) afin d'assurer un contexte cohérent pour le LLM et d'améliorer les performances. Notre processus de reconnaissance des entités nommées (NER) repose sur une stratégie à deux niveaux :

  • Entités locales : pour les mentions spécifiques au contexte, chaque segment de 500 mots fait l'objet d'une double extraction à des fins d'affinement (un peu comme une « chaîne de pensées ») à l'aide d'un modèle de langage de grande capacité (LLM). Les résultats de tous les segments sont ensuite combinés.
  • Entités globales : pour les thèmes généraux, le texte intégral est traité (là encore par une double extraction à l'aide d'un modèle de langage de grande capacité) afin d'assurer une couverture exhaustive.

Cette approche à deux niveaux nous permet de saisir efficacement aussi bien les détails précis que les concepts généraux.

2. Liaison d'entités nommées (NEL) : relier les points pour former le graphe de connaissances

Une fois les entités extraites, le NEL procède à leur désambiguïsation et les relie à l'entrée la plus pertinente du Knowledge Graph. Cela implique :

🤝Génération de candidats

Pour chaque entité extraite, nous générons des correspondances potentielles à partir du KG en utilisant un magasin de vecteurs et des représentations textuelles. Seuls les candidats les plus proches sur le plan sémantique sont conservés. Pour cette tâche, nous avons utilisé le modèle GCPtext-multilingual-embedding-002avec une base de données vectorielle.

Pour illustrer cela, imaginez que l'étape de reconnaissance des entités nominales (NER) extraie l'entité candidate « gants légers en toile » d'un extrait de texte :

« […] vous pouvez opter pourdes gants légersen toile.Si vous travaillez les mains dans la terre […] ».

Au cours de l'étape de génération de candidats, le système extrait du graphe de connaissances les correspondances potentielles en se basant sur la similarité sémantique. Cela peut donner lieu à une liste classée de candidats, telle que « gants jetables » (1er rang), « gants de travail » (2e rang), …, « gants de jardinage » (9e rang) et « gants pour la manipulation du verre » (10e rang), entre autres.

🧠Reclassement sémantique

Les candidats présélectionnés sont reclassés par un modèle de langage naturel (LLM) qui analyse le contexte de l'entité dans l'article. Seul le candidat le mieux classé est retenu. Nous avons constaté que 25 candidats constituaient le nombre optimal pour ce reclassement.

Pour poursuivre notre exemple, le LLM analyserait alors le texte environnant « …Si vous travaillez la terre de vos mains… » et s'appuierait sur ce contexte pour réorganiser le classement des propositions. Étant donné qu'il est question de travailler la terre, « gants de jardinage » serait probablement propulsé en tête de liste en tant que proposition la plus pertinente sur le plan sémantique.

🌳Classement hiérarchique

Le candidat sélectionné est placé dans la hiérarchie du KG. Un autre LLM peut soit conserver cette sélection, soit la remplacer par un parent, un enfant ou un frère/sœur plus approprié en fonction du contexte. Un seuil de reclassement hiérarchique fixé à 100 garantit que l'ensemble de la hiérarchie est pris en compte.

Considérons la hiérarchie simplifiée suivante dans le Knowledge Graph :

À cette étape, le système vérifie si « gants de jardinage » correspond au niveau de spécificité le plus approprié. Bien que ce soit le cas dans notre exemple, si le contexte avait été plus large – par exemple, s’il avait simplement été question de la nécessité de se protéger les mains sans mentionner le jardinage –, le classement hiérarchique aurait pu privilégier l’entité ancêtre « gants » et la relier à l’entrée correspondante du KG.

Ce processus NEL en plusieurs étapes garantit un ancrage précis et pertinent au sein du Knowledge Graph.

Mesurer le succès : notre méthodologie d'évaluation

Afin de garantir l'efficacité de notre pipeline d'enrichissement du Knowledge Graph pour les articles de bricolage de Leroy Merlin, nous avons mis en place une évaluation rigoureuse par rapport à unensemble de données de référence soigneusement constitué,contenant des entités issues du Knowledge Graph d'Adeo.

Cette évaluation porte spécifiquement sur la capacité du pipeline à identifier et à relier quatre classes d'entités clés : ProductSet, HomeSpace, DIYActivity et Color, tant au niveau global qu'au niveau local au sein des articles :

  1. Catégorie de produits :il s'agit d'outils, de matériaux ou de produits disponibles à la vente destinés à la rénovation, au jardinage ou au bricolage.Exemples: meuleuse à béton, pompe à chaleur air-air, tablier de jardinage, lampe de bureau, thermostat intelligent
  2. Espaces de vie :il s'agit des pièces ou des zones d'une maison ou d'un jardin où l'on pratique généralement des activités de bricolage.Exemples: garage, jardin, cuisine, salle de bains, balcon
  3. Bricolage : ils'agit des tâches ou des opérations liées au bricolage et à la rénovation.Exemples: peinture, installation, nettoyage, jardinage, travaux d'isolation
  4. Couleur :cette catégorie regroupe toutes les couleurs ou nuances mentionnées.Exemples: blanc crème, bleu sarcelle, gris clair, noir mat, jaune vif

Évaluation de l'ensemble du processus (NER et NEL)

Nous avons évalué les performances globales à l'aide des éléments suivants :

  • Précision :entités correctement identifiées et reliées / toutes les entités identifiées et reliées.
  • Rappel :entités correctement identifiées et associées / toutes les entités réelles.
  • Score F1 :un indicateur qui concilie précision et rappel.
  • Mesures de correspondance approximative (distances 1, 2, 3) :nous évaluons les erreurs en fonction de leur distance hiérarchique par rapport à l'étiquette correcte : distance 1 pour les voisins directs, distance 2 pour le niveau suivant, etc. Une prédiction erronée est tout de même considérée comme « correcte » si elle se situe dans le rayon autorisé, ce qui permet de prendre en compte plus équitablement les résultats proches de la réponse correcte.

Évaluation à l'aide d'une métrique floue

Évaluation de la reconnaissance des noms propres (NER) :nous avons comparé les entités extraites et normalisées aux données de référence normalisées (sans distinction entre majuscules et minuscules). Notre modèle NER sur-extrait volontairement les entités afin d'obtenir un taux de rappel élevé.

Évaluation de NEL : en partant du principe quela reconnaissance des entités nominales (NER) est parfaite, nous nous sommes concentrés sur la précision du processus de mise en correspondance en utilisant les mêmes indicateurs que pour le pipeline complet, y compris la correspondance approximative.

Principales conclusions : résultats encourageants et domaines de croissance

Voici les indicateurs de performance de notre pipeline

Pipeline complet (correspondance exacte)

Indicateurs de performance du pipeline NER/NEL (correspondance exacte)

  • Entités globales :haute précision, faible rappel (F1 équilibré).
  • Entités locales :résultats mitigés. La catégorie clé «ProductSet» a affiché un équilibre solide (précision : 58,9 %, rappel : 61,74 %, F1 : 60,29 %).La catégorie « Color »a également obtenu de bons résultats.La catégorie « HomeSpace »doit encore améliorer sa précision.

Pipeline complet (correspondance approximative)

Performances obtenues à l'aide de différents indicateurs flous

Les mesures floues s'améliorent considérablement à mesure que la distance augmente. Cela montre clairement que les prédictions jugées incorrectes en correspondance exacte restent relativement proches de la valeur réelle au sein de la hiérarchie du graphe.

NER :

Comme prévu, nous avons obtenuun taux de rappel élevé, mais une précision moindre en raison de notre stratégie de sur-extraction.

NEL :

Le composant NELapermisd'affinerefficacementla mise en relation des entités🔗 après la reconnaissance des entités nominales (NER).

Conclusion : Construire un écosystème du bricolage plus intelligent

Ce projet marque une étape importante dans l'utilisation de l'IA pour enrichir l'expérience bricolage sur le site web de Leroy Merlin. En mettant en place avec succès un pipeline reliant les articles de bricolage au Knowledge Graph d'Adeo, nous avons posé les bases d'une recherche plus intelligente, de recommandations personnalisées et d'un contenu plus riche.

Bien que les premiers résultats soient prometteurs (en particulier pour ProductSet), nous avons identifié des domaines à optimiser, comme l'amélioration de la précision de HomeSpace. Notre décision d'utiliser des modèles de langage à grande échelle (LLM) pour une annotation initiale rapide s'est avérée être une stratégie judicieuse, qui a permis d'accélérer data en vue de la formation et de l'amélioration futures des modèles.

La collaboration entre Adeo, Google et Artefact de stimuler l'innovation dans le secteur de la grande distribution. Cette initiative visant à enrichir le Knowledge Graph démontre toute la puissance de l'association entre expertise sectorielle et intelligence artificielle de pointe pour offrir une expérience plus intuitive et plus enrichissante aux amateurs de bricolage. À mesure que notre pipeline évolue grâce à de nouvelles améliorations et à des modèles potentiellement plus avancés tels que Gemini 2.5 Pro, le lien entre contenu et connaissances ne fera que se renforcer, accompagnant ainsi davantage les clients de Leroy Merlin dans leurs projets de rénovation.