Contexte
ADEO a développé un vaste Knowledge Graph qui englobe l'ensemble de son catalogue de produits. Parallèlement, l'entreprise publie une multitude d'articles de bricolage sur son site web. Cependant, ces articles restent déconnectés du Knowledge Graph, ce qui nous empêche d'identifier précisément quels produits ou entités de la taxonomie sont référencés dans le contenu. En reliant ces articles au Knowledge Graph, ADEO pourrait considérablement améliorer l'expérience de l'utilisateur grâce à des capacités de recherche plus intelligentes, des recommandations personnalisées et un contenu enrichi plus attrayant.
Cette initiative marque le dernier chapitre d'une collaboration fructueuse et durable entre Adeo, Google et Artefact. S'appuyant sur une expertise commune en matière de data, de commerce de détail et de technologies de pointe, ce projet représente une évolution naturelle dans notre quête d'innovation dans le domaine du commerce de détail numérique. L'alignement stratégique avec Google a été déterminant pour fournir les outils et l'infrastructure nécessaires à la réalisation de cet ambitieux projet.
La pierre angulaire : Le Knowledge Graph d'Adeo et le potentiel des articles de bricolage
Au cœur de ce projet se trouve le robuste Knowledge Graph d'Adeo, une base de données graphique sophistiquée contenant la taxonomie de l'entreprise, qui est un moyen structuré de classer et de catégoriser les informations. Ce réseau de points de data interconnectés, qui comprend actuellement environ 500 000 relations avec 23 000 sujets uniques, 41 prédicats et 225 000 objets, représente une mine d'informations sur les produits, les catégories et leurs relations. Voici des exemples simples de relations que vous pourriez trouver dans ce graphe de connaissances :

Exemples d'entités et de relations
Cependant, une part importante de l'information utile réside dans les nombreux articles de bricolage publiés sur le site de Leroy Merlin. Ces articles, riches en conseils et instructions pratiques, mentionnent souvent des entités déjà présentes dans le Knowledge Graph d'Adeo. Le problème ? Il n' existait aucun moyen automatisé d'identifier ces mentions et de tisser les liens cruciaux entre le contenu textuel et la connaissance structurée.
Combler cette lacune permet de dégager une valeur commerciale significative, en particulier dans le contexte d'une transformation en cours de l'IA et de l'IA générique. En extrayant automatiquement des entités d'articles et d'autres data textuelles et en les reliant au Knowledge Graph, et donc en l'enrichissant, nous pouvons :
- Améliorer la pertinence des recherches : Permettre une recherche sémantique, permettant aux utilisateurs de trouver des articles en se basant sur les concepts sous-jacents plutôt que sur de simples mots-clés.
- Améliorer les recommandations de produits : Comprendre les entités évoquées dans un article pour recommander directement au lecteur des produits, des outils et du matériel pertinents.
- Enrichir et personnaliser le contenu : Enrichir dynamiquement les articles avec des liens vers des entités pertinentes dans le Knowledge Graph, en fournissant aux utilisateurs un contexte plus approfondi et des informations connexes.
Naviguer dans le paysage : NER & NEL avec les LLM
La tâche à accomplir - identifier et relier les mentions d'entités dans un texte à une base de connaissances prédéfinie - relève des domaines bien établis de la reconnaissance d'entités nommées (NER) et de l'établissement de liens entre entités nommées (NEL). Traditionnellement, pour obtenir de bonnes performances, il fallait entraîner des modèles spécialisés sur de grands ensembles de données étiquetées. Bien qu'il existe des modèles NER/NEL puissants, leur nature data représentait un défi pour nos besoins de déploiement rapide.
Nous avons donc choisi une approche différente: tirer parti de la puissance des grands modèles de langage (LLM) pour construire notre pipeline d'extraction. Bien que les LLM ne nécessitent que peu ou pas de data apprentissage spécifiques à la tâche - ce qui permet une mise en œuvre et une itération plus rapides - ils exigent toujours des data annotées pour l'évaluation. À cette fin, l'équipe d'Adeo a construit un ensemble de validation complet, ce qui a nécessité un effort humain important et une expertise commerciale approfondie. Cet ensemble de données est essentiel pour mesurer de manière fiable les performances du pipeline.
Notre objectif premier n'était pas d'obtenir une précision parfaite dès le départ. Nous nous sommes plutôt concentrés sur la création d'un pipeline fonctionnel pour fournir un texte pré-annoté aux étiqueteurs humains. Cela permet d'accélérer considérablement le processus d'annotation, ce qui rendra beaucoup plus efficace l'affinement futur des modèles spécialisés.
Notre modèle innovant en deux étapes
Pour traiter les problèmes de NER et de NEL, nous avons développé un pipeline robuste en deux étapes

La filière NER/NEL à deux niveaux
1. Reconnaissance des entités nommées (NER) : Repérer les entités candidates
Cette étape identifie les mentions d'entités pertinentes dans les articles de bricolage à l'aide d'un LLM. Nous gérons la longueur de l'article avec le Text Chunking : les articles longs sont divisés en morceaux gérables (500 mots) pour un contexte LLM cohérent et une meilleure performance. Notre processus NER utilise une stratégie à deux niveaux :
- Entités locales : Pour les mentions spécifiques au contexte, chaque morceau de 500 mots est soumis à une double extraction pour raffinement (sorte de chaîne de pensée ) à l'aide d'un LLM. Les résultats de tous les morceaux sont ensuite combinés.
- Entités mondiales : Pour les thèmes généraux, le texte intégral est traité (à nouveau avec une double extraction à l'aide d'un LLM) pour une couverture complète.
Cette approche à deux niveaux garantit que nous saisissons efficacement les détails granulaires et les concepts généraux.
2. Liens entre les entités nommées (NEL) : Relier les points au graphe de connaissances
Une fois les entités extraites, NEL les désambiguïse et les relie à l'entrée la plus pertinente du Knowledge Graph. Cela implique
🤝 Génération de candidats
Pour chaque entité extraite, nous générons des correspondances potentielles à partir du KG à l'aide d'un magasin de vecteurs et d'enchâssements de texte. Seuls les candidats les plus sémantiquement similaires sont conservés. Nous avons utilisé le modèle GCP text-multilingual-embedding-002 avec une base de données vectorielle pour cette tâche.
Pour illustrer cela, imaginons que l'étape NER extrait l'entité candidate "gants de toile légers" d'un extrait de texte :
"[...] vous pouvez choisir des gants en toile légère. Si vous travaillez avec les mains dans la terre [...]".
Lors de l'étape de génération des candidats, le système extrait les correspondances potentielles du graphe de connaissances sur la base de la similarité sémantique. Il peut en résulter une liste classée de candidats tels que "gants jetables" (rang 1), "gants de travail" (rang 2), ..., "gants de jardinage" (rang 9) et "gants pour la manipulation du verre" (rang 10), entre autres.
🧠 Reranking sémantique
Les candidats présélectionnés sont reclassés par un LLM qui analyse le contexte de l'entité dans l'article. Seule la meilleure correspondance est retenue. Nous avons constaté que 25 candidats constituaient le nombre optimal pour le reclassement.
En poursuivant notre exemple, le LLM analyserait maintenant le texte environnant "...Si vous travaillez avec les mains dans la terre..." et utiliserait ce contexte pour classer les candidats. En raison de la mention du travail dans la terre, "gants de jardinage" serait probablement promu en tête de liste en tant que candidat le plus pertinent d'un point de vue sémantique.
🌳 Classement hiérarchique
Le candidat sélectionné est positionné dans la hiérarchie du KG. Un autre LLM peut soit conserver la sélection, soit la remplacer par un parent, un enfant ou un frère ou une sœur plus approprié(e) en fonction du contexte. Un seuil de reclassement hiérarchique de 100 garantit la prise en compte de l'ensemble de la hiérarchie.
Considérons la hiérarchie simplifiée suivante dans le graphique de la connaissance :

Dans cette étape, le système vérifie si "gants de jardinage" est le niveau de spécificité le plus approprié. Bien qu'il s'agisse d'une bonne correspondance dans notre exemple, si le contexte avait été plus large, mentionnant simplement la nécessité de se protéger les mains sans le contexte du jardinage, le classement hiérarchique pourrait promouvoir l'entité ancêtre "gants" et la relier à l'entrée KG correspondante.

Ce processus NEL en plusieurs étapes garantit un ancrage précis et significatif dans le graphe de connaissances.
Mesurer le succès : Notre méthode d'évaluation
Pour garantir l'efficacité de notre pipeline d'enrichissement du graphe de connaissances pour les articles de bricolage de Leroy Merlin, nous avons mis en œuvre une évaluation robuste contre un ensemble de données de vérité de base soigneusement construit contenant des entités du graphe de connaissances d'Adeo.
Cette évaluation se concentre spécifiquement sur la capacité du pipeline à identifier et à relier quatre classes d'entités clés, à savoir ProductSet, HomeSpace, DIYActivity et Color, au niveau global et local dans les articles : ProductSet, HomeSpace, DIYActivity et Color, tant au niveau global que local dans les articles :
- Ensemble de produits : Il s'agit d'outils, de matériaux ou de produits achetables utilisés pour l'amélioration de la maison, le jardinage ou les tâches de bricolage. Exemples: Meuleuse à béton, Pompe à chaleur air-air, Tablier de jardinage, Lampe de bureau, Thermostat intelligent
- Espace domestique : Il s'agit des zones ou des pièces d'une maison ou d'un jardin où se déroulent généralement les activités de bricolage. Exemples: Garage, jardin, cuisine, salle de bain, balcon
- Activité de bricolage : Il s'agit des tâches ou des opérations liées au bricolage et à l'amélioration de l'habitat. Exemples: Peinture, Installation, Nettoyage, Jardinage, Travaux d'isolation
- Couleur : cette catégorie comprend toute couleur ou nuance mentionnée. Exemples: Blanc crème, Bleu sarcelle, Gris clair, Noir mat, Jaune vif.
Évaluation de l'ensemble du pipeline (NER et NEL)
Nous avons évalué la performance globale à l'aide de
- Précision : Entités correctement identifiées et liées / toutes identifiées et liées.
- Rappel : Entités correctement identifiées et liées / toutes les entités réelles.
- Score F1 : Une mesure équilibrée de la précision et du rappel.
- Métriques de correspondance floues (distances 1, 2, 3) : Nous notons les erreurs en fonction de leur distance hiérarchique par rapport à la véritable étiquette : distance 1 pour les voisins directs, distance 2 pour le niveau suivant, etc. Une prédiction erronée est toujours "acceptée" si elle se situe dans le rayon autorisé, ce qui permet d'évaluer plus équitablement les quasi-erreurs.

Évaluation à l'aide d'une métrique floue
Évaluation du NER : nous avons comparé les entités extraites avec la vérité de base (insensible à la casse). Notre NER sur-extrait intentionnellement pour un rappel élevé.
Évaluation de NEL : dans l'hypothèse d'un NER parfait, nous nous sommes concentrés sur la précision du processus de liaison en utilisant les mêmes mesures que le pipeline complet, y compris la correspondance floue.
Principales conclusions : Résultats prometteurs et domaines de croissance
Voici les mesures de performance de notre pipeline
Pipeline complet (correspondance exacte)

Mesures de performance du pipeline NER/NEL (Exact Match)
- Entités globales : Forte précision, faible rappel (F1 équilibré).
- Entités locales : Performances variées. ProductSet (catégorie clé) a montré un équilibre solide (précision : 58,9%, rappel : 61,74%, F1 : 60,29%). La couleur a également obtenu de bons résultats. HomeSpace doit être amélioré en termes de précision.
Pipeline complet (Fuzzy Match)

Performance à l'aide de différentes mesures floues
Les mesures floues s'améliorent considérablement à mesure que la distance augmente. Cela montre clairement que les prédictions considérées comme incorrectes dans la correspondance exacte sont encore relativement proches de la valeur réelle dans la hiérarchie des graphes.
NER :
Comme prévu, nous avons obtenu un rappel élevé mais une précision plus faible en raison de notre stratégie de surextraction.
NEL :
La composante NEL a permis d'affiner le lien entre les entités 🔗 après la NER.
Conclusion : Construire un écosystème de bricolage plus intelligent
Ce projet marque une étape importante dans l'utilisation de l'IA pour enrichir l'expérience de bricolage sur le site web de Leroy Merlin. En réussissant à construire un pipeline pour relier les articles de bricolage au Knowledge Graph d'Adeo, nous avons posé les bases d'une recherche plus intelligente, de recommandations personnalisées et d'un contenu plus riche.
Bien que les premiers résultats soient prometteurs (en particulier pour ProductSet), nous avons identifié des domaines d'optimisation, comme l'amélioration de la précision de HomeSpace. Notre décision d'utiliser les LLM pour une annotation initiale rapide a été une stratégie précieuse, accélérant la génération de data pour l'entraînement et l'amélioration des modèles futurs.
La collaboration entre Adeo, Google et Artefact continue de stimuler l'innovation dans le domaine de la vente au détail. Cette initiative d'enrichissement du Knowledge Graph illustre la puissance de la combinaison de l'expertise du domaine avec l'IA de pointe pour créer une expérience plus intuitive et plus précieuse pour les amateurs de bricolage. Au fur et à mesure que notre pipeline évolue avec de nouvelles améliorations et des modèles potentiellement plus avancés comme Gemini 2.5 Pro, le lien entre le contenu et la connaissance ne fera que se renforcer, permettant ainsi aux clients de Leroy Merlin d'être encore plus autonomes dans leur parcours de rénovation de la maison.

BLOG







