Contexto
ADEO ha desarrollado un amplio Gráfico del Conocimiento que abarca todo su catálogo de productos. Al mismo tiempo, la Compañia publica una gran cantidad de artículos de bricolaje en su sitio web. Sin embargo, estos artículos permanecen desconectados del Knowledge Graph, lo que nos impide identificar con precisión a qué productos o entidades de la taxonomía se hace referencia en el contenido. Al vincular estos artículos al Knowledge Graph, ADEO podría mejorar significativamente la experiencia del usuario a través de capacidades de búsqueda más inteligentes, recomendaciones personalizadas y contenidos más atractivos y enriquecidos.
Esta iniciativa marca el último capítulo de una exitosa y duradera colaboración entre Adeo, Google y Artefact. Partiendo de una base de experiencia compartida en data, comercio minorista y tecnología de vanguardia, este proyecto representa una evolución natural en nuestro viaje para innovar el panorama del comercio minorista digital. La alineación estratégica con Google ha sido fundamental para proporcionar las herramientas y la infraestructura necesarias para abordar esta ambiciosa empresa".
La piedra angular: El potencial de Knowledge Graph y DIY Article de Adeo
En el corazón de este proyecto se encuentra el robusto Knowledge Graph de Adeo, una sofisticada base de datos gráfica que alberga la taxonomía de Compañia, que es una forma estructurada de clasificar y categorizar la información. Esta red de puntos de data interconectados, que actualmente comprende unas 500.000 relaciones con 23.000 sujetos únicos, 41 predicados y 225.000 objetos, representa una gran cantidad de información sobre productos, categorías y sus relaciones. He aquí algunos ejemplos sencillos de relaciones que se pueden encontrar en este grafo de conocimiento:

Ejemplos de entidades y relaciones
Sin embargo, una parte importante de la información valiosa se encuentra en los numerosos artículos de bricolaje publicados en el sitio web de Leroy Merlin. Estos artículos, repletos de consejos prácticos e instrucciones, a menudo mencionan entidades ya presentes en el Knowledge Graph de Adeo. ¿Cuál era el problema? No había ninguna forma automatizada de identificar estas menciones y forjar los vínculos cruciales entre el contenido textual y el conocimiento estructurado.
Salvar esta brecha desbloquea un importante valor empresarial, especialmente en el contexto de una transformación en curso de AI y la Gen AI . Extrayendo automáticamente entidades de artículos y otros data y vinculándolas en el grafo de conocimiento, y enriqueciéndolo así, podemos:
- Mejorar la relevancia de la búsqueda: Habilite la búsqueda semántica, que permite a los usuarios encontrar artículos basándose en los conceptos subyacentes y no sólo en palabras clave.
- Mejore las recomendaciones de productos: Comprenda las entidades tratadas en un artículo para recomendar productos, herramientas y materiales relevantes directamente al lector.
- Enriquezca y personalice el contenido: Enriquezca dinámicamente los artículos con enlaces a entidades relevantes en el Knowledge Graph, proporcionando a los usuarios un contexto más profundo e información relacionada.
Navegando por el paisaje: NER y NEL con LLM
La tarea que nos ocupa -identificar y vincular menciones de entidades dentro de un texto a una base de conocimientos predefinida- entra dentro de los dominios bien establecidos del Reconocimiento de Entidades Nombradas (NER) y la Vinculación de Entidades Nombradas (NEL). Tradicionalmente, para obtener un alto rendimiento era necesario entrenar modelos especializados en grandes conjuntos de datos etiquetados. Aunque existen modelos NER/NEL potentes, su naturaleza data suponía un reto para nuestras necesidades de despliegue rápido.
Por lo tanto, optamos por un enfoque diferente: aprovechar la potencia de los modelos lingüísticos de gran tamaño (LLM ) para construir nuestro proceso de extracción. Aunque los LLM requieren pocos o ningún data entrenamiento específico de la tarea, lo que permite una implementación e iteración más rápidas, siguen exigiendo data anotados para su evaluación. Con este fin, el equipo de Adeo construyó un amplio conjunto de validación, que requirió un importante esfuerzo humano y profundos conocimientos empresariales. Este conjunto de datos es esencial para medir de forma fiable el rendimiento del proceso.
Nuestro objetivo principal no era conseguir una precisión perfecta desde el principio. En lugar de eso, nos centramos en crear un proceso funcional para proporcionar texto preanotado a los etiquetadores humanos. Esto acelera considerablemente el proceso de anotación y hace mucho más eficiente el ajuste de modelos especializados.
Nuestro innovador modelo en dos fases
Para abordar la NER y la NEL, desarrollamos un robusto proceso en dos etapas

Los dos niveles de NER/NEL
1. Reconocimiento de entidades con nombre (NER): Detección de entidades candidatas
En esta fase se identifican las menciones de entidades relevantes dentro de los artículos de bricolaje mediante un LLM. Tratamos la longitud de los artículos con Text Chunking: los artículos largos se dividen en trozos manejables (500 palabras) para obtener un contexto LLM coherente y un mejor rendimiento. Nuestro proceso NER utiliza una estrategia de doble nivel:
- Entidades locales: Para las menciones específicas del contexto, cada fragmento de 500 palabras se somete a una extracción de doble pasada para su refinamiento (una especie de cadena de pensamientos ) mediante un LLM. A continuación, se combinan los resultados de todos los fragmentos.
- Entidades globales: Para los temas globales, se procesa el texto completo (de nuevo con doble extracción mediante un LLM) para obtener una cobertura exhaustiva.
Este enfoque a dos niveles garantiza que captemos con eficacia tanto los detalles granulares como los conceptos generales.
2. Enlace de entidades con nombre (NEL): Conectando los puntos con el grafo de conocimiento
Una vez extraídas las entidades, NEL las desambigua y las vincula a la entrada más relevante del Knowledge Graph. Esto implica:
🤝 Generación de candidatos
Para cada entidad extraída, generamos posibles coincidencias a partir del KG utilizando un almacén de vectores e incrustaciones de texto. Sólo se conservan los candidatos semánticamente más similares. Para esta tarea utilizamos el modelo GCP text-multilingual-embedding-002 con una base de datos vectorial.
Para ilustrar esto, imagine que la etapa NER extrae la entidad candidata "guantes de lona ligeros" de un fragmento de texto:
"[...] puedes elegir guantes de lona ligeros. Si trabajas con las manos en el suelo [...]".
En el paso de generación de candidatos, el sistema recupera posibles coincidencias del grafo de conocimiento basándose en la similitud semántica. Esto puede dar lugar a una lista ordenada de candidatos como "guantes desechables" (puesto 1), "guantes de trabajo" (puesto 2), ..., "guantes de jardinería" (puesto 9) y "guantes para manipular vidrio" (puesto 10), entre otros.
🧠 Reordenación semántica
Un LLM vuelve a clasificar a los candidatos preseleccionados analizando el contexto de la entidad en el artículo. Sólo se seleccionan los mejores. Hemos comprobado que el número óptimo de candidatos es 25.
Siguiendo con nuestro ejemplo, el LLM analizaría ahora el texto circundante "...Si trabajas con las manos en la tierra..." y utilizaría este contexto para volver a clasificar a los candidatos. Debido a la mención del trabajo con la tierra, "guantes de jardinería" probablemente pasaría a encabezar la lista como el candidato semánticamente más relevante.
🌳 Clasificación jerárquica
El candidato seleccionado se posiciona dentro de la jerarquía del KG. Otro LLM puede mantener la selección o sustituirla por un padre, hijo o hermano más adecuado en función del contexto. Un umbral de reordenación jerárquica de 100 garantiza que se tenga en cuenta toda la jerarquía.
Considere la siguiente jerarquía simplificada en el grafo de conocimiento:

En este paso, el sistema verifica si "guantes de jardinería" es el nivel de especificidad más adecuado. Aunque en nuestro ejemplo es una buena coincidencia, si el contexto hubiera sido más amplio, mencionando simplemente la necesidad de protegerse las manos sin el contexto de la jardinería, la clasificación jerárquica podría promover la entidad antecesora "guantes" y vincularla a la entrada KG correspondiente.

Este proceso de NEL en varios pasos garantiza un anclaje preciso y significativo dentro del grafo de conocimiento.
Medir el éxito: Nuestra metodología de evaluación
Para garantizar la eficacia de nuestro proceso de enriquecimiento del grafo de conocimiento para los artículos de bricolaje de Leroy Merlin, hemos llevado a cabo una sólida evaluación con un conjunto de datos reales cuidadosamente elaborado que contiene entidades del grafo de conocimiento de Adeo.
Esta evaluación se centra específicamente en la capacidad de la canalización para identificar y vincular cuatro clases de entidades clave: ProductSet, HomeSpace, DIYActivity y Color, tanto a nivel global como local dentro de los artículos:
- Conjunto de productos: Son herramientas, materiales o productos adquiribles que se utilizan para mejoras en el hogar, jardinería o tareas de bricolaje. Ejemplos: Amoladora de hormigón, Bomba de calor aire-aire, Delantal de jardinería, Lámpara de escritorio, Termostato inteligente
- HomeSpace: Representan las zonas o habitaciones de una casa o jardín donde suelen tener lugar las actividades de bricolaje. Ejemplos: Garaje, Jardín, Cocina, Baño, Balcón
- Bricolaje: Son las tareas u operaciones relacionadas con el Bricolaje y la mejora del hogar. Ejemplos: Pintura, Instalación, Limpieza, Jardinería, Trabajos de aislamiento.
- Color: Esta categoría incluye cualquier color o tono mencionado. Ejemplos: Blanco cremoso, Azul cerceta, Gris claro, Negro mate, Amarillo brillante.
Evaluación de toda la cadena de producción (NER y NEL)
Evaluamos el rendimiento global utilizando:
- Precisión: Entidades correctamente identificadas y vinculadas / todas identificadas y vinculadas.
- Recuperar: Entidades correctamente identificadas y vinculadas / todas las entidades reales.
- Puntuación F1: Una medida equilibrada de precisión y recuperación.
- Métrica de coincidencia difusa (distancias 1, 2, 3): Se puntúan los errores en función de su distancia jerárquica a la etiqueta verdadera: distancia 1 para los vecinos directos, distancia 2 para el siguiente nivel, etc. Una predicción errónea sigue "pasando" si se encuentra dentro del radio permitido, lo que permite captar de forma más justa los errores cercanos.

Evaluación mediante una métrica difusa
Evaluación del NER: comparamos las entidades extraídas con la verdad básica (sin distinguir mayúsculas de minúsculas). Nuestro NER sobreextrae intencionadamente para obtener una alta recuperación.
Evaluación de la NEL: Suponiendo que la NER es perfecta, nos centramos en la precisión del proceso de enlace utilizando las mismas métricas que en el pipeline completo, incluida la concordancia difusa.
Principales conclusiones: Resultados prometedores y áreas de crecimiento
Estas son las métricas de rendimiento de nuestra canalización
Canalización completa (coincidencia exacta)

Métricas de rendimiento del proceso NER/NEL (coincidencia exacta)
- Entidades globales: Alta precisión, baja recuperación (F1 equilibrado).
- Entidades Locales: Rendimiento variable. ProductSet (categoría clave) mostró un sólido equilibrio (Precisión: 58,9%, Recall: 61,74%, F1: 60,29%). Color también obtuvo buenos resultados. HomeSpace necesita mejorar en precisión.
Canalización completa (coincidencia difusa)

Rendimiento utilizando diferentes métricas difusas
Las métricas difusas mejoran significativamente a medida que aumenta la distancia. Esto demuestra claramente que las predicciones consideradas incorrectas en la coincidencia exacta siguen estando relativamente cerca del valor real dentro de la jerarquía de gráficos.
NER:
Como era de esperar, obtuvimos un recall alto pero una precisión más baja debido a nuestra estrategia de sobreextracción.
NEL:
El componente NEL refinó eficaz mente la vinculación de entidades 🔗 tras la NER.
Conclusiones: Construir un ecosistema de bricolaje más inteligente
Este proyecto supone un paso importante en el uso de AI para enriquecer la experiencia del bricolaje en el sitio web de Leroy Merlin. Al crear con éxito un canal para vincular los artículos de bricolaje al Knowledge Graph de Adeo, hemos sentado las bases para una búsqueda más inteligente, recomendaciones personalizadas y contenidos más ricos.
Aunque los resultados iniciales son prometedores (especialmente para ProductSet), hemos identificado áreas de optimización, como la mejora de la precisión de HomeSpace. Nuestra decisión de utilizar LLM para una anotación inicial rápida ha sido una estrategia valiosa, ya que acelera la generación de data para el futuro entrenamiento y mejora de los modelos.
La colaboración en curso entre Adeo, Google y Artefact sigue impulsando la innovación en el sector minorista. Esta iniciativa de enriquecimiento de Knowledge Graph muestra el poder de combinar la experiencia en el sector con AI de vanguardia para crear una experiencia más intuitiva y valiosa para los entusiastas del bricolaje. A medida que nuestra línea de productos evolucione con nuevos refinamientos y modelos potencialmente más avanzados como Gemini 2.5 Pro, la conexión entre contenido y conocimiento se fortalecerá, empoderando aún más a los clientes de Leroy Merlin en sus viajes de mejora del hogar".

BLOG






