Lee el artículo en

class="lazyload

Contexto

ADEO ha desarrollado un ampliográfico de conocimiento que abarca todo su catálogo de productos. Al mismo tiempo, la Compañia una gran cantidad de artículos de bricolaje en su sitio web. Sin embargo, estos artículos siguen sin estar vinculados al gráfico de conocimiento, lo que nos impide identificar con precisión a qué productos o entidades de la taxonomía se hace referencia en el contenido. Al vincular estos artículos al gráfico de conocimiento, ADEO podría mejorar considerablemente la experiencia del usuario mediante funciones de búsqueda más inteligentes, recomendaciones personalizadas y un contenido más atractivo y enriquecido.

Esta iniciativa supone el último capítulo de una colaboración fructífera y duradera entre Adeo, Google y Artefact. Partiendo de una base de conocimientos compartidos en materia de data, comercio minorista y tecnología de vanguardia, este proyecto representa una evolución natural en nuestro camino hacia la innovación en el panorama del comercio minorista digital. La alineación estratégica con Google ha sido fundamental para proporcionar las herramientas y la infraestructura necesarias para abordar este ambicioso proyecto.

La piedra angular: el gráfico de conocimiento de Adeo y el potencial de los artículos de bricolaje

En el núcleo de este proyecto se encuentra el sólido grafo de conocimiento de Adeo —una sofisticada base de datos grafical que alberga la taxonomía Compañia—, que constituye una forma estructurada de clasificar y categorizar la información. Esta red de data interconectados, que actualmente comprende alrededorde 500 000 relaciones con23 000 sujetos únicos,41 predicados y225 000 objetos, representa una gran cantidad de información sobre productos, categorías y sus relaciones. A continuación se muestran algunos ejemplos sencillos de relaciones que se pueden encontrar en este grafo de conocimiento:

Ejemplos de entidades y relaciones

Sin embargo, una parte importante de la información valiosa se encuentra en los numerososartículos de bricolaje publicados en la página web de Leroy Merlin. Estos artículos, repletos de consejos prácticos e instrucciones, suelen mencionar entidades que ya figuran en el Gráfico de Conocimiento de Adeo. ¿Cuál era el reto?No existíauna forma automatizada de identificar estas menciones y establecer los vínculos fundamentales entre el contenido textual y el conocimiento estructurado.

Cerrar esta brecha generaun importantevalor empresarial, especialmente en el contexto de la AI en curso impulsada por AI AI generativa. Al extraer automáticamente entidades de artículos y otros data textuales data vincularlas en el Gráfico de Conocimiento, enriqueciéndolo así, podemos:

  • Mejorar la relevancia de las búsquedas:habilitarla búsqueda semántica, lo que permite a los usuarios encontrar artículos basándose en los conceptos subyacentes y no solo en palabras clave.
  • Mejorar las recomendaciones de productos:Analizar los temas tratados en un artículo para recomendar productos, herramientas y materiales relevantes directamente al lector.
  • Enriquecer y personalizar el contenido:Enriquecer dinámicamente los artículos con enlaces a entidades relevantes del Gráfico de conocimiento, proporcionando a los usuarios un contexto más amplio e información relacionada.

Una guía por el panorama: NER y NEL con los modelos de lenguaje grande (LLM)

La tarea que nos ocupa —identificar y vincular las menciones de entidades dentro del texto a una base de conocimiento predefinida— se enmarca en los ámbitos bien establecidos delreconocimiento de entidades nombradas (NER)y la vinculación de entidades nombradas (NEL). Tradicionalmente, para obtener un alto rendimiento era necesario entrenar modelos especializados con grandes conjuntos de datos etiquetados. Aunque existen potentes modelos de NER/NEL, su naturaleza, data,suponíaun reto para nuestras necesidades de implementación rápida.

Por lo tanto, optamos por unenfoque diferente: aprovechar el potencial delos modelos de lenguaje a gran escala (LLM)para crear nuestro proceso de extracción. Aunque los LLM requieren pocos o ningún data de entrenamiento específico para cada tarea data lo que permite una implementación y una iteración más rápidas data , siguen necesitando data anotadospara su evaluación. Con este fin, el equipo de Adeo creó unconjunto de validación exhaustivo, lo que requirió un esfuerzo humano considerable y una profunda experiencia empresarial. Este conjunto de datos es esencial para medir de forma fiable el rendimiento del proceso.

Nuestro objetivo principal no era lograr una precisión perfecta desde el principio. En cambio, nos centramos en crear un proceso funcional para proporcionartexto preanotado a los evaluadores humanos. Esto acelera considerablemente el proceso de anotación, lo que hace que el futuro ajuste de modelos especializados resulte mucho más eficiente.

Nuestro innovador modelo de dos fases

Para abordar el reconocimiento de nombres propios (NER) y el reconocimiento de nombres de entidades (NEL), hemos desarrollado un sólido proceso en dos fases

El sistema de canalización de dos niveles NER/NEL

1. Reconocimiento de entidades nombradas (NER): Identificación de entidades candidatas

En esta etapa se identifican las menciones de entidades relevantes en artículos de bricolaje mediante un modelo de lenguaje grande (LLM). Para gestionar la extensión de los artículos, utilizamos la fragmentación de texto:los artículos largos se dividen en fragmentos manejables (500 palabras) con el fin de garantizar un contexto coherente para el LLM y un mejor rendimiento. Nuestro proceso de reconocimiento de entidades nominales (NER) utiliza una estrategia de dos niveles:

  • Entidades locales: Para las menciones específicas del contexto, cada fragmento de 500 palabras se somete a un proceso de extracción en dos fases para su refinamiento (una especie de «cadena de pensamientos») utilizando un modelo de lenguaje grande (LLM). A continuación, se combinan los resultados de todos los fragmentos.
  • Entidades globales: En el caso de los temas generales, se procesa el texto completo (de nuevo mediante una doble extracción con un modelo de lenguaje grande) para garantizar una cobertura exhaustiva.

Este enfoque en dos niveles nos permite captar con eficacia tanto los detalles más concretos como los conceptos generales.

2. Vinculación de entidades nombradas (NEL): conectando los puntos con el grafo de conocimiento

Una vez extraídas las entidades, el procesamiento del lenguaje natural (NEL) resuelve su ambigüedad y las vincula a la entrada más relevante del gráfico de conocimiento. Esto implica:

🤝Generación de candidatos

Para cada entidad extraída, generamos posibles coincidencias a partir del grafo de conocimiento (KG) utilizando un almacén de vectores e incrustaciones de texto. Solo se conservan las candidatas más similares desde el punto de vista semántico. Para esta tarea, utilizamos el modelo«text-multilingual-embedding-002»de GCP junto con una base de datos de vectores.

Para ilustrarlo, imagina que la etapa de NER extrae la entidad candidata «guantes ligeros de lona» de un fragmento de texto:

«[…] puedes optar porunos guantes de lona ligeros.Si trabajas con las manos en la tierra […]».

En la etapa de generación de candidatos, el sistema extrae posibles coincidencias del grafo de conocimiento basándose en la similitud semántica. Esto puede dar lugar a una lista ordenada de candidatos, como «guantes desechables» (puesto 1), «guantes de trabajo» (puesto 2), …, «guantes de jardinería» (puesto 9) y «guantes para manipular vidrio» (puesto 10), entre otros.

🧠Reordenación semántica

Los candidatos preseleccionados son reordenados por un modelo de lenguaje natural (LLM) que analiza el contexto de la entidad en el artículo. Solo pasa a la siguiente fase el candidato que mejor se ajusta. Hemos determinado que 25 candidatos es el número óptimo para la reordenación.

Siguiendo con nuestro ejemplo, el modelo de lenguaje grande (LLM) analizaría ahora el texto circundante «…Si trabajas con las manos en la tierra…» y utilizaría este contexto para reordenar los resultados. Al mencionarse el trabajo con la tierra, es probable que «guantes de jardinería» pase a ocupar el primer puesto de la lista como el resultado más relevante desde el punto de vista semántico.

🌳Clasificación jerárquica

El candidato seleccionado se sitúa dentro de la jerarquía del KG. Otro LLM puede mantener la selección o sustituirla por un padre, un hijo o un hermano más adecuado, según el contexto. Un umbral de reordenación jerárquica de 100 garantiza que se tenga en cuenta toda la jerarquía.

Consideremos la siguiente jerarquía simplificada del Gráfico de Conocimiento:

En este paso, el sistema comprueba si «guantes de jardinería» es el nivel de especificidad más adecuado. Aunque en nuestro ejemplo se trata de una buena coincidencia, si el contexto hubiera sido más amplio —por ejemplo, si solo se hubiera mencionado la necesidad de proteger las manos sin hacer referencia a la jardinería—, la clasificación jerárquica podría haber dado prioridad a la entidad superior «guantes» y haberla vinculado a la entrada correspondiente del KG.

Este proceso de NEL, que consta de varios pasos, garantiza una vinculación precisa y significativa dentro del Gráfico de Conocimiento.

Cómo medir el éxito: nuestra metodología de evaluación

Para garantizar la eficacia de nuestro proceso de enriquecimiento del Gráfico de Conocimiento para los artículos de bricolaje de Leroy Merlin, hemos llevado a cabo una evaluación exhaustiva comparando los resultados con unconjunto de datos de referencia elaborado minuciosamenteque contiene entidades del gráfico de conocimiento de Adeo.

Esta evaluación se centra específicamente en la capacidad del proceso de identificación de datos para identificar y vincular cuatro clases de entidades clave: ProductSet, HomeSpace, DIYActivity y Color, tanto a nivel global como local dentro de los artículos:

  1. Conjunto de productos:Se trata de herramientas, materiales o productos que se pueden adquirir y que se utilizan para tareas de bricolaje, jardinería o mejoras en el hogar.Ejemplos: Amoladora para hormigón, bomba de calor aire-aire, delantal de jardinería, lámpara de escritorio, termostato inteligente
  2. Espacios del hogar:Son las zonas o habitaciones de una casa o jardín donde suelen realizarse las actividades de bricolaje.Ejemplos: garaje, jardín, cocina, cuarto de baño, balcón
  3. Actividad de bricolaje: Sonlas tareas u operaciones relacionadas con el bricolaje y las reformas del hogar.Ejemplos: Pintura, instalación, limpieza, jardinería, trabajos de aislamiento
  4. Color:Esta categoría incluye cualquier color o tono mencionado.Ejemplos: Blanco cremoso, azul verdoso, gris claro, negro mate, amarillo brillante

Evaluación de todo el proceso (NER y NEL)

Evaluamos el rendimiento general utilizando:

  • Precisión:Entidades identificadas y vinculadas correctamente / Todas identificadas y vinculadas.
  • Recordatorio:Entidades identificadas y vinculadas correctamente / todas las entidades reales.
  • Índice F1:una medida equilibrada de precisión y recuperación.
  • Métricas de coincidencia aproximada (distancias 1, 2, 3):puntuamos los errores según su distancia jerárquica con respecto a la etiqueta correcta: distancia 1 para los vecinos directos, distancia 2 para el siguiente nivel, etc. Una predicción errónea sigue «pasando» si se encuentra dentro del radio permitido, lo que permite captar los errores por poco de forma más justa.

Evaluación mediante una métrica difusa

Evaluación del NER:Comparamos las entidades extraídas y reducidas a la raíz con los datos de referencia reducidos a la raíz (sin distinción entre mayúsculas y minúsculas). Nuestro NER extrae intencionadamente más entidades de las necesarias para lograr un alto nivel de recuperación.

Evaluación de NEL: Partiendo de la hipótesis deun NER perfecto, nos centramos en la precisión del proceso de vinculación utilizando las mismas métricas que en el proceso completo, incluida la coincidencia aproximada.

Conclusiones principales: resultados prometedores y áreas de crecimiento

A continuación se muestran los indicadores de rendimiento de nuestro proceso

Cadena completa (coincidencia exacta)

Métricas de rendimiento del proceso de NER/NEL (coincidencia exacta)

  • Entidades globales:alta precisión, menor recuperación (F1 equilibrado).
  • Entidades locales:resultados dispares.ProductSet(categoría clave) mostró un equilibrio sólido (precisión: 58,9 %, recuperación: 61,74 %, F1: 60,29 %).Colortambién obtuvo buenos resultados.HomeSpacenecesita mejorar en precisión.

Cadena completa (coincidencia aproximada)

Rendimiento utilizando diferentes métricas difusas

Las métricas difusas mejoran notablemente a medida que aumenta la distancia. Esto demuestra claramente que las predicciones consideradas incorrectas en la coincidencia exacta siguen estando relativamente cerca del valor real dentro de la jerarquía del gráfico.

NER:

Como era de esperar, obtuvimosun alto índice de recuperación, pero una precisión menor debido a nuestra estrategia de sobreextracción.

NEL:

El componente NELperfeccionóeficazmentela vinculación de entidades🔗 tras el NER.

Conclusión: Creación de un ecosistema de bricolaje más inteligente

Este proyecto supone un paso importante en el uso AI mejorar la experiencia de bricolaje en la página web de Leroy Merlin. Al crear con éxito un proceso que vincula los artículos de bricolaje con el Knowledge Graph de Adeo, hemos sentado las bases para una búsqueda más inteligente, recomendaciones personalizadas y un contenido más completo.

Aunque los resultados iniciales son prometedores (especialmente para ProductSet), hemos identificado aspectos que se pueden optimizar, como la precisión de HomeSpace. Nuestra decisión de utilizar modelos de lenguaje grande (LLM) para una anotación inicial rápida ha resultado ser una estrategia muy útil, ya que ha acelerado data para el entrenamiento y las mejoras futuras del modelo.

La colaboración en curso entre Adeo, Google y Artefact impulsando la innovación en el sector minorista. Esta iniciativa de enriquecimiento del Knowledge Graph pone de manifiesto el potencial que ofrece la combinación de la experiencia en el sector con AI de vanguardia AI crear una experiencia más intuitiva y valiosa para los aficionados al bricolaje. A medida que nuestra línea de desarrollo evolucione con nuevas mejoras y modelos potencialmente más avanzados, como Gemini 2.5 Pro, la conexión entre el contenido y el conocimiento no hará más que fortalecerse, lo que proporcionará aún más recursos a los clientes de Leroy Merlin en sus proyectos de mejora del hogar.