Lesen Sie den Artikel auf

class="lazyload

Kontext

ADEO hat einen umfangreichen Knowledge Graph entwickelt, der seinen gesamten Produktkatalog umfasst. Gleichzeitig veröffentlicht das Unternehmen eine Fülle von DIY-Artikeln auf seiner Website. Diese Artikel sind jedoch nicht mit dem Knowledge Graph verbunden, so dass wir nicht genau erkennen können, auf welche Produkte oder Entitäten innerhalb der Taxonomie im Inhalt verwiesen wird. Durch die Verknüpfung dieser Artikel mit dem Knowledge Graph könnte ADEO die Nutzererfahrung durch intelligentere Suchfunktionen, personalisierte Empfehlungen und ansprechendere, angereicherte Inhalte erheblich verbessern.

Diese Initiative ist das jüngste Kapitel einer erfolgreichen und dauerhaften Zusammenarbeit zwischen Adeo, Google und Artefact. Auf der Grundlage gemeinsamer Expertise in den Bereichen data, Einzelhandel und Spitzentechnologie stellt dieses Projekt eine natürliche Entwicklung auf unserem Weg zur Innovation der digitalen Einzelhandelslandschaft dar. Die strategische Zusammenarbeit mit Google hat entscheidend dazu beigetragen, die für dieses ehrgeizige Unterfangen notwendigen Tools und Infrastrukturen bereitzustellen.

Der Eckpfeiler: Adeos Knowledge Graph und das Potenzial von DIY-Artikeln

Das Herzstück dieses Projekts ist der robuste Knowledge Graph von Adeo - eine ausgeklügelte Graphdatenbank, die die Taxonomie des Unternehmens enthält - eine strukturierte Methode zur Klassifizierung und Kategorisierung von Informationen. Dieses Netzwerk aus miteinander verbundenen data , das derzeit etwa 500.000 Beziehungen mit 23.000 eindeutigen Subjekten, 41 Prädikaten und 225.000 Objekten umfasst, stellt eine Fülle von Informationen über Produkte, Kategorien und deren Beziehungen dar. Hier sind einfache Beispiele für Beziehungen, die Sie in diesem Wissensgraphen finden können:

Beispiele für Entitäten und Beziehungen

Ein großer Teil der wertvollen Informationen befindet sich jedoch in den zahlreichen Do-It-Yourself-Artikeln (DIY), die auf der Leroy Merlin-Website veröffentlicht werden. Diese Artikel, die reich an praktischen Ratschlägen und Anleitungen sind, erwähnen oft Entitäten, die bereits im Knowledge Graph von Adeo vorhanden sind. Die Herausforderung? Es gab keine automatisierte Möglichkeit, diese Erwähnungen zu identifizieren und die entscheidenden Verbindungen zwischen den Textinhalten und dem strukturierten Wissen herzustellen.

Die Überbrückung dieser Lücke erschließt einen erheblichen geschäftlichen Nutzen, insbesondere im Rahmen einer laufenden AI und AI . Durch die automatische Extraktion von Entitäten aus Artikeln und anderen data und deren Verknüpfung im Knowledge Graph und somit durch dessen Anreicherung können wir:

  • Verbessern Sie die Suchrelevanz: Ermöglichen Sie eine semantische Suche, die es den Nutzern ermöglicht, Artikel anhand der zugrunde liegenden Konzepte und nicht nur anhand von Schlüsselwörtern zu finden.
  • Verbessern Sie Produktempfehlungen: Verstehen Sie die in einem Artikel besprochenen Einheiten, um dem Leser relevante Produkte, Werkzeuge und Materialien direkt zu empfehlen.
  • Anreicherung und Personalisierung von Inhalten: Reichern Sie Artikel dynamisch mit Links zu relevanten Entitäten im Knowledge Graph an und versorgen Sie die Nutzer mit tieferem Kontext und verwandten Informationen.

Navigieren in der Landschaft: NER & NEL mit LLMs

Die vorliegende Aufgabe - das Erkennen und Verknüpfen von Erwähnungen von Entitäten in Texten mit einer vordefinierten Wissensbasis - fällt in die etablierten Bereiche der Named Entity Recognition (NER) und Named Entity Linking (NEL). Um eine hohe Leistung zu erzielen, mussten bisher spezielle Modelle auf großen, markierten Datensätzen trainiert werden. Es gibt zwar leistungsstarke NER/NEL-Modelle, aber ihre data Beschaffenheit stellt eine Herausforderung für unsere Anforderungen an einen schnellen Einsatz dar.

Daher haben wir einen anderen Ansatz gewählt: Wir nutzen die Leistungsfähigkeit von Large Language Models (LLMs), um unsere Extraktionspipeline aufzubauen. LLMs benötigen zwar nur wenige bis gar keine aufgabenspezifischen data - was eine schnellere Implementierung und Iteration ermöglicht -, aber sie benötigen dennoch annotierte data für die Auswertung. Zu diesem Zweck hat das Adeo-Team einen umfassenden Validierungsdatensatz erstellt, was einen beträchtlichen Aufwand an menschlicher Arbeit und fundiertem Fachwissen erfordert. Dieser Datensatz ist für die zuverlässige Messung der Leistung der Pipeline unerlässlich.

Unser primäres Ziel war nicht von Anfang an eine perfekte Genauigkeit. Stattdessen konzentrierten wir uns auf die Entwicklung einer funktionalen Pipeline zur Bereitstellung von vorkommentiertem Text für menschliche Beschrifter. Dies beschleunigt den Annotationsprozess erheblich und macht die zukünftige Feinabstimmung spezialisierter Modelle viel effizienter.

Unser innovatives zweistufiges Modell

Um NER und NEL zu bewältigen, haben wir eine robuste zweistufige Pipeline entwickelt

Die zweistufige NER/NEL-Pipeline

1. Erkennung von benannten Entitäten (NER): Aufspüren von Entitätskandidaten

In dieser Phase werden Erwähnungen relevanter Entitäten in DIY-Artikeln mithilfe eines LLM identifiziert. Wir behandeln die Artikellänge mit Text Chunking: lange Artikel werden in überschaubare Stücke (500 Wörter) aufgeteilt, um einen konsistenten LLM-Kontext und eine bessere Leistung zu erzielen. Unser NER-Prozess verwendet eine zweistufige Strategie:

  • Lokale Entitäten: Für kontextspezifische Erwähnungen wird jedes 500-Wörter-Chunk in einem doppelten Durchgang zur Verfeinerung extrahiert (eine Art Chain of Thoughts ), wobei ein LLM verwendet wird. Die Ergebnisse aus allen Chunks werden dann kombiniert.
  • Globale Entitäten: Für übergreifende Themen wird der Volltext verarbeitet (wiederum mit doppelter Extraktion unter Verwendung eines LLM), um eine umfassende Abdeckung zu erreichen.

Dieser zweistufige Ansatz stellt sicher, dass wir sowohl kleinste Details als auch umfassende Konzepte effektiv erfassen.

2. Verknüpfung benannter Entitäten (Named Entity Linking, NEL): Verknüpfung der Punkte mit dem Wissensgraphen

Sobald die Entitäten extrahiert sind, disambiguiert und verknüpft NEL sie mit dem relevantesten Knowledge-Graph-Eintrag. Dies beinhaltet:

🤝 Generation der Bewerberinnen und Bewerber

Für jede extrahierte Entität generieren wir mithilfe eines Vektorspeichers und Texteinbettungen potenzielle Übereinstimmungen aus der KG. Nur die semantisch ähnlichsten Kandidaten werden beibehalten. Für diese Aufgabe haben wir das GCP-Modell text-multilingual-embedding-002 mit einer Vektordatenbank verwendet.

Zur Veranschaulichung: Stellen Sie sich vor, die NER-Phase extrahiert die Kandidatenentität "leichte Leinwandhandschuhe" aus einem Textausschnitt:

"[...] Sie können leichte Segeltuchhandschuhe wählen . Wenn Sie mit Ihren Händen im Boden arbeiten [...]".

Im Schritt der Kandidatengenerierung ruft das System potenzielle Übereinstimmungen aus dem Wissensgraphen auf der Grundlage der semantischen Ähnlichkeit ab. Dies könnte eine Rangliste von Kandidaten ergeben, wie z. B. "Einweghandschuhe" (Rang 1), "Arbeitshandschuhe" (Rang 2), ..., "Gartenhandschuhe" (Rang 9) und "Handschuhe für die Handhabung von Glas" (Rang 10) und andere.

🧠 Semantisches Reranking

Die in die engere Wahl gezogenen Kandidaten werden von einem LLM, der den Kontext der Entität in dem Artikel analysiert, neu eingestuft. Nur die beste Übereinstimmung wird weiterverfolgt. Wir haben festgestellt, dass 25 Kandidaten die optimale Anzahl für das Reranking sind.

Um unser Beispiel fortzusetzen, würde das LLM nun den umgebenden Text "...Wenn Sie mit den Händen in der Erde arbeiten..." analysieren und diesen Kontext nutzen, um eine Rangfolge der Kandidaten zu erstellen. Aufgrund der Erwähnung der Arbeit mit Erde würde "Gartenhandschuhe" wahrscheinlich als der semantisch relevanteste Kandidat an die Spitze der Liste befördert werden.

🌳 Hierarchisches Ranking

Der ausgewählte Kandidat wird innerhalb der Hierarchie der KG positioniert. Ein anderes LLM kann die Auswahl entweder beibehalten oder durch ein geeigneteres Eltern-, Kind- oder Geschwisterteil ersetzen, je nach Kontext. Ein Schwellenwert für hierarchisches Reranking von 100 gewährleistet, dass die gesamte Hierarchie berücksichtigt wird.

Betrachten Sie die folgende vereinfachte Hierarchie im Knowledge Graph:

In diesem Schritt prüft das System, ob "Gartenhandschuhe" die am besten geeignete Spezifitätsebene ist. Während dies in unserem Beispiel eine gute Übereinstimmung ist, könnte die hierarchische Rangfolge die Vorgängerentität "Handschuhe" aufwerten und mit dem entsprechenden KG-Eintrag verknüpfen, wenn der Kontext breiter gefasst gewesen wäre und lediglich die Notwendigkeit eines Handschutzes ohne den Kontext der Gartenarbeit erwähnt hätte.

Dieser mehrstufige NEL-Prozess gewährleistet eine genaue und sinnvolle Verankerung im Knowledge Graph.

Erfolg messen: Unsere Bewertungsmethodik

Um die Effektivität unserer Wissensgraphen-Anreicherungspipeline für die Heimwerkerartikel von Leroy Merlin sicherzustellen, haben wir eine robuste Evaluierung anhand eines sorgfältig erstellten Basisdatensatzes durchgeführt, der Entitäten aus dem Adeo-Wissensgraphen enthält.

Diese Bewertung konzentriert sich insbesondere auf die Fähigkeit der Pipeline, vier wichtige Entitätsklassen zu identifizieren und zu verknüpfen: ProductSet, HomeSpace, DIYActivity und Color, sowohl auf globaler als auch auf lokaler Ebene innerhalb der Artikel:

  1. ProduktSet: Dies sind Werkzeuge, Materialien oder käuflich erwerbbare Produkte, die für Heimwerker-, Garten- oder Bastelarbeiten verwendet werden. Beispiele: Betonschleifer, Luft-Luft-Wärmepumpe, Gartenschürze, Schreibtischlampe, intelligenter Thermostat
  2. HausRaum: Dies sind Bereiche oder Räume in einem Haus oder Garten, in denen typischerweise Heimwerkeraktivitäten stattfinden. Beispiele: Garage, Garten, Küche, Badezimmer, Balkon
  3. DIYActivity: Dies sind Aufgaben oder Vorgänge im Zusammenhang mit Do-It-Yourself und Heimwerken. Beispiele: Malerarbeiten, Installation, Reinigung, Gartenarbeit, Isolierung
  4. Farbe: Diese Kategorie umfasst alle erwähnten Farben oder Schattierungen. Beispiele: Cremeweiß, Blaugrün, Hellgrau, Mattschwarz, Hellgelb

Evaluierung der gesamten Pipeline (NER & NEL)

Wir haben die Gesamtleistung anhand der folgenden Kriterien bewertet:

  • Genauigkeit: Korrekt identifizierte und verknüpfte Entitäten / alle identifizierten und verknüpften Entitäten.
  • Rückruf: Korrekt identifizierte und verknüpfte Entitäten / alle tatsächlichen Entitäten.
  • F1-Punktzahl: Ein ausgewogenes Maß für die Genauigkeit und die Wiederauffindbarkeit.
  • Unscharfe Übereinstimmungsmetriken (Abstände 1, 2, 3): Wir bewerten Fehler nach ihrem hierarchischen Abstand zum wahren Label: Abstand 1 für direkte Nachbarn, Abstand 2 für die nächste Ebene usw. Eine falsche Vorhersage gilt immer noch als "bestanden", wenn sie innerhalb des zulässigen Radius liegt, wodurch Beinahe-Fehler fairer erfasst werden.

Bewertung mit einer Fuzzy-Metrik

Evaluierung der NER: Wir verglichen die extrahierten Entitäten mit den extrahierten Entitäten (ohne Berücksichtigung der Groß- und Kleinschreibung). Unsere NER extrahiert absichtlich zu viel, um eine hohe Trefferquote zu erzielen.

Bewertung von NEL: Unter der Annahme einer perfekten NER haben wir uns auf die Genauigkeit des Verknüpfungsprozesses konzentriert und dabei dieselben Metriken wie bei der gesamten Pipeline verwendet, einschließlich Fuzzy-Matching.

Die wichtigsten Ergebnisse: Vielversprechende Ergebnisse und Wachstumsbereiche

Hier sind die Leistungskennzahlen unserer Pipeline

Vollständige Pipeline (genaue Übereinstimmung)

Leistungskennzahlen der NER/NEL-Pipeline (Exact Match)

  • Globale Entitäten: Hohe Präzision, geringerer Rückruf (ausgeglichenes F1).
  • Lokale Entitäten: Unterschiedliche Leistung. ProductSet (Schlüsselkategorie) zeigte eine solide Bilanz (Precision: 58,9%, Recall: 61,74%, F1: 60,29%). Farbe schnitt ebenfalls gut ab. Die Genauigkeit von HomeSpace muss verbessert werden.

Vollständige Pipeline (Fuzzy Match)

Leistung mit verschiedenen Fuzzy-Metriken

Die Fuzzy-Metriken verbessern sich erheblich, wenn der Abstand zunimmt. Dies zeigt deutlich, dass Vorhersagen, die bei exakter Übereinstimmung als falsch angesehen werden, innerhalb der Graphenhierarchie noch relativ nahe am tatsächlichen Wert liegen.

NER:

Wie erwartet, erzielten wir eine hohe Wiederauffindbarkeit, aber eine geringere Präzision aufgrund unserer Überextraktionsstrategie.

NEL:

Die NEL-Komponente hat die Verknüpfung von Entitäten 🔗 nach der NER effektiv verfeinert.

Schlussfolgerung: Aufbau eines intelligenteren DIY-Ökosystems

Dieses Projekt ist ein wichtiger Schritt bei der Nutzung von AI , um das Heimwerker-Erlebnis auf der Website von Leroy Merlin zu verbessern. Durch den erfolgreichen Aufbau einer Pipeline zur Verknüpfung von Heimwerkerartikeln mit dem Knowledge Graph von Adeo haben wir den Grundstein für eine intelligentere Suche, personalisierte Empfehlungen und reichhaltigere Inhalte gelegt.

Die ersten Ergebnisse sind zwar vielversprechend (vor allem für ProductSet), aber wir haben Bereiche mit Optimierungsbedarf identifiziert, wie z. B. die Verbesserung der Präzision von HomeSpace. Unsere Entscheidung, LLMs für eine schnelle erste Annotation zu verwenden, hat sich als wertvolle Strategie erwiesen, da sie die data für zukünftiges Modelltraining und Verbesserungen beschleunigt.

Die laufende Zusammenarbeit zwischen Adeo, Google und Artefact treibt die Innovation im Einzelhandel weiter voran. Diese Initiative zur Anreicherung des Knowledge Graphs zeigt die Stärke der Kombination von Fachwissen und modernster AI , um ein intuitiveres und wertvolleres Erlebnis für Heimwerker zu schaffen. Im Zuge der Weiterentwicklung unserer Pipeline mit weiteren Verfeinerungen und potenziell fortschrittlicheren Modellen wie Gemini 2.5 Pro wird die Verbindung zwischen Inhalt und Wissen nur noch stärker werden, um die Kunden von Leroy Merlin bei ihren Heimwerkerprojekten noch besser zu unterstützen.