Kontext
ADEO hat einen umfangreichenKnowledge Graph entwickelt, der den gesamten Produktkatalog des Unternehmens abdeckt. Gleichzeitig veröffentlicht das Unternehmen auf seiner Website eine Vielzahl von DIY-Artikeln. Diese Artikel sind jedoch nicht mit dem Knowledge Graph verknüpft, sodass wir nicht genau feststellen können, auf welche Produkte oder Entitäten innerhalb der Taxonomie in den Inhalten Bezug genommen wird. Durch die Verknüpfung dieser Artikel mit dem Knowledge Graph könnte ADEO die Benutzererfahrung durch intelligentere Suchfunktionen, personalisierte Empfehlungen und ansprechendere, angereicherte Inhalte deutlich verbessern.
Diese Initiative markiert das jüngste Kapitel einer erfolgreichen und langjährigen Zusammenarbeit zwischen Adeo, Google und Artefact. Aufbauend auf unserem gemeinsamen Fachwissen in den Bereichen data, Einzelhandel und Spitzentechnologie stellt dieses Projekt eine natürliche Weiterentwicklung auf unserem Weg zur Neugestaltung der digitalen Einzelhandelslandschaft dar. Die strategische Zusammenarbeit mit Google war entscheidend dafür, die für dieses ehrgeizige Vorhaben erforderlichen Werkzeuge und die notwendige Infrastruktur bereitzustellen.
Der Grundstein: Adeos Wissensgraph und das Potenzial für DIY-Artikel
Das Herzstück dieses Projekts bildet Adeos leistungsstarker Knowledge Graph – eine hochentwickelte Graphdatenbank, in der die Taxonomie des Unternehmens gespeichert ist –, also eine strukturierte Methode zur Klassifizierung und Kategorisierung von Informationen. Dieses Netzwerk miteinander verbundener data , das derzeit rund500.000 Beziehungen mit23.000 eindeutigen Subjekten,41 Prädikaten und225.000 Objekten umfasst, stellt eine Fülle von Informationen über Produkte, Kategorien und deren Beziehungen dar. Hier sind einige einfache Beispiele für Beziehungen, die Sie in diesem Knowledge Graph finden könnten:

Beispiele für Entitäten und Beziehungen
Ein Großteil der wertvollen Informationen findet sich jedoch in den zahlreichenHeimwerkerartikeln, die auf der Website von Leroy Merlin veröffentlicht werden. Diese Artikel, die reich an praktischen Ratschlägen und Anleitungen sind, erwähnen häufig Entitäten, die bereits im Knowledge Graph von Adeo vorhanden sind. Die Herausforderung? Es gabkeine automatisierte Möglichkeit, diese Erwähnungen zu identifizieren und die entscheidenden Verknüpfungen zwischen dem Textinhalt und dem strukturierten Wissen herzustellen.
Die Überbrückung dieser Lücke erschließt erheblichengeschäftlichen Mehrwert, insbesondere vor dem Hintergrund der laufenden AI AI generative AI . Indem wir Entitäten automatisch aus Artikeln und anderen data extrahieren data sie im Knowledge Graph verknüpfen data diesen so anreichern, können wir:
- Verbesserung der Suchrelevanz:Aktivieren Siedie semantische Suche, damit Nutzer Artikel anhand der zugrunde liegenden Konzepte und nicht nur anhand von Stichwörtern finden können.
- Produktempfehlungen verbessern:Die in einem Artikel behandelten Themen erfassen, um dem Leser direkt relevante Produkte, Tools und Materialien zu empfehlen.
- Inhalte anreichern und personalisieren:Artikel dynamisch mit Links zu relevanten Entitäten im Knowledge Graph anreichern, um den Nutzern einen tieferen Kontext und weiterführende Informationen zu bieten.
Orientierung in der Landschaft: NER & NEL mit LLMs
Die vorliegende Aufgabe – das Erkennen und Verknüpfen von Erwähnungen von Entitäten innerhalb eines Textes mit einer vordefinierten Wissensdatenbank – fällt in die etablierten Bereiche derNamed Entity Recognition (NER)und der Named Entity Linking (NEL). Bislang war für eine hohe Leistungsfähigkeit das Trainieren spezialisierter Modelle auf großen, beschrifteten Datensätzen erforderlich. Zwar gibt es leistungsstarke NER/NEL-Modelle, dochstellteihr data eine Herausforderung für unsere Anforderungen an eine schnelle Bereitstellungdar.
Daher haben wir uns für einenanderen Ansatz entschieden: Wir nutzen die Leistungsfähigkeitgroßer Sprachmodelle (Large Language Models, LLMs), um unsere Extraktionspipeline aufzubauen. LLMs benötigen zwar kaum oder gar keine aufgabenspezifischen data was eine schnellere Implementierung und Iteration ermöglicht data , erfordern jedoch weiterhinannotierte datafür die Bewertung. Zu diesem Zweck erstellte das Adeo-Team einen umfassendenValidierungsdatensatz, was einen erheblichen personellen Aufwand und fundierte Fachkenntnisse erforderte. Dieser Datensatz ist für die zuverlässige Messung der Leistung der Pipeline unerlässlich.
Unser vorrangiges Ziel war nicht von Anfang an eine perfekte Genauigkeit. Stattdessen konzentrierten wir uns darauf, eine funktionsfähige Pipeline zu entwickeln, um menschlichen Annotatorenvorab annotierten Text zur Verfügung zu stellen. Dies beschleunigt den Annotationsprozess erheblich und macht die spätere Feinabstimmung spezialisierter Modelle wesentlich effizienter.
Unser innovatives zweistufiges Modell
Um die Probleme der Namenserkennung (NER) und der Entitätseinordnung (NEL) anzugehen, haben wir eine robuste zweistufige Pipeline entwickelt

Die zweistufige NER/NEL-Pipeline
1. Erkennung benannter Entitäten (NER): Identifizierung potenzieller Entitäten
In dieser Phase werden mithilfe eines LLM Erwähnungen relevanter Entitäten in Heimwerkerartikeln identifiziert. Die Artikelänge wird durch Text-Chunkingberücksichtigt :Lange Artikel werden in überschaubare Abschnitte (500 Wörter) unterteilt, um einen konsistenten LLM-Kontext zu gewährleisten und die Leistung zu verbessern. Unser NER-Prozess basiert auf einer zweistufigen Strategie:
- Lokale Entitäten: Bei kontextspezifischen Erwähnungen wird jeder 500-Wort-Abschnitt zur Verfeinerung einer doppelten Extraktionsrunde unterzogen (eine Art „Chain of Thoughts“), wobei ein LLM zum Einsatz kommt. Die Ergebnisse aller Abschnitte werden anschließend zusammengefasst.
- Globale Entitäten: Bei übergreifenden Themen wird der gesamte Text verarbeitet (wiederum mittels doppelter Extraktion unter Verwendung eines LLM), um eine umfassende Abdeckung zu gewährleisten.
Dieser zweistufige Ansatz stellt sicher, dass wir sowohl Einzelheiten als auch übergeordnete Konzepte effektiv erfassen.
2. Named Entity Linking (NEL): Die Punkte zum Wissensgraphen verbinden
Sobald Entitäten extrahiert wurden, klärt NEL Mehrdeutigkeiten auf und verknüpft sie mit dem relevantesten Eintrag im Wissensgraphen. Dies umfasst:
🤝Kandidatengewinnung
Für jede extrahierte Entität generieren wir mithilfe eines Vektorspeichers und von Text-Embeddings potenzielle Übereinstimmungen aus dem Wissensgraphen. Es werden nur die semantisch ähnlichsten Kandidaten beibehalten. Für diese Aufgabe haben wir das GCP-Modell„text-multilingual-embedding-002“in Verbindung mit einer Vektordatenbank verwendet.
Um dies zu veranschaulichen, stellen Sie sich vor, die NER-Phase extrahiert die potenzielle Entität „leichte Canvas-Handschuhe“ aus einem Textausschnitt:
„[…] können Sie leichteHandschuhe aus Segeltuch wählen.Wenn Sie mit den Händen in der Erde arbeiten […]“.
Im Schritt der Kandidatengenerierung ruft das System auf der Grundlage semantischer Ähnlichkeit potenzielle Treffer aus dem Wissensgraphen ab. Dies kann unter anderem zu einer geordneten Liste von Kandidaten führen, wie beispielsweise „Einweghandschuhe“ (Rang 1), „Arbeitshandschuhe“ (Rang 2), …, „Gartenhandschuhe“ (Rang 9) und „Handschuhe für den Umgang mit Glas“ (Rang 10).
🧠Semantisches Reranking
Die Kandidaten auf der Auswahlliste werden von einem LLM neu bewertet, der den Kontext der Entität im Artikel analysiert. Nur der Kandidat mit der besten Übereinstimmung kommt weiter. Wir haben festgestellt, dass 25 Kandidaten die optimale Anzahl für die Neubewertung sind.
Um unser Beispiel fortzusetzen: Das LLM würde nun den umgebenden Text „…Wenn Sie mit den Händen in der Erde arbeiten…“ analysieren und diesen Kontext nutzen, um die Kandidaten neu zu ordnen. Da die Arbeit mit Erde erwähnt wird, würden „Gartenhandschuhe“ als semantisch relevantester Kandidat wahrscheinlich an die Spitze der Liste rücken.
🌳Hierarchische Rangfolge
Der ausgewählte Kandidat wird in der Hierarchie der KG positioniert. Ein anderer LLM kann diese Auswahl entweder beibehalten oder sie je nach Kontext durch einen geeigneteren Elternteil, ein Kind oder ein Geschwisterkind ersetzen. Ein Schwellenwert von 100 für die hierarchische Neuanordnung stellt sicher, dass die gesamte Hierarchie berücksichtigt wird.
Betrachten Sie die folgende vereinfachte Hierarchie im Knowledge Graph:

In diesem Schritt prüft das System, ob „Gartenhandschuhe“ die am besten geeignete Spezifitätsstufe ist. In unserem Beispiel passt dies zwar gut, doch wäre der Kontext weiter gefasst gewesen – hätte man beispielsweise lediglich den Bedarf an Handschutz ohne Bezug zum Gärtnern erwähnt –, hätte die hierarchische Einstufung möglicherweise die übergeordnete Entität „Handschuhe“ bevorzugt und diese mit dem entsprechenden KG-Eintrag verknüpft.

Dieser mehrstufige NEL-Prozess gewährleistet eine präzise und aussagekräftige Verankerung innerhalb des Wissensgraphen.
Erfolgsmessung: Unsere Evaluierungsmethodik
Um die Wirksamkeit unserer Pipeline zur Anreicherung des Wissensgraphen für die Heimwerkerartikel von Leroy Merlin sicherzustellen, haben wir eine umfassende Bewertung anhand eines sorgfältig zusammengestelltenReferenzdatensatzes durchgeführt,der Entitäten aus dem Adeo-Wissensgraphenenthält .
Diese Auswertung konzentriert sich insbesondere auf die Fähigkeit der Pipeline, vier wichtige Entitätsklassen zu identifizieren und miteinander zu verknüpfen: ProductSet, HomeSpace, DIYActivity und Color, und zwar sowohl auf globaler als auch auf lokaler Ebene innerhalb der Artikel:
- Produktgruppe:Hierbei handelt es sich um Werkzeuge, Materialien oder käufliche Produkte, die für Heimwerkerarbeiten, Gartenarbeiten oder DIY-Projekte verwendet werden.Beispiele: Betonschleifmaschine, Luft-Luft-Wärmepumpe, Gartenschürze, Schreibtischlampe, intelligenter Thermostat
- HomeSpace:Dies sind Bereiche oder Räume im Haus oder Garten, in denen typischerweise Heimwerkerarbeiten stattfinden.Beispiele: Garage, Garten, Küche, Badezimmer, Balkon
- Heimwerkerarbeiten: Diessind Aufgaben oder Tätigkeiten im Zusammenhang mit Heimwerken und Renovierungsarbeiten.Beispiele: Streichen, Montagen, Reinigen, Gartenarbeit, Dämmarbeiten
- Farbe:Diese Kategorie umfasst alle genannten Farben und Farbtöne.Beispiele: Cremeweiß, Blaugrün, Hellgrau, Mattschwarz, Leuchtgelb
Bewertung der gesamten Pipeline (NER & NEL)
Wir haben die Gesamtleistung anhand folgender Kriterien bewertet:
- Genauigkeit:Korrekt identifizierte und verknüpfte Entitäten / alle identifiziert und verknüpft.
- Rückruf:Korrekt identifizierte und verknüpfte Entitäten / alle tatsächlichen Entitäten.
- F1-Wert:Ein ausgewogenes Maß für Präzision und Sensitivität.
- Metriken für unscharfe Übereinstimmungen (Abstände 1, 2, 3):Wir bewerten Fehler anhand ihres hierarchischen Abstands zur tatsächlichen Klassifizierung: Abstand 1 für direkte Nachbarn, Abstand 2 für die nächste Ebene usw. Eine falsche Vorhersage gilt weiterhin als „bestanden“, wenn sie innerhalb des zulässigen Radius liegt, wodurch Beinahe-Treffer fairer erfasst werden.

Bewertung unter Verwendung einer Fuzzy-Metrik
Bewertung der NER:Wir haben die extrahierten Entitäten mit Stammformen mit den Referenzwerten in Stammform verglichen (ohne Berücksichtigung der Groß-/Kleinschreibung). Unsere NER extrahiert bewusst zu viele Entitäten, um einen hohen Recall zu erzielen.
Bewertung von NEL: Unter der Annahmeeiner fehlerfreien NER haben wir uns auf die Genauigkeit des Verknüpfungsprozesses konzentriert und dabei dieselben Metriken wie bei der vollständigen Pipeline verwendet, einschließlich Fuzzy-Matching.
Wichtigste Erkenntnisse: Vielversprechende Ergebnisse und Wachstumsbereiche
Hier sind die Leistungskennzahlen unserer Pipeline
Gesamte Pipeline (genaue Übereinstimmung)

Leistungskennzahlen der NER/NEL-Pipeline (Exaktübereinstimmung)
- Globale Entitäten:Hohe Präzision, geringerer Recall (ausgewogener F1-Wert).
- Lokale Entitäten:Unterschiedliche Leistung.Die Kategorie „ProductSet“(Schlüsselkategorie) zeigte ein solides Ergebnis (Präzision: 58,9 %, Recall: 61,74 %, F1: 60,29 %). Auchdie Kategorie „Color“schnitt gut ab.Bei „HomeSpace“besteht Verbesserungsbedarf hinsichtlich der Präzision.
Gesamte Pipeline (unscharfe Übereinstimmung)

Leistung unter Verwendung verschiedener Fuzzy-Metriken
Die Fuzzy-Metriken verbessern sich deutlich mit zunehmender Entfernung. Dies zeigt deutlich, dass Vorhersagen, die bei exakter Übereinstimmung als falsch gelten, innerhalb der Graphhierarchie dennoch relativ nahe am tatsächlichen Wert liegen.
NER:
Wie erwartet erzielten wir aufgrund unserer Strategie der übermäßigen Extraktioneinen hohen Recall, jedoch eine geringere Präzision.
NEL:
Die NEL-Komponentehat die Verknüpfung von Entitäten🔗 nach der NER effektivverfeinert.
Fazit: Aufbau eines intelligenteren DIY-Ökosystems
Dieses Projekt stellt einen bedeutenden Schritt dar, AI mithilfe von AI das Heimwerkererlebnis auf der Website von Leroy Merlin AI verbessern. Durch den erfolgreichen Aufbau einer Schnittstelle, die Heimwerkerartikel mit dem Knowledge Graph von Adeo verknüpft, haben wir die Grundlage für eine intelligentere Suche, personalisierte Empfehlungen und reichhaltigere Inhalte geschaffen.
Auch wenn die ersten Ergebnisse vielversprechend sind (insbesondere für ProductSet), haben wir Bereiche identifiziert, in denen Optimierungsbedarf besteht, wie beispielsweise die Verbesserung der Genauigkeit von HomeSpace. Unsere Entscheidung, LLMs für eine schnelle erste Annotation einzusetzen, hat sich als wertvolle Strategie erwiesen, da sie data für das künftige Modelltraining und weitere Verbesserungen beschleunigt hat.
Die fortlaufende Zusammenarbeit zwischen Adeo, Google und Artefact treibt die Innovation im Einzelhandel Artefact voran. Diese Initiative zur Anreicherung des Knowledge Graph verdeutlicht, wie wirkungsvoll die Kombination von Fachwissen mit modernster AI ist, AI Heimwerkern ein intuitiveres und wertvolleres Erlebnis AI bieten. Da unsere Pipeline durch weitere Verfeinerungen und potenziell fortschrittlichere Modelle wie Gemini 2.5 Pro ständig weiterentwickelt wird, wird sich die Verbindung zwischen Inhalten und Wissen nur noch weiter festigen und die Kunden von Leroy Merlin bei ihren Heimwerkerprojekten noch besser unterstützen.

BLOG







