上下文
ADEO 开发了一个涵盖其全部产品目录的庞大知识图谱。与此同时,该公司还在其网站上发布了大量 DIY 文章。然而,这些文章目前尚未与知识图谱建立关联,导致我们无法准确识别内容中提及的是分类体系中的哪些产品或实体。通过将这些文章与知识图谱关联起来,ADEO 能够借助更智能的搜索功能、个性化推荐以及更具吸引力且内容更丰富的内容,显著提升用户体验。
此次合作标志着Adeo、Artefact成功且持久的合作关系又翻开了崭新的一页。依托各方在数据、零售及前沿技术领域的共同专长,该项目是我们革新数字零售格局征程中的自然演进。与Google的战略合作对于提供应对这一宏伟目标所需的工具和基础设施起到了关键作用。
基石:Adeo 的知识图谱与 DIY 文章的潜力
该项目的核心是Adeo强大的知识图谱——这是一个存储了公司分类法的复杂图数据库,该分类法提供了一种结构化的信息分类和归类方式。 这个由相互关联的数据点构成的网络,目前包含约50万条关系,涉及2.3万个独特主体、41个谓词和22.5万个对象,蕴含了关于产品、类别及其相互关系的丰富信息。以下是您可能在该知识图谱中发现的简单关系示例:

实体与关系的示例
然而,大量有价值的信息其实就蕴藏在乐华梅兰(Leroy Merlin)网站上发布的众多“自己动手做”(DIY)文章中。这些文章内容丰富,包含大量实用建议和操作指南,其中经常提及Adeo知识图谱中已有的实体。挑战何在?此前尚无自动化方法能够识别这些提及内容,并建立文本内容与结构化知识之间的关键关联。
弥合这一差距将释放巨大的商业价值,尤其是在当前人工智能和生成式人工智能 的背景下。通过从文章和其他文本数据中自动提取实体,并在知识图谱中建立关联从而丰富其内容,我们可以:
- 提高搜索相关性:启用语义搜索,让用户能够根据文章背后的核心概念而非仅凭关键词来查找文章。
- 优化产品推荐:理解文章中提及的实体,从而直接向读者推荐相关的产品、工具和资料。
- 丰富并个性化内容:通过动态添加指向知识图谱中相关实体的链接来丰富文章内容,为用户提供更深入的背景信息和相关信息。
探索技术格局:基于大型语言模型的NER与NEL
当前的任务——识别文本中的实体提及并将其与预定义的知识库建立关联——属于已成熟的命名实体识别(NER)和命名实体链接(NEL)领域。传统上,要实现高性能,必须利用大规模的标注数据集来训练专用模型。尽管现有的NER/NEL模型性能强大,但其对数据量大的依赖性,给我们的快速部署需求带来了挑战。
因此,我们选择了另一种方法:利用大型语言模型(LLM)的强大能力来构建我们的信息提取管道。虽然大型语言模型几乎不需要任务特定的训练数据——从而能够更快地实施和迭代——但它们仍然需要标注数据来进行评估。 为此,Adeo团队构建了一个全面的验证集,这需要大量的人力投入和深厚的业务专业知识。该数据集对于可靠地衡量管道的性能至关重要。
我们的首要目标并非一开始就追求完美的准确率。相反,我们专注于构建一个可运行的流程,为人工标注员提供预标注的文本。这极大地加快了标注流程,使未来对专用模型的微调变得更加高效。
我们创新的两阶段模式
为解决命名实体识别(NER)和命名实体定位(NEL)问题,我们开发了一套稳健的两阶段处理流程

两级NER/NEL管道
1. 名词实体识别(NER):识别候选实体
本阶段利用大型语言模型(LLM)在DIY文章中识别相关实体的提及。我们通过文本分块处理文章长度问题:将长篇文章拆分为易于处理的块(500词),以确保LLM处理上下文的一致性并提升性能。我们的命名实体识别(NER)过程采用双层策略:
- 本地实体:对于特定语境下的提及内容,每个500词的文本块都会通过大型语言模型(LLM)进行双轮提取以实现精炼(类似于“思维链”)。随后将所有文本块的结果进行整合。
- 全球实体:对于宏观主题,会对全文进行处理(再次利用大型语言模型进行双重提取),以确保全面覆盖。
这种双层方法确保我们能够有效地捕捉到细微的细节和宏观的概念。
2. 名词实体链接(NEL):将点与知识图谱相连
实体提取完成后,NEL 会对其进行消歧,并将其与最相关的知识图谱条目建立关联。这包括:
🤝潜在客户生成
对于每个提取的实体,我们利用向量存储和文本嵌入技术,从知识图谱中生成潜在匹配项。仅保留语义最相似的候选项。为此任务,我们使用了 GCPtext-multilingual-embedding-002模型及相应的向量数据库。
为说明这一点,假设命名实体识别(NER)阶段从一段文本片段中提取出了候选实体“轻便帆布手套”:
“[…] 你可以选择轻便的帆布手套。如果你需要用手在土壤中劳作 […]”。
在“候选项生成”步骤中,系统会根据语义相似性从知识图谱中检索潜在的匹配项。这可能会生成一份按优先级排序的候选项列表,例如“一次性手套”(第1位)、“工作手套”(第2位)、……、“园艺手套”(第9位)以及“玻璃处理手套”(第10位)等。
🧠语义重新排序
入围候选项将由一个基于文章中实体上下文进行分析的自然语言处理模型重新排序。仅匹配度最高的候选项得以保留。我们发现,25个候选项是重新排序的最佳数量。
继续上文的例子,LLM 现在会分析周围的文本“……如果你双手在土壤中劳作……”并利用这一上下文对候选词进行重新排序。由于提到了“在土壤中劳作”,“园艺手套”很可能会被提升至列表首位,成为语义相关性最高的候选词。
🌳层级排名
选定的候选项会被置于KG的层级结构中。另一个LLM可以根据上下文,保留该选定结果,或将其替换为更合适的父节点、子节点或兄弟节点。100的层级重新排序阈值可确保整个层级结构都被纳入考量。
请考虑知识图谱中的以下简化层级结构:

在此步骤中,系统会验证“园艺手套”是否是最合适的具体级别。虽然在我们的示例中这是一个很好的匹配,但如果上下文更广泛——例如仅提及需要手部防护而未提及园艺场景——那么分层排序可能会优先选择其父级实体“手套”,并将其与相应的知识图谱条目建立关联。

这一多步骤的NEL处理流程确保了在知识图谱中实现准确且有意义的锚定。
衡量成功:我们的评估方法论
为了确保我们针对乐华梅兰(Leroy Merlin)DIY文章的知识图谱增强流程的有效性,我们针对一个精心构建的基准数据集 进行了严格的评估,该数据集包含了 来自Adeo知识图谱的实体。
本次评估特别关注该管道在文章的全局和局部层面识别并关联四个关键实体类(ProductSet、HomeSpace、DIYActivity 和 Color)的能力:
- 产品类别:这些是用于家居装修、园艺或DIY任务的工具、材料或可购买的产品。示例:混凝土打磨机、空气源热泵、园艺围裙、台灯、智能温控器
- 生活空间:指家中或花园中通常进行DIY活动的区域或房间。例如:车库、花园、厨房、浴室、阳台
- DIY活动:指与“自己动手做”及家居装修相关的任务或操作。例如:粉刷、安装、清洁、园艺、隔热工程
- 颜色:此类别涵盖所有提及的颜色或色调。示例:奶油白、青绿色、浅灰色、哑光黑、亮黄色
评估完整管道(命名实体识别与命名实体链接)
我们使用以下方法评估了整体表现:
- 精确度:正确识别并关联的实体 / 所有已识别并关联的实体。
- 召回率:正确识别并关联的实体 / 所有实际实体。
- F1 分数:精确率与召回率的综合衡量指标。
- 模糊匹配度量(距离 1、2、3):我们根据预测结果与真实标签之间的分层距离来评分:距离 1 表示直接邻近,距离 2 表示下一层,依此类推。如果错误预测位于允许半径范围内,则仍被视为“通过”,这样能更公平地捕捉到接近正确的预测。

基于模糊度量的评估
命名实体识别(NER)的评估:我们将词干化后的提取实体与词干化后的真实标签(不区分大小写)进行了对比。我们的NER模型为了提高召回率,故意进行了过度提取。
NEL评估:假设命名实体识别(NER)结果完美无误,我们采用与完整处理流程相同的评估指标(包括模糊匹配),重点评估了链接过程的准确性。
主要发现:令人鼓舞的结果与增长领域
以下是我们管道的性能指标
完整管道(精确匹配)

NER/NEL 管道的性能指标(精确匹配)
- 全局实体:高精确率,低召回率(平衡F1值)。
- 本地实体:表现参差不齐。ProductSet(核心类别)表现稳健(精确率:58.9%,召回率:61.74%,F1值:60.29%)。Color的表现也相当不错。HomeSpace在精确率方面有待改进。
完整流程(模糊匹配)

采用不同模糊度量标准的性能表现
随着距离的增加,模糊度量值显著提升。这清楚地表明,在精确匹配中被视为错误的预测,在图层次结构中仍相对接近实际值。
NER:
正如预期的那样,由于采用了过度提取策略,我们虽然实现了较高的召回率,但精确率却较低。
NEL:
NEL组件在命名实体识别(NER)之后,有效地优化了实体链接🔗。
结论:构建更智能的DIY生态系统
该项目标志着在利用人工智能丰富乐华梅兰网站DIY体验方面迈出了重要一步。通过成功构建将DIY文章与Adeo知识图谱相连接的流程,我们为实现更智能的搜索、个性化推荐以及更丰富的内容奠定了基础。
尽管初步结果令人鼓舞(尤其是针对 ProductSet),但我们已发现一些需要优化的方面,例如提高 HomeSpace 的精度。我们决定利用大型语言模型(LLMs)进行快速初始标注,这一策略成效显著,有效加速了未来模型训练和改进所需数据的生成。
Adeo、Google 和Artefact 之间的持续合作Artefact 推动零售创新。这项知识图谱增强计划充分展示了将领域专业知识与尖端人工智能相结合的强大力量,为 DIY 爱好者创造了更直观、更有价值的体验。随着我们的技术管道不断演进、持续优化,并可能引入 Gemini 2.5 Pro 等更先进的模型,内容与知识之间的联系将日益紧密,从而在 Leroy Merlin 客户的家居装修之旅中为他们提供更强大的支持。

博客







