Leia o artigo em

class="lazyload

Contexto

A ADEO desenvolveu um extensoGráfico de Conhecimento que abrange todo o seu catálogo de produtos. Ao mesmo tempo, a empresa publica uma grande variedade de artigos de "faça você mesmo" em seu site. No entanto, esses artigos permanecem desconectados do Gráfico de Conhecimento, o que nos impede de identificar com precisão quais produtos ou entidades da taxonomia são mencionados no conteúdo. Ao vincular esses artigos ao Gráfico de Conhecimento, a ADEO poderia melhorar significativamente a experiência do usuário por meio de recursos de pesquisa mais inteligentes, recomendações personalizadas e um conteúdo mais envolvente e enriquecido.

Esta iniciativa marca o mais recente capítulo de uma colaboração bem-sucedida e duradoura entre a Adeo, o Google e Artefact. Com base na expertise compartilhada em data, varejo e tecnologia de ponta, este projeto representa uma evolução natural em nossa jornada para inovar o panorama do varejo digital. O alinhamento estratégico com o Google tem sido fundamental para fornecer as ferramentas e a infraestrutura necessárias para levar adiante este ambicioso empreendimento.

A Pedra Angular: O Gráfico de Conhecimento da Adeo e o Potencial dos Artigos “Faça Você Mesmo”

No centro deste projeto está o robusto Gráfico de Conhecimento da Adeo — um sofisticado banco de dados gráfico que abriga a taxonomia da empresa —, que constitui uma forma estruturada de classificar e categorizar informações. Essa rede de data interconectados, que atualmente compreende cerca de500.000 relações com23.000 assuntos únicos,41 predicados e225.000 objetos, representa uma riqueza de informações sobre produtos, categorias e suas relações. Aqui estão alguns exemplos simples de relações que você pode encontrar nesse gráfico de conhecimento:

Exemplos de entidades e relações

No entanto, uma parte significativa de informações valiosas está contida nos inúmerosartigos de “Faça Você Mesmo” (DIY) publicados no site da Leroy Merlin. Esses artigos, repletos de conselhos práticos e instruções, frequentemente mencionam entidades já presentes no Gráfico de Conhecimento da Adeo. O desafio?Não haviauma maneira automatizada de identificar essas menções e estabelecer as ligações cruciais entre o conteúdo textual e o conhecimento estruturado.

Preencher essa lacuna geraum valor comercial significativo, especialmente no contexto da AI em curso impulsionada AI AI de Geração. Ao extrair automaticamente entidades de artigos e outros data textuais data vinculá-las ao Gráfico de Conhecimento, enriquecendo-o assim, podemos:

  • Melhorar a relevância da pesquisa:Ativara pesquisa semântica, permitindo que os usuários encontrem artigos com base nos conceitos subjacentes, em vez de apenas nas palavras-chave.
  • Melhorar as recomendações de produtos:Compreender os conceitos abordados em um artigo para recomendar produtos, ferramentas e materiais relevantes diretamente ao leitor.
  • Enriquecer e personalizar o conteúdo:Enriquecer dinamicamente os artigos com links para entidades relevantes no Gráfico de Conhecimento, oferecendo aos usuários um contexto mais aprofundado e informações relacionadas.

Navegando pelo panorama: NER e NEL com LLMs

A tarefa em questão — identificar e vincular menções a entidades dentro do texto a uma base de conhecimento predefinida — enquadra-se nos domínios bem estabelecidos doReconhecimento de Entidades Nomeadas (NER)e da Vinculação de Entidades Nomeadas (NEL). Tradicionalmente, para obter alto desempenho, era necessário treinar modelos especializados em grandes conjuntos de dados rotulados. Embora existam modelos NER/NEL poderosos, sua natureza, data,representavaum desafio para nossas necessidades de implantação rápida.

Por isso, optamos por umaabordagem diferente: aproveitar o poder dosGrandes Modelos de Linguagem (LLMs)para construir nosso pipeline de extração. Embora os LLMs exijam poucos ou nenhum data de treinamento específico para a tarefa data o que permite uma implementação e iteração mais rápidas —, eles ainda requerem data anotadospara avaliação. Para isso, a equipe da Adeo construiu umconjunto de validação abrangente, o que exigiu um esforço humano significativo e profundo conhecimento do negócio. Esse conjunto de dados é essencial para medir de forma confiável o desempenho do pipeline.

Nosso objetivo principal não era alcançar uma precisão perfeita logo de início. Em vez disso, nos concentramos em criar um fluxo de trabalho funcional para fornecertextos pré-anotados aos anotadores humanos. Isso acelera significativamente o processo de anotação, tornando o ajuste fino futuro de modelos especializados muito mais eficiente.

Nosso modelo inovador em duas etapas

Para lidar com o NER e o NEL, desenvolvemos um fluxo de trabalho robusto em duas etapas

O sistema de canais NER/NEL de dois níveis

1. Reconhecimento de Entidades Nomeadas (NER): Identificação de entidades candidatas

Esta etapa identifica menções a entidades relevantes em artigos sobre “faça você mesmo” utilizando um LLM. Lidamos com o tamanho dos artigos por meio do text chunking:artigos longos são divididos em trechos mais fáceis de gerenciar (500 palavras) para garantir um contexto consistente no LLM e um melhor desempenho. Nosso processo de NER utiliza uma estratégia de dois níveis:

  • Entidades locais: Para menções específicas ao contexto, cada trecho de 500 palavras passa por uma extração em duas etapas para refinamento (semelhante à “Cadeia de Pensamentos”) utilizando um LLM. Os resultados de todos os trechos são então combinados.
  • Entidades globais: No caso de temas abrangentes, o texto completo é processado (novamente com dupla extração utilizando um LLM) para garantir uma cobertura abrangente.

Essa abordagem em duas etapas garante que captemos tanto os detalhes específicos quanto os conceitos gerais de forma eficaz.

2. Vinculação de Entidades Nomeadas (NEL): Conectando os pontos ao Gráfico de Conhecimento

Depois que as entidades são extraídas, o NEL elimina ambiguidades e as vincula à entrada mais relevante do Gráfico de Conhecimento. Isso envolve:

🤝Geração de candidatos

Para cada entidade extraída, geramos correspondências potenciais a partir do KG utilizando um armazenamento de vetores e incorporações de texto. Apenas os candidatos semanticamente mais semelhantes são mantidos. Utilizamos o modelo GCPtext-multilingual-embedding-002com um banco de dados de vetores para essa tarefa.

Para ilustrar isso, imagine que a etapa de NER extraia a entidade candidata “luvas leves de lona” de um trecho de texto:

“[…] você pode optar porluvas levesde lona.Se você trabalha com as mãos na terra […]”.

Na etapa de geração de candidatos, o sistema recupera possíveis correspondências do Gráfico de Conhecimento com base na similaridade semântica. Isso pode resultar em uma lista ordenada de candidatos, como “luvas descartáveis” (1.º lugar), “luvas de trabalho” (2.º lugar), …, “luvas de jardinagem” (9.º lugar) e “luvas para manuseio de vidro” (10.º lugar), entre outros.

🠠Reclassificação semântica

Os candidatos pré-selecionados são reclassificados por um LLM que analisa o contexto da entidade no artigo. Apenas o candidato com a melhor correspondência passa à fase seguinte. Concluímos que 25 candidatos é o número ideal para a reclassificação.

Continuando com nosso exemplo, o LLM analisaria agora o texto circundante “…Se você trabalha com as mãos na terra…” e usaria esse contexto para reclassificar as opções. Devido à menção ao trabalho com a terra, “luvas de jardinagem” provavelmente seria promovida ao topo da lista como a opção semanticamente mais relevante.

🌳Classificação hierárquica

O candidato selecionado é posicionado na hierarquia do KG. Outro LLM pode manter a seleção ou substituí-la por um pai, filho ou irmão mais adequado, dependendo do contexto. Um limite de reclassificação hierárquica de 100 garante que toda a hierarquia seja considerada.

Considere a seguinte hierarquia simplificada no Gráfico de Conhecimento:

Nesta etapa, o sistema verifica se “luvas de jardinagem” é o nível de especificidade mais adequado. Embora seja uma boa correspondência no nosso exemplo, se o contexto fosse mais amplo — por exemplo, se fosse mencionada apenas a necessidade de proteção para as mãos, sem o contexto da jardinagem —, a classificação hierárquica poderia promover a entidade ancestral “luvas” e vinculá-la à entrada correspondente no KG.

Esse processo NEL em várias etapas garante uma ancoragem precisa e significativa no Gráfico de Conhecimento.

Medindo o sucesso: nossa metodologia de avaliação

Para garantir a eficácia do nosso fluxo de trabalho de enriquecimento do Gráfico de Conhecimento para os artigos de bricolagem da Leroy Merlin, implementamos uma avaliação robusta com base em umconjunto de dados de referência cuidadosamente elaborado,contendo entidades do gráfico de conhecimento da Adeo.

Esta avaliação concentra-se especificamente na capacidade do pipeline de identificar e relacionar quatro classes de entidades principais: ProductSet, HomeSpace, DIYActivity e Color, tanto em nível global quanto local dentro dos artigos:

  1. Conjunto de produtos:São ferramentas, materiais ou produtos disponíveis para compra, utilizados em reformas domésticas, jardinagem ou tarefas de "faça você mesmo".Exemplos: Esmerilhadeira para concreto, bomba de calor ar-ar, avental de jardinagem, luminária de mesa, termostato inteligente
  2. Espaços domésticos:são áreas ou cômodos de uma casa ou jardim onde normalmente se realizam atividades de bricolagem.Exemplos: garagem, jardim, cozinha, banheiro, varanda
  3. Atividade "Faça você mesmo": Sãoas tarefas ou operações relacionadas ao "Faça você mesmo" e à reforma da casa.Exemplos: Pintura, instalação, limpeza, jardinagem, trabalhos de isolamento
  4. Cor:Esta categoria inclui qualquer cor ou tom mencionado.Exemplos: Branco cremoso, Azul-petróleo, Cinza claro, Preto fosco, Amarelo brilhante

Avaliação de todo o fluxo de trabalho (NER e NEL)

Avaliamos o desempenho geral utilizando:

  • Precisão:Entidades identificadas e vinculadas corretamente / todas identificadas e vinculadas.
  • Recapitulação:Entidades identificadas e associadas corretamente / todas as entidades reais.
  • Índice F1:uma medida equilibrada de precisão e recuperação.
  • Métricas de correspondência aproximada (distâncias 1, 2, 3):Classificamos os erros de acordo com sua distância hierárquica em relação ao rótulo correto: distância 1 para vizinhos diretos, distância 2 para o nível seguinte, etc. Uma previsão errada ainda é considerada “válida” se estiver dentro do raio permitido, captando assim os erros por pouco de forma mais justa.

Avaliação utilizando uma métrica difusa

Avaliação do NER:Comparamos as entidades extraídas com radicação com a referência de referência com radicação (sem distinção entre maiúsculas e minúsculas). Nosso NER extrai intencionalmente um número excessivo de entidades para obter um alto índice de recall.

Avaliação do NEL: Partindo do pressuposto deum NER perfeito, concentramos nossa análise na precisão do processo de vinculação, utilizando as mesmas métricas do pipeline completo, incluindo a correspondência aproximada.

Principais conclusões: resultados promissores e áreas de crescimento

Aqui estão os indicadores de desempenho do nosso pipeline

Pipeline completo (correspondência exata)

Métricas de desempenho do pipeline NER/NEL (Correspondência exata)

  • Entidades globais:alta precisão, baixa recuperação (F1 equilibrado).
  • Entidades locais:Desempenho variado. A categoria principal“ProductSet”apresentou um equilíbrio sólido (Precisão: 58,9%, Recall: 61,74%, F1: 60,29%).A categoria “Color”também teve um bom desempenho.A categoria “HomeSpace”precisa melhorar em termos de precisão.

Pipeline completo (correspondência aproximada)

Desempenho utilizando diferentes métricas difusas

As métricas difusas melhoram significativamente à medida que a distância aumenta. Isso demonstra claramente que as previsões consideradas incorretas na correspondência exata ainda estão relativamente próximas do valor real dentro da hierarquia do gráfico.

NER:

Como era de se esperar, alcançamosum alto índice de recall, mas uma precisão mais baixa devido à nossa estratégia de extração excessiva.

NEL:

O componente NELaperfeiçoouefetivamentea vinculação de entidades🔗 após o NER.

Conclusão: Construindo um ecossistema de "faça você mesmo" mais inteligente

Este projeto representa um passo significativo no uso AI enriquecer a experiência de bricolagem no site da Leroy Merlin. Ao criar com sucesso um fluxo de trabalho para vincular artigos de bricolagem ao Gráfico de Conhecimento da Adeo, estabelecemos as bases para uma pesquisa mais inteligente, recomendações personalizadas e um conteúdo mais rico.

Embora os resultados iniciais sejam promissores (especialmente para o ProductSet), identificamos áreas que podem ser otimizadas, como o aprimoramento da precisão do HomeSpace. Nossa decisão de utilizar LLMs para uma anotação inicial rápida tem sido uma estratégia valiosa, acelerando data para o treinamento e o aprimoramento futuros dos modelos.

A colaboração contínua entre a Adeo, o Google e Artefact a impulsionar a inovação no setor de varejo. Esta iniciativa de enriquecimento do Knowledge Graph demonstra o poder da combinação de conhecimento especializado com AI de ponta AI criar uma experiência mais intuitiva e valiosa para os entusiastas do “faça você mesmo”. À medida que nosso pipeline evolui com novos aprimoramentos e modelos potencialmente mais avançados, como o Gemini 2.5 Pro, a conexão entre conteúdo e conhecimento só tenderá a se fortalecer, capacitando ainda mais os clientes da Leroy Merlin em suas jornadas de reforma e decoração.