Durante o Hackathon virtual de cinco semanas, a equipe da Artefact impressionou os juízes ao desenvolver um pipeline de NER (Reconhecimento de Entidades Nomeadas) para detectar marcas do setor de beleza e cosméticos em publicações do Twitter com um ciclo de feedback integrado.

Uma equipe de cientistas da data, engenheiros de ML e engenheiros da data do escritório da Artefact em Paris ficou em segundo lugar no Hackathon organizado pela Flyte e MLOps.community, que é uma conquista notável dentro da MLOps Área de especialização da comunidade:

  • MLOps.community é uma comunidade aberta que visa atender à crescente necessidade de compartilhar as práticas recomendadas de operações de aprendizado de máquina do mundo real com engenheiros da área
  • Flyte é uma plataforma de código aberto, nativa de contêineres, de programação estruturada e processamento distribuído implementada em Golang

O hackathon virtual de cinco semanas consistiu na criação de um aplicativo de ML de ponta a ponta na Flyte como a plataforma MLOps. Com o objetivo de agregar valor real na produção, a ideia do projeto poderia ser baseada em qualquer aplicativo de ML (aprendizado de máquina) ou Data, como casos de uso no varejo, proteção contra fraudes ou visão computacional. Todos os projetos foram julgados com base na criatividade, na qualidade da execução da equipe usando o aplicativo e na facilidade de compreensão da UI (interface do usuário) do modelo.

A experiente equipe da Artefact, composta pelo cientista sênior da Data/engenheiro de ML Amale El Harmri, pelo Data Engineer Louis Rousselot de Saint Ceran, pelo cientista sênior da Data Karim Si Larbi, pelo cientista sênior da Data Hugo Vasselin e pelo cientista da Data Sascha Lasry, trabalhou nesse Hackathon, além de sua carga de trabalho interna e de clientes. Durante a competição, a equipe tinha o nome “adorable-unicorns23”.”

“O voluntariado para participar desse Hackathon demonstra o compromisso da nossa equipe com os valores de colaboração e inovação da nossa empresa. Seja no escritório ou fora dele, compartilhamos a paixão por criar coisas novas como uma equipe.”
disse Amale El Harmri, Cientista Sênior do Data / Engenheiro de ML do Artefact.

Reconhecendo que o setor de beleza e cosméticos está em constante evolução, a equipe se concentrou em uma possível estratégia para encontrar marcas independentes que sejam inovadoras e populares entre o público e comprá-las. Portanto, a equipe construiu um módulo de identificação de marca nos fluxos do Twitter data que incluía uma interface de rotulagem no roubo.

Para concluir o projeto, a equipe dividiu o processo em três seções:

  • Fluxo de trabalho do aplicativo NERConsiste em extrair tweets relacionados à beleza do Twitter e, em seguida, extrair entidades NER do conteúdo das postagens
  • Parte da etiquetagem manual no Label StudioO senhor deve ter cuidado para não deixar de etiquetar essas mesmas postagens e verificar se há entidades incorretas ou não identificadas 
  • Fluxo de trabalho de treinamento de NER: avaliar o modelo NER com base na rotulagem para concluir o fluxo de trabalho, se for bem-sucedido, ou treinar um novo modelo com o data recém-rotulado, se não for bem-sucedido

“Esta foi a primeira vez que um membro da nossa equipe usou a Flyte, a equipe conseguiu enviar tarefas e fluxos de trabalho muito rapidamente, devido ao SDK (Kit de Desenvolvimento de Software) intuitivo e à documentação da plataforma. Esse Hackathon foi uma experiência incrível para a equipe demonstrar sua experiência avançada em MLOps!”
disse Robin Doumerc, engenheiro de ML da equipe do Artefact.

Para ver a apresentação on-line completa do projeto do Artefact para o júri da comunidade MLOps.community como parte do MLOps #98, acesse o link aqui e pule para a marca de tempo 41:22.