Desafio: dimensionar o marketing de precisão avançado em mais de 30 mercados

A Sanofi é uma das líderes mundiais do setor farmacêutico. Nos últimos 3 anos, Artefact tem ajudado A unidade de negócios CHC (Consumer Health Care) da Sanofi comercializa seus medicamentos de venda livre por meio de táticas e capacitadores com prioridade digital para alcançar os consumidores certos, no momento certo e com a mensagem certa, em mais de 30 mercados.

Para sua categoria de produtos sazonais, a Sanofi CHC desenvolveu uma abordagem baseada em previsões para ajustar os gastos com mídia digital de acordo com os picos de demanda previstos. Por meio de várias campanhas piloto, a equipe de Transformação Digital Global conseguiu provar o valor agregado dessa abordagem com um ROAS multiplicado por 2 a 4 de acordo com as regiões geográficas.

No entanto, a configuração de uma nova campanha continuava a consumir muito tempo: Os cientistas do data precisavam passar por uma série de tarefas manuais, repetitivas e sujeitas a erros, o que os impedia de se concentrar em outros projetos inovadores. Para dimensionar seus pipelines de ML inovadores, a equipe científica do data da Sanofi definiu suas necessidades para industrializar o caso de uso e solicitou o apoio do Artefact para projetar e implementar em conjunto uma solução robusta.

Solução: um processo de industrialização co-projetado com base em 6 soluções-chave

A chave para o sucesso do projeto foi a estreita colaboração entre os especialistas em negócios da Sanofi e os cientistas do data da Sanofi com a equipe do Artefact.

- Albert Pla Planas, líder da equipe científica do Data, Sanofi

Por meio de uma estreita colaboração entre o Artefact e o data da Sanofi e as equipes de negócios, um processo de industrialização abrangente que aproveita a tecnologia unificada de Databricks A plataforma foi projetada. Nossos objetivos conjuntos eram:

  • Simplifique a configuração de ponta a ponta de uma nova campanha sazonal

  • Automatizar as tarefas de ingestão e processamento do data

  • Tornar a solução mais robusta para evitar erros e manutenção manual

  • Melhorar a capacidade de manutenção e o dimensionamento do projeto

Após uma rápida auditoria de uma semana para mapear o processo atual e os pontos técnicos problemáticos, a equipe se alinhou para implementar uma infraestrutura preparada para o futuro com base em seis soluções principais:

  • Separação de preocupações:

    Ter um pipeline ETL separado do processo do modelo de previsão facilita a manutenção e o dimensionamento. Isso nos permitiu implementar verificações automatizadas juntamente com um sistema de monitoramento que envia reports detalhados para as equipes relevantes sobre o status da ingestão.

  • Uso de Lago Delta como uma fonte dourada data:

    Nas equipes de DS em que a infraestrutura pode ser difícil de obter/manter, o Delta Lake combina os principais recursos das soluções de armazém do data e de lagos do data, eliminando assim a complexidade da administração do SQL database. Ele também possui recursos de controle de versão - importantes para a reprodutibilidade do ML - e servirá como a única fonte de verdade para o data.

  • Empacotar o máximo possível de código em uma biblioteca Python para simplificar os processos:

    Parte do código inicial estava dispersa em vários notebooks dentro do Databricks, complexificando o gerenciamento de dependências e a reutilização do código. O desenvolvimento baseado em notebooks é relevante para a criação de protótipos, mas pode criar desafios para a industrialização de projetos de ML. Ter bibliotecas Python claramente definidas implementadas no notebook e manter apenas o Databricks como ponto de entrada para o Compute facilitou a generalização dos notebooks e a organização das campanhas de entrada.

  • Aproveitamento do Spark e do Databricks:

    O treinamento do modelo usando métodos de pesquisa de hiperparâmetros pode ser demorado e exigente. É nesse ponto que a infraestrutura de dimensionamento automático do Databricks e o tempo de execução de ML gerenciado com Spark e HyperOpt são úteis. O uso de cálculos de memória de forma distribuída em um conjunto de trabalhadores acelera o desempenho e melhora consideravelmente o tempo de treinamento.

  • Uso do ML Flow tracking:

    Com ML Flow tracking A Sanofi agora tem uma interface de usuário na qual os cientistas do Data podem comparar execuções de modelos e acompanhar todos os parâmetros usados (versão do Data e parâmetros do modelo) e os resultados obtidos.

  • Teste e implementação simplificados de novos modelos de ML:

    Foi criada uma estrutura genérica de fábrica de modelos, facilitando a implementação de novos modelos de aprendizado de máquina e a experimentação deles durante uma campanha de Marketing de Precisão com muito pouco esforço.

Resultados e aprendizados: um tempo de preparação dividido por quatro para ingestão e configuração do data

Graças a esse projeto, a Sanofi CHC conseguiu simplificar bastante seu pipeline data e acelerar o dimensionamento de seu caso de uso de marketing de precisão baseado em previsão.

  • Redução do tempo de configuração de novas campanhas:

    • O tempo de instalação para ingestão e configuração do data foi reduzido em até um quarto.
    • O número de tarefas realizadas pelos cientistas do data para configurar uma nova campanha foi reduzido em até um terço.
  • Simplificação da criação de novos modelos de previsão:

    • Plataforma acessível para testar, gerenciar e visualizar modelos com facilidade.
    • Processo genérico para incluir novas fontes data.
    • Pipeline data automatizado.

Sanofi Client Case - Key Achievements

O projeto também permitiu que as equipes gerassem 4 aprendizados importantes para futuros projetos orientados por ML:

  • Integrar a engenharia do data em projetos de ML:

    Envolver os Data Engineers desde o início de um projeto para acelerar a industrialização do pipeline e dissociar claramente os diferentes estágios do pipeline (todo o manuseio, transformação e curadoria de data devem ocorrer antes de passar para os estágios de ML).

  • Aproveite as ferramentas pré-empacotadas:

    O uso de Databricks com Delta Lake e ML Flow foi crucial para o sucesso da industrialização, garantindo uma infraestrutura de autoatendimento fácil sem a necessidade de DevOps.

  • Colaboração profunda entre as equipes de negócios e Data:

    Possivelmente, o fator de sucesso mais importante foi a estreita colaboração entre os especialistas em negócios da Sanofi e os cientistas do data, que idealizaram e conduziram o projeto, com a equipe do Artefact, que trouxe experiência e know-how adicionais em industrialização.

  • Usar metodologias ágeis para industrializar:

    A metodologia ágil (sprints e iterações rápidas seguidas de semanas de feedback e alinhamento) foi muito eficiente para identificar e abordar todos os pontos problemáticos da Sanofi e garantir a entrega de valor para as equipes da empresa.


A Artefact gostaria de agradecer a Ayaka Yanagisawa, Albert Pla Planas, Antoine Tran-Quan-Nam, Laurent Gautier e Sergio Villordo da Sanofi por sua confiança e colaboração neste projeto, bem como à equipe da Databricks por seu apoio reativo. Este artigo foi coproduzido pelas equipes da Sanofi CHC e da Databricks, juntamente com Tristan Silhol, Maui Bar, Louise Morin e Eva Le Saux, dos escritórios da Artefact nos EUA e na França.