Desafio: dimensionar o Marketing de Precisão avançado em mais de 30 mercados

A Sanofi é um dos líderes mundiais na indústria farmacêutica. Nos últimos 3 anos, Artefact tem ajudado a unidade de negócios Sanofi CHC (Consumer Health Care) a comercializar seus medicamentos de venda livre via tática digital-first e capacitadores para alcançar os consumidores certos no momento certo com a mensagem certa, em mais de 30 mercados.

Para sua categoria de produtos sazonais, a Sanofi CHC desenvolveu uma abordagem baseada em previsões para ajustar os gastos com mídia digital de acordo com os picos de demanda previstos. Através de múltiplas campanhas piloto, a equipe da Global Digital Transformation conseguiu provar o valor agregado desta abordagem com um ROAS multiplicado por 2 a 4 de acordo com as geografias.

No entanto, a criação de uma nova campanha continuava consumindo muito tempo: os cientistas da data tinham que passar por uma série de tarefas manuais, repetitivas e propensas a erros, o que os impedia de se concentrar em outros projetos inovadores. Para dimensionar seus pipelines de ML inovadores, a equipe científica da Sanofi data definiu suas necessidades para industrializar o caso de uso e solicitou o apoio da Artefact para projetar e implementar em conjunto uma solução robusta.

Solução: um processo de industrialização co-desenhado com base em 6 soluções-chave

"A chave para o sucesso do projeto foi a estreita colaboração entre os especialistas em negócios da Sanofi e os cientistas da Sanofi data com a equipe da Artefact ."

- Albert Pla Planas, Data Líder da equipe científica, Sanofi

Por meio de uma estreita colaboração entre Artefact e as equipes comerciais e de data da Sanofi, foi projetado um processo de industrialização abrangente que aproveita a plataforma unificada da Databricks. Nossos objetivos conjuntos eram:

  • Simplificar a configuração de ponta a ponta de uma nova campanha sazonal

  • Automatize as tarefas de ingestão e processamento do data

  • Tornar a solução mais robusta para evitar erros e manutenção manual

  • Melhorar a capacidade de manutenção e escalonamento do projeto

Após uma rápida auditoria de 1 semana para mapear o processo atual e os pontos de dor técnica, a equipe se alinhou na implementação de uma infra-estrutura à prova de futuro com base em 6 soluções-chave:

  • Separação de preocupações:

    Ter um pipeline de ETL separado do processo do modelo de previsão facilita a manutenção e o dimensionamento. Isso nos permitiu implementar verificações automatizadas juntamente com um sistema de monitoramento que envia reports detalhado para as equipes relevantes sobre o status da ingestão.

  • Uso do Delta Lake como uma fonte de ouro data :

    Nas equipes de DS em que a infraestrutura pode ser difícil de obter/manter, o Delta Lake combina os principais recursos das soluções de armazém data e de lagos data , eliminando assim a complexidade da administração do banco de dados SQL. Ele também tem recursos de controle de versão - importantes para a reprodutibilidade do ML - e servirá como a única fonte de verdade para data.

  • Embalar o máximo de código possível em uma biblioteca Python para simplificar os processos:

    Parte do código inicial foi dispersa entre vários cadernos de anotações dentro do Banco de Dados, complexificando a gestão das dependências e a reusabilidade do código. O desenvolvimento baseado em notebooks é relevante para a prototipagem, mas pode criar desafios para a industrialização de projetos ML. Tendo claramente definido as bibliotecas Python implementadas no notebook e mantendo apenas Databricks como ponto de entrada para a Compute, facilitou a generalização de notebooks e a organização de campanhas de entrada.

  • Alavancagem da faísca e do banco de dados:

    O treinamento do modelo utilizando métodos de busca hiperparamétricos pode ser demorado e exigente. É aqui que a infra-estrutura autoscaling de Databricks e o tempo de execução gerenciado ML com Spark e HyperOpt vêm a calhar. O uso de cálculos de memória de forma distribuída sobre um conjunto de trabalhadores acelera o desempenho e melhora consideravelmente o tempo de treinamento.

  • Uso do ML Flow tracking:

    Com o rastreamento do fluxo de ML implementado, a Sanofi agora tem uma interface de usuário na qual os cientistas do Data podem comparar execuções de modelos e acompanhar todos os parâmetros usados (versão doData e parâmetros do modelo) e os resultados obtidos.

  • Testes e implementação simplificados do novo modelo ML:

    Foi criada uma estrutura genérica de fábrica de modelos, facilitando a implementação de novos modelos de aprendizagem de máquinas e a experimentação durante uma campanha de Marketing de Precisão com muito pouco esforço.

Resultados e aprendizados: um tempo de instalação dividido por quatro para ingestão e configuração do data

Graças a esse projeto, a Sanofi CHC conseguiu simplificar bastante seu pipeline data e acelerar o dimensionamento de seu caso de uso de marketing de precisão baseado em previsão.

  • Redução do tempo de preparação para novas campanhas:

    • Tempo de instalação para ingestão e configuração do data reduzido em até um quarto.
    • O número de tarefas realizadas pelos cientistas da data para configurar uma nova campanha foi reduzido em até um terço.
  • Simplificação da criação de novos modelos de previsão:

    • Plataforma acessível para testar, gerenciar e visualizar facilmente os modelos.
    • Processo genérico para incluir novas fontes data .
    • Pipeline automatizado do data .

Case Sanofi Client Case - Principais Realizações

O projeto também permitiu que as equipes gerassem 4 aprendizados importantes para futuros projetos impulsionados pela ML:

  • Integrar a engenharia do data em projetos de ML:

    Envolva os engenheiros do Data desde o início de um projeto para acelerar a industrialização do pipeline e desacoplar claramente os diferentes estágios do pipeline (todo o manuseio, transformação e curadoria do data devem ocorrer antes de passar para os estágios de ML).

  • Bater em ferramentas pré-embaladas:

    O uso de bancos de dados com Delta Lake e ML Flow foi crucial para o sucesso da industrialização, garantindo uma infra-estrutura de auto-atendimento fácil, sem a necessidade de DevOps.

  • Colaboração profunda entre as equipes de negócios e Data :

    Possivelmente, o fator de sucesso mais importante foi a estreita colaboração entre os especialistas em negócios da Sanofi e os cientistas da data , que idealizaram e conduziram o projeto, com a equipe da Artefact , que trouxe experiência e know-how adicionais em industrialização.

  • Usar metodologias ágeis para industrializar:

    A metodologia ágil (sprints, e iterações rápidas seguidas de feedback e semanas de alinhamento) foi muito eficiente para identificar e tratar todos os pontos de dor da Sanofi e garantir a entrega de valor para as equipes Sanofi.


Artefact gostaria de agradecer à Ayaka Yanagisawa, Albert Pla Planas, Antoine Tran-Quan-Nam, Laurent Gautier e Sergio Villordo da Sanofi por sua confiança e colaboração neste projeto, bem como à equipe de Databricks por seu apoio reativo. Este artigo foi co-produzido pelas equipes da Sanofi CHC e Databricks junto com Tristan Silhol, Maui Bar, Louise Morin e Eva Le Saux dos escritórios Artefact dos EUA e da França.