Uitdaging: schaalvergroting van geavanceerde Precisiemarketing in meer dan 30 markten
Sanofi is een van de wereldleiders in de farmaceutische industrie. In de afgelopen 3 jaar heeftArtefact de Sanofi CHC (Consumer Health Care) business unit geholpen bij het op de markt brengen van haar receptvrije medicijnen via digital-first tactieken en enablers om de juiste consumenten op het juiste moment met de juiste boodschap te bereiken, in meer dan 30 markten.
Voor zijn categorie seizoensproducten heeft Sanofi CHC een op prognoses gebaseerde aanpak ontwikkeld om de uitgaven voor digitale media aan te passen aan de voorspelde pieken in de vraag. Via meerdere pilotcampagnes kon het Global Digital Transformation-team de toegevoegde waarde van deze aanpak aantonen met een ROAS die afhankelijk van de regio met een factor 2 tot 4 werd vermenigvuldigd.
Het opzetten van een nieuwe campagne bleef echter tijdrovend: data wetenschappers moesten een reeks handmatige, repetitieve en foutgevoelige taken uitvoeren, waardoor ze zich niet konden richten op andere innovatieve projecten. Om de innovatieve ML-pijplijnen op te schalen, definieerde het Sanofi data wetenschapsteam hun behoeften om de use case te industrialiseren en riep de hulp in van Artefact om samen een robuuste oplossing te ontwerpen en te implementeren.
Oplossing: een industrialisatieproces in overleg, gebaseerd op 6 sleuteloplossingen
"De sleutel tot het succes van het project was de nauwe samenwerking tussen de bedrijfsexperts van Sanofi en de wetenschappers van Sanofi data met het Artefact team."
- Albert Pla Planas, Data Teamleider wetenschap, Sanofi
Door een nauwe samenwerking tussen Artefact en de data en business teams van Sanofi werd een uitgebreid industrialisatieproces ontworpen dat gebruik maakt van het uniforme Databricks-platform. Onze gezamenlijke doelstellingen waren
Vereenvoudig de end-to-end opzet van een nieuwe seizoensgebonden campagne
data opname en verwerkingstaken automatiseren
De oplossing robuuster maken om fouten en handmatig onderhoud te voorkomen
Verbetering van de onderhoudbaarheid en schaalbaarheid van projecten
Na een snelle audit van 1 week om het huidige proces en de technische pijnpunten in kaart te brengen, stemde het team af op de implementatie van een toekomstbestendige infrastructuur gebaseerd op 6 sleuteloplossingen:
Scheiding van zorgen:
Het hebben van een aparte ETL-pijplijn van het voorspellingsmodelproces maakt het gemakkelijker om het te onderhouden en op te schalen. Hierdoor konden we geautomatiseerde controles implementeren naast een monitoringsysteem dat gedetailleerde reports stuurt naar de relevante teams over de ingestiestatus.
Gebruik van het Deltameer als gouden bron data :
Voor DS-teams waar infrastructuur een pijnpunt kan zijn om te verkrijgen/onderhouden, combineert Delta Lake de belangrijkste functies van data warehouse en data lakes oplossingen, waardoor de complexiteit van SQL databasebeheer wegvalt. Het heeft ook mogelijkheden voor versiebeheer - belangrijk voor ML-reproduceerbaarheid - en zal dienen als de unieke bron van waarheid voor data.
Zoveel mogelijk code verpakken in een Python-bibliotheek om processen te vereenvoudigen:
Een deel van de aanvankelijke code was verspreid over verschillende notebooks binnen Databricks, wat het beheer van afhankelijkheden en de herbruikbaarheid van code bemoeilijkte. Notebook-gebaseerde ontwikkeling is relevant voor prototyping maar kan uitdagingen creëren voor de industrialisatie van ML-projecten. Het hebben van duidelijk gedefinieerde Python bibliotheken geïmplementeerd op de notebook en alleen Databricks als ingang te houden voor Compute maakte het makkelijker om notebooks te generaliseren en inkomende campagnes te organiseren.
Gebruik maken van Spark en Databricks:
Het trainen van het model met behulp van hyperparameter-zoekmethoden kan tijdrovend en veeleisend zijn. Dit is waar de autoscaling infrastructuur van Databricks en de managed ML runtime met Spark en HyperOpt van pas komen. Door geheugenberekeningen gedistribueerd over een set van werkers uit te voeren, worden de prestaties versneld en de trainingstijd aanzienlijk verbeterd.
Gebruik van ML Flow tracking:
Met ML Flow tracking heeft Sanofi nu een gebruikersinterface waar Data wetenschappers modelruns kunnen vergelijken en alle gebruikte parameters (Data versie en modelparameters) en verkregen resultaten kunnen bijhouden.
Vereenvoudigd testen en implementeren van nieuwe ML-modellen:
Er werd een generiek model factory framework opgezet, waardoor het gemakkelijker wordt om nieuwe machine learning-modellen te implementeren, en om ze tijdens een Precision Marketing-campagne met zeer weinig moeite uit te proberen.
Resultaten en leerpunten: een insteltijd gedeeld door vier voor data ingestion en configuratie
Dankzij dit project kon Sanofi CHC zijn data pijplijn sterk vereenvoudigen en de schaal van zijn op voorspellingen gebaseerde Precision Marketing use case versnellen.
Vermindering van de installatietijd voor nieuwe campagnes:
- De installatietijd voor data ingestion en configuratie is met een vierde verminderd.
- Het aantal taken dat moet worden uitgevoerd door data wetenschappers om een nieuwe campagne op te zetten, is met een derde verminderd.
Vereenvoudiging van de opstelling van nieuwe prognosemodellen:
- Toegankelijk platform om modellen gemakkelijk te testen, te beheren en te visualiseren.
- Generiek proces om nieuwe data bronnen op te nemen.
- Geautomatiseerde data pijplijn.
Het project stelde de teams ook in staat 4 belangrijke lessen te trekken voor toekomstige ML-gestuurde projecten:
data engineering integreren in ML-projecten:
Betrek Data Engineers vanaf het begin bij een project om de industrialisatie van de pijplijn te versnellen en ontkoppel de verschillende stadia van de pijplijn duidelijk van elkaar (alle data afhandeling, transformatie en curatie moet gebeuren voordat er naar de ML stadia wordt gesprongen).
Maak gebruik van voorverpakte hulpmiddelen:
Het gebruik van Databricks met Delta Lake en ML Flow was cruciaal voor het succes van de industrialisatie en zorgde voor een eenvoudige self-service infrastructuur zonder de noodzaak van DevOps.
Nauwe samenwerking tussen Business en Data teams:
Misschien wel de belangrijkste succesfactor was de nauwe samenwerking tussen de bedrijfsexperts van Sanofi en de wetenschappers van data , die het project bedachten en aanstuurden, en het team van Artefact , dat extra industrialisatie-ervaring en knowhow inbracht.
Gebruik agile methodologieën om te industrialiseren:
De agile methodologie (sprints, en snelle iteraties gevolgd door feedback & alignment weken) was zeer efficiënt om alle pijnpunten van Sanofi te identificeren en aan te pakken en te zorgen voor value delivery voor Sanofi teams.
Artefact wil graag Ayaka Yanagisawa, Albert Pla Planas, Antoine Tran-Quan-Nam, Laurent Gautier en Sergio Villordo van Sanofi bedanken voor hun vertrouwen en medewerking aan dit project, evenals het Databricks-team voor hun reactieve ondersteuning. Dit artikel werd mede geproduceerd door de teams van Sanofi CHC en Databricks samen met Tristan Silhol, Maui Bar, Louise Morin en Eva Le Saux van Artefact US en France offices.