Lees ons artikel over

1

.

Hoe kan men de impact van kanalen schatten, zelfs wanneer er geen traceerbaar verband bestaat tussen een verkoop en de marketingactie die tot de verkoop heeft geleid? De MMM is de oplossing, en Statistieken zijn de belangrijkste bron

Als u al eens met MMM-problemen (Media Mix Modeling) in marketing bent geconfronteerd, weet u wellicht dat het gaat om een hele reeks kanaalspecifieke effecten (vertragingen, verzadiging en langetermijneffecten) die elk via ten minste één verschillende parameter worden gemodelleerd. U weet misschien ook dat dit niet bepaald een context is waarin een overvloed aan gegevens en/of gegevensvariabiliteit om uw model te trainen gegarandeerd is. In klassieke MMM's zijn voorafgaande veronderstellingen over het gedrag van mediakanalen (d.w.z. over waarden voor de bovengenoemde parameters) vereist om de bijdrage van elk kanaal aan de verkoop via lineaire regressie te kunnen beoordelen. Een krachtig alternatief hiervoor is de Bayesiaanse MMM-benadering [1], die een alles-in-één schatting mogelijk maakt van zowel kanaalgedrag als omzetstijging door middel van voorafgaande verdelingen en gegevens. Dit betekent dat onjuiste en onveranderlijke aannames worden vermeden als er in het verleden geen kanaalspecifieke studies zijn uitgevoerd. Onnodig te zeggen dat het model hierdoor ook veel complexer wordt, en dat het invoeren van allerlei informatie die kan helpen bij het vinden van een goede oplossing van cruciaal belang wordt.

Er schuilt inderdaad een inherent gevaar in het louter laten leren van een dergelijk complex model op basis van beperkte gegevens: in tegenstelling tot de meeste toepassingen van regressieproblemen, moet een MMM-model eerder als een beschrijvend dan als een voorspellend instrument werken. Een goede fit met de trainingsgegevens en generalisatie naar ongeziene gegevens zijn dus interessant, maar niet voldoende: het moet ook correcte inzichten verschaffen in de werkelijke historische verkoopopbrengst, het rendement op investering(ROI) en de verzadiging voor elk kanaal, om een betrouwbare output voor de planning van marketingstrategieën te garanderen. Met andere woorden, het gevaar schuilt in het bestaan van verschillende parametercombinaties die correct op de gegevens aansluiten, aangezien ze niet allemaal echt zinvol zijn - men zou kunnen stellen dat dit gewoon een andere manifestatie is van de "vloek van de dimensionaliteit".

Maar wat betekent het voor een oplossing om "echt zinvol" te zijn? Een haalbaar antwoord is dat het model weliswaar vrij moet zijn om nieuwe patronen uit de gegevens te leren, maar dat de output ervan niet volledig mag afwijken van eerdere bedrijfskennis die eventueel beschikbaar is. Het kunnen opnemen van deze informatie als voorkennis (zodat we het model kunnen helpen bij het vinden van een verstandige parametercombinatie) is immers slechts één van de veelzijdige en krachtige aspecten van de Bayesiaanse oplossing.>

In dit artikel gaan we na hoe kwalitatieve en kwantitatieve bedrijfskennis kan worden vertaald in op maat gemaakte prior distributies die een goed presterende MMM mogelijk maken, zelfs wanneer informatie via gestructureerde historische gegevens schaars is.

Een overzicht van de mediamixmodellering

Alvorens te onderzoeken hoe wij kansverdelingen kunnen gebruiken om de prestaties van ons model te optimaliseren, laten wij beginnen met enkele belangrijke definities voor het Media Mix Modeling zelf. In zijn essentie is de MMM gebaseerd op een lineaire regressie, waarbij de afhankelijke variabele de doelverkoop is en de onafhankelijke variabelen (kenmerken) de investering in verschillende marketingacties zijn, evenals externe controlevariabelen die ook een invloed hebben op de verkoop (prijsstelling, concurrentie, seizoensgebondenheid enz.).

Er is echter een cruciaal verschil tussen deze formulering en die van een conventioneel lineair regressiemodel: Marketinginvesteringskenmerken moeten ook een reeks niet-lineaire transformaties ondergaan, die in de eerste plaats bedoeld zijn om verwachte gedragingen van mediakanalen weer te geven die niet via lineaire mappings kunnen worden gemodelleerd. Deze transformaties hebben elk een subset van parameters die de algemene intensiteit en aard van dit gedrag bepalen. Er zijn twee belangrijke niet-lineaire mappings, verzadiging en tijdvertraging, die in het onderstaande kort zullen worden behandeld.

Checklist niet-lineaire transformaties

Verzadiging

Verzadiging is een zeer bekend effect op marketingkanalen, dat zich vertaalt in een niet-lineaire relatie tussen investering en de daaruit voortvloeiende inkomsten. Dit kan worden opgevat als het effect van advertenties die aan steeds minder relevante gebruikers worden aangeboden, of als een gevolg van de relatief kleinere toename van het bereik (nieuwe blootgestelde gebruikers) met elke extra geïnvesteerde dollar. Het verzadigingseffect kan worden gemodelleerd via de onderstaande vergelijking van Hill. Aangezien de exacte uitdrukking hier niet echt van belang is, wordt de lezer verzocht zich te concentreren op figuur 1a en 1b, die laten zien wat er gebeurt met de Hill-functie wanneer de waarden van de twee parameters worden aangepast.

 Modellering van de mediamix

Vergelijking 1. De Hill vergelijking

 Modellering van de mediamix

Figuur 1a. Het verschuiven van de K-parameter (halve verzadiging) van de Hill-functie. De algemene vorm van de curve blijft ongeveer behouden, terwijl het punt van halve verzadiging (waar Hill(x)=0,5) wordt verschoven. Met andere woorden, hoe groter K is, des te moeilijker is het om het bijbehorende mediakanaal te verzadigen.

 Modellering van de mediamix

Figuur 1b. Vegen van de S-parameter (vorm) van de Hill-functie. Het halfverzadigingspunt van de curve wordt gehandhaafd terwijl de helling eromheen toeneemt. Met andere woorden, hoe groter S is, des te groter zijn de marginale winsten voor investeringen rond het half-verzadigingspunt.

Zoals hierboven is aangetoond, bevat de Hill-vergelijking twee belangrijke parameters: terwijl K het punt van halfverzadiging bepaalt (het kanaal is precies op de helft van zijn maximale inkomsten wanneer de investering gelijk is aan K), beïnvloedt S de vorm van de verzadigingscurve (hoe hoger de waarde ervan, hoe S-vormiger de curve wordt). Het leren van nauwkeurige ramingen voor K en S is van essentieel belang omdat uit deze parameters analytisch een optimaal investeringsniveau kan worden afgeleid. Wanneer geen rekening wordt gehouden met andere effecten, kan de investering die het hoogste rendement op investering (ROI) oplevert, immers worden berekend als:

1

Vergelijking 2. Afleiding van het optimale investeringsniveau uit verzadigingsparameters

Merk op dat deze optimale investering bestaat voor S>1 en dat zij altijd tussen één en drie maal de halve verzadigingswaarde K ligt (u kunt dit controleren door de waarden na te gaan die de S-root kan aannemen).

Time-delay

Het tweede effect dat in aanmerking moet worden genomen, is de tijdsbesteding van de inkomsten, nadat enige kanaalspecifieke investering is uitgevoerd. Investeringen en inkomsten komen namelijk niet gelijktijdig tot stand, en het kan enkele weken duren voordat de inkomsten significant worden. Voorts zullen sommige mediakanalen meer lokale effecten hebben, terwijl andere kanalen investeringen gedurende langere perioden kunnen vasthouden, waardoor zelfs na relatief lange perioden inkomsten worden gegenereerd. Deze beide aspecten kunnen worden gemodelleerd via de hieronder gegeven vergelijking van Adstock, door respectievelijk de theta- en de alpha-parameter. De L-parameter hoeft niet specifiek te zijn voor elk kanaal en kan alleen worden ingesteld op een vaste waarde waarvan empirisch bekend is dat zij voldoende groot is, zoals L=13 (zoals voorgesteld in [1]). Nogmaals, de lezer wordt verzocht zich te concentreren op de figuren 2a en 2b in plaats van op vergelijking 3.

1

Vergelijking 3. De vergelijking van Adstock

1

Figuur 2a. Vegen van de theta-parameter (piekvertraging) van de Adstock-functie. Alle curven zijn het resultaat van één enkele investering op lag=0 (lag kan elke tijdsgranulariteit aangeven die bij de modellering is gekozen). Hoe groter theta is, hoe meer tijd het duurt voordat de maximale opbrengst wordt waargenomen, in verhouding tot de investering die deze heeft veroorzaakt.

1

Figuur 2b. Vegen van de alpha-parameter (retentiepercentage) van de Adstock-functie. Alle curven zijn het resultaat van één enkele investering op lag=0 (lag kan elke bij de modellering gekozen tijdsgranulariteit aangeven). Hoe groter alpha is, des te meer gedelokaliseerd is de inkomstenverdeling. De curven werden herschaald voor een betere vergelijking.

Alles samenbrengen: de regressie van de mediamixmodellering

Zodra beide niet-lineaire overbrengingen en hun respectieve parameters zijn gedefinieerd, kan het volledige model als volgt worden weergegeven:

1

Vergelijking 4. Media Mix Modeling regressievergelijking

>Laten we beginnen met onze analyse door de bovenstaande uitdrukking uit te splitsen. De eerste belangrijke vaststelling is dat alle kenmerken zijn geclusterd in marketinginvesteringen en externe (controle)variabelen, met als meest relevante verschil dat de Hill- en Adstock-transformaties uitsluitend worden toegepast op de eerstgenoemde. Het effect van de controlekenmerken wordt dus als zuiver lineair en onmiddellijk beschouwd, ook al kunnen er trend- en seizoenseffecten aan worden toegevoegd via respectievelijk vertragings- en seizoenseffecten. Controlevariabelen kunnen ook worden beschouwd als de reeks factoren buiten Marketing die een invloed hebben op de verkoop, met inbegrip van de prijsstelling, de verkoop door concurrenten, enz. Naast de regressietermen wordt ook rekening gehouden met een lineaire coëfficiënt tau en een ruisterm epsilon.

>Wanneer alles wordt meegerekend, resulteert deze formulering in 4 niet-lineaire parameters voor elk marketingkenmerk. Afhankelijk van de reikwijdte van de MMM en van hoe specifiek alle marketingacties worden beschouwd, kan ons model verscheidene verschillende marketingkenmerken vereisen, waardoor het aantal niet-lineaire parameters vrij belangrijk wordt. De manier waarop deze in de modellering worden behandeld impliceert verschillende mogelijke strategieën, zoals in het volgende zal worden besproken.

Waarom/Wanneer Bayesiaans?

De meest oplettende lezers hebben misschien opgemerkt dat de Bayesiaanse statistiek in de vorige hoofdstukken niet eens ter sprake is gekomen. Dit roept de vraag op: waarom zouden we een Bayesiaanse benadering moeten gebruiken om dit model te passen, als er specifieke observatiegegevens beschikbaar zijn?

Het blijkt dat het antwoord sterk verband houdt met het grote aantal parameters dat moet worden benaderd - een aantal dat vrij vaak niet wordt geëvenaard door de beschikbaarheid van gegevens om ons model te passen. Laten we eens kijken naar de matrix Expertise x Beschikbaarheid van gegevens hieronder:

1

Figuur 4.Expertise x Beschikbaarheid van gegevens matrix voor de Media Mix Modeling studie

Uit deze matrix moet duidelijk zijn dat de complexiteit van het hier aan te pakken probleem afhangt van de volgende vraag: maakt de benadering van al deze niet-lineaire parameters deel uit van onze taak? Indien dit niet het geval is - d.w.z. indien deze parameters vooraf bekend zijn - dan moeten zij alleen voorkomen als pre-transformaties van de gegevens, die dan worden ingepast in een eenvoudig lineair multivariaat regressiemodel. Dit is idealiter het geval indien voldoende informatie/expertise uit het verleden beschikbaar is om bij benadering waarden voor deze parameters vast te stellen, en deze waarden eenvoudigweg niet aan validatie door gegevens onderhevig zijn.

Het behoeft geen betoog dat de absolute kennis van kanaalgedrag bij alle mediatypen een vrij sterke veronderstelling is, en dat de kans groot is dat ten hoogste enkele aanwijzingen betreffende deze parameters beschikbaar zijn voor modellering. Daarom moeten ook de observatiegegevens worden gebruikt om deze parameters in te passen en de betrokken kanalen beter te begrijpen. Als dit gepaard gaat met een geringe beschikbaarheid van gegevens, wordt het uiterst handig - of zelfs vereist - om alle eerder bekende informatie te gebruiken om goede modelprestaties te garanderen.

De Bayesiaanse benadering is dus een manier om een alles-in-één schatting van parameters (regressie en niet-lineair) uit te voeren, waarbij aanwijzingen als voorkennis in het model kunnen worden ingevoerd, voor de beste prestaties met beperkte gegevens. Laten we nu wat meer in detail treden over hoe dit kan worden bereikt.

Hoe ga je Bayesiaans?

De Bayesiaanse MMM past een reeks prioriteitsverdelingen (één voor de waarde van elke lineaire of niet-lineaire parameter) aan in een reeks posterior verdelingen. Dit wordt gedaan door de blootstelling aan data (bewijs), en de posterior verdelingen kunnen worden beschouwd als herziene inzichten in hoe elk kanaal zich gedraagt en bijdraagt aan de verkoop. In Python kan dit worden geïmplementeerd met probabilistische modelleerbibliotheken zoals PySTAN of PyMC3.

Merk op dat deze strategie een nieuwe reeks controleerbare inputs opent, naast de waarnemingsgegevens: de prioriteitsverdelingen. Er is immers veel flexibiliteit in de keuze van de verdeling voor elke parameter en in het afstemmen van hun momenten op elk kanaal, wat dan zal resulteren in een verschillende output voor dezelfde observatiegegevens. Terwijl het originele Google-artikel [1] verdelingen rapporteert die empirisch werden geobserveerd om beter te presteren voor elk parametertype(K, S, alpha, theta en beta), zullen we hier onderzoeken hoe we deze verder kunnen afstemmen op elk individueel kanaal volgens eerdere kennis over hun gedrag.

Minder kan beter zijn

Alvorens ons te verdiepen in de prioriteitsverdelingen voor elke parameter, is een mogelijk nuttige strategie om na te gaan of wij sommige van deze parameters niet helemaal kunnen weglaten. Dit zal ons niet alleen helpen het model te vereenvoudigen, maar ook (als gevolg daarvan) een betere prestatie te verkrijgen bij beperkte gegevens.

Hoewel wordt aangetoond dat de niet-lineaire mappings worden toegepast op alle marketingkenmerken in vergelijking 4, kan het ook zinvol zijn een of beide transformaties achterwege te laten voor sommige specifieke acties: indien deze kenmerken bijvoorbeeld worden uitgebreid tot handelsacties en niet alleen tot mediakanalen, zou men geïnteresseerd kunnen zijn in het opnemen van TPR (Tijdelijke Prijsverlaging)-investeringen als kenmerk. Dit heeft een duidelijk onmiddellijk effect, aangezien de verkoopstijging wordt waargenomen en afgebroken op vrijwel hetzelfde moment als waarop de investering (prijsverlaging) begint, respectievelijk aanslaat. Het is dus wellicht niet interessant om voor dit kenmerk de Adstock-transformatie te gebruiken, die het voordeel heeft dat het aantal te schatten parameters wordt verminderd.

Another viable simplification can be implemented for channels whose investments are known to vary very little in time: in these cases, we are operating at only a very small section of the curves shown in Figure 1, where the relation between return and investment can be deemed approximately linear. Hence, we can discard the Hill function for these channels, as saturation will not play an important role. In more technical terms, this assumption is valid when dx<<K, where dx is some measure of historical variation on investment.

Het opzetten van een voorafgaand arsenaal

Zodra de relevantie van alle niet-lineaire parameters is geverifieerd, is de volgende stap te begrijpen hoe hun priors informatie kunnen dragen. Tot dusver heb ik opzettelijk de nogal technisch vage term "aanwijzingen" gebruikt om elke vorm van modelinvoer te definiëren die geen gestructureerde, tabelachtige waarnemingsgegevens zijn. Hier zullen wij enkele voorbeelden geven van wat deze kunnen zijn en ook de kloof dichten tussen deze en de eigenlijke prioriteitsverdelingen die als input zullen dienen voor de Bayesiaanse inferentie, waarbij deze kennis in het model wordt gebracht.

Laten we eerst het voorbeeld nemen van de prijs in verhouding tot de concurrentie. Dit is een externe variabele die inherent een sterke invloed heeft op de verkoop, en die dus als controlekenmerk in het MMM-model zou kunnen worden opgenomen. Men zou vrij gemakkelijk kunnen stellen dat hoe hoger deze relatieve prijs is, hoe lager de verkoop zal zijn. Dit is ons gezond verstand, maar wij moeten het model uitdrukkelijk opdragen alleen naar oplossingen met een negatieve impact te zoeken. De manier waarop wij dit doen is door de prioriteitsverdeling voor de parameter beta die met de prijs samenhangt (zie vergelijking 4) een negatieve halfnormaal te laten zijn. Wij doen het omgekeerde voor kenmerken met een positieve impact (bv. als u de verkoop van verfrissende dranken modelleert, moet de gemiddelde weektemperatuur een positieve impact hebben). Merk op dat dit niet noodzakelijk is: als u niet helemaal zeker bent van de impact van een kenmerk op de doelvariabele, kunt u het een niet-geïnformeerde prioriteit geven (bv. de standaardnormale verdeling) en het model het zelf laten leren.

Dit is slechts een voorbeeld van hoe prioriteitsverdelingen kunnen worden afgestemd om kwalitatieve kennis in het model op te nemen. Andere mogelijke kwalitatieve informatie kan bijvoorbeeld afkomstig zijn van de aard van een specifieke marketingactie (zoals in het eerder gegeven voorbeeld voor TPR, indien men zou besluiten de tijdvertraging niet helemaal te verminderen maar de verdeling ervan te verschuiven om zich alleen op zeer korte vertragingen te concentreren). Kwantitatieve voorkennis daarentegen kan afkomstig zijn van eerdere studies of ramingen op basis van een analyse van historische gegevens. In het eerste geval kan bijvoorbeeld de regressiegewichtsverdeling worden verschoven volgens de ROI-waarde die in een eerdere MMM-studie is gevonden - het model kan dan van meet af aan op zoek gaan naar kleinere/hogere waarden voor kanalen waarvan bekend is dat zij een kleiner/groter rendement opleveren; in het tweede geval kan de veronderstelling dat historische investeringen ruwweg in dezelfde orde van grootte liggen als het ideale investeringsniveau leiden tot geïnformeerde vooronderstellingen over de verzadigingsparameter K van vergelijking 1 - het model is dan op de hoogte van welke kanalen groter of kleiner zijn in termen van potentieel bereik.

De onderstaande matrix geeft een overzicht van enkele belangrijke strategieën die kunnen worden overwogen voor het afstemmen van prioriteitsverdelingen, zowel kwalitatief als kwantitatief. Dit is geenszins een uitputtende lijst, en de haalbaarheid van elke strategie kan variëren naar gelang van de context en moet voor elke specifieke studie opnieuw worden bezien.

1

Figuur 5. Voorbeeld van een prior tuning strategie matrix voor een use-case van de Bayesiaanse Media Mix Modeling. De strategieën moeten variëren naar gelang van het toepassingsgebied en de beschikbare actuele kennis

Conclusie en conclusies

Terwijl een Media Mix Modeling studie te maken heeft met het gedrag van verschillende marketing acties, maakt de Bayesiaanse benadering een alles-in-één schatting van deze, naast de verkoop lift voor elk van deze kenmerken, alsmede voor externe factoren (controle kenmerken). Dit stelt ons in staat de beschikbare geobserveerde gegevens te oogsten om deze gedragingen te leren wanneer zij niet op voorhand bekend zijn door enige beschikbare expertise of vroegere kanaalspecifieke studies en tests. Dit brengt echter kosten met zich mee, die vooral tot uiting komen in de complexiteit van het model en de daaruit voortvloeiende behoefte aan voldoende gegevens om een goede prestatie te bereiken. Wanneer niet aan deze behoefte wordt voldaan, is het belangrijkste resultaat een model dat vrij gemakkelijk de waargenomen gegevens kan over-fitten door parameters te geven die eenvoudigweg niet redelijk zijn.

In dit artikel hebben wij een manier onderzocht om dit effect te verhelpen door te werken met andere voorkennis dan waarneembare gegevens, van kwantitatieve conclusies in vroegere studies tot kwalitatieve zakelijke inzichten in de aard van een bepaald kenmerk en de invloed ervan op de verkoop. Deze worden opgenomen door de voorafgaande verdelingen van elk van de parameters van het model aan te passen. Vanuit pragmatisch oogpunt kan dit worden begrepen als een vertekening van het model, maar het is ook een manier om te voorkomen dat het model te veel wordt aangepast aan patronen die alleen worden waargenomen omdat de gegevens beperkt beschikbaar zijn, door zich te concentreren op combinaties die dicht liggen bij wat bekend is of waarvan op zijn minst wordt verwacht dat ze waar zijn. Met andere woorden, het op maat maken van distributies is een manier om een compromis te sluiten tussen het leren van nieuwe observatiegegevens en het respecteren van oude bedrijfskennis - een compromis dat op verschillende niveaus kan worden verkend, afhankelijk van wat beschikbaar is in een specifieke casus van mediamixmodellering.

Erkenningen

Speciale dank aan Camila C. Moreno, Rafael Melo, Rhayssa Sonohata, Vinicius Pacheco en Wedeueis Braz van het Braziliaanse Artefact team voor de beoordeling van dit artikel vóór publicatie.

Referenties

1

Medium Blog door Artefact.

Dit artikel is oorspronkelijk gepubliceerd op Medium.com.
Volg ons op onze Medium Blog !

Lees ons artikel
Artefact Nieuwsbrief

Geïnteresseerd in Data Consulting | Data & Digital Marketing | Digital Commerce ?
Lees onze maandelijkse nieuwsbrief om bruikbare adviezen, inzichten en business cases te ontvangen van al onze data experts over de hele wereld!

Aanmelden Nieuwsbrief