Wie lässt sich die Wirkung von Kanälen abschätzen, selbst wenn es keine nachvollziehbare Verbindung zwischen einem Verkauf und der Marketingaktion gibt, die ihn ausgelöst hat? Das MMM ist die Lösung, und Statistiken sind die wichtigste Ressource
Wenn Sie schon einmal mit Problemen der Media-Mix-Modellierung (MMM) im Marketing konfrontiert waren, wissen Sie vielleicht, dass diese eine ganze Reihe von kanalspezifischen Effekten (Verzögerungen, Sättigung und Langzeiteffekte) beinhalten, die jeweils durch mindestens einen anderen Parameter modelliert werden. Sie wissen vielleicht auch, dass dies nicht gerade ein Kontext ist, in dem eine Fülle von data und/oder data Variabilität zum Trainieren Ihres Modells garantiert ist. Bei klassischen MMMs sind vorherige Annahmen über das Verhalten der Medienkanäle (d.h. über die Werte für die oben genannten Parameter) erforderlich, um den Beitrag der einzelnen Kanäle zum Umsatz durch lineare Regression zu bewerten. Eine leistungsstarke Alternative dazu ist der Bayes'sche MMM-Ansatz [1], die eine umfassende Schätzung sowohl des Kanalverhaltens als auch des Umsatzanstiegs durch vorherige Verteilungen und data ermöglicht. Dies bedeutet, dass falsche und unveränderliche Annahmen vermieden werden, wenn in der Vergangenheit keine kanalspezifischen Studien durchgeführt wurden. Natürlich wird das Modell dadurch auch viel komplexer, und die Eingabe aller möglichen Informationen, die bei der Suche nach einer guten Lösung helfen können, wird entscheidend.
Es birgt in der Tat die Gefahr in sich, dass ein so komplexes Modell nur von begrenzten data lernt: Im Gegensatz zu den meisten Anwendungen für Regressionsprobleme sollte ein MMM-Modell eher beschreibend als vorhersagend wirken. Daher sind eine gute Anpassung an die Trainings-data und eine Verallgemeinerung auf die ungesehenen data zwar interessant, aber nicht ausreichend: Das Modell muss auch korrekte Erkenntnisse über den tatsächlichen historischen Umsatzanstieg, den Return over Investment (ROI) und Sättigung für jeden Kanal, um eine zuverlässige Ausgabe für die Planung von Marketingstrategien zu gewährleisten. Mit anderen Worten, die Gefahr besteht darin, dass es mehrere Parameterkombinationen gibt, die korrekt auf das data passen, da nicht alle von ihnen wirklich sinnvoll sind - man könnte argumentieren, dass dies nur eine weitere Manifestation des Fluchs der Dimensionalität ist.
Aber was bedeutet es, dass eine Lösung “wirklich sinnvoll” ist? Eine praktikable Antwort ist, dass das Modell zwar die Freiheit haben sollte, neue Muster aus data zu lernen, dass seine Ausgabe aber nicht völlig von vorherigem, möglicherweise vorhandenem Geschäftswissen abweichen sollte. Die Möglichkeit, diese Informationen als Vorwissen einzubeziehen (so dass wir dem Modell helfen können, eine sinnvolle Parameterkombination zu finden), ist nur einer der vielseitigen und leistungsstarken Aspekte der Bayes'schen Lösung.>
In diesem Artikel werden wir einen Blick darauf werfen, wie qualitatives und quantitatives Geschäftswissen in maßgeschneiderte Prioritätsverteilungen umgesetzt werden kann, die ein gut funktionierendes MMM ermöglichen, selbst wenn die Informationen aus strukturierten historischen data knapp sind.
Ein Überblick über die Modellierung des Medienmixes
Bevor wir untersuchen, wie wir Wahrscheinlichkeitsverteilungen nutzen können, um die Leistung unseres Modells zu optimieren, lassen Sie uns mit einigen wichtigen Definitionen für das Media Mix Modeling selbst beginnen. Im Wesentlichen basiert das MMM auf einer linearen Regression, wobei die abhängige Variable die Umsatzziel und die unabhängigen Variablen (Merkmale) sind die Investitionen in verschiedene Marketingaktionen, sowie externe Steuergrößen die sich ebenfalls auf den Umsatz auswirken (Preisgestaltung, Wettbewerb, Saisonalität usw.).
Es gibt jedoch einen entscheidenden Unterschied zwischen dieser Formulierung und der eines herkömmlichen linearen Regressionsmodells: Marketing-Investitionsmerkmale sollten ebenfalls eine Reihe von Faktoren durchlaufen nichtlineare Transformationen, deren primäres Ziel es ist, erwartete Verhaltensweisen von Medienkanälen darzustellen, die nicht durch lineare Zuordnungen modelliert werden können. Diese Transformationen enthalten jeweils eine Untergruppe von Parametern, die die Gesamtintensität und Art dieser Verhaltensweisen steuern. Es gibt zwei wichtige nichtlineare Zuordnungen, die Sättigung und die Zeitverzögerung, auf die wir im Folgenden kurz eingehen werden.
Checkliste nichtlineare Transformationen
Sättigung
Sättigung ist ein sehr bekannter Effekt bei Marketingkanälen, der sich in einem nichtlinearen Verhältnis zwischen Investitionen und den daraus resultierenden Einnahmen niederschlägt. Dies kann als der Effekt verstanden werden, dass Anzeigen bei immer weniger relevanten Nutzern geschaltet werden, oder alternativ als die relativ geringere Steigerung der Reichweite (neue Nutzer) mit jedem zusätzlich investierten Dollar. Der Sättigungseffekt kann durch die unten dargestellte Hill-Gleichung modelliert werden. Da der genaue Ausdruck hier nicht von Interesse ist, sollten Sie sich stattdessen auf die Abbildungen 1a und 1b konzentrieren, die zeigen, was mit der Hill-Funktion passiert, wenn die Werte ihrer beiden Parameter gesweept werden.

Gleichung 1. Die Hill-Gleichung

Abbildung 1a. Verschieben des Parameters K (halbe Sättigung) der Hill-Funktion. Die Gesamtform der Kurve wird in etwa beibehalten, während der Punkt der halben Sättigung (wo Hill(x)=0,5) verschoben wird. Mit anderen Worten, je größer K ist, desto schwieriger ist es, den zugehörigen Medienkanal zu sättigen.

Abbildung 1b. Fegen des S-Parameters (Form) der Hill-Funktion. Der Halbsättigungspunkt der Kurve wird beibehalten, während die Steigung um ihn herum zunimmt. Mit anderen Worten: Je größer S ist, desto größer sind die marginalen Gewinne für Investitionen rund um den halben Sättigungspunkt.
Wie oben dargelegt, enthält die Hill-Gleichung zwei wichtige Parameter: Während K den Punkt der Halbsättigung definiert (der Kanal hat genau die Hälfte seiner maximalen Einnahmen, wenn die Investition gleich K ist), beeinflusst S die Form der Sättigungskurve (je höher der Wert, desto S-förmiger wird die Kurve). Das Erlernen genauer Schätzungen für K und S ist von entscheidender Bedeutung, da ein optimales Investitionsniveau analytisch aus diesen Parametern abgeleitet werden kann. Wenn keine anderen Auswirkungen berücksichtigt werden, kann die Investition, die eine maximale Kapitalrendite (ROI) erbringt, wie folgt berechnet werden:

Gleichung 2. Ableitung des optimalen Investitionsniveaus aus den Sättigungsparametern
Beachten Sie, dass diese optimale Investition für S>1 existiert und dass sie immer zwischen dem ein- und dreifachen Wert der halben Sättigung K (Sie können dies überprüfen, indem Sie die Werte überprüfen, die die S-Wurzel annehmen kann).
Zeitverzögerung
Der zweite Effekt, der berücksichtigt werden sollte, ist die zeitliche Verteilung der Einnahmen, nachdem einige kanalspezifische Investitionen getätigt wurden. In der Tat erfolgen Investitionen und Einnahmen nicht gleichzeitig, und es kann einige Wochen dauern, bis letztere signifikant werden. Darüber hinaus haben einige Medienkanäle zwangsläufig eher lokal begrenzte Auswirkungen, während andere Kanäle Investitionen über längere Zeiträume halten können und somit auch nach relativ langen Zeiträumen Einnahmen erzielen. Diese beiden Aspekte lassen sich durch die nachstehende Adstock-Gleichung modellieren, und zwar durch die Parameter Theta und Alpha. Die L Parameter muss nicht für jeden Kanal spezifisch sein und kann nur auf einen festen Wert gesetzt werden, von dem empirisch bekannt ist, dass er ausreichend groß ist, z.B. L=13 (wie vorgeschlagen in [1]). Auch hier sollten Sie sich auf die Abbildungen 2a und 2b konzentrieren und nicht auf Gleichung 3.

Gleichung 3. Die Adstock-Gleichung

Abbildung 2a. Fegen des Theta-Parameters (Spitzenverzögerung) der Adstock-Funktion. Alle Kurven sind das Ergebnis einer einzigen Investition, die bei lag=0 getätigt wurde (lag kann jede beliebige Zeitgranularität angeben, die bei der Modellierung gewählt wurde). Je größer Theta ist, desto länger dauert es, bis der maximale Ertrag im Verhältnis zu der Investition, die ihn verursacht hat, zu beobachten ist.

Abbildung 2b. Schwenken des Alpha-Parameters (Rückhalterate) der Adstock-Funktion. Alle Kurven sind das Ergebnis einer einzigen Investition, die bei lag=0 getätigt wurde (lag kann jede beliebige Zeitgranularität bezeichnen, die bei der Modellierung gewählt wurde). Je größer Alpha ist, desto dezentraler ist die Ertragsverteilung. Die Kurven wurden zur besseren Vergleichbarkeit neu skaliert.
Alles zusammenfügen: die Regression der Medienmix-Modellierung
Sobald beide nichtlinearen Zuordnungen und ihre jeweiligen Parameter definiert sind, kann das vollständige Modell wie folgt angegeben werden:

Gleichung 4. Medienmix Modellierung Regressionsgleichung
>Beginnen wir unsere Analyse, indem wir den obigen Ausdruck aufschlüsseln. Die erste wichtige Beobachtung ist, dass alle Merkmale in Marketinginvestitionen und externe (Kontroll-)Variablen unterteilt sind. Der wichtigste Unterschied besteht darin, dass die Hill- und Adstock-Transformationen ausschließlich auf erstere angewendet werden. Beachten Sie also, dass die Auswirkungen der Kontrollvariablen als rein linear und unmittelbar angesehen werden - auch wenn Trend- und Saisonalitätseffekte durch Lag- bzw. Saisonalitätsmerkmale hinzugefügt werden können. Kontrollvariablen können auch als eine Reihe von Faktoren außerhalb des Marketings betrachtet werden, die einen Einfluss auf die Verkäufe haben, einschließlich der Preisgestaltung, der Verkäufe der Wettbewerber usw. Neben den Regressionstermini berücksichtigen wir auch einen linearen Koeffizienten tau und einen Rauschterm epsilon.
>Wenn alles einbezogen wird, ergeben sich aus dieser Formulierung 4 nichtlineare Parameter für jedes Marketingmerkmal. Je nach Umfang des MMM und je nachdem, wie spezifisch alle Marketingaktionen betrachtet werden, kann unser Modell mehrere verschiedene Marketingmerkmale erfordern, wodurch die Anzahl der nichtlinearen Parameter ziemlich wichtig wird. Die Art und Weise, wie diese in der Modellierung behandelt werden, impliziert verschiedene mögliche Strategien, wie wir im Folgenden erörtern werden.
Warum/Wann sollten Sie Bayesianer einsetzen?
Dem aufmerksamen Leser wird aufgefallen sein, dass die Bayes'sche Statistik in den vergangenen Abschnitten nicht ein einziges Mal erwähnt wurde. Das wirft die Frage auf: Warum sollten wir einen Bayes'schen Ansatz für die Anpassung dieses Modells verwenden, wenn eine bestimmte Beobachtung data verfügbar ist?
Es stellt sich heraus, dass die Antwort sehr stark mit der großen Anzahl von Parametern zusammenhängt, die approximiert werden müssen - eine Anzahl, die sehr oft von der data-Verfügbarkeit nicht erreicht wird, um unser Modell anzupassen. Werfen wir einen Blick auf die untenstehende Matrix Expertise x Data Verfügbarkeit:

Abbildung 4.Expertise x Data Verfügbarkeitsmatrix für die Media Mix Modeling Studie
Aus dieser Matrix sollte ersichtlich sein, dass die Komplexität des hier zu lösenden Problems von der folgenden Frage abhängt: Ist die Annäherung all dieser nichtlinearen Parameter Teil unserer Aufgabe? Wenn nicht - d.h. wenn diese Parameter bereits bekannt sind - dann sollten sie nur als Vor-Transformationen der data erscheinen, die dann in ein einfaches lineares multivariates Regressionsmodell eingepasst werden. Dies ist idealerweise der Fall, wenn genügend frühere Informationen/Expertise zur Verfügung stehen, um Näherungswerte für diese Parameter festzulegen, und diese Werte einfach nicht durch data validiert werden können.
Es erübrigt sich zu sagen, dass die absolute Kenntnis des Kanalverhaltens bei allen Medientypen eine ziemlich starke Annahme ist, und die Chancen stehen gut, dass höchstens einige Hinweise auf diese Parameter für die Modellierung verfügbar sind. Daher muss die Beobachtung data auch verwendet werden, um diese Parameter anzupassen und die beteiligten Kanäle besser zu verstehen. Wenn dies mit einer geringen Verfügbarkeit von data gepaart ist, wird es äußerst praktisch - oder sogar erforderlich - alle zuvor bekannten Informationen zu verwenden, um eine gute Modellleistung zu gewährleisten.
Der Bayes'sche Ansatz ist also eine Möglichkeit, eine All-in-One-Schätzung der Parameter (Regression und nichtlinear) durchzuführen, die es erlaubt, Hinweise als Vorwissen in das Modell einzugeben, um die beste Leistung mit begrenztem data zu erzielen. Lassen Sie uns nun ein wenig mehr ins Detail gehen, wie dies erreicht werden kann.
Wie wird man Bayesianer?
Das Bayes'sche MMM passt eine Reihe von Prior-Verteilungen (eine für den Wert jedes linearen oder nichtlinearen Parameters) an eine Reihe von Posterior-Verteilungen an. Dies geschieht durch die Einwirkung von data (Evidenz), und die Posterior-Verteilungen können als revidierte Erkenntnisse darüber angesehen werden, wie sich jeder Kanal verhält und zum Umsatz beiträgt. In Python kann dies mit probabilistischen Modellierungsbibliotheken wie PySTAN oder PyMC3 implementiert werden.
Beachten Sie, dass diese Strategie neben der Beobachtung data eine neue Gruppe von kontrollierbaren Inputs eröffnet: die Prioritätsverteilungen. In der Tat gibt es eine Menge Flexibilität bei der Wahl der Verteilung für jeden Parameter und bei der Anpassung ihrer Momente an jeden Kanal, was dann zu einer anderen Ausgabe für dieselbe Beobachtung data führt. Während der ursprüngliche Google-Artikel [1] reports-Verteilungen, bei denen empirisch beobachtet wurde, dass sie für jeden Parametertyp besser abschneiden (K, S, Alpha, Theta und Beta). Hier werden wir untersuchen, wie wir diese auf jeden einzelnen Kanal entsprechend dem bisherigen Wissen über ihr Verhalten weiter anpassen können.
Weniger kann besser sein
Bevor wir uns mit den vorherigen Verteilungen für die einzelnen Parameter beschäftigen, sollten wir prüfen, ob wir nicht einige dieser Parameter ganz weglassen können. Dies wird uns nicht nur helfen, das Modell zu vereinfachen, sondern auch (als Ergebnis) eine bessere Leistung bei der begrenzten data zu erzielen.
Obwohl die nichtlinearen Zuordnungen in Gleichung 4 auf alle Marketing-Merkmale angewandt werden, könnte es auch sinnvoll sein, eine oder beide Transformationen für bestimmte Aktionen zu verwerfen: Wenn diese Merkmale zum Beispiel auf Handelsaktionen und nicht nur auf Medienkanäle ausgedehnt werden, könnte man daran interessiert sein, die TPR (Vorübergehende Preisreduzierung) als Merkmal. Dies hat eine offensichtliche unmittelbare Auswirkung, da der Umsatzanstieg praktisch im selben Moment beobachtet wird, in dem die Investition (Preissenkung) beginnt bzw. sich festsetzt. Daher könnte es uninteressant sein, die Adstock-Transformation für dieses Merkmal zu verwenden, die den Vorteil hat, dass sie die Anzahl der zu schätzenden Parameter reduziert.
Eine weitere praktikable Vereinfachung kann für Kanäle vorgenommen werden, von denen bekannt ist, dass ihre Investitionen im Laufe der Zeit nur sehr wenig variieren: In diesen Fällen arbeiten wir nur in einem sehr kleinen Bereich der in Abbildung 1 gezeigten Kurven, in dem die Beziehung zwischen Rendite und Investition als annähernd linear angesehen werden kann. Daher können wir die Hill-Funktion für diese Kanäle verwerfen, da die Sättigung keine große Rolle spielen wird. Technisch ausgedrückt ist diese Annahme gültig, wenn dx<<K, wobei dx ist ein Maß für die historische Schwankung der Investitionen.
Ein vorheriges Arsenal einrichten
Sobald die Relevanz aller nichtlinearen Parameter verifiziert ist, besteht der nächste Schritt darin, zu verstehen, wie ihre Prioritäten Informationen enthalten können. Bisher habe ich absichtlich den technisch eher vagen Begriff “Hinweise” verwendet, um jede Art von Modelleingabe zu definieren, die keine strukturierte, tabellenartige Beobachtung ist data. Hier werden wir uns einige Beispiele dafür ansehen, was dies sein könnte und auch die Lücke zwischen diesen und den tatsächlichen Prioritätsverteilungen füllen, die als Input für die Bayes'sche Inferenz dienen und dieses Wissen in das Modell tragen.
Nehmen wir zunächst das Beispiel des Preises im Verhältnis zur Konkurrenz. Dies ist eine externe Variable, die von Natur aus einen starken Einfluss auf den Umsatz hat und daher als Kontrollmerkmal in das MMM-Modell aufgenommen werden könnte. Man könnte leicht argumentieren, dass der Umsatz umso geringer ist, je höher der relative Preis ist. Das leuchtet uns ein, aber wir sollten dem Modell ausdrücklich sagen, dass es nur nach Lösungen mit negativen Auswirkungen suchen soll. Dies erreichen wir, indem wir die Prioritätsverteilung für den mit dem Preis verbundenen Parameter Beta (siehe Gleichung 4) als negative Halbnormalverteilung wählen. Bei Merkmalen mit positivem Einfluss tun wir das Gegenteil (wenn Sie z.B. den Verkauf von Erfrischungsgetränken modellieren, sollte die wöchentliche Durchschnittstemperatur einen positiven Einfluss haben). Beachten Sie, dass dies keine Notwendigkeit ist: Wenn Sie sich über die Auswirkung eines Merkmals auf die Zielvariable nicht ganz sicher sind, können Sie es mit einem uninformierten Prior (z.B. der Standardnormalverteilung) füttern und das Modell es selbst lernen lassen.
Dies ist nur ein Beispiel dafür, wie man Prioritätsverteilungen abstimmen kann, um qualitatives Wissen in das Modell aufzunehmen. Andere mögliche qualitative Informationen können z. B. aus der Art einer bestimmten Marketingaktion stammen (wie in dem zuvor genannten Beispiel für TPR, wenn man sich entschließen würde, die Zeitverzögerung nicht gänzlich zu kürzen, sondern ihre Verteilung so zu verschieben, dass sie sich nur auf sehr kurze Verzögerungen konzentriert). Quantitatives Vorwissen hingegen kann aus früheren Studien oder Schätzungen stammen, die auf historischen data-Analysen basieren. Als Beispiel für Ersteres kann die Verteilung der Regressionsgewichte entsprechend der folgenden Tabelle verschoben werden ROI Wert, der in einer früheren MMM-Studie ermittelt wurde - das Modell kann dann von Anfang an nach kleineren/höheren Werten für Kanäle suchen, von denen bekannt ist, dass sie geringere/höhere Renditen haben. Wie bei letzterem kann die Annahme, dass historische Investitionen in etwa in der gleichen Größenordnung wie das ideale Investitionsniveau liegen sollten, zu informierten Prioritäten für den Sättigungsparameter führen K aus Gleichung 1 - das Modell ist also darüber informiert, welche Kanäle in Bezug auf die potenzielle Reichweite größer oder kleiner sind.
Die nachstehende Matrix fasst einige wichtige Strategien zusammen, die für die Anpassung von qualitativen und quantitativen Prioritätsverteilungen in Betracht gezogen werden können. Diese Liste ist keineswegs erschöpfend, und die Durchführbarkeit der einzelnen Strategien kann je nach Kontext variieren und sollte für jede spezifische Studie überprüft werden.

Abbildung 5. Beispiel einer Prior-Tuning-Strategie-Matrix für einen Anwendungsfall der Bayes'schen Medienmix-Modellierung. Die Strategien sollten je nach Umfang und verfügbarem aktuellen Wissen variieren
Schlussfolgerung und Mitnahme
Während eine Media Mix Modeling-Studie das Verhalten mehrerer verschiedener Marketingaktionen berücksichtigen muss, ermöglicht der Bayes'sche Ansatz eine umfassende Schätzung dieser Aktionen, zusammen mit dem Umsatzanstieg für jedes dieser Merkmale sowie für externe Faktoren (Kontrollmerkmale). Auf diese Weise können wir die verfügbaren beobachteten data nutzen, um diese Verhaltensweisen zu erlernen, wenn sie nicht schon vorher durch vorhandenes Fachwissen oder frühere kanalspezifische Studien und Tests bekannt sind. Dies hat jedoch seinen Preis, der sich vor allem in der Komplexität des Modells und dem daraus resultierenden Bedarf an ausreichenden data widerspiegelt, um eine gute Leistung zu erzielen. Wenn dieser Bedarf nicht gedeckt ist, kann ein Modell die beobachteten data leicht übererfüllen, indem es Parameter ausgibt, die einfach nicht angemessen sind.
In diesem Artikel haben wir einen Weg erforscht, diesen Effekt zu beheben, indem wir mit anderem Vorwissen als dem beobachtbaren data arbeiten, von quantitativen Schlussfolgerungen aus früheren Studien bis hin zum qualitativen Geschäftsverständnis über die Art einiger Merkmale und deren Auswirkungen auf den Umsatz. Diese werden berücksichtigt, indem die Vorverteilungen der einzelnen Parameter des Modells angepasst werden. Während dies aus pragmatischer Sicht als Verzerrung des Modells verstanden werden kann, ist es auch ein Weg, um eine Überanpassung des Modells an Muster zu vermeiden, die nur aufgrund der begrenzten Verfügbarkeit des data beobachtet werden, indem man sich auf Kombinationen konzentriert, die nahe an dem liegen, was bekannt ist oder zumindest als wahr erwartet wird. Mit anderen Worten: Die Anpassung von Verteilungen ist ein Kompromiss zwischen dem Lernen aus neuen Beobachtungen data und der Berücksichtigung alten Geschäftswissens - ein Kompromiss, der auf verschiedenen Ebenen erforscht werden kann, je nachdem, was in einem bestimmten Fall der Medienmix-Modellierung verfügbar ist.
Danksagung
Besonderen Dank an Camila C. Moreno, Rafael Melo, Rhayssa Sonohata, Vinicius Pacheco und Wedeueis Braz von der brasilianischen Artefact Team für die Durchsicht dieses Artikels vor der Veröffentlichung.

BLOG







