A guide on how to use counterfactual forecasting to estimate the cost-effectiveness of past in-store promotions in retail.

Lesen Sie unseren Artikel über

1

.

Im Rahmen eines dreimonatigen Praxisprojekts haben wir ein kontrafaktisches Prognosemodell entwickelt und industrialisiert (zunächst mit Prophet, dann mit XGBoost), um die Leistung vergangener In-Store-Promotions einer Ladenkette zu bewerten und den Bedarfsplanern bei der Auswahl von Werbekampagnen zu helfen.

Dieses Modell wird trainiert und prognostiziert dann hypothetische Verkäufe (genannt Baseline) in der Vergangenheit, wenn es keine Promotion gegeben hätte. Die Differenz zwischen den tatsächlichen Promotion-Verkäufen und dieser Basislinie ergibt den inkrementellen Umsatz, den wir Uplift nennen.

Dank handgefertigter zeitlicher Merkmale erreichten wir eine Vorhersagegenauigkeit von fast 90 %.

Business context

Bei der Planung künftiger Werbekampagnen müssen Bedarfsplaner entscheiden, welche Produktsortimente mit einem bestimmten Werbemechanismus rabattiert werden sollen (z.B. "-15%", "2 kaufen, 1 geschenkt bekommen" etc...)

Dies sind schwierige Entscheidungen, denn:

  • Die Entscheidung für zu viele Werbeaktionen wäre keine wirksame Strategie (die Kunden gewöhnen sich an die Werbeaktionen und neigen dazu, auf die nächste Aktion zu warten).
  • Die Wahl der falschen Beförderungen würde zu Defiziten und Verlusten führen.

Die meisten Einzelhandelsunternehmen treffen die Wahl ihrer Kampagnen auf der Grundlage ihres Geschäftswissens und der Leistung früherer Werbeaktionen. Die "Leistung früherer Werbekampagnen" ist jedoch schwer einzuschätzen. In der Tat steigern Werbekampagnen (in den meisten Fällen) den Umsatz, aber wie lässt sich die Effizienz oder die Kapitalrendite (ROI) abschätzen, wenn wir nicht wissen, wie hoch der Umsatz ohne eine Werbeaktion gewesen wäre? Dieser hypothetische Wert des Umsatzes ohne Werbeaktion kann als Basiswert bezeichnet werden. Mit anderen Worten, es geht darum, den zusätzlichen Umsatz (oder Uplift) einer Werbekampagne zu schätzen, der dem tatsächlichen Umsatz abzüglich der Basislinie entspricht.

Um diese Frage zu beantworten, haben wir ein Instrument entwickelt, mit dem wir den Verkaufsanstieg vergangener Werbekampagnen mit einer Genauigkeit von fast 90 % abschätzen können.
Diese Aufgabe ist recht anspruchsvoll, da das Ziel darin besteht, Prognosen über hypothetische Verkäufe in einer anderen Situation zu erstellen (hier, wenn die Werbekampagne für ein bestimmtes Produkt nicht stattgefunden hätte). Dies kann als "kontrafaktische Prognose" bezeichnet werden. Dieser Artikel stützt sich hauptsächlich auf unsere Erfahrungen aus einem Projekt, das wir für eine französische Handelskette durchgeführt haben.

Er soll den von uns verwendeten Ansatz beschreiben, Tipps und Vorbehalte bei der Implementierung einer kontrafaktischen Prognoselösung(Datenaufbereitung, Modellierung) geben, den Bewertungsprozess erläutern und schließlich die Grenzen und nächsten Schritte dieses Ansatzes diskutieren.

Was ist eine kontrafaktische Vorhersage und warum ist sie schwierig vorherzusagen?

Bei der kontrafaktischen Vorhersage geht es darum, etwas in der Form vorherzusagen, wie X wäre , wenn es Y nicht gegeben hätte. In unserem Anwendungsfall wäre X der Umsatz und Y eine Werbekampagne.

Es gibt mehrere Bereiche, in denen dieses Verfahren angewandt werden kann: Bestandsmangel (Schätzung des Fehlbetrags aufgrund vergriffener Artikel), besondere Ereignisse, die nicht allzu lange dauern (Covid: funktioniert nicht!), um genügend Daten für die Schätzung der kontrafaktischen Situation zu haben.

Das Beförderungsproblem kann unter 3 Gesichtspunkten angegangen werden (sortiert nach aufsteigender Schwierigkeit):

  • 1. Verstehen früherer Werbekampagnen: gründliche Einschätzung der Leistung (z. B. Umsatzsteigerung oder ROI) früherer Werbekampagnen.

  • 2. Vorhersage der Leistung künftiger Werbekampagnen anhand ihrer Merkmale (rabattierte Produkte, Start- und Enddatum, Mechanismus...)

  • 3. Optimierung des Promotionsplans: Suche nach dem besten Aufbau künftiger Promotions, um eine Geschäftskennzahl zu maximieren.

In diesem Artikel werden wir uns auf den ersten Schritt konzentrieren, da er das Ziel unseres Projekts war. In den folgenden Abschnitten werden wir jedoch einige Einblicke geben, wie die nächsten beiden Schritte angegangen werden können.

Es gibt zwei Hauptgründe, die die Aufgabe der kontrafaktischen Vorhersage zu einem schwierigen Prozess machen:

  • Es gibt nur wenig Literatur oder Beispiele zu diesem Thema, obwohl es im Einzelhandel und in anderen Branchen sehr nützlich ist.

  • Bei kontrafaktischen Prognosen gibt es keine Grundwahrheit, da es sich um etwas handelt, das nicht eingetreten ist. Daher scheint die Leistungsbewertung recht schwierig zu sein (glücklicherweise haben wir einen Ansatz entwickelt, der im Abschnitt Bewertung vorgestellt wird).

Vorgeschlagener Ansatz

Bei der Entwicklung unseres Tools sind wir wie folgt vorgegangen:

  • 1. Trainieren Sie ein Prognosemodell auf Daten außerhalb von Werbeaktionen, um zu erfahren, wie der Umsatz ohne geplante Werbeaktionen aussehen sollte.

  • 2. Vorhersage für alle Datenpunkte (eigentlich werden nur die Vorhersagen während der Beförderung verwendet, aber es kann gut sein, die Vorhersagen überall zu behalten, um die Interpretation zu erleichtern).

  • 3. Vergleichen Sie die prognostizierte Basislinie mit den tatsächlichen Verkäufen während jeder Werbeaktion, um den Uplift zu ermitteln.

1

Wichtiger Hinweis: Ziel ist es, die Prognosen während der in der Vergangenheit liegenden Aktionszeiträume zu verwenden. Da es sich bei dieser Aufgabe um eine a posteriori-Analyse handelt, ist es im Gegensatz zur klassischen Prognoserechnung möglich, auf Daten zu trainieren, die nach dem Inferenzzeitraum liegen, der der Werbekampagne entspricht. Hier gibt es keine Datenverluste, da wir versuchen, ein Phänomen zu erklären, das in der Vergangenheit stattgefunden hat. Der Arbeitsablauf zwischen Training und Inferenz sieht also wie folgt aus:

1

Implementation

Preparing the data

Um das Problem der Beförderung anzugehen, muss man das richtige Datenformat verwenden. Normalerweise haben wir Zugang zu zwei Arten von Daten:

1. Werbedaten (beschreibende Informationen zu Werbeaktionen)

2. Verkaufsdaten.

1

Bei den vorverarbeiteten Daten handelt es sich im Wesentlichen um Verkaufsdaten, die mit Informationen über Werbeaktionen angereichert wurden (linke Verknüpfung, siehe Abbildung oben). Jede Zeile mit einem "Promo-Typ" ungleich Null entspricht einem Tag, an dem das Produkt im Angebot ist.

Vor der ersten Implementierung ist es wichtig, die Datenqualität zu bewerten. Hier sind einige Leitlinien für die durchzuführenden Prüfungen:

1. Suchen Sie nach größeren Problemen in den Zeitreihen:

  • Intermittierende und/oder sehr niedrige Umsätze (es wird schwierig sein, eine Basislinie zu lernen).

  • Werbeaktionen dauern zu lange und/oder sind zu häufig (daher gibt es nicht genügend Datenpunkte für ein Training).

  • Einige Produkte befinden sich gleichzeitig in mehreren Aktionen (welche Aktion ist für diese zusätzlichen Verkäufe verantwortlich?)

2. Definieren Sie eine Granularität für den Anwendungsfall:

  • Zeitliche Granularität: Soll die Analyse täglich oder wöchentlich erfolgen?

  • Granularität der Artikel: eine Zeitreihe pro Artikel? Nach Artikelgruppe? Manchmal ist es nicht möglich, die Granularität zu reduzieren, wenn die Anzahl der verkauften Einheiten pro Zeitelement nicht hoch genug ist oder wenn die Zeitreihe zu unregelmäßig ist. Die aggregierten Verkäufe sind glatter und haben weniger Probleme mit dem Volumen, aber sie sind manchmal nicht gut interpretierbar.

Wenn die Zeitreihen also sauber genug sind, ist es ein guter Ausgangspunkt, den granularsten Ansatz zu wählen (z. B. Produkt X Tag, insbesondere wenn man mit Prophet arbeitet, wie wir es in diesem Projekt getan haben).

3. Klarer Geltungsbereich der Werbeaktion: Welche Produkte/Produktfamilien sind Teil einer bestimmten Werbeaktion? Sind die Werbeaktionen auf nationaler Ebene geplant? (Wenn nicht, kann man z. B. nicht die Verkäufe eines Produkts in allen Geschäften eines Landes zusammenfassen).

Nachdem die Daten geprüft und aufbereitet wurden, ist es Zeit für die Modellierung.

Modelling

Erste Iterationen und wichtige Erkenntnisse

Wir begannen unsere ersten Iterationen mit Prophet begonnen, weil wir damit sehr schnell eine Basislinie hatten, einfach hinzufügen konnten Regressorenund die Ergebnisse auf natürliche Weise zu interpretieren (dank der additiven Dekomposition).

Hier eine Zusammenfassung der wichtigsten Iterationsverbesserungen, die wir während des Projekts vorgenommen haben:

1

Im Grunde genommen kamen die wichtigsten Verbesserungen von den Regressoren, die wir hinzugefügt haben:

  • Die Handhabung von besondere Ereignisse (der Schwarze Freitag war besonders wichtig)
  • Zeitliche Verzögerungen (auch wenn das Prophet-Modell autoregressiv ist, haben wir Verzögerungen bei den Verkäufen in der Vergangenheit und den zukünftigen Verkäufen hinzugefügt, was sich für die Genauigkeit des Modells als sehr nützlich erwiesen hat).

Schließlich trug auch die Anpassung der Art und Weise, wie wir die Vorhersagegenauigkeit gemessen haben (siehe Abschnitt "Bewertung" weiter unten), dazu bei, die Leistung genauer zu bewerten.

Warum haben wir zu XGBoost gewechselt?

Trotz der guten Leistung und Interpretierbarkeit von Prophet wurde uns klar, dass XGBoost aus mehreren Gründen am besten geeignet war:

  • Wir hatten mehr als 1000 Zeitreihen also mehr als 1000 Prophet-Modelle zu trainieren.
  • Prophet hat Schwierigkeiten, nicht-lineare Beziehungen zwischen Merkmalen und deren Auswirkungen auf das Ziel zu verstehen. Dieses Feature-Cross-Problem ist in diesem Artikel gut beschrieben.
  • Wir haben die gleiche Leistung erreicht, während wir die Trainingszeit um den Faktor 10 reduziert haben.

Bewertung und Grenzen

Bewertung

Wie bereits erwähnt, gibt es bei kontrafaktischen Prognosen keine Grundwahrheit, was die Leistungsbewertung komplexer macht als bei klassischen Prognosen.

Wir haben jedoch einen Weg gefunden, unsere Leistung zu messen oder besser gesagt, sie so genau wie möglich zu schätzen. Und so geht's:

1

Bei der klassischen Vorhersage wird die Leistung in der Regel mit einer Kreuzvalidierungsstrategie (hier: expandierendes Fenster) für einen bestimmten Validierungszeitraum (z. B. das letzte Jahr der verfügbaren Daten) gemessen. Für diesen Validierungszeitraum verschiebt sich das eigentliche Fenster, in dem wir die Leistung messen, in jeder Falte ("Auswertungsfenster"), und die davor liegenden Daten werden für die Lag-Merkmale verwendet ("Daten, die für die Vorhersagen verwendet werden"). In einem Anwendungsfall für die Werbung fügen wir einige Daten nach dem Bewertungsfenster hinzu , um den im Abschnitt "Vorgeschlagener Ansatz" beschriebenen Arbeitsablauf für Training und Inferenz zu reproduzieren.

Wir können also diese Kreuzvalidierungsstrategie auf die Teilmenge der Daten anwenden , bei denen es keine Beförderung gibt, wobei die Vorhersagegenauigkeit (FA) als Metrik dient.

1

Mit diesem Ansatz konnten wir eine Vorhersagegenauigkeit von fast 90 % mit einer Granularität auf der Ebene Familie X Tag erreichen, was eine ordentliche Leistung ist, vergleichbar mit dem, was wir bei anderen Projekten zur klassischen Vorhersage erreicht haben.

Auch wenn diese Leistung zufriedenstellend ist, hat unser Ansatz einige Einschränkungen.

Grenzwerte

  • Erstens werden einige externe Faktoren nicht berücksichtigt. Zum Beispiel Medienkampagnen. Diese externen Faktoren können sich (positiv) auf den Umsatz auswirken, so dass wir den durch die untersuchte Werbemaßnahme erzeugten Aufschwung möglicherweise überschätzen .
  • Zweitens, der Fall der dauerhaften Beförderungen: Es wird nämlich eine große Anzahl von Daten aus dem Trainingsdatensatz entfernt .

  • Nicht zuletzt könnte die Gesamtwirkung der Verkaufsförderung verbessert werden , wenn man die vielfältigen Effekte wie Kannibalisierung, Halo-Effekt, Vorgriffs- und Speichereffekte berücksichtigt, die im letzten Abschnitt näher erläutert werden.

Weiteres Vorgehen & nächste Schritte

Improving the modelling

Zur Messung der Nettoauswirkungen einer Werbeaktion können mehrere Effekte addiert werden:

  • Kannibalisierung: Die Tatsache, dass ein Produkt beworben wird und somit attraktiver ist, wirkt sich negativ auf den Absatz eines ähnlichen Produkts aus.

  • Halo: Die Tatsache, dass ein Produkt beworben wird und damit attraktiver ist, wirkt sich positiv auf den Verkauf von "häufig zusammen gekauften" Produkten aus.

  • Antizipation: Die Kunden kaufen vor einer Werbeaktion weniger rabattierte Produkte, da sie wissen, dass die Preise attraktiver sein werden.

  • Lagerung: Die Kunden kaufen nach einer Werbeaktion weniger von den verbilligten Produkten, nachdem sie während der Werbeaktion mehr Waren als üblich gekauft haben.

Die ersten beiden Effekte wurden aufgrund der gewählten Granularität (Familienebene) nicht in unsere Analyse einbezogen, und die beiden letztgenannten ließen sich in der für dieses Projekt zur Verfügung stehenden Zeit nur schwer genau quantifizieren.

Zusammenfassend lässt sich sagen, dass der zusätzliche Nettoabsatz einer Werbeaktion mit diesem Wasserfall dargestellt werden kann:

1

Going beyond the a posteriori analysis

Wie bereits erwähnt, ist es nach der (nachträglichen) Analyse vergangener Werbeaktionen(Stufe A) möglich, die Rentabilität künftiger Werbeaktionen vorherzusagen(Stufe B) und schließlich eine Optimierung des Werbeplans vorzuschlagen(Stufe C).

Natürlich ist die Vorhersage (Schätzung) der künftigen Rentabilität einer Werbeaktion schwieriger als die Schätzung der Rentabilität einer früheren Werbeaktion, da uns keine Daten über die Werbeaktion vorliegen. Die Idee ist, das in Phase A entwickelte Modell wiederzuverwenden und dabei Daten zu verwenden, bei denen es sich nicht um historische Daten, sondern um prognostizierte Daten aus einem klassischen Prognosemodell handelt, wie folgt:

Zunächst wird das klassische Prognosemodell auf den verfügbaren Daten (bis heute) trainiert:

1

Machen Sie dann die Vorhersagen mit diesem Modell (der zu prognostizierende Zeitraum muss den Bereich der zeitlichen Merkmale abdecken, der vom "Basismodell" verwendet wird):

1

Schließlich verwenden Sie das trainierte Basismodell mit zeitlichen Merkmalen, die auf den Prognosen des ersten Modells basieren, und schätzen die Basislinie, die den Umsatzanstieg ergibt:

1

Natürlich ist dieser Prozess mit mehr Unsicherheiten behaftet, da die Fehler der beiden gestapelten Modelle korreliert sind.

Um schließlich den Werbeplan zu optimieren, besteht die Strategie darin, die Ergebnisse der vorherigen Phase zu nutzen, um die beste Kombination von Werbeparametern zu wählen, um eine Geschäftskennzahl wie den ROI zu optimieren.

Schlussfolgerung

Die Verwendung kontrafaktischer Prognosen zur Lösung von Unternehmensproblemen ist in der Literatur nicht häufig anzutreffen.

Wir haben jedoch gesehen, dass es ein leistungsfähiges Instrument sein könnte, um das Problem der gründlichen Bewertung der Leistung vergangener Werbeaktionen zu lösen, indem hypothetische Verkäufe (Basislinie) prognostiziert, wenn es keine Werbeaktion gegeben hätte. Wir untersuchten auch Empfehlungen für die Entwicklung von Merkmalen für ein autoregressives (Prophet) oder Gradient-Boosting-Modell (XGBoost). Schließlich haben wir einige Leitlinien zur weiteren Verfeinerung der Analyse dargelegt, die über eine reine A-posteriori-Analyse hinausgehen.

Danke an die Datenwissenschaftler, die mit mir an diesem Projekt gearbeitet haben: Kasra und Ombeline. Danke auch an die Artefactors, die diesen Artikel Korrektur gelesen haben.

1

Medium Blog von Artefact.

Dieser Artikel wurde ursprünglich auf Medium.com veröffentlicht.
Folgen Sie uns auf unserem Medium Blog!

Artefact Newsletter

Interessiert an Datenberatung | Daten & Digitales Marketing | Digitaler Handel?
Lesen Sie unseren monatlichen Newsletter und erhalten Sie umsetzbare Ratschläge, Einblicke und Business Cases von unseren Datenexperten aus aller Welt!