Lisez notre article sur

.

Comment estimer l'impact des canaux, même lorsqu'il n'y a pas de lien traçable entre une vente et l'action Marketing qui l'a engendrée ? Le MMM est la solution, et les statistiques en sont la principale ressource.

Si vous avez déjà rencontré des problèmes de modélisation du mix média (MMM) dans le domaine du marketing, vous savez peut-être qu'ils impliquent tout un ensemble d'effets spécifiques au canal (retards, saturation et effets à long terme) qui sont chacun modélisés à l'aide d'au moins un paramètre différent. Vous savez peut-être aussi qu'il ne s'agit pas exactement d'un contexte où l'abondance de variabilité data et/ou data pour entraîner votre modèle est garantie. Dans les MMM classiques, des hypothèses préalables sur le comportement des canaux médiatiques (c'est-à-dire sur les valeurs des paramètres susmentionnés) sont nécessaires pour évaluer la contribution de chaque canal aux ventes par le biais d'une régression linéaire. L'approche MMM bayésienne constitue une alternative efficace à cette méthode [1], qui permet une estimation globale du comportement des canaux et de l'augmentation des ventes par le biais de distributions préalables et de data. Cela permet d'éviter les hypothèses incorrectes et immuables si des études antérieures spécifiques au canal n'ont pas été réalisées. Inutile de dire que cela rend également le modèle beaucoup plus complexe et qu'il devient crucial de saisir toutes sortes d'informations susceptibles d'aider à trouver une bonne solution.

En effet, il y a un danger inhérent à laisser un modèle aussi complexe s'appuyer uniquement sur des data limitées pour apprendre : contrairement à la majorité des applications de problèmes de régression, un modèle MMM devrait être un outil descriptif plutôt que prédictif. Ainsi, une bonne adéquation aux data d'apprentissage et une généralisation aux data non vus sont intéressantes mais ne suffisent pas : le modèle doit également fournir des informations correctes sur l'évolution historique des ventes, le retour sur investissement (ROI) et la saturation pour chaque canal, afin de garantir un résultat fiable pour la planification des stratégies de marketing. En d'autres termes, le danger réside dans l'existence de plusieurs combinaisons de paramètres qui s'adaptent correctement au data, étant donné qu'elles n'ont pas toutes un sens réel - on pourrait dire qu'il s'agit simplement d'une autre manifestation de la malédiction de la dimensionnalité.

Mais qu'est-ce que cela signifie pour une solution d'avoir un “sens réel” ? Une réponse viable est que, même si le modèle doit être libre d'apprendre de nouveaux modèles à partir de data, ses résultats ne doivent pas s'écarter complètement des connaissances commerciales antérieures qui pourraient être disponibles. En effet, la possibilité d'inclure ces informations en tant que connaissances préalables (afin d'aider le modèle à trouver une combinaison de paramètres judicieuse) n'est que l'un des aspects polyvalents et puissants de la solution bayésienne.

Dans cet article, nous verrons comment les connaissances qualitatives et quantitatives des entreprises peuvent être traduites en distributions préalables adaptées qui permettront d'obtenir un MMM performant, même lorsque les informations provenant d'un historique structuré sont rares.

Vue d'ensemble de la modélisation du mix média

Avant d'explorer la manière dont nous pouvons exploiter les distributions de probabilités pour optimiser les performances de notre modèle, commençons par quelques définitions clés de la modélisation du mix média elle-même. Par essence, le MMM est basé sur une régression linéaire, où la variable dépendante est la objectifs de vente et les variables indépendantes (caractéristiques) sont les l'investissement dans différentes actions de marketing, ainsi que variables de contrôle externes qui ont également un impact sur les ventes (prix, concurrence, saisonnalité, etc.).

Il existe néanmoins une différence cruciale entre cette formulation et celle d'un modèle de régression linéaire conventionnel : Les caractéristiques de l'investissement marketing doivent également passer par une série de tests de régression. les transformations non linéaires, Ces transformations ont pour objectif principal de représenter les comportements attendus des canaux médiatiques qui ne peuvent être modélisés par des correspondances linéaires. Ces transformations comportent chacune un sous-ensemble de paramètres qui contrôlent l'intensité globale et la nature de ces comportements. Il existe deux principaux mappages non linéaires, la saturation et le délai, qui seront brièvement abordés dans ce qui suit.

Liste de contrôle des transformations non linéaires

Saturation

La saturation est un effet très connu des canaux de commercialisation, qui se traduit par une relation non linéaire entre l'investissement et les recettes qu'il engendre. Il peut s'agir de l'effet des publicités diffusées auprès d'utilisateurs de moins en moins pertinents, ou de l'augmentation relativement faible de la portée (nouveaux utilisateurs exposés) pour chaque dollar supplémentaire investi. L'effet de saturation peut être modélisé par l'équation de Hill décrite ci-dessous. L'expression exacte n'étant pas d'un grand intérêt ici, le lecteur est invité à se concentrer sur les figures 1a et 1b, qui montrent ce qu'il advient de la fonction de Hill lorsque les valeurs de ses deux paramètres sont modifiées.

 Media Mix Modeling

Équation 1. L'équation de Hill

 Media Mix Modeling

Figure 1a. Balayage du paramètre K (demi-saturation) de la fonction de Hill. La forme générale de la courbe est à peu près conservée tandis que le point de demi-saturation (où Hill(x)=0,5) est déplacé. En d'autres termes, plus K est grand, plus il est difficile de saturer le canal médiatique associé.

 Media Mix Modeling

Figure 1b. Balayage du paramètre S (forme) de la fonction de Hill. Le point de demi-saturation de la courbe est conservé tandis que la pente autour de ce point augmente. En d'autres termes, plus S est grand, plus les gains marginaux des investissements autour du point de demi-saturation sont importants.

Comme nous l'avons vu plus haut, l'équation de Hill comporte deux paramètres importants : alors que K définit le point de demi-saturation (la chaîne se trouve exactement à la moitié de son revenu maximal lorsque l'investissement est égal à K), S interfère avec la forme de la courbe de saturation (plus sa valeur est élevée, plus la courbe prend la forme d'un S). Il est essentiel d'apprendre à estimer précisément K et S, car le niveau d'investissement optimal peut être extrait analytiquement à partir de ces paramètres. En effet, lorsqu'aucun autre effet n'est pris en compte, l'investissement qui produit un retour sur investissement (ROI) maximal peut être calculé comme suit :

Équation 2. Détermination du niveau d'investissement optimal à partir des paramètres de saturation

Notez que cet investissement optimal existe pour S>1 et qu'il est toujours entre une et trois fois la valeur de demi-saturation K (vous pouvez vous en assurer en vérifiant les valeurs que la racine S peut prendre).

Délai

Le deuxième effet à prendre en considération est l'allocation temporelle des recettes, après l'exécution d'un investissement spécifique au canal. En effet, les investissements et les recettes ne se produisent pas simultanément, et il peut s'écouler quelques semaines avant que les recettes ne deviennent significatives. En outre, certaines chaînes de médias sont vouées à avoir des effets plus localisés, tandis que d'autres chaînes peuvent conserver leurs investissements pendant de plus longues périodes, générant ainsi des recettes même après des délais relativement longs. Ces deux aspects peuvent être modélisés par l'équation Adstock ci-dessous, par les paramètres thêta et alpha respectivement. Les paramètres L n'a pas besoin d'être spécifique à chaque canal et ne peut être fixé qu'à une valeur fixe dont on sait empiriquement qu'elle est suffisamment grande, par exemple L=13 (comme suggéré dans [1]). Une fois encore, le lecteur est invité à se concentrer sur les figures 2a et 2b plutôt que sur l'équation 3.

Équation 3. L'équation Adstock

Figure 2a. Balayage du paramètre thêta (délai du pic) de la fonction Adstock. Toutes les courbes sont le résultat d'un investissement unique effectué au lag=0 (le lag peut indiquer n'importe quelle granularité de temps choisie dans la modélisation). Plus le paramètre thêta est grand, plus il faut de temps pour que le revenu maximal soit observé, par rapport à l'investissement qui l'a provoqué.

Figure 2b. Balayage du paramètre alpha (taux de rétention) de la fonction Adstock. Toutes les courbes sont le résultat d'un investissement unique effectué au lag=0 (le lag peut indiquer n'importe quelle granularité temporelle choisie dans la modélisation). Plus alpha est grand, plus la distribution des revenus est délocalisée. Les courbes ont été remises à l'échelle pour une meilleure comparaison.

Tout assembler : la régression de la modélisation du mix média

Une fois que les deux mappings non linéaires et leurs paramètres respectifs sont définis, le modèle complet peut être donné comme suit :

Équation 4. Mix média Modélisation de l'équation de régression

>Commençons notre analyse en décomposant l'expression ci-dessus. La première observation importante est que toutes les caractéristiques sont regroupées en investissements marketing et en variables externes (de contrôle), la différence la plus pertinente étant que les transformations de Hill et d'Adstock sont appliquées exclusivement aux premiers. Notez donc que l'impact des caractéristiques de contrôle est considéré comme purement linéaire et immédiat - même si les effets de tendance et de saisonnalité peuvent être ajoutés par le biais de caractéristiques de décalage et de saisonnalité, respectivement. Les variables de contrôle peuvent également être considérées comme l'ensemble des facteurs extérieurs au marketing qui ont un impact sur les ventes, y compris les prix, les ventes des concurrents, etc. Outre les termes de régression, nous tenons également compte d'un coefficient linéaire tau et d'un terme de bruit epsilon.

>Lorsque tout est inclus, cette formulation engendre 4 paramètres non linéaires pour chaque caractéristique marketing. En fonction du champ d'application du MMM et de la manière dont toutes les actions de marketing sont considérées, notre modèle peut nécessiter plusieurs caractéristiques de marketing différentes, ce qui rend le nombre de paramètres non linéaires très important. La façon dont ceux-ci sont traités dans la modélisation implique différentes stratégies possibles, comme nous le verrons dans ce qui suit.

Pourquoi/quand passer à la méthode bayésienne ?

Les lecteurs les plus perspicaces auront peut-être remarqué que les statistiques bayésiennes n'ont pas été évoquées une seule fois dans les sections précédentes. Cela soulève la question suivante : pourquoi devrions-nous nous soucier d'utiliser une approche bayésienne pour ajuster ce modèle, alors qu'une observation spécifique data est disponible ?

Il s'avère que la réponse est étroitement liée au grand nombre de paramètres qui doivent être approximés - un nombre qui est très souvent laissé de côté par la disponibilité de data pour s'adapter à notre modèle. Examinons la matrice Expertise x Data Disponibilité ci-dessous :

Figure 4.Expertise x Data Matrice de disponibilité pour l'étude Media Mix Modeling

À partir de cette matrice, il devrait être clair que la complexité du problème à traiter ici dépend de la question suivante : l'approximation de tous ces paramètres non linéaires fait-elle partie de notre tâche ? Si ce n'est pas le cas - c'est-à-dire si ces paramètres sont déjà connus - ils ne devraient apparaître que comme des pré-transformations de la data, qui seront ensuite intégrées dans un simple modèle de régression linéaire multivariée. C'est idéalement le cas si l'on dispose de suffisamment d'informations/expertises antérieures pour fixer des valeurs approximatives à ces paramètres, et que ces valeurs ne sont tout simplement pas en mesure d'être validées par le data.

Il va sans dire que la connaissance absolue du comportement des canaux parmi tous les types de médias est une hypothèse assez forte, et qu'il y a de fortes chances que l'on dispose tout au plus de quelques indices concernant ces paramètres pour la modélisation. Par conséquent, l'observation data doit également être utilisée pour ajuster ces paramètres et mieux comprendre les canaux concernés. Si cela va de pair avec une faible disponibilité de data, il devient extrêmement pratique - voire nécessaire - d'utiliser toutes les informations précédemment connues afin de garantir une bonne performance du modèle.

L'approche bayésienne est donc un moyen d'effectuer une estimation globale des paramètres (régression et non linéaire), qui permet d'introduire des indices dans le modèle en tant que connaissances préalables, afin d'obtenir les meilleures performances avec un nombre limité de data. Entrons maintenant un peu plus dans les détails de la manière dont cela peut être réalisé.

Comment devenir bayésien ?

Le MMM bayésien adapte un ensemble de distributions préalables (une pour la valeur de chaque paramètre linéaire ou non linéaire) en un ensemble de distributions postérieures. Cela se fait par l'exposition au data (preuve), et les distributions postérieures peuvent être considérées comme des interprétations révisées de la façon dont chaque canal se comporte et contribue aux ventes. En Python, cela peut être mis en œuvre avec des bibliothèques de modélisation probabiliste telles que PySTAN ou PyMC3.

Notez que cette stratégie ouvre un nouvel ensemble d'entrées contrôlables, autres que l'observation data : les distributions préalables. En effet, il existe une grande flexibilité dans le choix de la distribution pour chaque paramètre et dans l'adaptation de leurs moments en fonction de chaque canal, ce qui se traduira par un résultat différent pour la même observation data. Alors que l'article original de Google [1] reports dont on a observé empiriquement qu'elles étaient plus performantes pour chaque type de paramètre (KS, Nous explorerons ici la manière dont nous pouvons les adapter à chaque canal individuel en fonction de nos connaissances préalables sur leur comportement.

Moins, c'est mieux

Avant d'examiner les distributions préalables pour chaque paramètre, une stratégie potentiellement utile à garder à l'esprit consiste à vérifier s'il est possible d'écarter complètement certains de ces paramètres. Cela nous permettra non seulement de simplifier le modèle, mais aussi (par conséquent) d'obtenir de meilleures performances dans le data limité.

En effet, même si les correspondances non linéaires sont appliquées à toutes les caractéristiques du marketing dans l'équation 4, il peut être judicieux d'écarter une ou les deux transformations pour certaines actions spécifiques : par exemple, si ces caractéristiques sont étendues aux actions commerciales et pas seulement aux canaux médiatiques, il peut être intéressant d'inclure les éléments suivants TPR (réduction temporaire des prix). Cela a un effet immédiat évident, puisque l'augmentation des ventes est observée et supprimée pratiquement au même moment que l'investissement (réduction de prix) démarre et s'accroît, respectivement. Il n'y a donc aucun intérêt à utiliser la transformation d'Adstock pour cette caractéristique, qui a l'avantage de réduire le nombre de paramètres à estimer.

Une autre simplification viable peut être mise en œuvre pour les chaînes dont on sait que les investissements varient très peu dans le temps : dans ces cas, nous n'opérons que dans une très petite partie des courbes illustrées dans la figure 1, où la relation entre le rendement et l'investissement peut être considérée comme approximativement linéaire. Par conséquent, nous pouvons écarter la fonction de Hill pour ces canaux, car la saturation ne jouera pas un rôle important. En termes plus techniques, cette hypothèse est valable lorsque dx<<K, où dx est une mesure de la variation historique de l'investissement.

Mise en place d'un arsenal préalable

Une fois que la pertinence de tous les paramètres non linéaires est vérifiée, l'étape suivante consiste à comprendre comment leurs antécédents peuvent être porteurs d'informations. Jusqu'à présent, j'ai volontairement utilisé le terme techniquement assez vague d“”indices" pour définir tout type d'entrée de modèle qui n'est pas une observation structurée, de type tableau data. Nous examinerons ici quelques exemples de ce qu'ils pourraient être et nous comblerons également le fossé entre ces indices et les distributions préalables réelles qui serviront d'entrée pour l'inférence bayésienne, en intégrant ces connaissances dans le modèle.

Prenons tout d'abord l'exemple du prix par rapport à la concurrence. Il s'agit d'une variable externe qui, par nature, a un fort impact sur les ventes et qui pourrait donc être incluse comme élément de contrôle dans le modèle MMM. On pourrait facilement affirmer que plus ce prix relatif est élevé, plus les ventes seront faibles. Il s'agit là d'une question de bon sens, mais nous devrions explicitement indiquer au modèle de ne rechercher que les solutions ayant un impact négatif. Pour ce faire, nous choisissons une distribution préalable du paramètre bêta associé au prix (voir l'équation 4) qui soit une demi normale négative. Nous faisons l'inverse pour les caractéristiques ayant un impact positif (par exemple, si vous modélisez des ventes de boissons rafraîchissantes, la température moyenne hebdomadaire doit avoir un impact positif). Notez que ce n'est pas une nécessité : si vous n'êtes pas tout à fait sûr de l'impact d'une caractéristique sur la variable cible, vous pouvez lui donner un a priori non informé (par exemple, la distribution normale standard) et laisser le modèle l'apprendre par lui-même.

Il ne s'agit là que d'un exemple de la manière d'ajuster les distributions préalables afin d'inclure des connaissances qualitatives dans le modèle. D'autres informations qualitatives possibles peuvent provenir, par exemple, de la nature d'une action de marketing spécifique (comme dans l'exemple précédent de TPR, Les connaissances préalables quantitatives peuvent, quant à elles, provenir d'études ou d'estimations antérieures réalisées à partir d'analyses historiques de data.) Les connaissances quantitatives préalables, quant à elles, peuvent provenir d'études ou d'estimations antérieures réalisées dans le cadre d'une analyse historique de data. Dans le premier cas, la distribution des poids de régression peut être décalée en fonction de l'hypothèse de base suivante ROI qui a été trouvée dans une étude MMM précédente - le modèle peut alors rechercher des valeurs plus petites/élevées dès le départ, pour les canaux dont on sait qu'ils ont des rendements plus petits/élevés ; en ce qui concerne ces derniers, l'hypothèse selon laquelle les investissements historiques devraient être à peu près du même ordre que le niveau d'investissement idéal peut conduire à des a priori informés sur le paramètre de saturation K de l'équation 1 - le modèle est ainsi informé des canaux qui sont plus ou moins importants en termes de portée potentielle.

La matrice ci-dessous résume certaines stratégies clés qui peuvent être envisagées pour ajuster les distributions préalables, tant qualitatives que quantitatives. Il ne s'agit en aucun cas d'une liste exhaustive, et la viabilité de chacune d'entre elles peut varier en fonction du contexte et doit être revue pour chaque étude spécifique.

Figure 5. Exemple de matrice de stratégie d'accord préalable pour un cas d'utilisation de la modélisation bayésienne du mix média. Les stratégies devraient varier en fonction du champ d'application et des connaissances actuelles disponibles.

Conclusion et enseignements tirés de l'expérience

Alors qu'une étude de modélisation du mix média nécessite de traiter le comportement de plusieurs actions marketing différentes, l'approche bayésienne permet une estimation globale de ces actions, ainsi que de l'augmentation des ventes pour chacune de ces caractéristiques ainsi que pour des facteurs externes (caractéristiques de contrôle). Cela nous permet d'exploiter les observations disponibles data afin d'apprendre ces comportements lorsqu'ils ne sont pas connus à l'avance grâce à l'expertise disponible ou à des études et des tests antérieurs spécifiques au canal. Néanmoins, cela a un coût, qui se reflète principalement dans la complexité du modèle et dans le besoin subséquent d'un nombre suffisant de data pour obtenir une bonne performance. Lorsque ce besoin n'est pas satisfait, le principal résultat est un modèle qui peut facilement suradapter la data observée en fournissant des paramètres qui ne sont tout simplement pas raisonnables.

Dans cet article, nous avons exploré un moyen de remédier à cet effet en travaillant avec des connaissances antérieures autres que les data observables, qu'il s'agisse de conclusions quantitatives d'études antérieures ou d'une compréhension commerciale qualitative de la nature d'une caractéristique et de son impact sur les ventes. Ces connaissances sont prises en compte en adaptant les distributions préalables de chacun des paramètres du modèle. Si, d'un point de vue pragmatique, on peut considérer que cela biaise le modèle, c'est aussi un moyen d'éviter de surajuster le modèle à des modèles qui ne sont observés qu'en raison de la disponibilité limitée du data, en se concentrant sur des combinaisons proches de ce que l'on sait ou du moins de ce que l'on s'attend à ce qu'elles soient vraies. En d'autres termes, l'adaptation des distributions est un moyen de trouver un compromis entre l'apprentissage à partir de nouvelles observations data et le respect des anciennes connaissances commerciales - un compromis qui peut être exploré à plusieurs niveaux différents en fonction de ce qui est disponible dans un cas spécifique de modélisation du mix média.

Remerciements

Nous remercions tout particulièrement Camila C. Moreno, Rafael Melo, Rhayssa Sonohata, Vinicius Pacheco et Wedeueis Braz de l'Agence brésilienne pour le développement international. Artefact pour avoir revu cet article avant sa publication.

Références

Moyen Blog par Artefact.

Cet article a été initialement publié sur Medium.com.
Suivez-nous sur notre Medium Blog !