Lisez notre article sur

1

.

Comment estimer l'impact des canaux, même lorsqu'il n'y a pas de lien traçable entre une vente et l'action Marketing qui l'a engendrée ? Le MMM est la solution, et les statistiques en sont la principale ressource.

Si vous avez déjà rencontré des problèmes de modélisation du mix média (MMM) dans le domaine du marketing, vous savez peut-être qu'ils impliquent tout un ensemble d'effets spécifiques aux canaux (retards, saturation et effets à long terme) qui sont chacun modélisés par au moins un paramètre différent. Vous savez peut-être aussi que ce n'est pas exactement un contexte où l'abondance de données et/ou la variabilité des données pour entraîner votre modèle sont garanties. Dans les MMM classiques, des hypothèses préalables sur le comportement des canaux médias (c'est-à-dire sur les valeurs des paramètres susmentionnés) sont nécessaires pour évaluer la contribution de chaque canal aux ventes par régression linéaire. Une alternative puissante est l'approche MMM bayésienne [1], qui permet une estimation tout-en-un du comportement du canal et de l'augmentation des ventes par le biais de distributions et de données antérieures. Cela permet d'éviter les hypothèses incorrectes et immuables si des études antérieures spécifiques aux canaux n'ont pas été réalisées. Inutile de dire que cela rend également le modèle beaucoup plus complexe, et qu'il devient crucial de saisir toutes sortes d'informations qui peuvent aider à trouver une bonne solution.

En effet, il y a un danger inhérent à laisser un modèle aussi complexe s'appuyer uniquement sur des données limitées pour apprendre : contrairement à la majorité des applications de problèmes de régression, un modèle MMM doit fonctionner comme un outil descriptif plutôt que prédictif. Ainsi, un bon ajustement aux données d'entraînement et une généralisation à des données inconnues sont intéressants mais ne suffisent pas : il doit également fournir des indications correctes sur l'augmentation historique réelle des ventes, le retour sur investissement(ROI) et la saturation pour chaque canal, afin de garantir un résultat fiable pour la planification des stratégies marketing. En d'autres termes, le danger réside dans l'existence de plusieurs combinaisons de paramètres qui s'adaptent correctement aux données, étant donné que toutes n'ont pas de sens réel - on pourrait dire qu'il s'agit d'une autre manifestation de la malédiction de la dimensionnalité.

Mais qu'est-ce que cela signifie pour qu'une solution ait un "vrai sens" ? Une réponse viable est que, même si le modèle doit être libre d'apprendre de nouveaux modèles à partir des données, sa sortie ne doit pas s'écarter complètement des connaissances commerciales antérieures qui pourraient être disponibles. En effet, la possibilité d'inclure ces informations en tant que connaissances préalables (afin d'aider le modèle à trouver une combinaison de paramètres judicieuse) n'est que l'un des aspects polyvalents et puissants de la solution bayésienne.

Dans cet article, nous examinerons comment les connaissances qualitatives et quantitatives de l'entreprise peuvent être traduites en distributions préalables adaptées qui rendront possible une MMM performante, même lorsque les informations provenant de données historiques structurées sont rares.

Un aperçu de la modélisation du mix média

Avant d'explorer comment nous pouvons exploiter les distributions de probabilités pour optimiser les performances de notre modèle, commençons par quelques définitions clés de la modélisation du mix média elle-même. Par essence, le MMM est basé sur une régression linéaire, où la variable dépendante est le chiffre d'affaires cible et les variables indépendantes (caractéristiques) sont l' investissement dans différentes actions marketing, ainsi que les variables de contrôle externes qui ont également un impact sur les ventes (prix, concurrence, saisonnalité, etc.).

Il existe néanmoins une différence cruciale entre cette formulation et celle d'un modèle de régression linéaire classique : Les caractéristiques de l'investissement marketing doivent également passer par un ensemble de transformations non linéaires, dont le but premier est de représenter les comportements attendus des canaux médiatiques qui ne peuvent être modélisés par des mappings linéaires. Ces transformations portent chacune un sous-ensemble de paramètres qui contrôlent l'intensité globale et la nature de ces comportements. Il existe deux principales mappages non linéaires, la saturation et le délai, qui seront brièvement abordés dans ce qui suit.

Liste de contrôle des transformations non linéaires

Saturation

La saturation est un effet très connu sur les canaux de marketing, qui se traduit par une relation non linéaire entre l'investissement et le revenu engendré. Cet effet peut être compris comme l'effet de la diffusion de publicités à des utilisateurs de moins en moins pertinents, ou encore comme l'augmentation relativement faible de la portée (nouveaux utilisateurs exposés) pour chaque dollar supplémentaire investi. L'effet de saturation peut être modélisé par l'équation de Hill décrite ci-dessous. L'expression exacte n'étant pas d'un grand intérêt ici, le lecteur est invité à se concentrer plutôt sur les figures 1a et 1b, qui montrent ce qui arrive à la fonction de Hill lorsque les valeurs de ses deux paramètres sont balayées.

 Modélisation du mix média

Équation 1. L'équation de Hill

 Modélisation du mix média

Figure 1a. Balayage du paramètre K (demi-saturation) de la fonction de Hill. La forme générale de la courbe est à peu près conservée tandis que le point de demi-saturation (où Hill(x)=0,5) est déplacé. En d'autres termes, plus K est grand, plus il est difficile de saturer le canal média associé.

 Modélisation du mix média

Figure 1b. Balayage du paramètre S (forme) de la fonction de Hill. Le point de demi-saturation de la courbe est conservé tandis que la pente autour de ce point augmente. En d'autres termes, plus S est grand, plus les gains marginaux pour les investissements autour du point de demi-saturation sont importants.

Comme on l'a vu plus haut, l'équation de Hill comporte deux paramètres importants : tandis que K définit le point de demi-saturation (le canal se trouve exactement à la moitié de son revenu maximal lorsque l'investissement est égal à K), S interfère avec la forme de la courbe de saturation (plus sa valeur est élevée, plus la courbe prend la forme d'un S). Il est essentiel d'obtenir des estimations précises pour K et S car un niveau d'investissement optimal peut être extrait analytiquement de ces paramètres. En effet, lorsqu'aucun autre effet n'est pris en compte, l'investissement qui donne un retour sur investissement (ROI) maximal peut être calculé comme suit :

1

Équation 2. Détermination du niveau d'investissement optimal à partir des paramètres de saturation

Notez que cet investissement optimal existe pour S>1 et qu'il est toujours compris entre une et trois fois la valeur de demi-saturation K (vous pouvez vérifier cela en vérifiant les valeurs que la racine S peut prendre).

Time-delay

Le deuxième effet à prendre en compte est la répartition dans le temps des recettes, après l'exécution d'un investissement spécifique au canal. En effet, l'investissement et les recettes ne se produisent pas simultanément, et il peut s'écouler quelques semaines avant que ces dernières ne deviennent significatives. En outre, certaines chaînes médiatiques sont vouées à avoir des effets plus localisés, tandis que d'autres chaînes peuvent conserver des investissements pendant de plus longues périodes, générant ainsi des revenus même après des périodes relativement longues. Ces deux aspects peuvent être modélisés par l'équation d'Adstock donnée ci-dessous, par les paramètres thêta et alpha respectivement. Le paramètre L n'a pas besoin d'être spécifique à chaque canal et peut seulement être fixé à une valeur fixe connue empiriquement comme étant suffisamment grande, telle que L=13 (comme suggéré dans [1]). Une fois encore, le lecteur est invité à se concentrer sur les figures 2a et 2b plutôt que sur l'équation 3.

1

Équation 3. L'équation d'Adstock

1

Figure 2a. Balayage du paramètre thêta (délai du pic) de la fonction Adstock. Toutes les courbes sont le résultat d'un investissement unique effectué sur lag=0 (lag peut indiquer n'importe quelle granularité temporelle qui a été choisie dans la modélisation). Plus le thêta est grand, plus il faut de temps pour observer le revenu maximal, par rapport à l'investissement qui l'a provoqué.

1

Figure 2b. Balayage du paramètre alpha (taux de rétention) de la fonction Adstock. Toutes les courbes sont le résultat d'un investissement unique effectué sur lag=0 (lag peut indiquer n'importe quelle granularité temporelle qui a été choisie dans la modélisation). Plus alpha est grand, plus la distribution des revenus est délocalisée. Les courbes ont été remises à l'échelle pour une meilleure comparaison.

Tout mettre en place : la régression de la modélisation du mix média

Une fois que les deux mappings non linéaires et leurs paramètres respectifs sont définis, le modèle complet peut être donné comme suit :

1

Équation 4. Équation de régression pour la modélisation du mix média

>Commençons notre analyse en décomposant l'expression ci-dessus. La première observation importante est que toutes les caractéristiques sont regroupées en investissements marketing et en variables externes (de contrôle), la différence la plus pertinente étant que les transformations de Hill et Adstock sont appliquées exclusivement aux premières. Notez donc que l'impact des caractéristiques de contrôle est considéré comme purement linéaire et immédiat - même si des effets de tendance et de saisonnalité peuvent être ajoutés par le biais de caractéristiques de décalage et de saisonnalité, respectivement. Les variables de contrôle peuvent également être considérées comme l'ensemble des facteurs extérieurs au marketing qui ont un impact sur les ventes, notamment les prix, les ventes des concurrents, etc. Outre les termes de régression, nous tenons également compte d'un coefficient linéaire tau et d'un terme de bruit epsilon.

>Lorsque tout est inclus, cette formulation engendre 4 paramètres non linéaires pour chaque caractéristique marketing. En fonction du champ d'application de la MMM et de la manière dont on considère spécifiquement toutes les actions de marketing, notre modèle peut nécessiter plusieurs caractéristiques de marketing différentes, ce qui rend le nombre de paramètres non linéaires assez important. La façon dont ceux-ci sont traités dans la modélisation implique différentes stratégies possibles, comme nous le verrons dans ce qui suit.

Pourquoi/Quand opter pour le modèle bayésien ?

Les lecteurs les plus perspicaces auront peut-être remarqué que les statistiques bayésiennes n'ont pas été évoquées une seule fois dans les sections précédentes. Cela soulève la question suivante : pourquoi devrions-nous nous soucier d'utiliser une approche bayésienne pour ajuster ce modèle, lorsque des données d'observation spécifiques sont disponibles ?

Il s'avère que la réponse est en grande partie liée au grand nombre de paramètres qui doivent être approximés - un nombre qui, bien souvent, n'est pas égalé par la disponibilité des données pour ajuster notre modèle. Jetons un coup d'œil à la matrice Expertise x Disponibilité des données ci-dessous :

1

Figure 4.matrice Expertise x Disponibilité des données pour l'étude de modélisation du mix média

À partir de cette matrice, il devrait être clair que la complexité du problème à traiter ici dépend de la question suivante : l'approximation de tous ces paramètres non linéaires fait-elle partie de notre tâche ? Si ce n'est pas le cas - c'est-à-dire si ces paramètres sont déjà connus - alors ils ne devraient apparaître que comme des pré-transformations des données, qui seront ensuite ajustées dans un simple modèle de régression linéaire multivarié. C'est idéalement le cas si l'on dispose de suffisamment d'informations/expertise passées pour fixer des valeurs approximatives à ces paramètres, et que ces valeurs ne sont tout simplement pas validées par les données.

Il va sans dire que la connaissance absolue du comportement des canaux parmi tous les types de médias est une hypothèse assez forte, et il y a de fortes chances que tout au plus quelques indices concernant ces paramètres soient disponibles pour la modélisation. Par conséquent, les données d'observation doivent également être utilisées pour ajuster ces paramètres et mieux comprendre les canaux concernés. Si cela est associé à une faible disponibilité des données, il devient extrêmement pratique - voire nécessaire - d'utiliser toutes les informations précédemment connues afin de garantir une bonne performance du modèle.

L'approche bayésienne est donc un moyen d'effectuer une estimation tout-en-un des paramètres (de régression et non linéaires), qui permet d'introduire des indices dans le modèle en tant que connaissances préalables, pour une meilleure performance avec des données limitées. Entrons maintenant un peu plus dans les détails de la manière dont cela peut être réalisé.

Comment devenir bayésien ?

La MMM bayésienne adapte un ensemble de distributions antérieures (une pour la valeur de chaque paramètre linéaire ou non linéaire) en un ensemble de distributions postérieures. Cela se fait par l'exposition aux données (preuves), et les distributions postérieures peuvent être considérées comme des compréhensions révisées de la façon dont chaque canal se comporte et contribue aux ventes. En Python, cela peut être mis en œuvre avec des bibliothèques de modélisation probabiliste telles que PySTAN ou PyMC3.

Notons que cette stratégie ouvre un nouvel ensemble d'entrées contrôlables, autres que les données d'observation : les distributions a priori. En effet, il existe une grande flexibilité dans le choix de la distribution pour chaque paramètre et dans l'adaptation de leurs moments en fonction de chaque canal, ce qui se traduira par une sortie différente pour les mêmes données d'observation. Alors que l'article original de Google [1] fait état de distributions dont on a observé empiriquement qu'elles étaient plus performantes pour chaque type de paramètre(K, S, alpha, thêta et bêta), nous allons explorer ici comment nous pouvons les adapter davantage à chaque canal individuel en fonction des connaissances préalables sur leur comportement.

Moins, c'est mieux

Avant de se plonger dans les distributions antérieures de chaque paramètre, une stratégie potentiellement utile à garder à l'esprit est de vérifier si nous ne pouvons pas éliminer complètement certains de ces paramètres. Cela nous aidera non seulement à simplifier le modèle mais aussi (en conséquence) à obtenir une meilleure performance dans des données limitées.

En effet, même s'il est démontré que les mappings non linéaires s'appliquent à toutes les caractéristiques du marketing dans l'équation 4, il pourrait être judicieux d'écarter l'une ou les deux transformations pour certaines actions spécifiques : par exemple, si ces caractéristiques sont étendues aux actions commerciales et pas seulement aux canaux médiatiques, on pourrait être intéressé par l'inclusion des investissements TPR (réduction temporaire des prix) en tant que caractéristique. Cela a un effet immédiat évident, car l'augmentation des ventes est observée et tuée pratiquement au même moment où l'investissement (réduction de prix) démarre et se saisit, respectivement. Il n'y a donc peut-être aucun intérêt à utiliser la transformation Adstock pour cette caractéristique, qui a l'avantage de réduire le nombre de paramètres à estimer.

Another viable simplification can be implemented for channels whose investments are known to vary very little in time: in these cases, we are operating at only a very small section of the curves shown in Figure 1, where the relation between return and investment can be deemed approximately linear. Hence, we can discard the Hill function for these channels, as saturation will not play an important role. In more technical terms, this assumption is valid when dx<<K, where dx is some measure of historical variation on investment.

Mise en place d'un arsenal préalable

Une fois que la pertinence de tous les paramètres non linéaires est vérifiée, l'étape suivante consiste à comprendre comment leurs prieurs peuvent être porteurs d'informations. Jusqu'à présent, j'ai volontairement utilisé le terme "indices", assez vague sur le plan technique, pour définir tout type d'entrée du modèle qui n'est pas une donnée d'observation structurée, de type tableau. Nous allons examiner ici quelques exemples de ce qu'ils peuvent être et combler l'écart entre ces indices et les distributions préalables réelles qui serviront d'entrée à l'inférence bayésienne, en intégrant ces connaissances au modèle.

Prenons d'abord l'exemple du prix par rapport à la concurrence. Il s'agit d'une variable externe qui a intrinsèquement un fort impact sur les ventes, et qui pourrait donc être incluse comme élément de contrôle dans le modèle MMM. On pourrait facilement affirmer que plus ce prix relatif est élevé, plus les ventes seront faibles. Cela relève du bon sens pour nous, mais nous devrions indiquer explicitement au modèle de ne rechercher que les solutions ayant un impact négatif. Pour ce faire, nous choisissons la distribution antérieure du paramètre bêta associé au prix (voir équation 4) comme étant une demi-normale négative. Nous faisons l'inverse pour les caractéristiques à impact positif (par exemple, si vous modélisez des ventes de boissons rafraîchissantes, la température moyenne hebdomadaire devrait avoir un impact positif). Notez que ce n'est pas une nécessité : si vous n'êtes pas tout à fait sûr de l'impact d'une caractéristique sur la variable cible, vous pouvez lui donner une priorité non informée (par exemple, la distribution normale standard) et laisser le modèle l'apprendre par lui-même.

Ce n'est qu'un exemple de la façon d'ajuster les distributions antérieures afin d'inclure des connaissances qualitatives dans le modèle. D'autres informations qualitatives possibles peuvent provenir, par exemple, de la nature d'une action marketing spécifique (comme dans l'exemple donné précédemment pour le TPR, si l'on décide de ne pas supprimer complètement le délai mais de modifier sa distribution pour se concentrer uniquement sur les délais très courts). Les connaissances quantitatives préalables, quant à elles, peuvent provenir d'études ou d'estimations antérieures réalisées à partir de l'analyse de données historiques. Par exemple, dans le premier cas, la distribution des poids de régression peut être décalée en fonction de la valeur du retour sur investissement trouvée dans une étude MMM précédente - le modèle peut alors rechercher des valeurs plus petites/élevées dès le départ, pour les canaux dont on sait qu'ils ont des retours plus petits/plus grands ; dans le second cas, l'hypothèse selon laquelle les investissements historiques devraient être à peu près du même ordre que le niveau d'investissement idéal peut conduire à des antécédents informés sur le paramètre de saturation K de l'équation 1 - le modèle est ainsi informé des canaux qui sont plus ou moins grands en termes de portée potentielle.

La matrice ci-dessous résume certaines stratégies clés qui peuvent être envisagées pour ajuster les distributions préalables, tant qualitatives que quantitatives. Il ne s'agit en aucun cas d'une liste exhaustive, et la viabilité de chacune d'entre elles peut varier en fonction du contexte et doit être revue pour chaque étude spécifique.

1

Figure 5. Exemple de matrice de stratégie de réglage préalable pour un cas d'utilisation de la modélisation bayésienne du mix média. Les stratégies doivent varier en fonction de la portée et des connaissances actuelles disponibles.

Conclusion et conclusion

Alors qu'une étude de modélisation du mix média nécessite de traiter le comportement de plusieurs actions marketing différentes, l'approche bayésienne permet une estimation globale de celles-ci, ainsi que de l'augmentation des ventes pour chacune de ces caractéristiques et pour des facteurs externes (caractéristiques de contrôle). Cela nous permet de récolter les données observées disponibles afin d'apprendre ces comportements lorsqu'ils ne sont pas connus au préalable grâce à l'expertise disponible ou à des études et tests antérieurs spécifiques à un canal. Néanmoins, cela a un coût, qui se traduit principalement par la complexité du modèle et la nécessité de disposer de suffisamment de données pour obtenir de bonnes performances. Lorsque ce besoin n'est pas satisfait, le résultat le plus important est un modèle qui peut très facilement s'adapter aux données observées en fournissant des paramètres qui ne sont tout simplement pas raisonnables.

Dans cet article, nous avons exploré un moyen de remédier à cet effet en travaillant avec des connaissances antérieures autres que les données observables, qu'il s'agisse des conclusions quantitatives d'études antérieures ou de la compréhension commerciale qualitative de la nature et de l'impact de certaines caractéristiques sur les ventes. Ces connaissances sont incluses en adaptant les distributions antérieures de chacun des paramètres du modèle. Si, d'un point de vue pragmatique, cela peut être compris comme un biais du modèle, c'est aussi un moyen d'éviter un ajustement excessif du modèle à des modèles qui ne sont observés qu'en raison de la disponibilité limitée des données, en se concentrant sur des combinaisons qui sont proches de ce qui est connu ou du moins attendu comme vrai. En d'autres termes, l'adaptation des distributions est un moyen de faire un compromis entre l'apprentissage à partir de nouvelles données d'observation et le respect des anciennes connaissances commerciales - un compromis qui peut être exploré à plusieurs niveaux différents en fonction de ce qui est disponible dans un cas spécifique de modélisation du mix média.

Remerciements

Nous remercions tout particulièrement Camila C. Moreno, Rafael Melo, Rhayssa Sonohata, Vinicius Pacheco et Wedeueis Braz de l'équipe brésilienne pour la révision de cet article avant sa publication. Artefact pour avoir relu cet article avant sa publication.

Références

1

Medium Blog par Artefact.

Cet article a été initialement publié sur Medium.com.
Suivez-nous sur notre blog Medium !

Lire notre article
Artefact Newsletter

Vous êtes intéressé par le conseil en données, le marketing digital et l'ecommerce ?
Lisez notre newsletter mensuelle pour obtenir des conseils pratiques, des idées, des études de cas, de la part de tous nos experts en données du monde entier !

Inscription à la newsletter