阅读我们的文章

1

.

如何估计渠道的影响,即使在销售和引起销售的营销行为之间没有可追踪的联系?MMM是解决方案,而统计数据是主要资源。

如果你以前在市场营销中遇到过媒体组合建模(MMM)的问题,你可能知道这些问题涉及到一整套特定的渠道效应(延迟、饱和和长期效应),每一个都是通过至少一个不同的参数来模拟的。你可能也知道,这并不完全是一个保证有大量数据和/或数据可变性来训练你的模型的环境。在经典的MMM中,为了通过线性回归评估每个渠道对销售的贡献,需要先前对媒体渠道行为的假设(即对上述参数的数值)。贝叶斯的MMM方法[1]是一个强有力的替代方案,它允许通过先验分布和数据对渠道行为和销售提升进行一体化的估计。这意味着如果过去没有进行针对渠道的研究,就可以避免不正确的和不可改变的假设。不用说,这也使得模型变得更加复杂,输入各种有助于找到好的解决方案的信息变得至关重要。

事实上,让这样一个复杂的模型纯粹依靠有限的数据来学习是有内在危险的:与大多数回归问题的应用相反,MMM模型应该作为一个描述性而非预测性的工具来执行。因此,对训练数据的良好拟合和对未见过的数据的概括是有趣的,但还不够:它还必须对每个渠道的实际历史销售提升、投资回报率(ROI)和饱和度提供正确的见解,以保证为规划营销战略提供可靠的输出。换句话说,危险在于存在几个能正确适应数据的参数组合,因为并不是所有的参数组合都有实际意义--可以说,这只是维度诅咒的另一种表现形式。

但是,一个解决方案的 "真正意义 "是什么意思?一个可行的答案是,即使模型应该可以自由地从数据中学习新的模式,其输出也不应该完全偏离以前可能有的商业知识。事实上,能够将这些信息作为先验知识(以便我们能够帮助模型找到合理的参数组合)只是贝叶斯解决方案的多功能和强大的方面之一。

在这篇文章中,我们将探讨如何将定性和定量的商业知识转化为量身定做的先验分布,即使在结构化历史数据信息稀缺的情况下,也能实现性能良好的MMM。

媒体组合模型的概述

在探索我们如何利用概率分布来优化模型的性能之前,让我们从媒体组合模型本身的一些关键定义开始。就其本质而言,媒体组合模型是基于线性回归,其中因变量是 目标销售额,自变量(特征)是 对不同营销行为的投资,以及对销售有影响的外部控制变量(定价、竞争、季节性等)。

然而,这种表述与传统的线性回归模型有一个关键的区别。营销投资的特征也应该经过一系列的非线性转换,其主要目的是代表来自媒体渠道的预期行为,这些行为不能通过线性映射来建模。这些转换都有一个参数子集,控制这些行为的整体强度和性质。有两个主要的非线性映射,即饱和度和时间延迟,这将在下文中简要介绍。

非线性变换检查表

饱和度

饱和度是营销渠道上一个非常著名的效应,转化为投资和其产生的收入之间的非线性关系。这可以理解为广告被带到越来越不相关的用户面前的效果,或者是由于每增加一美元的投资,其覆盖面(新曝光的用户)的增长相对较小。饱和效应可以通过下面描述的希尔方程来模拟。由于确切的表达方式在这里不大感兴趣,请读者关注图1a和1b,它们显示了当希尔函数的两个参数值被扫除时发生了什么。

 媒体组合模型

方程1。希尔方程

 媒体组合模型

图1a.扫过希尔函数的K参数(半饱和度)。曲线的整体形状大致保持不变,而半饱和点(Hill(x)=0.5)则被移开。换句话说,K越大,相关的媒体通道就越难达到饱和。

 媒体组合模型

图1b.扫 过希尔函数的S参数(形状)。曲线的半饱和点保持不变,而其周围的斜率则增加。换句话说,S越大,半饱和点附近投资的边际收益就越大。

如上所述,希尔方程有两个重要的参数:K定义了半饱和点(当投资等于K时,渠道正好处于其最大收入的一半),而S干扰了饱和曲线的形状(其值越高,曲线越呈S形)。学习对K和S的准确估计是至关重要的,因为最佳投资水平可以从这些参数中分析提取出来。事实上,当不考虑其他影响时,产生最大投资回报率(ROI)的投资可以计算为。

1

方程2。从饱和参数推导出最佳投资水平

请注意,这个最佳投资在S>1的情况下是存在的,而且它总是在半饱和值K的1到3倍之间(你可以通过验证S-根所能承担的数值来检查这一点)。

Time-delay

应该考虑的第二个影响是收入的时间分配,在一些特定渠道的投资被执行后。事实上,投资和收入并不是同时发生的,可能需要几周时间才能使后者变得显著。此外,一些媒体渠道势必会产生更多的本地化效应,而其他渠道则可以在更长的时间内保持投资,从而在相对较长的时间内产生收入。这两个方面都可以通过下面给出的Adstock方程,分别用theta和alpha参数来建模。L参数不需要具体到每个渠道,只能设置为一个固定值,根据经验已知的足够大,如L=13(如 [1]中建议的)。再次请读者关注图2a和2b,而不是方程3。

1

方程3。阿 德斯托克方程

1

图2a.扫 过Adstock函数的theta参数(峰值延迟)。所有的曲线都是在滞后=0(滞后可以表示在建模时选择的任何时间粒度)进行的单一投资的结果。Theta越大,观察到最大收益所需的时间就越长,这与引起收益的投资有关。

1

图2b.扫过Adstock函数的α参数(保留率)。所有的曲线都是在滞后=0(滞后可以表示在建模时选择的任何时间粒度)进行的单一投资的结果。阿尔法越大,收入分布就越不集中。为了更好地进行比较,这些曲线被重新调整了比例。

把所有的东西放在一起:媒体组合模型的回归

一旦这两个非线性映射和它们各自的参数被定义,完整的模型就可以给出如下。

1

方程式4.媒 体组合模型的回归方程

>让我们从分解上面的表达开始分析。第一个重要的观察是,所有的特征都被归类为营销投资和外部(控制)变量,最相关的区别是,希尔和阿德斯托克的转换只适用于前者。因此,请注意,控制特征的影响被认为是纯粹的线性和直接的--尽管趋势和季节性的影响可以分别通过滞后和季节性的特征来增加。控制变量也可以被看作是市场营销部门以外的对销售有影响的一系列因素,包括定价、竞争对手的销售等。除了回归项之外,我们还考虑了线性系数tau和噪声项epsilon。

>当所有的都包括在内时,这个公式为每个营销特征产生了4个非线性参数。根据MMM的范围和对所有营销行为的具体看法,我们的模型可能需要几个不同的营销特征,这使得非线性参数的数量相当重要。在建模中处理这些参数的方式意味着不同的可能策略,这一点将在下文中讨论。

为什么/何时采用贝叶斯方法?

最敏锐的读者可能已经注意到,在过去的章节中,贝叶斯统计学甚至一次都没有被提及。这就引出了一个问题:当一些具体的观察数据可用时,我们为什么要关心使用贝叶斯方法来拟合这个模型?

事实证明,答案在很大程度上与必须近似的大量参数有关--这个数字往往与适合我们模型的数据可用性不相匹配。让我们看一下下面的专业知识x数据可用性矩阵。

1

图4.媒体组合建模研究的专业知识x数据可用性矩阵

从这个矩阵中,应该很清楚,这里要解决的问题的复杂性取决于以下问题:近似所有这些非线性参数是我们任务的一部分吗?如果不是--也就是说,如果这些参数以前是已知的--那么它们应该只作为数据的预变换出现,然后将其拟合到一个简单的线性多元回归模型中。如果有足够的过去的信息/专业知识可以为这些参数设定近似的值,而这些值根本达不到数据的验证,那么理想的情况就是这样。

毋庸置疑,对所有媒体类型中的渠道行为的绝对了解是一个相当强的假设,而且有可能最多有一些关于这些参数的线索可供建模。因此,观察数据也必须被用来拟合这些参数,并更好地理解所涉及的渠道。如果这与低数据可用性相匹配,使用所有先前已知的信息以保证良好的模型性能就变得非常方便--甚至是必须的。

因此,贝叶斯方法是一种对参数(回归和非线性)进行一体化估计的方法,它允许将线索作为先验知识输入到模型中,以便在有限的数据下获得最佳性能。现在让我们更详细地了解一下如何实现这一目标。

如何走贝叶斯路线?

贝叶斯的MMM将一组先验分布(每个线性或非线性参数的值都有一个)调整为一组后验分布。这是通过接触数据(证据)来完成的,后验分布可以被视为对每个渠道的行为方式和对销售的贡献的修正理解。在Python中,这可以用概率建模库实现,如PySTAN或PyMC3。

请注意,除了观察数据之外,这种策略开辟了一套新的可控输入:先验分布。事实上,在为每个参数选择分布以及根据每个渠道定制它们的矩方面有很大的灵活性,这样就会对相同的观察数据产生不同的输出。而谷歌的原始文章[1] 报告了根据经验观察到的对每个参数类型(KS、α、θ和β)表现较好的分布,这里我们将探讨如何根据以前对其行为的了解,为每个单独的通道进一步定制这些分布。

越少越好

在深入研究每个参数的先验分布之前,需要记住的一个潜在的有用策略是验证我们是否可以完全抛弃其中的一些参数。这不仅可以帮助我们简化模型,而且(作为结果)在有限的数据中获得更好的性能。

事实上,即使非线性映射被证明适用于方程4中的所有营销特征,对于一些特定的行动,放弃一个或两个转换也是明智的:例如,如果这些特征被扩展到贸易行动,而不仅仅是媒体渠道,人们可能对包括TPR(临时降价)投资在内的特征感兴趣。这有一个明显的直接效果,因为销售提升几乎是在投资(降价)开始和发作的同一时刻分别被观察和干掉的。因此,对这个特征使用Adstock转换可能没有兴趣,它的好处是减少了需要估计的参数数量。

Another viable simplification can be implemented for channels whose investments are known to vary very little in time: in these cases, we are operating at only a very small section of the curves shown in Figure 1, where the relation between return and investment can be deemed approximately linear. Hence, we can discard the Hill function for these channels, as saturation will not play an important role. In more technical terms, this assumption is valid when dx<<K, where dx is some measure of historical variation on investment.

设置一个事先准备好的阿森纳

一旦验证了所有非线性参数的相关性,下一步就是要了解它们的先验参数如何承载信息。到目前为止,我特意使用了技术上相当模糊的术语 "线索 "来定义任何类型的模型输入,而不是结构化的、类似表格的观察数据。在这里,我们将研究一些例子,看看这些可能是什么,并填补这些和实际先验分布之间的空白,这些先验分布将作为贝叶斯推理的输入,将这些知识带入模型。

让我们首先以与竞争者有关的价格为例。这是一个内在地对销售有很大影响的外部变量,因此可以作为一个控制特征列入MMM模型中。人们可以很容易地认为,这个相对价格越高,销售量就会越低。这对我们来说是常识,但我们应该明确地告诉模型,只寻找有负面影响的解决方案。我们这样做的方法是,将与价格相关的参数β(见公式4)的先验分布选择为负半正态。对于正向影响的特征,我们则采取相反的做法(例如,如果你在为一些清爽型饮料销售建模,那么每周平均温度应该有正向影响)。请注意,这并不是必须的:如果你不太确定一个特征对目标变量的影响,你可以给它一个不知情的先验(如标准正态分布),让模型自己去学习它。

这只是一个例子,说明如何调整先验分布,以便在模型中包括定性知识。其他一些可能的定性信息可以来自,例如,具体的营销行动性质(就像前面给出的TPR的例子,如果决定不完全削减延时,而是将其分布转移到只集中在非常短的延时)。另一方面,定量的先验知识可能来自以前的研究或根据历史数据分析进行的估计。作为前者的一个例子,回归权重分布可以根据以前的MMM研究中发现的投资回报率值进行转移--然后模型可以从一开始就寻找较小/较高的值,用于已知有较小/较大回报的渠道;至于后者,假设历史投资应该与理想投资水平大致相同,可以导致方程1中饱和参数K的知情先验--因此,模型被告知哪些渠道在潜在覆盖方面是较大或较小。

下面的矩阵总结了一些可以考虑的调整先验分布的关键策略,包括定性和定量。这决不是一个详尽的清单,每一种策略的可行性可能因环境而异,应针对每项具体研究进行修订。

1

图5.贝叶斯媒体组合建模使用案例的先验调谐策略矩阵示例。策略应根据范围和现有的知识而变化。

结论和收获

媒体组合建模研究需要处理几个不同的营销行为,而贝叶斯方法允许对这些行为进行一体化的估计,以及对每一个特征以及外部因素(控制特征)的销售提升。这使我们能够收获可用的观察数据,以便在事先不知道这些行为的情况下,通过一些可用的专业知识或过去特定渠道的研究和测试来了解这些行为。尽管如此,这也是有代价的,主要体现在模型的复杂性和随后需要足够的数据来实现良好的性能。当这种需求没有得到满足时,一个关键的结果是,模型很容易通过给出根本不合理的参数来过度拟合观察到的数据。

在这篇文章中,我们探索了一种补救这种影响的方法,即利用可观察数据以外的先前知识,从过去研究中的定量结论到对一些特征的性质和对销售的影响的定性商业理解。这些都是通过调整模型的每个参数的先验分布而包括在内的。虽然从实用的角度来看,这可以被理解为对模型的偏见,但它也是一种避免对模型过度拟合的方法,因为这些模式只是由于数据的有限可用性而被观察到的,重点是接近已知或至少是预期真实的组合。换句话说,定制分布是在学习新的观察数据和尊重旧的商业知识之间的一种折中方式--这种折中方式可以根据具体的媒体组合建模案例中的情况,在几个不同的层次上进行探索。

鸣谢

特别感谢巴西团队的Camila C. Moreno、Rafael Melo、Rhayssa Sonohata、Vinicius Pacheco和Wedeueis Braz在发表前审阅本文。 Artefact审阅了这篇文章。

参考文献

1

中型博客:Artefact 。

这篇文章最初发表在Medium.com上。
在我们的Medium博客上关注我们 !

阅读我们的文章
Artefact 通讯

对数据咨询|数据与数字营销|数字商务感兴趣?
阅读我们的每月通讯,从我们世界各地的数据专家那里获得可行的建议、见解和商业案例

通讯注册