阅读我们的文章

.

如何估算渠道的影响,即使销售额与促成销售的营销活动之间没有可追溯的联系?MMM 就是解决方案,而统计数据则是主要资源

如果您以前在市场营销中遇到过媒体混合建模(MMM)问题,您可能会知道,这些问题涉及到一整套特定渠道效应(延迟、饱和及长期效应),而每种效应都至少通过一个不同的参数来建模。您可能还知道,在这种情况下,并不能保证有丰富的 data 和/或 data 变量来训练您的模型。在经典的 MMM 中,为了通过线性回归评估每个渠道对销售额的贡献,需要事先对媒体渠道行为(即上述参数值)进行假设。贝叶斯 MMM 方法是一个强有力的替代方案 [1], 这样就可以通过先验分布和 data 对渠道行为和销售提升进行一体化估算。这意味着,如果过去没有进行过针对特定渠道的研究,就可以避免不正确和不可更改的假设。不用说,这也使模型变得更加复杂,输入各种有助于找到好的解决方案的信息变得至关重要。.

事实上,让这样一个复杂的模型纯粹依靠有限的 data 来学习是有内在危险的:与大多数回归问题应用相反,MMM 模型应该是一个描述性而非预测性的工具。因此,对训练 data 的良好拟合和对未见 data 的泛化是令人感兴趣的,但这还不够:它还必须对实际的历史销售提升、投资回报率 (投资回报率)和每个通道的饱和度,以确保为规划营销策略提供可靠的输出。换句话说,危险在于存在着多个能正确拟合 data 的参数组合,但并非所有组合都有实际意义--可以说,这只是 "维度诅咒 "的另一种表现形式。.

但是,“真正有意义 ”的解决方案意味着什么呢?一个可行的答案是,即使模型可以自由地从 data 中学习新的模式,它的输出也不应该完全偏离以前可能掌握的业务知识。事实上,能够将这些信息作为先验知识纳入模型(这样我们就能帮助模型找到合理的参数组合),这只是贝叶斯解决方案多变而强大的方面之一。

在本文中,我们将探讨如何将定性和定量业务知识转化为量身定制的先验分布,从而在结构化历史 data 信息稀缺的情况下也能实现性能良好的 MMM。.

媒体组合模型概述

在探讨如何利用概率分布优化模型性能之前,我们先来了解一下媒体组合建模本身的一些关键定义。就其本质而言,媒体组合模型基于线性回归,其中因变量为 目标销售额 而自变量(特征)是 对不同营销活动的投资, 以及 外部控制变量 影响销售的因素(定价、竞争、季节性等)。.

不过,这种表述方式与传统的线性回归模型有一个重要区别:市场投资特征也应通过一系列的 非线性变换, ,其主要目的是表示无法通过线性映射建模的媒体渠道的预期行为。这些转换都带有一个参数子集,用于控制这些行为的整体强度和性质。主要有两种非线性映射,即饱和映射和延时映射。.

非线性变换清单

饱和度

饱和是市场营销渠道的一个众所周知的效应,表现为投资与收益之间的非线性关系。这可以理解为广告对相关度越来越低的用户的影响,也可以理解为每增加一美元的投入,广告到达率(新接触用户)的增幅相对较小。饱和效应可以通过下面的希尔方程来模拟。由于在此不太感兴趣确切的表达式,请读者关注图 1a 和图 1b,它们显示了希尔函数的两个参数值发生变化时的情况。.

 Media Mix Modeling

公式 1. 希尔方程

 Media Mix Modeling

图 1a. 扫描希尔函数的 K 参数(半饱和)。曲线的整体形状大致保持不变,但半饱和点(Hill(x)=0.5 时)有所移动。换句话说,K 越大,相关介质通道就越难达到饱和。.

 Media Mix Modeling

图 1b. 扫描希尔函数的 S 参数(形状)。曲线的半饱和点保持不变,而半饱和点附近的斜率增加。换句话说,S 越大,半饱和点附近的投资边际收益就越大。.

如上所述,希尔方程包含两个重要参数:K 定义了半饱和点(当投资等于 K 时,渠道的收益正好是其最大收益的一半),而 S 则影响饱和曲线的形状(其值越高,曲线越呈 S 形)。学习对 K 和 S 的精确估计至关重要,因为可以从这些参数中分析提取出最佳投资水平。事实上,在不考虑其他影响的情况下,可以计算出产生最大投资回报率(ROI)的投资:

公式 2. 从饱和参数推导出最佳投资水平

请注意,当 S>1 时,这种最优投资是存在的,而且它是 总是在半饱和值 K 的一到三倍之间 (您可以通过验证 S 根可以假设的值来检查这一点)。.

延时

第二个应考虑的影响是,在执行了某些特定渠道投资后,收入的时间分配。事实上,投资和收入并不是同时发生的,后者可能需要几周的时间才能显现出来。此外,一些媒体渠道必然会产生更多的本地效应,而另一些渠道则可以在较长的时间内保持投资,从而在相对较长的时间后也能产生收入。这两个方面都可以通过下面的阿德斯托克方程,分别用 theta 和 alpha 参数来模拟。θ参数 L 参数不需要针对每个通道,只能设置为一个经验上已知足够大的固定值,如 L=13 (如 [1]).请读者再次关注图 2a 和 2b,而不是公式 3。.

公式 3. 阿德斯托克方程

图 2a. 扫描 Adstock 函数的 theta 参数(峰值延迟)。所有曲线都是在滞后期=0(滞后期可表示建模时选择的任何时间粒度)进行单次投资的结果。Theta 越大,观察到最大收益所需的时间就越长,这与导致最大收益的投资有关。.

图 2b. 扫描阿德斯托克函数的阿尔法参数(保留率)。所有曲线都是在滞后期=0(滞后期可表示建模时选择的任何时间粒度)进行单次投资的结果。阿尔法越大,收入分布越分散。为了更好地进行比较,对曲线进行了重新缩放。.

整合:媒体组合建模回归

一旦定义了这两个非线性映射及其各自的参数,就可以给出完整的模型如下:

公式 4. 媒体组合模型回归方程

>让我们从上面的表达式开始分析。第一个重要观察点是,所有特征都被归类为营销投资和外部(控制)变量,其中最重要的区别在于希尔和阿德斯托克转换只适用于前者。因此,请注意,控制特征的影响被认为是纯线性和直接的--尽管趋势和季节性效应可分别通过滞后和季节性特征加以补充。控制变量也可被视为市场营销之外对销售产生影响的一系列因素,包括定价、竞争对手销售等。除回归项外,我们还考虑了线性系数 tau 和噪声项 epsilon。.

>当所有因素都包括在内时,每种营销特征都有 4 个非线性参数。根据 MMM 的范围和对所有营销行为的具体考虑,我们的模型可能需要多个不同的营销特征,这就使得非线性参数的数量变得相当重要。建模中处理这些参数的方式意味着不同的可能策略,下文将对此进行讨论。.

为何/何时采用贝叶斯方法?

最敏锐的读者可能已经注意到,在过去的章节中,贝叶斯统计学甚至一次都没有被提及。这就引出了一个问题:既然有了一些具体的观测数据 data,我们为什么还要关心用贝叶斯方法来拟合这个模型呢?

事实证明,答案在很大程度上与必须近似的大量参数有关,而这些参数往往无法与 data 可用性相匹配,从而无法拟合我们的模型。让我们来看看下面的专业知识 x Data 可用性矩阵:

图 4.专业知识 x Data 媒体组合建模研究的可用性矩阵

从这个矩阵中可以清楚地看出,这里要解决的问题的复杂程度取决于以下问题:逼近所有这些非线性参数是否是我们任务的一部分?如果不是,也就是说,如果这些参数是已知的,那么它们只应作为 data 的预变换出现,然后将其拟合到一个简单的线性多元回归模型中。如果有足够的过去信息/专业知识来为这些参数设定近似值,而这些值根本无法通过 data 验证,那么理想的情况就是这样。.

不用说,绝对了解所有媒体类型的信道行为是一个很强的假设,而且有可能最多只能获得有关这些参数的一些线索来进行建模。因此,观测到的 data 也必须用来拟合这些参数,更好地了解相关信道。如果再加上 data 可用性较低,为了保证良好的模型性能,使用所有以前已知的信息就变得非常方便,甚至是必须的。.

因此,贝叶斯方法是一种对参数(回归和非线性)进行一体化估计的方法,它允许将线索作为先验知识输入模型,从而在有限的 data 条件下获得最佳性能。现在让我们来详细了解一下如何实现这一目标。.

如何采用贝叶斯方法?

贝叶斯多变量模型将一组先验分布(每个线性或非线性参数值的先验分布)调整为一组后验分布。这是通过接触 data(证据)来完成的,后验分布可视为对每个渠道的行为和对销售额的贡献的修正理解。在 Python 中,这可以通过 PySTAN 或 PyMC3 等概率建模库来实现。.

请注意,除了观测值 data 之外,这一策略还提供了一组新的可控输入:先验分布。事实上,为每个参数选择分布以及根据每个通道调整它们的矩都有很大的灵活性,这将为相同的观测值 data 带来不同的输出结果。而谷歌原文 [1] 根据经验,reports 分布在每种参数类型下的性能更好 (KS, 在这里,我们将探讨如何根据以往对每个通道行为的了解,进一步为其量身定制这些通道。.

少而精

在深入研究每个参数的先验分布之前,有一个潜在的有用策略值得注意,那就是验证我们是否可以完全舍弃其中的一些参数。这不仅可以帮助我们简化模型,还可以(因此)在有限的 data 中获得更好的性能。.

事实上,尽管等式 4 中的非线性映射适用于所有市场营销特征,但对于某些特定行为,放弃一种或两种转换也是明智之举:例如,如果这些特征被扩展到贸易行为而不仅仅是媒体渠道,那么我们可能会感兴趣的是将以下内容包括在内 TPR (临时降价)投资为特征。这会产生明显的立竿见影的效果,因为几乎在投资(降价)开始和停止的同一时刻,销售提升就会被观察到并消失。因此,对这一特征使用阿德斯托克转换可能没有什么意义,其好处是减少了需要估算的参数数量。.

另一种可行的简化方法适用于已知投资随时间变化很小的渠道:在这种情况下,我们只需在图 1 所示曲线的一小段上操作,收益与投资之间的关系可被视为近似线性。因此,我们可以放弃这些渠道的希尔函数,因为饱和不会起到重要作用。用更专业的术语来说,这一假设在以下情况下有效 dx<<K, 其中 dx 是对历史投资变化的某种衡量。.

建立先期武器库

一旦验证了所有非线性参数的相关性,下一步就是了解它们的先验参数如何能够承载信息。到目前为止,我特意使用了技术上比较模糊的术语 “线索 ”来定义任何一种非结构化、非表格观测 data 的模型输入。在此,我们将举例说明这些线索可能是什么,并填补这些线索与实际先验分布之间的空白,这些先验分布将作为贝叶斯推理的输入,并将这些知识带入模型中。.

我们先以与竞争对手的价格关系为例。这是一个外部变量,本身就对销售额有很大影响,因此可以作为控制特征纳入 MMM 模型。我们可以很容易地认为,相对价格越高,销售额就越低。这对我们来说是常识,但我们应该明确告诉模型只寻找有负面影响的解决方案。为此,我们可以选择与价格相关的参数贝塔的先验分布(见公式 4)为负半正态分布。对于具有正向影响的特征,我们则采取相反的做法(例如,如果您正在对一些清凉饮料的销售情况进行建模,那么每周平均温度就应该具有正向影响)。请注意,这并不是必须的:如果您不太确定某个特征对目标变量的影响,可以给它一个无信息先验(如标准正态分布),让模型自己学习。.

这只是一个如何调整先验分布以便将定性知识纳入模型的例子。其他一些可能的定性信息可以来自于,例如,具体的营销行动性质(如前面给出的例子中的 TPR, 如果决定不完全削减时间延迟,而是改变其分布,使其只集中在极短的延迟上)。另一方面,定量先验知识可能来自以前的研究或对历史 data 分析的估计。以前者为例,回归权重分布可根据 投资回报率 就后者而言,假设历史投资额应与理想投资额大致相同,则可得出饱和参数的知情先验值。 K 从等式 1 中得出--因此,该模型可获知哪些渠道的潜在覆盖范围更大,哪些渠道的潜在覆盖范围更小。.

下面的矩阵总结了一些可用于调整先验分布的关键策略,包括定性和定量策略。这绝不是一份详尽无遗的清单,每种策略的可行性可能因具体情况而异,应根据每项具体研究进行修订。.

图 5. .贝叶斯媒体混合建模使用案例的先验调整策略矩阵示例。策略应根据范围和现有知识而有所不同

结论与收获

媒体组合建模研究需要处理多个不同的营销行为,而贝叶斯方法则可以对这些行为、每个特征的销售提升以及外部因素(控制特征)进行一体化估算。这样,当我们无法通过现有的专业知识或过去针对特定渠道的研究和测试事先了解这些行为时,我们就可以利用现有的观测数据 data来学习这些行为。不过,这样做也是有代价的,主要体现在模型的复杂性以及随后需要足够的 data 才能实现良好的性能。如果这一要求得不到满足,一个重要的结果就是模型很容易过拟合观测到的 data,给出的参数根本不合理。.

在本文中,我们探索了一种弥补这种影响的方法,即利用可观察到的 data 以外的先前知识,从过去研究的定量结论到对某些功能的性质和对销售的影响的定性商业理解。通过调整模型每个参数的先验分布,这些知识都被包含在内。从实用的角度来看,这可以理解为使模型产生偏差,但这也是一种避免模型过度拟合的方法,因为只有在 data 的有限可用性下才能观察到这种模式,方法是将重点放在接近已知或至少预期为真实的组合上。换句话说,调整分布是在学习新的观察结果 data 和尊重旧的业务知识之间进行折衷的一种方式--这种折衷可以根据特定媒体组合建模案例的可用性在多个不同层面进行探索。.

致谢

特别感谢来自巴西的 Camila C. Moreno、Rafael Melo、Rhayssa Sonohata、Vinicius Pacheco 和 Wedeueis Braz。 Artefact 在本文发表前,我们的团队对本文进行了审阅。.

参考资料

中号 Blog by Artefact。.

本文最初发表于 Medium.com.
在我们的 Medium Blog 上关注我们!