Lea nuestro artículo sobre

1

.

¿Cómo estimar el impacto de los canales, incluso cuando no existe un vínculo rastreable entre una venta y la acción de marketing que la generó? El MMM es la solución, y las estadísticas son el principal recurso

Si ya se ha encontrado con problemas de modelización de la mezcla de medios (MMM) en el ámbito del marketing, es posible que sepa que éstos implican todo un conjunto de efectos específicos del canal (retrasos, saturación y efectos a largo plazo) que se modelizan cada uno de ellos a través de al menos un parámetro diferente. También es posible que sepa que no se trata precisamente de un contexto en el que esté garantizada la abundancia de datos y/o la variabilidad de los mismos para entrenar su modelo. En los MMM clásicos, se requieren supuestos previos sobre el comportamiento de los canales de comunicación (es decir, sobre los valores de los parámetros mencionados) para evaluar la contribución de cada canal a las ventas mediante una regresión lineal. Una potente alternativa a esto es el enfoque bayesiano de los MMM [1], que permite estimar tanto el comportamiento del canal como el aumento de las ventas mediante distribuciones a priori y datos. Esto significa que se evitan las suposiciones incorrectas e inmutables si no se han realizado estudios previos específicos del canal. Ni que decir tiene que también hace que el modelo sea mucho más complejo, y la introducción de todo tipo de información que pueda ayudar a encontrar una buena solución se convierte en algo crucial.

De hecho, hay un peligro inherente en dejar que un modelo tan complejo se base únicamente en datos limitados para aprender: al contrario que la mayoría de las aplicaciones de problemas de regresión, un modelo MMM debería funcionar como una herramienta descriptiva más que predictiva. Por lo tanto, un buen ajuste a los datos de entrenamiento y la generalización a los datos no vistos son interesantes pero no suficientes: también debe proporcionar información correcta sobre el aumento de las ventas históricas reales, el retorno de la inversión(ROI) y la saturación de cada canal, con el fin de garantizar un resultado fiable para la planificación de las estrategias de marketing. En otras palabras, el peligro reside en la existencia de varias combinaciones de parámetros que se ajustan correctamente a los datos, dado que no todas ellas tienen un sentido real -se podría argumentar que se trata de otra manifestación de la Maldición de la Dimensionalidad.

Pero, ¿qué significa que una solución tenga "verdadero sentido"? Una respuesta viable es que, aunque el modelo debe tener libertad para aprender nuevos patrones a partir de los datos, su resultado no debe desviarse completamente del conocimiento previo del negocio que pueda estar disponible. De hecho, poder incluir esta información como conocimiento previo (para poder ayudar al modelo a encontrar una combinación de parámetros sensata) es sólo uno de los aspectos versátiles y potentes de la solución bayesiana.>

En este artículo, echaremos un vistazo a cómo el conocimiento cualitativo y cuantitativo del negocio puede traducirse en distribuciones a priori adaptadas que harán posible un MMM de buen rendimiento incluso cuando la información a través de datos históricos estructurados es escasa.

Una visión general de la modelización de la mezcla de medios de comunicación

Antes de explorar cómo podemos aprovechar las distribuciones de probabilidad para optimizar el rendimiento de nuestro modelo, empecemos con algunas definiciones clave para el propio Media Mix Modeling. En su esencia, el MMM se basa en una regresión lineal, en la que la variable dependiente es el objetivo de ventas y las variables independientes (características) son la inversión en diferentes acciones de marketing, así como las variables de control externas que también tienen un impacto en las ventas (precios, competencia, estacionalidad, etc.).

No obstante, existe una diferencia crucial entre esta formulación y la de un modelo de regresión lineal convencional: Las características de la inversión en marketing también deben pasar por un conjunto de transformaciones no lineales, cuyo objetivo principal es representar los comportamientos esperados de los canales de comunicación que no pueden modelarse mediante mapeos lineales. Cada una de estas transformaciones lleva un subconjunto de parámetros que controlan la intensidad y la naturaleza global de estos comportamientos. Hay dos mapeos no lineales principales, la saturación y el retraso temporal, que se tratarán brevemente a continuación.

Lista de control de las transformaciones no lineales

Saturación

La saturación es un efecto muy conocido en los canales de marketing, que se traduce en una relación no lineal entre la inversión y los ingresos generados. Puede entenderse como el efecto de que los anuncios lleguen a usuarios cada vez menos relevantes, o bien debido al aumento relativamente menor del alcance (nuevos usuarios expuestos) con cada dólar adicional invertido. El efecto de saturación puede modelarse mediante la ecuación de Hill que se muestra a continuación. Como la expresión exacta no es del todo interesante aquí, se invita al lector a centrarse en las figuras 1a y 1b, que muestran lo que ocurre con la función Hill cuando se barren los valores de sus dos parámetros.

 Modelado de la mezcla de medios de comunicación

Ecuación 1. La ecuación de Hill

 Modelado de la mezcla de medios de comunicación

Figura 1a. Barrido del parámetro K (media saturación) de la función Hill. La forma general de la curva se mantiene aproximadamente, mientras que el punto de media saturación (donde Hill(x)=0,5) se desplaza. En otras palabras, cuanto mayor es K, más difícil es saturar el canal de medios asociado.

 Modelado de la mezcla de medios de comunicación

Figura 1b. Barrido del parámetro S (forma) de la función Hill. El punto de semisatura de la curva se mantiene, mientras que la pendiente en torno a él aumenta. En otras palabras, cuanto mayor sea S, mayores serán las ganancias marginales de las inversiones en torno al punto de media saturación.

Como se ha visto anteriormente, la ecuación de Hill tiene dos parámetros importantes: mientras que K define el punto de semisaturación (el canal está exactamente a la mitad de sus ingresos máximos cuando la inversión es igual a K), S interfiere en la forma de la curva de saturación (cuanto más alto sea su valor, más forma de S tendrá la curva). Es esencial conocer estimaciones precisas de K y S, ya que el nivel óptimo de inversión puede extraerse analíticamente de estos parámetros. De hecho, cuando no se tiene en cuenta ningún otro efecto, la inversión que produce el máximo rendimiento sobre la inversión (ROI) puede calcularse como

1

Ecuación 2. Derivación del nivel óptimo de inversión a partir de los parámetros de saturación

Obsérvese que esta inversión óptima existe para S>1 y que siempre está entre una y tres veces el valor de la semisatura K (se puede comprobar esto verificando los valores que puede asumir la raíz S).

Time-delay

El segundo efecto que hay que tener en cuenta es la distribución temporal de los ingresos, después de que se ejecuten algunas inversiones específicas del canal. En efecto, la inversión y los ingresos no se producen simultáneamente, y pueden pasar algunas semanas antes de que estos últimos sean significativos. Además, algunos canales de medios de comunicación están destinados a tener efectos más localizados, mientras que otros canales pueden mantener las inversiones durante más tiempo, generando así ingresos incluso después de períodos relativamente largos. Ambos aspectos pueden modelizarse a través de la ecuación de Adstock que figura a continuación, mediante los parámetros theta y alpha, respectivamente. El parámetro L no necesita ser específico para cada canal y sólo puede establecerse en un valor fijo que se sepa empíricamente que es suficientemente grande, como L=13 (como se sugiere en [1]). Una vez más, se invita al lector a centrarse en las figuras 2a y 2b en lugar de en la ecuación 3.

1

Ecuación 3. La ecuación de Adstock

1

Figura 2a. Barrido del parámetro theta (retardo del pico) de la función Adstock. Todas las curvas son el resultado de una única inversión realizada en lag=0 (lag puede indicar cualquier granularidad temporal que se haya elegido en la modelización). Cuanto mayor sea theta, más tiempo tardará en observarse el máximo ingreso, en relación con la inversión que lo ha provocado.

1

Figura 2b. Barrido del parámetro alfa (tasa de retención) de la función Adstock. Todas las curvas son el resultado de una única inversión realizada en lag=0 (el lag puede indicar cualquier granularidad temporal que se haya elegido en la modelización). Cuanto mayor es alfa, más deslocalizada está la distribución de los ingresos. Las curvas se han reescalado para una mejor comparación.

Ponerlo todo junto: la regresión de la mezcla de medios de comunicación

Una vez definidos ambos mapeos no lineales y sus respectivos parámetros, el modelo completo puede darse como sigue:

1

Ecuación 4. Ecuación de regresión del modelo de mezcla de medios

>Empecemos nuestro análisis desglosando la expresión anterior. La primera observación importante es que todas las características se agrupan en inversiones de marketing y variables externas (de control), siendo la diferencia más relevante que las transformaciones de Hill y Adstock se aplican exclusivamente a las primeras. Obsérvese, por tanto, que el impacto de las características de control se considera puramente lineal e inmediato, aunque los efectos de tendencia y estacionalidad pueden añadirse mediante características de retardo y estacionalidad, respectivamente. Las variables de control también pueden considerarse como el conjunto de factores ajenos al marketing que tienen un impacto en las ventas, incluidos los precios, las ventas de la competencia, etc. Además de los términos de regresión, también tenemos en cuenta un coeficiente lineal tau y un término de ruido epsilon.

>Cuando se incluye todo, esta formulación engendra 4 parámetros no lineales para cada característica de marketing. Dependiendo del alcance del MMM y de cómo se consideren específicamente todas las acciones de marketing, nuestro modelo puede requerir varias características de marketing diferentes, lo que hace que el número de parámetros no lineales sea bastante importante. La forma de tratarlos en la modelización implica diferentes estrategias posibles, como se discutirá a continuación.

¿Por qué/cuándo pasar a la tecnología bayesiana?

Los lectores más perspicaces habrán notado que la estadística bayesiana no se ha evocado ni una sola vez en las secciones anteriores. Esto nos lleva a preguntarnos: ¿por qué deberíamos preocuparnos por utilizar un enfoque bayesiano para ajustar este modelo, cuando se dispone de algunos datos de observación específicos?

Resulta que la respuesta está muy relacionada con el gran número de parámetros que hay que aproximar, un número que muy a menudo no se corresponde con la disponibilidad de datos para ajustar nuestro modelo. Echemos un vistazo a la matriz Experiencia x Disponibilidad de Datos que aparece a continuación:

1

Figura 4.Matriz de experiencia x disponibilidad de datos para el estudio de modelización de la mezcla de medios

A partir de esta matriz, debería quedar claro que la complejidad del problema que se va a abordar aquí depende de la siguiente pregunta: ¿formar parte de nuestra tarea es aproximar todos estos parámetros no lineales? Si no es así -es decir, si estos parámetros se conocen previamente-, entonces sólo deberían aparecer como transformaciones previas a los datos, que luego se ajustarán a un modelo de regresión lineal multivariante simple. Este es el caso ideal si se dispone de suficiente información/experiencia previa para establecer valores aproximados a estos parámetros, y estos valores simplemente no están a la altura de la validación por los datos.

Ni que decir tiene que el conocimiento absoluto del comportamiento de los canales entre todos los tipos de medios es una suposición bastante fuerte, y lo más probable es que a lo sumo se disponga de algunas pistas sobre estos parámetros para su modelización. Por lo tanto, los datos de observación también deben utilizarse para ajustar estos parámetros y comprender mejor los canales implicados. Si esto se combina con una baja disponibilidad de datos, resulta extremadamente conveniente -o incluso necesario- utilizar toda la información conocida previamente para garantizar un buen rendimiento del modelo.

El enfoque bayesiano es, por tanto, una forma de realizar una estimación completa de los parámetros (de regresión y no lineales), que permite introducir pistas en el modelo como conocimiento previo, para obtener el mejor rendimiento con datos limitados. Entremos ahora en los detalles de cómo se puede conseguir esto.

¿Cómo se hace para ser bayesiano?

El MMM bayesiano adapta un conjunto de distribuciones a priori (una para el valor de cada parámetro lineal o no lineal) a un conjunto de distribuciones posteriores. Esto se hace mediante la exposición a los datos (evidencia), y las distribuciones posteriores pueden considerarse como entendimientos revisados de cómo se comporta cada canal y contribuye a las ventas. En Python, esto puede implementarse con bibliotecas de modelización probabilística como PySTAN o PyMC3.

Obsérvese que esta estrategia abre un nuevo conjunto de entradas controlables, además de los datos de observación: las distribuciones a priori. De hecho, hay mucha flexibilidad en la elección de la distribución para cada parámetro y en la adaptación de sus momentos según cada canal, lo que dará lugar a un resultado diferente para los mismos datos de observación. Mientras que el artículo original de Google [1] informa de las distribuciones que, según se ha observado empíricamente, se comportan mejor para cada tipo de parámetro(K, S, alfa, theta y beta), aquí exploraremos cómo podemos adaptarlas aún más a cada canal individual de acuerdo con los conocimientos previos sobre su comportamiento.

Menos puede ser mejor

Antes de profundizar en las distribuciones a priori de cada parámetro, una estrategia potencialmente útil a tener en cuenta es verificar si no podemos descartar algunos de estos parámetros por completo. Esto no sólo nos ayudará a simplificar el modelo sino también (como resultado) a obtener un mejor rendimiento en datos limitados.

De hecho, aunque se ha demostrado que los mapeos no lineales se aplican a todas las características de marketing en la ecuación 4, también podría ser sensato descartar una o ambas transformaciones para algunas acciones específicas: por ejemplo, si estas características se extienden a las acciones comerciales y no sólo a los canales de comunicación, podría interesar incluir las inversiones en RPT (reducción temporal de precios) como una característica. Esto tiene un efecto inmediato obvio, ya que el aumento de las ventas se observa y desaparece prácticamente en el mismo momento en que se inicia la inversión (reducción de precios) y se agarra, respectivamente. Por lo tanto, podría no ser interesante utilizar la transformación Adstock para esta característica, que tiene la ventaja de reducir el número de parámetros que hay que estimar.

Another viable simplification can be implemented for channels whose investments are known to vary very little in time: in these cases, we are operating at only a very small section of the curves shown in Figure 1, where the relation between return and investment can be deemed approximately linear. Hence, we can discard the Hill function for these channels, as saturation will not play an important role. In more technical terms, this assumption is valid when dx<<K, where dx is some measure of historical variation on investment.

Creación de un arsenal previo

Una vez verificada la relevancia de todos los parámetros no lineales, el siguiente paso es comprender cómo sus antecedentes pueden aportar información. Hasta ahora, he utilizado a propósito el término "indicios", bastante vago desde el punto de vista técnico, para definir cualquier tipo de entrada del modelo que no sean datos de observación estructurados y en forma de tabla. Aquí veremos algunos ejemplos de lo que podrían ser y también llenaremos el vacío entre éstos y las distribuciones a priori reales que servirán de entrada para la inferencia bayesiana, llevando este conocimiento al modelo.

Tomemos primero el ejemplo del precio en relación con la competencia. Se trata de una variable externa que intrínsecamente tiene un fuerte impacto en las ventas, por lo que podría incluirse como elemento de control en el modelo MMM. Se podría argumentar fácilmente que cuanto más alto sea este precio relativo, más bajas serán las ventas. Esto es de sentido común para nosotros, pero deberíamos decirle explícitamente al modelo que sólo busque soluciones con impacto negativo. La forma en que lo hacemos es eligiendo que la distribución a priori del parámetro beta asociado al precio (véase la ecuación 4) sea una media normal negativa. Hacemos lo contrario para las características de impacto positivo (por ejemplo, si está modelando algunas ventas de bebidas refrescantes, la temperatura media semanal debería tener un impacto positivo). Tenga en cuenta que esto no es necesario: si no está muy seguro del impacto de una característica en la variable objetivo, puede alimentarla con una prioridad no informada (por ejemplo, la distribución normal estándar) y dejar que el modelo la aprenda por sí mismo.

Esto es sólo un ejemplo de cómo ajustar las distribuciones a priori para incluir el conocimiento cualitativo en el modelo. Otra posible información cualitativa puede provenir, por ejemplo, de la naturaleza de una acción de marketing específica (como en el ejemplo anterior de la TPR, si se decide no cortar el tiempo de retardo por completo, sino cambiar su distribución para concentrarse sólo en los retrasos muy cortos). El conocimiento previo cuantitativo, por otro lado, puede provenir de estudios previos o de estimaciones realizadas sobre el análisis de datos históricos. Por ejemplo, en el primer caso, la distribución de pesos de la regresión puede modificarse en función del valor del retorno de la inversión hallado en un estudio previo de MMM: el modelo puede buscar desde el principio valores más pequeños o más altos para los canales que se sabe que tienen un rendimiento menor o mayor; en el segundo caso, la suposición de que las inversiones históricas deberían ser más o menos del mismo orden que el nivel de inversión ideal puede dar lugar a conocimientos previos sobre el parámetro de saturación K de la ecuación 1: el modelo sabe así qué canales son mayores o menores en términos de alcance potencial.

La matriz que figura a continuación resume algunas estrategias clave que pueden considerarse para afinar las distribuciones previas, tanto cualitativas como cuantitativas. No se trata, ni mucho menos, de una lista exhaustiva, y la viabilidad de cada una de ellas puede variar en función del contexto y debe revisarse para cada estudio específico.

1

Figura 5. Ejemplo de una matriz de estrategias de ajuste a priori para un caso de uso de la modelización bayesiana de la mezcla de medios. Las estrategias deben variar según el ámbito de aplicación y los conocimientos actuales disponibles

Conclusión y conclusiones

Mientras que un estudio de modelización de la mezcla de medios requiere tratar el comportamiento de varias acciones de marketing diferentes, el enfoque bayesiano permite una estimación completa de éstas, junto con el aumento de las ventas para cada una de estas características, así como para los factores externos (características de control). Esto nos permite cosechar los datos observados disponibles para aprender estos comportamientos cuando no se conocen de antemano a través de alguna experiencia disponible o de estudios y pruebas pasadas específicas del canal. Sin embargo, esto tiene un coste, que se refleja sobre todo en la complejidad del modelo y la consiguiente necesidad de datos suficientes para lograr un buen rendimiento. Cuando no se satisface esta necesidad, el resultado clave es un modelo que puede sobreajustarse fácilmente a los datos observados dando parámetros que simplemente no son razonables.

En este artículo, hemos explorado una forma de remediar este efecto trabajando con conocimientos previos distintos de los datos observables, desde las conclusiones cuantitativas de estudios anteriores hasta la comprensión cualitativa del negocio sobre la naturaleza de alguna característica y su impacto en las ventas. Estos se incluyen adaptando las distribuciones previas de cada uno de los parámetros del modelo. Aunque desde un punto de vista pragmático esto puede entenderse como un sesgo del modelo, también es una forma de evitar el sobreajuste del modelo a patrones que sólo se observan debido a la limitada disponibilidad de los datos, centrándose en combinaciones que se acercan a lo que se conoce o al menos se espera que sea cierto. En otras palabras, la adaptación de las distribuciones es una forma de comprometerse entre el aprendizaje a partir de nuevos datos de observación y el respeto a los antiguos conocimientos empresariales, un compromiso que puede explorarse en varios niveles diferentes según lo que se disponga en un caso específico de modelización de la mezcla de medios.

Agradecimientos

Un agradecimiento especial a Camila C. Moreno, Rafael Melo, Rhayssa Sonohata, Vinicius Pacheco y Wedeueis Braz del equipo brasileño Artefact por la revisión de este artículo antes de su publicación.

Referencias

1

Blog de Medium por Artefact.

Este artículo fue publicado inicialmente en Medium.com.
¡Síganos en nuestro blog de Medium!

Lea nuestro artículo
Artefact Boletín de noticias

¿Interesado en Consultoría de Datos | Datos y Marketing Digital | Comercio Digital?
Lea nuestro boletín mensual para obtener consejos prácticos, ideas y casos de negocio de todos nuestros expertos en datos de todo el mundo.

Suscripción al boletín de noticias