Lea nuestro artículo sobre

.

¿Cómo estimar el impacto de los canales, incluso cuando no existe un vínculo rastreable entre una venta y la acción de marketing que la engendró? El MMM es la solución, y las estadísticas son el principal recurso

Si se ha encontrado antes con problemas de modelización de la mezcla de medios (MMM) en marketing, quizá sepa que éstos implican todo un conjunto de efectos específicos del canal (retrasos, saturación y efectos a largo plazo) que se modelizan cada uno a través de al menos un parámetro diferente. También puede que sepa que éste no es precisamente un contexto en el que esté garantizada la abundancia de variabilidad data y/o data para entrenar su modelo. En los MMM clásicos, se requieren suposiciones previas sobre el comportamiento de los canales de medios (es decir, sobre los valores de los parámetros mencionados) para evaluar la contribución de cada canal a las ventas mediante una regresión lineal. Una potente alternativa a esto es el enfoque bayesiano MMM [1], que permite una estimación integral tanto del comportamiento del canal como del aumento de las ventas mediante distribuciones a priori y data. Esto significa evitar suposiciones incorrectas e inmutables si no se han realizado estudios previos específicos del canal. Huelga decir que también hace que el modelo sea mucho más complejo, y la introducción de todo tipo de información que pueda ayudar a encontrar una buena solución se vuelve crucial.

De hecho, hay un peligro inherente en dejar que un modelo tan complejo dependa puramente de data limitados para aprender: al contrario que la mayoría de las aplicaciones de problemas de regresión, un modelo MMM debe funcionar como una herramienta descriptiva más que predictiva. Así pues, un buen ajuste a los data de entrenamiento y la generalización a los data no vistos son interesantes pero no suficientes: también debe proporcionar información correcta sobre el aumento histórico real de las ventas, el rendimiento sobre la inversión (ROI) y saturación para cada canal, con el fin de garantizar un resultado fiable para la planificación de estrategias de marketing. En otras palabras, el peligro reside en la existencia de varias combinaciones de parámetros que se ajustan correctamente al data, dado que no todas ellas tienen un sentido real - se podría argumentar que se trata de una manifestación más de la Maldición de la Dimensionalidad.

Pero, ¿qué significa que una solución tenga “sentido real”? Una respuesta viable es que, aunque el modelo debe tener libertad para aprender nuevos patrones a partir de data, su resultado no debe desviarse completamente del conocimiento previo de la empresa que pueda estar disponible. De hecho, poder incluir esta información como conocimiento previo (para poder ayudar al modelo a encontrar una combinación de parámetros sensata) es sólo uno de los aspectos versátiles y potentes de la solución bayesiana.>

En este artículo, echaremos un vistazo a cómo el conocimiento cualitativo y cuantitativo del negocio puede traducirse en distribuciones a priori a medida que harán posible un MMM de buen rendimiento incluso cuando la información a través de data históricos estructurados sea escasa.

Una visión general del modelado de la combinación de medios

Antes de explorar cómo podemos aprovechar las distribuciones de probabilidad para optimizar el rendimiento de nuestro modelo, empecemos con algunas definiciones clave del propio Modelo de Mezcla de Medios. En su esencia, el MMM se basa en una regresión lineal, donde la variable dependiente es la objetivo de ventas y las variables independientes (características) son las inversión en diferentes acciones de Marketing, así como variables de control externo que también influyen en las ventas (precios, competencia, estacionalidad, etc.).

No obstante, existe una diferencia crucial entre esta formulación y la de un modelo de regresión lineal convencional: Las características de la inversión en marketing también deben pasar por un conjunto de transformaciones no lineales, cuyo objetivo principal es representar los comportamientos esperados de los canales de los medios de comunicación que no pueden modelarse mediante mapeados lineales. Cada una de estas transformaciones lleva un subconjunto de parámetros que controlan la intensidad general y la naturaleza de estos comportamientos. Existen dos mapeos no lineales principales, la saturación y el retardo temporal, que se tratarán brevemente a continuación.

Lista de comprobación de transformaciones no lineales

Saturación

La saturación es un efecto muy conocido en los canales de marketing, que se traduce en una relación no lineal entre la inversión y los ingresos que genera. Puede entenderse como el efecto de que los anuncios lleguen a usuarios cada vez menos relevantes o, alternativamente, debido al aumento relativamente menor del alcance (nuevos usuarios expuestos) con cada dólar adicional invertido. El efecto de saturación puede modelizarse mediante la ecuación de Hill que se representa a continuación. Como la expresión exacta no es del todo de interés aquí, se invita al lector a centrarse en su lugar en las figuras 1a y 1b, que muestran lo que le ocurre a la función de Hill cuando se barren los valores de sus dos parámetros.

 Media Mix Modeling

Ecuación 1. La ecuación de Hill

 Media Mix Modeling

Figura 1a. Barrido del parámetro K (semisaturación) de la función de Hill. La forma general de la curva se mantiene aproximadamente mientras que el punto de media saturación (donde Hill(x)=0,5) se desplaza. En otras palabras, cuanto mayor sea K, más difícil será saturar el canal de medios asociado.

 Media Mix Modeling

Figura 1b. Barrido del parámetro S (forma) de la función Hill. El punto de semisaturación de la curva se mantiene mientras que la pendiente a su alrededor aumenta. En otras palabras, cuanto mayor sea S, mayores serán las ganancias marginales de las inversiones en torno al punto de semisaturación.

Como se ha puesto de manifiesto anteriormente, la ecuación de Hill contiene dos parámetros importantes: mientras que K define el punto de semisaturación (el canal se encuentra exactamente a la mitad de sus ingresos máximos cuando la inversión es igual a K), S interfiere en la forma de la curva de saturación (cuanto mayor sea su valor, más forma de S tendrá la curva). Aprender estimaciones precisas para K y S es esencial porque un nivel óptimo de inversión puede extraerse analíticamente de estos parámetros. De hecho, cuando no se tiene en cuenta ningún otro efecto, la inversión que produce el máximo rendimiento sobre la inversión (ROI) puede calcularse como:

Ecuación 2. Derivación del nivel óptimo de inversión a partir de los parámetros de saturación

Observe que esta inversión óptima existe para S>1 y que es siempre entre una y tres veces el valor de semisaturación K (puede comprobarlo verificando los valores que puede asumir la raíz S).

Retraso

El segundo efecto que debe tenerse en cuenta es la asignación temporal de los ingresos, después de que se ejecute alguna inversión específica del canal. En efecto, las inversiones y los ingresos no se producen simultáneamente y pueden pasar algunas semanas antes de que estos últimos sean significativos. Además, algunos canales de medios de comunicación están destinados a tener efectos más localizados, mientras que otros canales pueden mantener las inversiones durante periodos más largos, generando así ingresos incluso después de periodos de tiempo relativamente largos. Estos dos aspectos pueden modelizarse a través de la ecuación de Adstock que figura a continuación, mediante los parámetros theta y alpha respectivamente. El L no necesita ser específico para cada canal y sólo puede establecerse en un valor fijo que se sepa empíricamente que es suficientemente grande, como por ejemplo L=13 (como se sugiere en [1]). Una vez más, se invita al lector a centrarse en las figuras 2a y 2b en lugar de en la ecuación 3.

Ecuación 3. La ecuación de Adstock

Figura 2a. Barrido del parámetro theta (retardo del pico) de la función Adstock. Todas las curvas son el resultado de una única inversión realizada en lag=0 (lag puede indicar cualquier granularidad temporal que se haya elegido en la modelización). Cuanto mayor sea theta, más tiempo tardará en observarse el ingreso máximo en relación con la inversión que lo provocó.

Figura 2b. Barrido del parámetro alfa (tasa de retención) de la función Adstock. Todas las curvas son el resultado de una única inversión realizada en lag=0 (lag puede indicar cualquier granularidad temporal que se haya elegido en la modelización). Cuanto mayor es alfa, más deslocalizada está la distribución de los ingresos. Las curvas se reescalaron para una mejor comparación.

Ponerlo todo junto: la regresión del modelado de la mezcla de medios de comunicación

Una vez definidos ambos mapeados no lineales y sus respectivos parámetros, el modelo completo puede darse como sigue:

Ecuación 4. Ecuación de regresión del modelado de la combinación de medios

>Iniciemos nuestro análisis desglosando la expresión anterior. La primera observación importante es que todas las características se agrupan en inversiones de marketing y variables externas (de control), siendo la diferencia más relevante que las transformaciones de Hill y Adstock se aplican exclusivamente a las primeras. Obsérvese, por tanto, que el impacto de las características de control se considera puramente lineal e inmediato, aunque puedan añadirse efectos de tendencia y estacionalidad mediante características de desfase y estacionalidad, respectivamente. Las variables de control también pueden considerarse como el conjunto de factores ajenos al marketing que tienen un impacto en las ventas, incluidos los precios, las ventas de la competencia, etc. Además de los términos de regresión, también tenemos en cuenta un coeficiente lineal tau y un término de ruido epsilon.

>Cuando se incluye todo, esta formulación engendra 4 parámetros no lineales para cada característica de marketing. Dependiendo del alcance del MMM y de cómo se consideren específicamente todas las acciones de marketing, nuestro modelo puede requerir varias características de marketing diferentes, lo que hace que el número de parámetros no lineales sea bastante importante. La forma en que éstos se traten en la modelización implica diferentes estrategias posibles, como se discutirá a continuación.

¿Por qué/Cuándo pasarse al bayesiano?

Los lectores más perspicaces habrán notado que la estadística bayesiana no se ha evocado ni una sola vez en las secciones anteriores. Esto nos lleva a preguntarnos: ¿por qué deberíamos preocuparnos por utilizar un enfoque bayesiano para ajustar este modelo, cuando se dispone de alguna observación específica data?

Resulta que la respuesta está muy relacionada con el gran número de parámetros que hay que aproximar, un número que muy a menudo queda desbordado por la disponibilidad data para ajustar nuestro modelo. Echemos un vistazo a la matriz Experiencia x Disponibilidad Data que figura a continuación:

Figura 4.Peritaje x Data Matriz de disponibilidad para el estudio de modelización de la combinación de medios de comunicación

A partir de esta matriz, debería quedar claro que la complejidad del problema a abordar aquí depende de la siguiente pregunta: ¿forma parte de nuestra tarea la aproximación de todos estos parámetros no lineales? Si no es así, es decir, si estos parámetros se conocen previamente, entonces sólo deberían aparecer como pretransformaciones de la data, que luego se ajustarán a un modelo de regresión lineal multivariante simple. Este es el caso ideal si se dispone de suficiente información/experiencia previa para establecer valores aproximados a estos parámetros, y estos valores simplemente no están a la altura de la validación por el data.

Ni que decir tiene que el conocimiento absoluto del comportamiento de los canales entre todos los tipos de medios es una suposición bastante fuerte, y lo más probable es que como mucho se disponga de algunas pistas sobre estos parámetros para su modelización. Por lo tanto, la observación data también debe utilizarse para ajustar estos parámetros y comprender mejor los canales implicados. Si esto se combina con una baja disponibilidad de data, resulta extremadamente conveniente -o incluso necesario- utilizar toda la información conocida previamente para garantizar un buen rendimiento del modelo.

El enfoque bayesiano es, por tanto, una forma de realizar una estimación de los parámetros (de regresión y no lineales) todo en uno, que permite introducir pistas en el modelo como conocimiento previo, para obtener el mejor rendimiento con un data limitado. Entremos ahora un poco más en los detalles sobre cómo puede lograrse esto.

¿Cómo hacerse bayesiano?

El MMM bayesiano adapta un conjunto de distribuciones a priori (una para el valor de cada parámetro lineal o no lineal) en un conjunto de distribuciones a posteriori. Las distribuciones posteriores pueden considerarse como interpretaciones revisadas de cómo se comporta cada canal y cómo contribuye a las ventas. En Python, esto puede implementarse con bibliotecas de modelado probabilístico como PySTAN o PyMC3.

Observe que esta estrategia abre un nuevo conjunto de entradas controlables, aparte de la observación data: las distribuciones a priori. En efecto, existe una gran flexibilidad en la elección de la distribución para cada parámetro y en la adaptación de sus momentos en función de cada canal, lo que dará lugar a una salida diferente para la misma observación data. Mientras que el artículo original de Google [1] distribuciones reports que se observó empíricamente que funcionaban mejor para cada tipo de parámetro (KS, alfa, theta y beta), aquí exploraremos cómo podemos adaptarlos aún más a cada canal individual según los conocimientos previos sobre su comportamiento.

Menos puede ser mejor

Antes de ahondar en las distribuciones a priori para cada parámetro, una estrategia potencialmente útil a tener en cuenta es verificar si no podemos descartar algunos de estos parámetros por completo. Esto no sólo nos ayudará a simplificar el modelo, sino también (como resultado) a obtener un mejor rendimiento en el data limitado.

De hecho, aunque se demuestre que las transformaciones no lineales se aplican a todos los rasgos de Marketing en la ecuación 4, también podría ser sensato descartar una o ambas transformaciones para algunas acciones específicas: por ejemplo, si estos rasgos se extienden a las acciones comerciales y no sólo a los canales de los medios de comunicación, uno podría estar interesado en incluir TPR (Reducción temporal de precios) inversiones como característica. Esto tiene un efecto inmediato obvio, ya que el aumento de las ventas se observa y desaparece prácticamente en el mismo momento en que la inversión (reducción de precios) se inicia y se paraliza, respectivamente. Por lo tanto, puede que no interese utilizar la transformación Adstock para esta característica, que tiene la ventaja de reducir el número de parámetros que hay que estimar.

Otra simplificación viable puede aplicarse a los canales cuyas inversiones se sabe que varían muy poco en el tiempo: en estos casos, sólo operamos en una sección muy pequeña de las curvas que se muestran en la figura 1, donde la relación entre rendimiento e inversión puede considerarse aproximadamente lineal. Por lo tanto, podemos descartar la función de Hill para estos canales, ya que la saturación no desempeñará un papel importante. En términos más técnicos, esta suposición es válida cuando dx<<K, donde dx es alguna medida de la variación histórica de la inversión.

Establecer un arsenal previo

Una vez verificada la relevancia de todos los parámetros no lineales, el siguiente paso consiste en comprender cómo sus priores pueden aportar información. Hasta ahora, he utilizado a propósito el término “indicios”, bastante vago desde el punto de vista técnico, para definir cualquier tipo de entrada del modelo que no sea una observación estructurada, en forma de tabla data. Aquí echaremos un vistazo a algunos ejemplos sobre lo que podrían ser y también llenaremos el vacío entre éstas y las distribuciones a priori reales que servirán de entrada para la inferencia bayesiana, llevando este conocimiento al modelo.

Tomemos primero el ejemplo del precio en relación con la competencia. Se trata de una variable externa que intrínsecamente tiene un fuerte impacto en las ventas, por lo que podría incluirse como elemento de control en el modelo MMM. Se podría argumentar fácilmente que cuanto mayor sea este precio relativo, menores serán las ventas. Esto nos parece de sentido común, pero deberíamos decirle explícitamente al modelo que sólo busque soluciones con un impacto negativo. La forma en que lo hacemos es eligiendo que la distribución a priori para el parámetro beta asociado al precio (véase la ecuación 4) sea una media normal negativa. Hacemos lo contrario para las características de impacto positivo (por ejemplo, si está modelando unas ventas de bebidas refrescantes, la temperatura media semanal debería tener un impacto positivo). Tenga en cuenta que esto no es una necesidad: si no está muy seguro del impacto de una característica en la variable objetivo, puede alimentarla con una a priori no informada (por ejemplo, la distribución normal estándar) y dejar que el modelo la aprenda por sí mismo.

Éste es sólo un ejemplo de cómo afinar las distribuciones a priori para incluir conocimientos cualitativos en el modelo. Otra posible información cualitativa puede proceder, por ejemplo, de la naturaleza de una acción de marketing específica (como en el ejemplo anterior de TPR, si se decidiera no recortar del todo el tiempo de retardo sino desplazar su distribución para concentrarse sólo en los retardos muy cortos). Los conocimientos previos cuantitativos, por su parte, pueden proceder de estudios anteriores o de estimaciones realizadas sobre análisis históricos data. Como ejemplo de lo primero, la distribución del peso de la regresión puede desplazarse según el ROI valor que se encontró en un estudio MMM anterior - el modelo puede entonces buscar valores más pequeños/superiores desde el principio, para los canales que se sabe que tienen rendimientos más pequeños/grandes; en cuanto a esto último, la suposición de que las inversiones históricas deberían estar más o menos en el mismo orden que el nivel de inversión ideal puede conducir a priors informadas sobre el parámetro de saturación K de la ecuación 1 - el modelo está, por tanto, informado de qué canales son mayores o menores en términos de alcance potencial.

La matriz que figura a continuación resume algunas estrategias clave que pueden considerarse para afinar las distribuciones a priori, tanto cualitativas como cuantitativas. No se trata, ni mucho menos, de una lista exhaustiva, y la viabilidad de cada una puede variar en función del contexto y debe revisarse para cada estudio específico.

Figura 5. Ejemplo de matriz de estrategias de ajuste a priori para un caso de uso de la modelización bayesiana de la combinación de medios. Las estrategias deben variar en función del alcance y de los conocimientos actuales disponibles

Conclusión y conclusiones

Mientras que un estudio de modelización de la mezcla de medios requiere tratar con el comportamiento de varias acciones de marketing diferentes, el enfoque bayesiano permite una estimación global de éstas, junto con el aumento de las ventas para cada una de estas características, así como para los factores externos (características de control). Esto nos permite cosechar los data observados disponibles para aprender estos comportamientos cuando no se conocen de antemano a través de alguna experiencia disponible o de estudios y pruebas pasados específicos del canal. Sin embargo, esto tiene un coste, que se refleja sobre todo en la complejidad del modelo y la consiguiente necesidad de un número suficiente de data para lograr un buen rendimiento. Cuando no se satisface esta necesidad, un resultado clave es un modelo que puede fácilmente sobreajustarse a la data observada dando parámetros que simplemente no son razonables.

En este artículo, hemos explorado una forma de remediar este efecto trabajando con conocimientos previos distintos de los data observables, desde las conclusiones cuantitativas de estudios anteriores hasta la comprensión cualitativa de las empresas sobre la naturaleza de alguna característica y su impacto en las ventas. Estos se incluyen adaptando las distribuciones a priori de cada uno de los parámetros del modelo. Mientras que desde un punto de vista pragmático esto puede entenderse como sesgar el modelo, también es una forma de evitar el sobreajuste del modelo a patrones que sólo se observan debido a la limitada disponibilidad del data, centrándose en combinaciones que se aproximan a lo que se conoce o al menos se espera que sea cierto. En otras palabras, adaptar las distribuciones es una forma de llegar a un compromiso entre el aprendizaje a partir de una nueva observación data y el respeto de los antiguos conocimientos empresariales, un compromiso que puede explorarse en varios niveles diferentes en función de lo que se disponga en un caso específico de modelización de la mezcla de medios.

Agradecimientos

Un agradecimiento especial a Camila C. Moreno, Rafael Melo, Rhayssa Sonohata, Vinicius Pacheco y Wedeueis Braz, de la brasileña Artefact equipo por revisar este artículo antes de su publicación.

Referencias

Medio Blog por Artefact.

Este artículo se publicó inicialmente en Medium.com.
¡Síganos en nuestro Medium Blog !