Bayesian Media Mix Modeling with limited data

Autor

João Henrique Romeiro Alves

Data Cientista - Artefact Brasil

Leia nosso artigo sobre

Como estimar o impacto dos canais, mesmo quando não há nenhuma ligação rastreável entre uma venda e a ação de marketing que a gerou? O MMM é a solução, e as estatísticas são o principal recurso

Se o senhor já se deparou com problemas de Media Mix Modeling (MMM) em Marketing, deve saber que eles envolvem um conjunto completo de efeitos específicos do canal (atrasos, saturação e efeitos de longo prazo), cada um modelado por meio de pelo menos um parâmetro diferente. O senhor também deve estar ciente de que esse não é exatamente um contexto em que a abundância de variabilidade data e/ou data para treinar seu modelo é garantida. Nos MMMs clássicos, são necessárias suposições prévias sobre o comportamento do canal de mídia (ou seja, sobre os valores dos parâmetros mencionados acima) para avaliar a contribuição de cada canal para as vendas por meio de regressão linear. Uma alternativa poderosa para isso é a abordagem MMM bayesiana [1], que permite uma estimativa completa do comportamento do canal e do aumento das vendas por meio de distribuições anteriores e data. Isso significa evitar suposições incorretas e imutáveis caso não tenham sido realizados estudos anteriores específicos do canal. Não é preciso dizer que isso também torna o modelo muito mais complexo, e a inserção de todos os tipos de informações que possam ajudar a encontrar uma boa solução se torna crucial.

De fato, há um perigo inerente em permitir que um modelo tão complexo dependa puramente de data limitado para aprender: ao contrário da maioria das aplicações de problemas de regressão, um modelo MMM deve funcionar como uma ferramenta descritiva e não preditiva. Portanto, um bom ajuste ao data de treinamento e a generalização para data não visto são interessantes, mas não suficientes: ele também deve fornecer percepções corretas sobre o aumento histórico real das vendas, o retorno sobre o investimento (ROI) e a saturação para cada canal, a fim de garantir um resultado confiável para o planejamento de estratégias de marketing. Em outras palavras, o perigo está na existência de várias combinações de parâmetros que se ajustam corretamente ao data, já que nem todas elas fazem sentido real - pode-se argumentar que essa é apenas outra manifestação da Maldição da Dimensionalidade.

Mas o que significa para uma solução fazer “sentido real”? Uma resposta viável é que, embora o modelo deva ser livre para aprender novos padrões do data, seu resultado não deve divergir completamente do conhecimento comercial anterior que possa estar disponível. De fato, a capacidade de incluir essas informações como conhecimento prévio (para que possamos ajudar o modelo a encontrar uma combinação sensata de parâmetros) é apenas um dos aspectos versáteis e poderosos da solução bayesiana.>

Neste artigo, veremos como o conhecimento comercial qualitativo e quantitativo pode ser traduzido em distribuições prévias personalizadas que possibilitarão um MMM de bom desempenho, mesmo quando as informações por meio de data histórico estruturado forem escassas.

Uma visão geral da modelagem do mix de mídia

Antes de explorar como podemos colher distribuições de probabilidade para otimizar o desempenho do nosso modelo, vamos começar com algumas definições-chave para o próprio Media Mix Modeling. Em sua essência, o MMM baseia-se em uma regressão linear, em que a variável dependente é a meta de vendas e as variáveis independentes (recursos) são os investimento em diferentes ações de marketing, bem como variáveis de controle externo que também têm impacto sobre as vendas (preços, concorrência, sazonalidade etc.).

Há, no entanto, uma diferença crucial entre essa formulação e a de um modelo de regressão linear convencional: Os recursos de investimento em marketing também devem passar por um conjunto de transformações não lineares, cujo objetivo principal é representar os comportamentos esperados dos canais de mídia que não podem ser modelados por meio de mapeamentos lineares. Cada uma dessas transformações tem um subconjunto de parâmetros que controlam a intensidade geral e a natureza desses comportamentos. Há dois mapeamentos não lineares principais, saturação e atraso de tempo, que serão abordados brevemente a seguir.

Lista de verificação de transformações não lineares

Saturação

A saturação é um efeito muito conhecido nos canais de marketing, que se traduz em uma relação não linear entre o investimento e a receita gerada. Isso pode ser entendido como o efeito de anúncios sendo levados a usuários cada vez menos relevantes ou, alternativamente, devido ao aumento relativamente menor no alcance (novos usuários expostos) com cada dólar adicional investido. O efeito de saturação pode ser modelado por meio da equação de Hill mostrada abaixo. Como a expressão exata não é de interesse aqui, o leitor é convidado a se concentrar nas figuras 1a e 1b, que mostram o que acontece com a função Hill quando os valores de seus dois parâmetros são alterados.

Equação 1. A equação de Hill

Figura 1a. Varredura do parâmetro K (meia-saturação) da função Hill. A forma geral da curva é praticamente mantida, enquanto o ponto de meia saturação (onde Hill(x)=0,5) é deslocado. Em outras palavras, quanto maior for K, mais difícil será saturar o canal de mídia associado.

Figura 1b. Varrer o parâmetro S (forma) da função Hill. O ponto de meia saturação da curva é mantido, enquanto a inclinação em torno dele aumenta. Em outras palavras, quanto maior for S, maiores serão os ganhos marginais para investimentos em torno do ponto de meia saturação.

Conforme evidenciado acima, a equação de Hill tem dois parâmetros importantes: enquanto K define o ponto de meia-saturação (o canal está exatamente na metade de sua receita máxima quando o investimento é igual a K), S interfere na forma da curva de saturação (quanto maior o valor, mais em forma de S a curva se torna). Aprender estimativas precisas de K e S é essencial porque um nível de investimento ideal pode ser extraído analiticamente desses parâmetros. De fato, quando nenhum outro efeito é considerado, o investimento que produz o máximo de retorno sobre o investimento (ROI) pode ser calculado como:

Equação 2. Derivando o nível de investimento ideal dos parâmetros de saturação

Observe que esse investimento ideal existe para S>1 e que é sempre entre uma e três vezes o valor de meia-saturação K (o senhor pode verificar isso verificando os valores que o S-root pode assumir).

Atraso de tempo

O segundo efeito que deve ser considerado é a alocação de tempo da receita, após a execução de algum investimento específico do canal. De fato, o investimento e a receita não ocorrem simultaneamente, e pode levar algumas semanas até que o último se torne significativo. Além disso, alguns canais de mídia devem ter efeitos mais localizados, enquanto outros canais podem manter investimentos por períodos mais longos, gerando receita mesmo após períodos relativamente longos. Esses dois aspectos podem ser modelados por meio da equação de Adstock dada abaixo, pelos parâmetros theta e alpha, respectivamente. O L não precisa ser específico para cada canal e só pode ser definido como um valor fixo que seja empiricamente conhecido como suficientemente grande, como L=13 (conforme sugerido em [1]). Mais uma vez, o leitor é convidado a se concentrar nas Figuras 2a e 2b em vez da Equação 3.

Equação 3. A equação de Adstock

Figura 2a. Varredura do parâmetro theta (atraso de pico) da função Adstock. Todas as curvas são o resultado de um único investimento feito em lag=0 (lag pode indicar qualquer granularidade de tempo que tenha sido escolhida na modelagem). Quanto maior for theta, mais tempo será necessário para que a receita máxima seja observada, em relação ao investimento que a causou.

Figura 2b. Varredura do parâmetro alfa (taxa de retenção) da função Adstock. Todas as curvas são o resultado de um único investimento feito em lag=0 (lag pode indicar qualquer granularidade de tempo escolhida na modelagem). Quanto maior for alfa, mais deslocalizada será a distribuição da receita. As curvas foram redimensionadas para melhor comparação.

Juntando tudo: a regressão da modelagem do mix de mídia

Uma vez definidos os dois mapeamentos não lineares e seus respectivos parâmetros, o modelo completo pode ser apresentado da seguinte forma:

Equação 4. Equação de regressão de modelagem de mix de mídia

>Vamos começar nossa análise decompondo a expressão acima. A primeira observação importante é que todos os recursos são agrupados em investimentos em marketing e variáveis externas (de controle), sendo que a diferença mais relevante é que as transformações de Hill e Adstock são aplicadas exclusivamente às primeiras. Observe, portanto, que o impacto dos recursos de controle é considerado puramente linear e imediato, embora os efeitos de tendência e sazonalidade possam ser adicionados por meio de recursos de defasagem e sazonalidade, respectivamente. As variáveis de controle também podem ser consideradas como o conjunto de fatores externos ao Marketing que têm impacto sobre as vendas, incluindo preços, vendas da concorrência etc. Além dos termos de regressão, também levamos em conta um coeficiente linear tau e um termo de ruído epsilon.

>Quando tudo está incluído, essa formulação gera 4 parâmetros não lineares para cada característica de marketing. Dependendo do escopo do MMM e de como especificamente todas as ações de marketing são consideradas, nosso modelo pode exigir vários recursos de marketing diferentes, o que torna o número de parâmetros não lineares bastante importante. A maneira como esses parâmetros são tratados na modelagem implica em diferentes estratégias possíveis, como será discutido a seguir.

Por que/quando adotar a abordagem bayesiana?

Os leitores mais atentos devem ter notado que a estatística bayesiana não foi mencionada nenhuma vez nas seções anteriores. Isso levanta a questão: por que deveríamos nos preocupar em usar uma abordagem bayesiana para ajustar esse modelo, quando alguma observação específica data está disponível?

Acontece que a resposta está muito relacionada ao grande número de parâmetros que devem ser aproximados - um número que, muitas vezes, é deixado de lado pela disponibilidade do data para ajustar nosso modelo. Vamos dar uma olhada na matriz Expertise x Data Availability abaixo:

Figura 4.Expertise x Data Matriz de disponibilidade para o estudo de modelagem de mix de mídia

A partir dessa matriz, deve ficar claro que a complexidade do problema a ser abordado aqui depende da seguinte pergunta: a aproximação de todos esses parâmetros não lineares faz parte de nossa tarefa? Caso contrário, ou seja, se esses parâmetros forem previamente conhecidos, eles deverão aparecer apenas como pré-transformações para o data, que será então ajustado em um modelo de regressão linear multivariada simples. Esse é o caso ideal se houver informações/experiência anteriores suficientes disponíveis para definir valores aproximados para esses parâmetros, e esses valores simplesmente não são validados pelo data.

Não é preciso dizer que o conhecimento absoluto do comportamento do canal entre todos os tipos de mídia é uma suposição bastante forte, e as chances são de que, no máximo, algumas pistas sobre esses parâmetros estejam disponíveis para modelagem. Portanto, a observação do data também deve ser usada para ajustar esses parâmetros e entender melhor os canais envolvidos. Se isso for combinado com a baixa disponibilidade de data, torna-se extremamente conveniente - ou até mesmo necessário - usar todas as informações conhecidas anteriormente para garantir um bom desempenho do modelo.

A abordagem bayesiana é, portanto, uma maneira de realizar uma estimativa completa dos parâmetros (regressão e não linear), o que permite a entrada de pistas no modelo como conhecimento prévio, para obter o melhor desempenho com data limitado. Vamos nos aprofundar um pouco mais nos detalhes de como isso pode ser feito.

Como se tornar bayesiano?

O MMM bayesiano adapta um conjunto de distribuições prévias (uma para o valor de cada parâmetro linear ou não linear) em um conjunto de distribuições posteriores. Isso é feito pela exposição ao data (evidência), e as distribuições posteriores podem ser consideradas como entendimentos revisados de como cada canal se comporta e contribui para as vendas. No Python, isso pode ser implementado com bibliotecas de modelagem probabilística, como PySTAN ou PyMC3.

Observe que essa estratégia abre um novo conjunto de entradas controláveis, além da observação data: as distribuições prévias. De fato, há muita flexibilidade na escolha da distribuição para cada parâmetro e na adaptação de seus momentos de acordo com cada canal, o que resultará em um resultado diferente para a mesma observação data. Considerando que o artigo original do Google [1] reports que foram empiricamente observadas como tendo melhor desempenho para cada tipo de parâmetro (K, S, Aqui, exploraremos como podemos adaptá-los ainda mais a cada canal individual de acordo com o conhecimento prévio sobre seu comportamento.

Menos pode ser melhor

Antes de se aprofundar nas distribuições anteriores de cada parâmetro, uma estratégia potencialmente útil a ser lembrada é verificar se não podemos descartar alguns desses parâmetros por completo. Isso não só nos ajudará a simplificar o modelo, mas também (como resultado) a obter um melhor desempenho no data limitado.

Na verdade, embora os mapeamentos não lineares sejam aplicados a todos os recursos de Marketing na Equação 4, também pode ser sensato descartar uma ou ambas as transformações para algumas ações específicas: por exemplo, se esses recursos forem estendidos a ações comerciais e não apenas a canais de mídia, pode ser interessante incluir TPR (Redução temporária de preço) como um recurso. Isso tem um efeito imediato óbvio, já que o aumento das vendas é observado e eliminado praticamente no mesmo momento em que o investimento (redução de preço) começa e é apreendido, respectivamente. Portanto, pode não haver interesse em usar a transformação Adstock para esse recurso, que tem a vantagem de reduzir o número de parâmetros a serem estimados.

Outra simplificação viável pode ser implementada para canais cujos investimentos variam muito pouco no tempo: nesses casos, estamos operando em apenas uma seção muito pequena das curvas mostradas na Figura 1, onde a relação entre retorno e investimento pode ser considerada aproximadamente linear. Portanto, podemos descartar a função Hill para esses canais, pois a saturação não desempenhará um papel importante. Em termos mais técnicos, essa suposição é válida quando dx<<K, onde dx é alguma medida da variação histórica do investimento.

Configurando um arsenal prévio

Depois que a relevância de todos os parâmetros não lineares for verificada, a próxima etapa é entender como seus priores podem conter informações. Até agora, usei propositalmente o termo tecnicamente vago “pistas” para definir qualquer tipo de entrada de modelo que não seja estruturada, como uma tabela de observação data. Aqui, daremos uma olhada em alguns exemplos do que poderiam ser essas pistas e também preencheremos a lacuna entre elas e as distribuições prévias reais que servirão de entrada para a inferência bayesiana, levando esse conhecimento para o modelo.

Vejamos primeiro o exemplo do preço em relação à concorrência. Essa é uma variável externa que, inerentemente, tem um forte impacto sobre as vendas e, portanto, poderia ser incluída como um recurso de controle no modelo MMM. Poderíamos facilmente argumentar que quanto mais alto for esse preço relativo, menores serão as vendas. Para nós, isso é senso comum, mas devemos dizer explicitamente ao modelo que procure apenas soluções com impacto negativo. A maneira de fazer isso é escolher a distribuição prévia do parâmetro beta associado ao preço (consulte a Equação 4) como sendo uma meia normal negativa. Fazemos o oposto para os recursos de impacto positivo (por exemplo, se o senhor estiver modelando algumas vendas de bebidas refrescantes, a temperatura média semanal deve ter um impacto positivo). Observe que isso não é uma necessidade: se o senhor não tiver certeza do impacto de um recurso sobre a variável-alvo, pode fornecer a ele uma prévia não informada (por exemplo, a distribuição normal padrão) e deixar que o modelo aprenda sozinho.

Esse é apenas um exemplo de como ajustar as distribuições anteriores para incluir o conhecimento qualitativo no modelo. Algumas outras informações qualitativas possíveis podem vir, por exemplo, da natureza de uma ação de marketing específica (como no exemplo dado anteriormente para TPR, O conhecimento prévio quantitativo pode vir de estudos anteriores ou estimativas realizadas em análises históricas do data.) O conhecimento prévio quantitativo, por outro lado, pode vir de estudos ou estimativas anteriores realizados na análise histórica do data. Como exemplo do primeiro caso, a distribuição do peso da regressão pode ser deslocada de acordo com o ROI o modelo pode, então, procurar valores menores/maiores desde o início, para canais que são conhecidos por terem retornos menores/maiores; quanto ao último, a suposição de que os investimentos históricos devem ser aproximadamente da mesma ordem que o nível de investimento ideal pode levar a priors informados sobre o parâmetro de saturação K da Equação 1 - o modelo é, portanto, informado sobre quais canais são maiores ou menores em termos de alcance potencial.

A matriz abaixo resume algumas das principais estratégias que podem ser consideradas para ajustar as distribuições anteriores, tanto qualitativas quanto quantitativas. Essa não é, de forma alguma, uma lista exaustiva, e a viabilidade de cada uma delas pode variar dependendo do contexto e deve ser revisada para cada estudo específico.

Figura 5. Exemplo de uma matriz de estratégia de ajuste prévio para um caso de uso do Bayesian Media Mix Modeling. As estratégias devem variar de acordo com o escopo e o conhecimento atual disponível

Conclusão e conclusões

Considerando que um estudo de modelagem de mix de mídia exige lidar com o comportamento de várias ações de marketing diferentes, a abordagem bayesiana permite uma estimativa completa dessas ações, juntamente com o aumento de vendas para cada um desses recursos, bem como para fatores externos (recursos de controle). Isso nos permite colher o data observado disponível para aprender esses comportamentos quando eles não são conhecidos de antemão por meio de algum conhecimento especializado disponível ou de estudos e testes específicos de canais anteriores. No entanto, isso tem um custo, que se reflete principalmente na complexidade do modelo e na necessidade subsequente de data suficiente para obter um bom desempenho. Quando essa necessidade não é atendida, um dos principais resultados é um modelo que pode facilmente se ajustar demais ao data observado, fornecendo parâmetros que simplesmente não são razoáveis.

Neste artigo, exploramos uma maneira de remediar esse efeito trabalhando com conhecimento prévio que não seja o data observável, desde conclusões quantitativas em estudos anteriores até o entendimento comercial qualitativo da natureza e do impacto de algum recurso nas vendas. Esses conhecimentos são incluídos por meio da adaptação das distribuições prévias de cada um dos parâmetros do modelo. Em um ponto de vista pragmático, isso pode ser entendido como um viés do modelo, mas também é uma forma de evitar o ajuste excessivo do modelo a padrões que só são observados devido à disponibilidade limitada do data, concentrando-se em combinações próximas do que é conhecido ou, pelo menos, do que se espera que seja verdadeiro. Em outras palavras, adaptar as distribuições é uma forma de compromisso entre aprender com a nova observação do data e respeitar o conhecimento comercial antigo - um compromisso que pode ser explorado em vários níveis diferentes, de acordo com o que está disponível em um caso específico de Modelagem de Mix de Mídia.

Agradecimentos

Agradecimentos especiais a Camila C. Moreno, Rafael Melo, Rhayssa Sonohata, Vinicius Pacheco e Wedeueis Braz, do Instituto Brasileiro de Estudos do Patrimônio Histórico e Artístico. Artefact à equipe por revisar este artigo antes da publicação.