Encoding categorical features in forecasting: are we all doing it wrong?

Autor

Youssef Oudghiri

Data Científico en Artefact Francia

Proponemos un método novedoso para codificar características categóricas específicamente adaptado a las aplicaciones de previsión. En esencia, este enfoque codifica las características categóricas modelando la tendencia de las cantidades asociadas a cada categoría. En nuestros experimentos, este enfoque muestra ventajas sustanciales de rendimiento -tanto en términos de precisión de las previsiones como de sesgo-, ya que permite que los modelos de conjunto basados en árboles modelen y extrapolen mejor las tendencias.

Lea nuestro artículo sobre

Introducción

La motivación de este trabajo surgió de numerosos proyectos de previsión de clientes en Artefact en los que nuestros modelos boosting mostraban un elevado sesgo en el momento de la predicción. Mediante una fase de diagnóstico, identificamos que una de las principales fuentes de sesgo en los modelos de aprendizaje por conjuntos surgía de sus dificultades para modelizar con precisión las tendencias y los niveles fluctuantes.

A continuación, demostraremos por qué y cómo utilizamos un enfoque novedoso para codificar características categóricas. Basándonos en nuestros experimentos con un proyecto de previsión minorista de un cliente y varios conjuntos data públicos, demostramos que esta técnica puede mitigar eficazmente el sesgo y mejorar la precisión.

Impulso y tendencias, ¿por qué es complejo?

Los algoritmos de refuerzo tienen dificultades para extrapolar

Los algoritmos de refuerzo tienen dificultades para modelar y extrapolar tendencias, ya que no pueden predecir nuevos valores no vistos en el conjunto de entrenamiento / ausentes de las hojas. “Árbol lineal” intentan paliar este problema, sin embargo nuestras pruebas no arrojaron resultados concluyentes con este método.

Las codificaciones clásicas empujan hacia predicciones estáticas

Los métodos de codificación más comunes empleados en la potenciación promueven las relaciones estáticas entre las variables independientes y dependientes, lo que a su vez contribuye a aumentar el sesgo en presencia de tendencias. El diagrama siguiente ilustra este fenómeno:

Classical encodings push towards static predictions

Representación visual simplificada que destaca la naturaleza estática de la codificación de rasgos categóricos empleada en los algoritmos de refuerzo

Reconocemos que la representación anterior es una simplificación excesiva, ya que los árboles de decisión son más complejos y capaces de identificar relaciones no lineales basadas en múltiples factores. De hecho, la condición “el color es negro” podría asociarse con “el mes es junio”. En este caso, que el color sea negro no tendría el mismo impacto en todo momento. Pero veamos el panorama general:

Asignar un único impacto para el color negro en junio sigue sin ser lo ideal, ya que el impacto en junio de 2021 puede diferir del impacto en junio de 2022. Incluso si incluimos el año, primero el límite de decisión se volvería demasiado complejo de construir e identificar, pero además, ¿qué pasaría si la formación data finaliza en 2022 y hay que hacer predicciones para 2023?
La ingeniería de rasgos pretende ayudar al modelo a identificar relaciones más fácilmente. Si podemos ayudar al modelo a asociar el impacto de que el color sea negro en cualquier momento sin necesidad de identificar relaciones complejas, sería muy ventajoso para el modelo. De ahí que ...

Nuestro novedoso enfoque: Codificación dinámica de rasgos categóricos

Base de la codificación dinámica (v1 sin nivel de artículo)

En una frase, nuestro método de codificación de rasgos categóricos podría describirse así: modelamos el componente de tendencia de cada categoría y utilizamos estos valores de tendencia para codificar ese rasgo categórico.

El diagrama siguiente ilustra la diferencia entre una codificación de la media estática y una codificación basada en la tendencia para dos categorías de color: negro y dorado.

Base de la codificación dinámica (v1 sin nivel de artículo)

Ilustración que muestra el principio de codificación dinámica, que implica el modelado de tendencias para cada categoría

En nuestros experimentos, optamos por utilizar Prophet para extraer el componente de tendencia. Naturalmente, también es posible considerar otros modelos de previsión de series temporales.

Obsérvese que la codificación media estática implica que las ventas de artículos negros se sitúan en un nivel medio de 100 unidades/mes en cualquier momento. La codificación dinámica, en cambio, permite dar cuenta de la tendencia al alza observada en los artículos negros y es capaz de extrapolarla en el futuro. Se puede hacer una afirmación similar con respecto a las partidas de oro. Así pues, nuestro enfoque será especialmente útil en datasets en los que la variable objetivo a pronosticar sigue tendencias pronunciadas en las distintas categorías disponibles.

Nuestro objetivo principal es permitir que el modelo se adapte más fácilmente a las relaciones cambiantes entre las variables independientes y la variable dependiente que se desea pronosticar. Por lo tanto, este método de codificación dinámica también podría aplicarse a las características numéricas. Consideremos el ejemplo del precio. Aunque el precio es numérico y el modelo puede construir directamente reglas basadas en él, las preferencias de la gente por los artículos baratos o caros pueden evolucionar con el tiempo y seguir una tendencia de ventas específica. En el contexto de una crisis económica, por ejemplo, los productos asequibles podrían seguir una tendencia de ventas creciente, mientras que los caros podrían seguir una decreciente. Considerando lo ‘asequible’ como una categoría y lo ‘caro’ como otra, podríamos proponer una codificación dinámica para el rasgo precio, al igual que hicimos con los colores.

Es importante señalar que, en el caso de los rasgos numéricos, pueden utilizarse en el modelo tanto las variables de base como las codificadas dinámicamente, ya que proporcionarán distintos tipos de información.

Dar más importancia a las características dinámicas (v2 con nivel de artículo)

Aunque este nuevo método de codificación supone una mejora, a menudo la importancia de las características categóricas no es lo suficientemente alta como para influir significativamente en las predicciones cuando se examinan las importancias de las características. Para dar más importancia a los rasgos dinámicos y promover así un mejor modelado y extrapolación de tendencias, adaptamos los valores de codificación a cada serie temporal/artículo individualmente.

Fórmula que representa los dos componentes de la codificación dinámica: el nivel de categoría y el nivel de artículo

Volviendo a nuestro ejemplo del color, dados dos artículos negros diferentes, esto permite que la codificación dinámica de la categoría “negro” para cada artículo sea diferente en función de sus ventas pasadas individuales.

Table illustrating the calculation of dynamic encoding through a simple example

Tabla que ilustra el cálculo de la codificación dinámica a través de un ejemplo sencillo

Experimentos y resultados

Cliente dataset

Utilizamos nuestro método para prever las ventas de uno de nuestros clientes del sector minorista. Validamos a fondo nuestro método en una amplia gama de ámbitos para garantizar su eficacia. He aquí algunos puntos data relativos al contexto experimental:

Los experimentos se realizaron en 9 ámbitos de producto diferentes, con un modelo de refuerzo (LightGBM) para cada ámbito.
Para cada ámbito, se realizó una validación cruzada k-fold con una ventana expansiva (k=5).
Horizonte de previsión: Día+1 a Día+180.
El rendimiento se evaluó utilizando dos métricas:

En general, el método demostró ser muy eficaz, dando como resultado una disminución absoluta media del sesgo de 9,82% y un aumento absoluto medio de la precisión de las previsiones de 6,29%. en los 9 ámbitos de productos y los 5 pliegues de validación cruzada.

La siguiente sección valida la pertinencia de nuestro método probándolo en un dataset público.

Ventas en comercios públicos dataset

En este estudio de caso simplificado, utilizamos el Ventas en tienda - Previsión de series temporales Kaggle dataset. Este dataset muestra una tendencia pronunciada al examinar la serie temporal de ventas medias, lo que hace que nuestro método sea especialmente relevante. Además, el horizonte de predicción elegido es de tres meses, lo suficientemente lejano como para beneficiarse de las capacidades de extrapolación de la codificación dinámica. A efectos de demostración, limitamos el dataset al 31 de marzo de 2016, justo antes de que se produjera un terremoto que hizo que la curva de ventas se aplanara.

Antes de cualquier codificación, nuestro conjunto inicial de data comprende aproximadamente 75% de rasgos numéricos, que abarcan Retrasos, Medias móviles, Rasgos de calendario y Eventos festivos. Los 25% restantes consisten en atributos categóricos como familia de productos, número de tienda, ciudad y otros.

Se entrenan dos modelos distintos: uno emplea las características categóricas codificadas dinámicamente con nuestro método personalizado, mientras que el otro utiliza el manejo nativo de LightGBM de las características categóricas.

Al comparar su rendimiento, observamos una mejora significativa en el enfoque de codificación dinámica. La tabla siguiente ofrece un resumen de los resultados:

Comparison of RMSE, FA, and %Bias between LightGBM encoding method and dynamic encoding

Comparación de RMSE, FA y %Bias entre el método de codificación LightGBM y la codificación dinámica

Promedio de ventas semanales + predicciones a 3 meses (codificación dinámica frente al método de codificación LightGBM)

Como se representa en el gráfico anterior, el modelo que incorpora codificaciones dinámicas capta eficazmente la tendencia y la extrapola, mientras que el modelo alternativo tiene dificultades para lograrlo.

Uso y límites

Nuestro método resulta especialmente valioso en escenarios en los que las series temporales muestran tendencias pronunciadas y el horizonte de predicción es lo suficientemente distante como para beneficiarse de la extrapolación de tendencias. Además, al codificar e incorporar dinámicamente características más categóricas con predictivo significativo potencia en el modelo, el efecto logrado mediante nuestro enfoque en las predicciones aumenta. Sin embargo, es importante reconocer que otros métodos de codificación tienen sus propias ventajas y pueden ser más ventajosos en diferentes contextos. Además, existe la posibilidad de combinar ambos tipos de codificación para obtener resultados potencialmente mejores.

Conclusión

Las técnicas convencionales de codificación de rasgos categóricos no son ideales para la previsión, sobre todo cuando las series temporales muestran tendencias pronunciadas y el horizonte de previsión es lejano.
Nuestro método es una variación del apilamiento de modelos, ya que empleamos un modelo Prophet -que presume de capacidades superiores para modelar y extrapolar tendencias- para construir la codificación de los rasgos categóricos.
Nuestros experimentos demostraron las ventajas de reducir el sesgo y aumentar la precisión de las previsiones.

Tenemos previsto publicar un documento en los próximos meses, que incluirá todos los detalles de nuestro enfoque y aplicación. Permanezca atento ¡para más actualizaciones!

Medio Blog por Artefact.

Este artículo se publicó inicialmente en Medium.com.
¡Síganos en nuestro Medium Blog !

Lea nuestro artículo

Contáctenos

Codificación de rasgos categóricos en la previsión: ¿lo estamos haciendo todos mal?