Un algoritmo para generar sucesos raros sintéticos de todo tipo
Una aplicación común de Inteligencia Artificial es asignar una probabilidad, o puntuación, a personas o eventos de interés. Este problema de puntuación se aplica a muchas áreas, como la detección de enfermedades, el mantenimiento predictivo en fábricas, la propensión de los visitantes en línea a realizar compras o el riesgo de perder abonados. En estas situaciones, los eventos de interés son muy superiores al total de data disponibles. Este desequilibrio hace que el entrenamiento de los modelos de aprendizaje automático sea especialmente complejo, ya que tienden a centrarse en la mayoría de los casos e ignoran o subestiman los casos raros, lo que plantea múltiples problemas operativos si se despliega AI . Existen algunos algoritmos, pero no están adaptados a los data categóricos y, por lo general, no consiguen mejorar la precisión del modelo final.
Para hacer frente a este reto, el research center deArtefact propuso un nuevo método de reequilibrio para data tabularesteniendo en cuenta tanto las variables numéricas como las categóricas. Probado con data de código abiertoeste método muestra mejoras significativas en términos de rendimiento, al tiempo que mantiene la coherencia, verosimilitud e interpretabilidad de los data, un aspecto a menudo pasado por alto por los métodos existentes. El reequilibrio de Data requiere la creación de ejemplos ficticios, que corren el riesgo de ser inverosímiles, como perfiles de clientes que no existen. Este riesgo tiene un impacto directo en la adopción de Inteligencia Artificial en los casos en que los analistas deben validar manualmente los ejemplos más probables preseleccionados por el modelo. Artefact resuelve este problema creando únicamente data plausibles durante el reequilibrio, lo que facilita su adopción por parte de las empresas.

Una asociación de investigación llave en mano con aplicaciones para casos de uso de Societe Generale
Este trabajo es el resultado de una colaboración a tres bandas entre el Research CenterArtefact , el Laboratorio de Probabilidad, Estadística y Modelización de la Universidad de la Sorbona (LPSM) y Societe Generale. Esta colaboración ha permitido definir un tema de investigación de tres años de duración que establece un equilibrio entre los retos estadísticos e informáticos y los problemas concretos a los que se enfrentan los equipos empresariales y para los que no existen soluciones de vanguardia. En efecto, en el caso de esta aplicación, varios expertos comerciales habían señalado el problema de la incoherencia de los perfiles bancarios generados por los enfoques existentes, lo que limitaba su adopción de una herramienta AI, planteando así el reto de mantener sugerencias plausibles durante el algoritmo de reequilibrio.
Gracias a esta colaboración, los investigadores de Artefact y la Universidad de la Sorbona pudieron probar sus métodos con data bancarios reales, lo que validó la precisión estadística del algoritmo propuesto. Además, un elemento único a la hora de probar el rendimiento del método propuesto fue el escalado a millones de puntos de data para ser procesados en un tiempo razonable, superando así el tamaño de los conjuntos de datos de código abierto equivalentes. El código es de código abierto y la metodología se explica detalladamente en el artículo científico, lo que permite al mayor número posible de personas utilizar el método para otros casos de uso de la puntuación.
Etienne GUIBOUT, Director de AI del Grupo Societe Generale, explica:
"Esta colaboración permite a Societe Generale acceder a los conocimientos complementarios del mundo académico. Promueve la innovación incorporando una variedad de perspectivas destinadas a identificar soluciones cada vez más adaptadas a nuestros problemas. La aceptación en una conferencia de nivel A es una marca de calidad para los equipos de Societe Generale. Demuestra el reconocimiento del impacto del trabajo llevado a cabo por compañeros y expertos del sector. Participar en este tipo de eventos nos permite compartir nuestras investigaciones, sin dejar de formar parte del ecosistema. Los equipos de negocio de Societe Generale, en particular los de cumplimiento, han participado en la elaboración de este artículo. Su experiencia en el sector y sus comentarios confirmaron la pertinencia y aplicabilidad del contenido presentado. Esta colaboración interdisciplinar garantiza que el artículo refleje la realidad del mercado y responda ante todo a nuestras necesidades y a las de nuestros clientes."
Emmanuel Malherbe, Director delResearch Center Artefact :
"Se trata de una asociación ideal para nuestro research center, que ilustra a la perfección nuestra visión de la investigación aplicada, útil y compartida. El aprendizaje automático es un campo que siempre empieza con data y un problema real. Gracias a esta colaboración, hemos podido centrarnos en la cuestión mal resuelta de la puntuación en data tabulares desequilibrados, que sin embargo es un problema recurrente en las empresas y plantea muchas cuestiones estadísticas. Poder probar y validar el enfoque en data reales también fue clave para lograr un algoritmo rápido, eficiente y preciso."
Enlace al artículo científico y al código del algoritmo:
- Abdoulaye Sakho, Emmanuel Malherbe, Carl-Erik Gauthier y Erwan Scornet.
"Harnessing Mixed Features for Imbalance Data Oversampling: Application to Bank Customers Scoring". En Conferencia europea conjunta sobre aprendizaje automático y descubrimiento de conocimientos en bases de datos (2025) - https://github.com/artefactory/mgs-grf
El research center Artefact, puente entre el mundo académico y la industria
Somos un equipo de 20 científicos investigadores que trabajan en los campos del aprendizaje automático, la informática y las ciencias de la gestión. Nos dedicamos a mejorar los modelos de AI , ya sea haciéndolos más interpretables y controlables o estudiando su uso dentro de las empresas. Todo nuestro trabajo es de código abierto, con presentaciones en conferencias internacionales revisadas por pares, publicaciones científicas, libros blancos y código disponible libremente. Colaboramos estrechamente con profesores universitarios de renombre. Nuestra filosofía es tender puentes entre la industria y el mundo académico. Nuestras áreas de investigación se inspiran en problemas del mundo real encontrados en los proyectos Artefact con nuestros clientes, y estamos continuamente creando asociaciones industriales para probar nuestras metodologías en casos de uso y conjuntos de datos reales.

Un ejemplo crucial se refiere a la explicabilidad de los modelos estadísticos. La adopción de modelos de aprendizaje automático se ve obstaculizada en muchos casos de uso por la naturaleza de "caja negra" de ciertos modelos, o dicho de otro modo, por su falta de transparencia y comprensibilidad. Por tanto, es necesario proponer modelos más transparentes, minimizando al mismo tiempo la degradación asociada en el rendimiento predictivo. A través de las soluciones que propone, el research center mejora la adopción de AI ofreciendo las garantías deseadas por la industria.

BLOG






