Un algoritmo para generar eventos raros sintéticos de todo tipo

Una aplicación habitual de Inteligencia Artificial en asignar una probabilidad, o puntuación, a personas o acontecimientos de interés. Este problema de puntuación se aplica a muchos ámbitos, como la detección de enfermedades, el mantenimiento predictivo en fábricas, la propensión de los visitantes en línea a realizar compras o el riesgo de perder suscriptores. En estas situaciones, los eventos de interés son muy inferiores en número al total data disponibles. Este desequilibrio hace que el entrenamiento de los modelos de aprendizaje automático sea especialmente complejo, ya que tienden a centrarse en la mayoría de los casos e ignoran o subestiman los casos poco frecuentes, lo que plantea múltiples problemas operativos si AI implementa AI . Existen algunos algoritmos, pero no son adecuados para data categóricos y, por lo general, no logran mejorar la precisión del modelo final.

Para hacer frente a este reto, research centerArtefact propuso un nuevo método de reequilibrio para data tabulares, teniendo en cuenta tanto las variables numéricas como las categóricas. Probado con data de código abierto, este enfoque muestra mejoras significativas en términos de rendimiento, al tiempo que mantiene la coherencia, la plausibilidad y la interpretabilidad de los data, un aspecto que los métodos existentes suelen pasar por alto. Data requiere la creación de ejemplos ficticios, que corren el riesgo de ser inverosímiles, como perfiles de clientes que no existen. Este riesgo tiene un impacto directo en la adopción de Inteligencia Artificial los casos en que los analistas deben validar manualmente los ejemplos más probables preseleccionados por el modelo. Artefact este problema creando únicamente data verosímiles data el reequilibrio, lo que facilita su adopción por parte de las empresas.

 

Una colaboración de investigación «llave en mano» con aplicaciones para los casos de uso de Société Générale

Este trabajo es el resultado de una colaboración a tres bandas entre el Artefact Research Center, el Laboratorio de Probabilidad, Estadística y Modelización (LPSM) de la Universidad de la Sorbona y Société Générale. La colaboración permitió definir un tema de investigación de tres años que logra un equilibrio entre los retos estadísticos y de TI y los problemas concretos a los que se enfrentan los equipos empresariales, para los que no existen soluciones de vanguardia. De hecho, en el caso de esta aplicación, varios expertos en ventas habían señalado el problema de la inconsistencia en los perfiles bancarios generados por los enfoques existentes, lo que limitaba su adopción de una herramienta AI, planteando así el reto de mantener sugerencias plausibles durante el algoritmo de reequilibrio.

Gracias a esta colaboración, los investigadores de Artefact de la Universidad de la Sorbona pudieron poner a prueba sus enfoques con data bancarios reales, lo que validó la precisión estadística del algoritmo propuesto. Además, un aspecto singular a la hora de evaluar el rendimiento del método propuesto fue la ampliación a millones de data que debían procesarse en un plazo de tiempo razonable, superando así el volumen de conjuntos de datos de código abierto equivalentes. El código es de código abierto y la metodología se explica en detalle en el artículo científico, lo que permite que el mayor número posible de personas utilice el enfoque para otros casos de uso de puntuación.

Etienne GUIBOUT, AI del Grupo Société Générale, explica:

«Esta colaboración permite a Société Générale acceder a conocimientos especializados complementarios del mundo académico. Fomenta la innovación al incorporar una variedad de perspectivas destinadas a identificar soluciones cada vez más adaptadas a nuestros problemas. La aceptación en una conferencia de primer nivel es un sello de calidad para los equipos de Société Générale. Demuestra el reconocimiento del impacto del trabajo realizado por compañeros y expertos del sector. Participar en este tipo de eventos nos permite compartir nuestra investigación, sin dejar de formar parte del ecosistema. Los equipos de negocio de Société Générale, en particular el de cumplimiento normativo, participaron en la elaboración de este artículo. Su experiencia en el sector y sus comentarios confirmaron la relevancia y la aplicabilidad del contenido presentado. Esta colaboración interdisciplinar garantiza que el artículo refleje las realidades del mercado y responda, ante todo, a nuestras necesidades y a las de nuestros clientes».

Emmanuel Malherbe, director delResearch Center Artefact :

«Esta es una colaboración ideal para nuestro research center, ya que ilustra a la perfección nuestra visión de la investigación aplicada, útil y compartida. El aprendizaje automático es un campo que siempre parte de data de un problema real. Gracias a esta colaboración, hemos podido centrarnos en la cuestión, aún sin resolver, de la puntuación en data tabulares desequilibrados, que, sin embargo, es un problema recurrente en el ámbito empresarial y plantea muchas cuestiones estadísticas. Poder probar y validar el enfoque con data reales también data clave para lograr un algoritmo rápido, eficiente y preciso».

Enlace al artículo científico y al código del algoritmo:

research center Artefact research center puente entre el mundo académico y la industria

Somos un equipo de 20 investigadores que trabajamos en los campos del aprendizaje automático, la informática y las ciencias de la gestión. Nos dedicamos a mejorar AI , ya sea haciéndolos más interpretables y controlables o estudiando su uso en las empresas. Todo nuestro trabajo es de código abierto, con presentaciones en congresos internacionales revisados por pares, publicaciones científicas, libros blancos y código disponible gratuitamente. Colaboramos estrechamente con profesores universitarios de renombre. Nuestra filosofía es tender puentes entre la industria y el mundo académico. Nuestras áreas de investigación se inspiran en problemas del mundo real que surgen en Artefact con nuestros clientes, y estamos creando continuamente alianzas industriales para poner a prueba nuestras metodologías en casos de uso y conjuntos de datos reales.

 

Un ejemplo clave es el de la explicabilidad de los modelos estadísticos. La adopción de modelos de aprendizaje automático se ve obstaculizada en muchos casos de uso debido a la naturaleza de «caja negra» de ciertos modelos o, en otras palabras, a su falta de transparencia y comprensibilidad. Por lo tanto, es necesario proponer modelos más transparentes, minimizando al mismo tiempo la pérdida de rendimiento predictivo asociada. A través de las soluciones que propone, el research center mejorando la adopción de AI ofrecer las garantías que demanda la industria.