Un algorithme permettant de générer des événements rares synthétiques de tous types

Une application courante de l'intelligence artificielle consiste à attribuer une probabilité, ou un score, à des personnes ou à des événements d'intérêt. Ce problème de notation s'applique à de nombreux domaines, tels que la détection de maladies, la maintenance prédictive dans les usines, la propension des visiteurs en ligne à effectuer des achats ou le risque de perdre des abonnés. Dans ces situations, les événements d'intérêt sont largement surpassés en nombre par l'ensemble data disponibles. Ce déséquilibre rend l'entraînement des modèles d'apprentissage automatique particulièrement complexe, car ceux-ci ont tendance à se concentrer sur la majorité des cas et à ignorer ou sous-estimer les cas rares, ce qui pose de multiples problèmes opérationnels si l'IA est déployée. Certains algorithmes existent, mais ils ne sont pas adaptés aux data catégorielles et ne parviennent généralement pas à améliorer la précision du modèle final.

Pour relever ce défi, research centerArtefact a proposé une nouvelle méthode de rééquilibrage des data tabulaires, tenant compte à la fois des variables numériques et catégorielles. Testée sur data open source, cette approche montre des améliorations significatives en termes de performances, tout en préservant la cohérence, la plausibilité et l’interprétabilité des data, un aspect souvent négligé par les méthodes existantes. Data nécessite la création d’exemples fictifs, qui risquent d’être invraisemblables, comme des profils de clients qui n’existent pas. Ce risque a un impact direct sur l’adoption de l’intelligence artificielle dans les cas où les analystes doivent valider manuellement les exemples les plus probables présélectionnés par le modèle. Artefact ce problème en ne créant que data plausibles data du rééquilibrage, ce qui facilite son adoption par les entreprises.

 

Un partenariat de recherche clé en main avec des applications adaptées aux cas d'utilisation de la Société Générale

Ce travail est le fruit d'un partenariat tripartite entre le Research CenterArtefact , le Laboratoire de probabilité, de statistique et de modélisation (LPSM) de l’Université de la Sorbonne et la Société Générale. Cette collaboration a permis de définir un thème de recherche sur trois ans qui établit un équilibre entre les défis statistiques et informatiques et les problèmes concrets rencontrés par les équipes commerciales, pour lesquels il n’existe pas de solutions de pointe. En effet, dans le cas de cette application, divers experts commerciaux avaient signalé le problème de l’incohérence des profils bancaires générés par les approches existantes, ce qui limitait leur adoption d’un outil basé sur l’IA, posant ainsi le défi de maintenir des suggestions plausibles au cours de l’algorithme de rééquilibrage.

Grâce à ce partenariat, les chercheurs Artefact de l'Université de la Sorbonne ont pu tester leurs approches sur data bancaires réelles, ce qui a permis de valider la précision statistique de l'algorithme proposé. De plus, un aspect unique de l'évaluation des performances de la méthode proposée a consisté à traiter des millions de data dans un délai raisonnable, dépassant ainsi la taille des ensembles de données open source équivalents. Le code est open source et la méthodologie est expliquée en détail dans l'article scientifique, ce qui permet au plus grand nombre d'utiliser cette approche pour d'autres cas d'utilisation de la notation.

Étienne GUIBOUT, directeur de l'intelligence artificielle du groupe Société Générale, explique :

«Cette collaboration permet à Société Générale d’accéder à une expertise complémentaire issue du monde universitaire. Elle favorise l’innovation en intégrant une diversité de perspectives visant à identifier des solutions de plus en plus adaptées à nos problématiques. L’acceptation lors d’une conférence de premier plan constitue un gage de qualité pour les équipes de Société Générale. Elle témoigne de la reconnaissance de l’impact des travaux menés par nos pairs et les experts du secteur. Participer à de tels événements nous permet de partager nos recherches, tout en restant intégrés à l’écosystème. Les équipes métier de la Société Générale, en particulier celles chargées de la conformité, ont participé à l’élaboration de cet article. Leur expertise sectorielle et leurs retours ont confirmé la pertinence et l’applicabilité du contenu présenté. Cette collaboration interdisciplinaire garantit que l’article reflète les réalités du marché et répond avant tout à nos besoins et à ceux de nos clients. »

Emmanuel Malherbe, directeur duResearch Center Artefact :

« Il s'agit d'un partenariat idéal pour notre research center, qui illustre parfaitement notre vision d'une recherche appliquée, utile et partagée. L'apprentissage automatique est un domaine qui part toujours de data d'un problème concret. Grâce à cette collaboration, nous avons pu nous concentrer sur la question, jusqu'ici mal résolue, de la notation sur data tabulaires déséquilibrées, qui n'en reste pas moins un problème récurrent dans le monde des affaires et soulève de nombreuses questions statistiques. La possibilité de tester et de valider l'approche sur data réelles data également data essentielle pour aboutir à un algorithme rapide, efficace et précis. »

Lien vers l'article scientifique et le code de l'algorithme :

research center Artefact research center un pont entre le monde universitaire et l'industrie

Nous sommes une équipe de 20 chercheurs spécialisés dans les domaines de l'apprentissage automatique, de l'informatique et des sciences de gestion. Nous nous consacrons à l'amélioration des modèles d'IA, que ce soit en les rendant plus interprétables et contrôlables ou en étudiant leur utilisation au sein des entreprises. L'ensemble de nos travaux est open source et fait l'objet de présentations lors de conférences internationales évaluées par des pairs, de publications scientifiques, de livres blancs et de code librement accessible. Nous collaborons étroitement avec des professeurs d'université de renom. Notre philosophie consiste à jeter des ponts entre le monde de l'industrie et celui de l'enseignement supérieur. Nos domaines de recherche s'inspirent des problèmes concrets rencontrés dans le cadre Artefact menés avec nos clients, et nous nouons en permanence des partenariats industriels afin de tester nos méthodologies sur des cas d'utilisation et des ensembles de données réels.

 

Un exemple crucial concerne l'explicabilité des modèles statistiques. L'adoption des modèles d'apprentissage automatique est freinée dans de nombreux cas d'utilisation en raison de la nature de « boîte noire » de certains modèles, c'est-à-dire de leur manque de transparence et de compréhensibilité. Il est donc nécessaire de proposer des modèles plus transparents, tout en minimisant la dégradation des performances prédictives qui en découle. Grâce aux solutions qu'il propose, le research center l'adoption de l'IA en apportant les garanties attendues par l'industrie.