Een algoritme voor het genereren van synthetische zeldzame gebeurtenissen van alle typen
Een veelvoorkomende toepassing van artificial intelligence is het toekennen van een waarschijnlijkheid, of score, aan interessante personen of gebeurtenissen. Dit score probleem is van toepassing op vele gebieden, zoals het opsporen van ziektes, voorspellend onderhoud in fabrieken, de neiging van online bezoekers om aankopen te doen, of het risico om abonnees te verliezen. In deze situaties zijn er veel meer gebeurtenissen van belang dan er data beschikbaar zijn. Deze onevenwichtigheid maakt het trainen van machine learning-modellen bijzonder complex, omdat ze de neiging hebben zich te richten op de meerderheid van de gevallen en zeldzame gevallen negeren of onderschatten, wat meerdere operationele problemen oplevert als AI wordt ingezet. Er bestaan algoritmen, maar deze zijn niet geschikt voor categorische data en verbeteren de nauwkeurigheid van het uiteindelijke model meestal niet.
Om deze uitdaging aan te gaan, Artefact's research center een nieuwe herbalanceringsmethode voor data in tabelvorm voorgesteldwaarbij rekening wordt gehouden met zowel numerieke als categorische variabelen. Getest op open source dataDeze aanpak laat significante verbeteringen zien in termen van prestaties, terwijl de consistentie, plausibiliteit en interpreteerbaarheid van de data behouden blijft, een aspect dat vaak over het hoofd wordt gezien door bestaande methoden. Voor het herbalanceren van Data moeten dummyvoorbeelden worden gemaakt, die het risico lopen ongeloofwaardig te zijn, zoals klantprofielen die niet bestaan. Dit risico heeft een directe invloed op de toepassing van artificial intelligence in gevallen waarin analisten handmatig de meest waarschijnlijke voorbeelden moeten valideren die vooraf door het model zijn geselecteerd. Artefact lost dit probleem op door alleen plausibele data te creëren tijdens het herbalanceren, waardoor het gemakkelijker te gebruiken is door bedrijven.

Een kant-en-klaar onderzoekspartnerschap met toepassingen voor Société Générale use cases
Dit werk is het resultaat van een samenwerking in drie richtingen tussen het Artefact Research Center, het laboratorium voor waarschijnlijkheid, statistiek en modellering van de Sorbonne-universiteit (LPSM) en Société Générale.. De samenwerking maakte het mogelijk om een driejarig onderzoeksonderwerp te definiëren dat een evenwicht vindt tussen statistische en IT-uitdagingen en de concrete problemen waarmee businessteams worden geconfronteerd en waarvoor geen state-of-the-art oplossingen bestaan. In het geval van deze toepassing hadden verschillende verkoopexperts namelijk het probleem gemeld van inconsistentie in de bankprofielen die door bestaande benaderingen werden gegenereerd, waardoor hun adoptie van een AI tool werd beperkt. plausibele suggesties te behouden tijdens het herbalanceringsalgoritme.
Door deze samenwerking konden onderzoekers van Artefact en de Sorbonne Universiteit hun aanpak testen op echte data, wat de statistische nauwkeurigheid van het voorgestelde algoritme valideerde. Daarnaast was een uniek element in het testen van de prestaties van de voorgestelde methode het opschalen tot miljoenen data die in een redelijke tijd verwerkt konden worden, waardoor de omvang van equivalente open source datasets werd overtroffen. De code is open source en de methodologie wordt in detail uitgelegd in het wetenschappelijke artikel, zodat zoveel mogelijk mensen de aanpak kunnen gebruiken voor andere scoringstoepassingen.
Etienne GUIBOUT, Group Chief AI Officer bij Société Générale, legt uit:
"Deze samenwerking geeft Société Générale toegang tot aanvullende expertise uit de academische wereld. Het bevordert innovatie door het integreren van verschillende perspectieven die gericht zijn op het identificeren van oplossingen die steeds meer op maat gemaakt zijn voor onze problemen. De aanvaarding op een conferentie op A-niveau is een kwaliteitslabel voor de teams van Société Générale. Het is een erkenning van de impact van het werk dat wordt uitgevoerd door collega's en experts uit de sector. Door deel te nemen aan dergelijke evenementen kunnen we ons onderzoek delen en tegelijkertijd deel blijven uitmaken van het ecosysteem. De business teams van Société Générale, in het bijzonder compliance, werden betrokken bij de ontwikkeling van dit artikel. Hun sectorexpertise en feedback bevestigden de relevantie en toepasbaarheid van de gepresenteerde inhoud. Deze interdisciplinaire samenwerking zorgt ervoor dat het artikel de realiteit van de markt weerspiegelt en in de eerste plaats onze behoeften en die van onze klanten dient."
Emmanuel Malherbe, directeur van het Artefact Research Center:
"Dit is een ideaal partnerschap voor ons research center, dat onze visie van toegepast, nuttig en gedeeld onderzoek perfect illustreert. Machine learning is een vakgebied dat altijd begint met data en een echt probleem. Door deze samenwerking hebben we ons kunnen richten op het slecht opgeloste probleem van scoren op ongebalanceerde data in tabelvorm, wat toch een terugkerend probleem is in het bedrijfsleven en veel statistische vragen oproept. De mogelijkheid om de aanpak te testen en te valideren op echte data was ook de sleutel tot het bereiken van een snel, efficiënt en nauwkeurig algoritme."
Link naar het wetenschappelijke artikel en de code van het algoritme:
- Abdoulaye Sakho, Emmanuel Malherbe, Carl-Erik Gauthier en Erwan Scornet.
"Harnessing Mixed Features for Imbalance Data Oversampling: Application to Bank Customers Scoring." In Gezamenlijke Europese Conferentie over Machine Learning en Kennisontsluiting in Databases (2025) - https://github.com/artefactory/mgs-grf
Artefact's research center als brug tussen de academische wereld en de industrie
Wij zijn een team van 20 onderzoekswetenschappers die werken op het gebied van machinaal leren, computerwetenschap en managementwetenschap. We zijn toegewijd aan het verbeteren van AI , hetzij door ze beter interpreteerbaar en controleerbaar te maken, hetzij door het gebruik ervan binnen bedrijven te bestuderen. Al ons werk is open source, met presentaties op peer-reviewed internationale conferenties, wetenschappelijke publicaties, white papers en vrij beschikbare code. We werken nauw samen met gerenommeerde universiteitsprofessoren. Onze filosofie is om de kloof tussen de industrie en de academische wereld te overbruggen. Onze onderzoeksgebieden zijn geïnspireerd op echte problemen die we tegenkomen in Artefact met onze klanten, en we bouwen voortdurend industriële partnerschappen op om onze methodologieën te testen op echte use cases en datasets.

Een cruciaal voorbeeld betreft de verklaarbaarheid van statistische modellen. De toepassing van modellen voor machinaal leren wordt in veel gebruikssituaties belemmerd door de "black box" aard van bepaalde modellen, of met andere woorden, hun gebrek aan transparantie en begrijpelijkheid. Er moeten daarom transparantere modellen worden voorgesteld, terwijl de bijbehorende achteruitgang in voorspellende prestaties tot een minimum moet worden beperkt. Met de oplossingen die het research center voorstelt, verbetert het de toepassing van AI door de door de industrie gewenste garanties te bieden.

BLOG






