Een algoritme voor het genereren van synthetische zeldzame gebeurtenissen van alle typen

Een veel voorkomende toepassing van artificial intelligence is het toekennen van een waarschijnlijkheid, of score, aan interessante personen of gebeurtenissen. Dit scoringsprobleem is van toepassing op vele gebieden, zoals ziektedetectie, voorspellend onderhoud in fabrieken, de neiging van online bezoekers om aankopen te doen, of het risico om abonnees te verliezen. In deze situaties zijn er veel meer gebeurtenissen van belang dan er in totaal data beschikbaar zijn. Deze onevenwichtigheid maakt het trainen van machine-learningmodellen bijzonder complex, omdat ze de neiging hebben om zich te richten op de meerderheid van de gevallen en zeldzame gevallen negeren of onderschatten, wat meerdere operationele problemen oplevert als AI wordt ingezet. Er bestaan enkele algoritmen, maar deze zijn niet geschikt voor categorische data en verbeteren de nauwkeurigheid van het uiteindelijke model over het algemeen niet.

Om deze uitdaging aan te gaan, Artefact's onderzoekscentrum een nieuwe herbalanceringsmethode voor data in tabelvorm voorgesteld, rekening houdend met zowel numerieke als categorische variabelen. Getest op open source data, Deze benadering laat significante verbeteringen zien in termen van prestaties, terwijl de consistentie, aannemelijkheid en interpreteerbaarheid van de data behouden blijft, een aspect dat vaak over het hoofd wordt gezien door bestaande methoden. Data herbalanceren vereist het creëren van dummy voorbeelden, die het risico lopen ongeloofwaardig te zijn, zoals klantprofielen die niet bestaan. Dit risico heeft een directe invloed op de toepassing van artificial intelligence in gevallen waarin analisten handmatig de meest waarschijnlijke voorbeelden moeten valideren die vooraf door het model zijn geselecteerd. Artefact lost dit probleem op door alleen plausibele data te creëren tijdens het herbalanceren, waardoor het gemakkelijker te gebruiken is door bedrijven.

 

Een kant-en-klaar onderzoekspartnerschap met toepassingen voor Société Générale use cases

Dit werk is het resultaat van een driezijdig partnerschap tussen de Artefact Research Center, het laboratorium voor waarschijnlijkheid, statistiek en modellering van de Sorbonne-universiteit (LPSM) en Société Générale. De samenwerking maakte het mogelijk om een driejarig onderzoeksthema te definiëren dat een evenwicht vindt tussen statistische en IT-uitdagingen en de concrete problemen waarmee businessteams te maken hebben en waarvoor geen geavanceerde oplossingen bestaan. In het geval van deze toepassing hadden verschillende verkoopexperts namelijk het probleem gemeld van inconsistentie in de bankprofielen die door bestaande benaderingen werden gegenereerd, waardoor hun adoptie van een op AI gebaseerde tool werd beperkt. het handhaven van plausibele suggesties tijdens het herbalanceringsalgoritme.

Dankzij deze samenwerking konden onderzoekers van Artefact en de Sorbonne-universiteit hun aanpak testen op echte bank data, wat de statistische nauwkeurigheid van het voorgestelde algoritme valideerde. Daarnaast was een uniek element bij het testen van de prestaties van de voorgestelde methode de opschalen tot miljoenen data-punten te verwerken in een redelijke hoeveelheid tijd, dus groter dan de grootte van equivalente open source datasets. De code is open source en de methodologie wordt in detail uitgelegd in het wetenschappelijke artikel, zodat zoveel mogelijk mensen de aanpak voor andere scoringsdoeleinden kunnen gebruiken.

Etienne GUIBOUT, Group Chief AI Officer bij Société Générale, legt uit:

Deze samenwerking geeft Société Générale toegang tot aanvullende expertise uit de academische wereld. Het bevordert innovatie door het integreren van verschillende perspectieven die gericht zijn op het identificeren van oplossingen die steeds meer op maat gemaakt zijn voor onze problemen. Aanvaarding op een conferentie op A-niveau is een teken van kwaliteit voor de teams van Société Générale. Het toont erkenning van de impact van het werk dat wordt uitgevoerd door collega's en experts uit de sector. Door deel te nemen aan dergelijke evenementen kunnen we ons onderzoek delen en tegelijkertijd deel blijven uitmaken van het ecosysteem. De bedrijfsteams van Société Générale, in het bijzonder compliance, waren betrokken bij de ontwikkeling van dit artikel. Hun sectorexpertise en feedback bevestigden de relevantie en toepasbaarheid van de gepresenteerde inhoud. Deze interdisciplinaire samenwerking zorgt ervoor dat het artikel de realiteit van de markt weerspiegelt en in de eerste plaats onze behoeften en die van onze klanten dient.”

Emmanuel Malherbe, directeur van de Artefact Research Center:

“Dit is een ideaal partnerschap voor ons onderzoekscentrum, dat onze visie van toegepast, nuttig en gedeeld onderzoek perfect illustreert. Machine learning is een vakgebied dat altijd begint met data en een echt probleem. Door deze samenwerking hebben we ons kunnen richten op het slecht opgeloste probleem van scoren op onevenwichtige tabellarische data, wat toch een terugkerend probleem is in het bedrijfsleven en veel statistische vragen oproept. De mogelijkheid om de aanpak op echte data te testen en te valideren was ook van groot belang om tot een snel, efficiënt en nauwkeurig algoritme te komen.”

Link naar het wetenschappelijke artikel en de code van het algoritme:

Artefact's onderzoekscentrum als brug tussen de academische wereld en de industrie

Wij zijn een team van 20 onderzoekswetenschappers die werken op het gebied van machinaal leren, computerwetenschappen en managementwetenschappen. Wij zijn toegewijd aan het verbeteren van AI-modellen, hetzij door ze beter interpreteerbaar en controleerbaar te maken, hetzij door het gebruik ervan binnen bedrijven te bestuderen. Al ons werk is open source, met presentaties op peer-reviewed internationale conferenties, wetenschappelijke publicaties, white papers en vrij beschikbare code. Wij werken nauw samen met gerenommeerde universiteitsprofessoren. Onze filosofie is om de kloof tussen de industrie en de academische wereld te overbruggen. Onze onderzoeksgebieden zijn geïnspireerd op echte problemen die we tegenkomen in Artefact-projecten met onze klanten, en we bouwen voortdurend aan industriële partnerschappen om onze methodologieën te testen op echte use cases en datasets.

 

Een cruciaal voorbeeld betreft de verklaarbaarheid van statistische modellen. De toepassing van modellen voor machinaal leren wordt in veel gebruikssituaties belemmerd door de “black box” aard van bepaalde modellen, of met andere woorden, hun gebrek aan transparantie en begrijpelijkheid. Er moeten daarom transparantere modellen worden voorgesteld, waarbij de bijbehorende achteruitgang in voorspellende prestaties tot een minimum wordt beperkt. Door middel van de oplossingen die het onderzoekscentrum voorstelt, verbetert het de toepassing van AI door de door de industrie gewenste garanties te leveren.