Een algoritme voor het genereren van synthetische zeldzame gebeurtenissen van allerlei aard

Een veelvoorkomende toepassing van artificial intelligence het toekennen van een waarschijnlijkheid, of score, aan personen of gebeurtenissen die van belang zijn. Dit scoringsprobleem doet zich op vele gebieden voor, zoals het opsporen van ziekten, preventief onderhoud in fabrieken, de aankoopneiging van onlinebezoekers of het risico op het verlies van abonnees. In deze situaties zijn de relevante gebeurtenissen sterk in de minderheid ten opzichte van de totale beschikbare data. Deze onevenwichtigheid maakt het trainen van machine learning-modellen bijzonder complex, aangezien deze de neiging hebben zich te concentreren op de meerderheid van de gevallen en zeldzame gevallen te negeren of te onderschatten, wat bij AI tot talrijke operationele problemen leidt. Er bestaan weliswaar enkele algoritmen, maar deze zijn niet geschikt voor categorische data en slagen er over het algemeen niet in de nauwkeurigheid van het uiteindelijke model te verbeteren.

Om deze uitdaging aan te gaan, heeft research centerArtefact een nieuwe methode voor het herwegen van data voorgesteld, waarbij rekening wordt gehouden met zowel numerieke als categorische variabelen. Getest op data, laat deze aanpak aanzienlijke verbeteringen zien op het gebied van prestaties, terwijl de consistentie, plausibiliteit en interpreteerbaarheid van de data behouden blijven, een aspect dat bij bestaande methoden vaak over het hoofd wordt gezien. Data vereist het creëren van dummy-voorbeelden, die het risico lopen onwaarschijnlijk te zijn, zoals klantprofielen die niet bestaan. Dit risico heeft een directe impact op de acceptatie van artificial intelligence gevallen waarin analisten de meest waarschijnlijke voorbeelden die door het model zijn voorgeselecteerd, handmatig moeten valideren. Artefact dit probleem Artefact door data het herwegen alleen plausibele data te creëren, wat de acceptatie door bedrijven vergemakkelijkt.

 

Een kant-en-klaar onderzoekspartnerschap met toepassingen voor gebruiksscenario’s bij Société Générale

Dit werk is het resultaat van een samenwerking tussen drie partijen: het Artefact Research Center, het Laboratoire de Probabilité, Statistique et Modélisation (LPSM) van de Sorbonne en Société Générale. Dankzij deze samenwerking kon een driejarig onderzoeksthema worden gedefinieerd dat een evenwicht biedt tussen statistische en IT-uitdagingen en de concrete problemen waarmee bedrijfsteams worden geconfronteerd en waarvoor nog geen geavanceerde oplossingen bestaan. In het geval van deze toepassing hadden verschillende verkoopspecialisten inderdaad melding gemaakt van het probleem van inconsistentie in de bankprofielen die door bestaande benaderingen werden gegenereerd, wat hun gebruik van een AI tool beperkte, waardoor de uitdaging ontstond om het behouden van plausibele suggesties tijdens het herbalanceringsalgoritme

Dankzij deze samenwerking konden onderzoekers van Artefact de Sorbonne-universiteit hun methoden testen op echte data, waarmee de statistische nauwkeurigheid van het voorgestelde algoritme werd bevestigd. Een uniek aspect bij het testen van de prestaties van de voorgestelde methode was bovendien de opschaling naar miljoenen data die binnen een redelijke tijd moesten worden verwerkt, waarmee de omvang van vergelijkbare open-sourcegegevenssets werd overschreden. De code is open source en de methodologie wordt gedetailleerd uitgelegd in het wetenschappelijke artikel, waardoor zoveel mogelijk mensen de aanpak kunnen gebruiken voor andere toepassingen op het gebied van scoring.

Etienne GUIBOUT, Group Chief AI bij Société Générale, legt uit:

Deze samenwerking geeft Société Générale toegang tot aanvullende expertise uit de academische wereld. Het bevordert innovatie door verschillende perspectieven te integreren, gericht op het vinden van oplossingen die steeds beter zijn afgestemd op onze problemen. Toelating tot een toonaangevende conferentie is een kwaliteitsstempel voor de teams van Société Générale. Het toont aan dat de impact van het werk van collega’s en experts uit de sector wordt erkend. Door deel te nemen aan dergelijke evenementen kunnen we ons onderzoek delen, terwijl we deel blijven uitmaken van het ecosysteem. De businessteams van Société Générale, met name compliance, waren betrokken bij de ontwikkeling van dit artikel. Hun sectorkennis en feedback bevestigden de relevantie en toepasbaarheid van de gepresenteerde inhoud. Deze interdisciplinaire samenwerking zorgt ervoor dat het artikel de realiteit van de markt weerspiegelt en in de eerste plaats onze behoeften en die van onze klanten dient.”

Emmanuel Malherbe, directeur van het Artefact Research Center:

“Dit is een ideale samenwerking voor ons research center, die onze visie op toegepast, nuttig en gedeeld onderzoek perfect illustreert. Machine learning is een vakgebied dat altijd begint met data een reëel probleem. Door deze samenwerking hebben we ons kunnen richten op het slecht opgeloste vraagstuk van het toekennen van scores aan onevenwichtige data, wat niettemin een terugkerend probleem is in het bedrijfsleven en veel statistische vragen oproept. De mogelijkheid om de aanpak te testen en te valideren op echte data ook essentieel voor het realiseren van een snel, efficiënt en nauwkeurig algoritme.”

Link naar het wetenschappelijke artikel en de code van het algoritme:

research center Artefact research center brug tussen de academische wereld en het bedrijfsleven

Wij zijn een team van 20 onderzoekers die werkzaam zijn op het gebied van machine learning, informatica en managementwetenschappen. Wij zetten ons in om AI te verbeteren, hetzij door ze beter interpreteerbaar en beheersbaar te maken, hetzij door het gebruik ervan binnen bedrijven te bestuderen. Al ons werk is open source en komt tot uiting in presentaties op internationale conferenties met peer review, wetenschappelijke publicaties, whitepapers en vrij toegankelijke code. Wij werken nauw samen met gerenommeerde universiteitsprofessoren. Onze filosofie is om de kloof tussen het bedrijfsleven en de academische wereld te overbruggen. Onze onderzoeksgebieden zijn geïnspireerd door praktijkproblemen die we tegenkomen in Artefact met onze klanten, en we bouwen voortdurend aan industriële partnerschappen om onze methodologieën te testen op echte use cases en datasets.

 

Een belangrijk voorbeeld betreft de verklaarbaarheid van statistische modellen. De invoering van machine learning-modellen wordt in veel toepassingen belemmerd door het ‘black box’-karakter van bepaalde modellen, oftewel hun gebrek aan transparantie en begrijpelijkheid. Er moeten daarom transparantere modellen worden ontwikkeld, waarbij de daarmee gepaard gaande verslechtering van de voorspellende prestaties tot een minimum wordt beperkt. Met de oplossingen die research center voorstelt, research center de invoering van AI de garanties te bieden waar de industrie naar op zoek is.