Door een reeks controverses rond de resultaten van GenAI-modellen is het pleidooi voor ethisch toezicht op en bestuur van AI toegenomen. Terwijl expliciete vooroordelen, geweld en discriminatie vooruit zijn gegaan, zijn impliciete vooroordelen en microagressies dat niet.

Aan de vooravond van Pride Month 2024 heeft Artefact Fierté AI uitgebracht, een ethische open source LLM-assistent die microagressies en onbewuste vooroordelen in alle GenAI-modellen kan detecteren en herformuleren.
Bij Artefact geloven we echt dat “AI is about people”. Dit is onze belangrijkste motivatie geweest om Fierté AI te bouwen. “Fierté” betekent “trots” in het Frans en staat voor de voortdurende strijd van de LGBTQIA+-gemeenschap voor gelijkheid in de samenleving.

GenAI ontketent creativiteit en innovatie op grote schaal, met het potentieel om het leven van miljoenen mensen over de hele wereld positief te beïnvloeden. Een aantal ethische controverses heeft echter tot bezorgdheid geleid over de veilige en ethische toepassing van GenAI-systemen. Hoewel GenAI nieuw en flitsend lijkt, lijkt het doorspekt te zijn met dezelfde oude vooroordelen.

A UNESCO-rapport van maart 2024 benadrukt hoe “De output van generatieve AI weerspiegelt nog steeds een aanzienlijke mate van vooringenomenheid op basis van geslacht en seksualiteit: vrouwelijke namen worden geassocieerd met traditionele rollenpatronen, er wordt negatieve inhoud over homoseksuele onderwerpen gegenereerd, ...”.”. Ondanks de uitgesproken beperkingen van het onderzoek, onderstreept het de alomtegenwoordigheid van vooringenomenheid in GenAI en de noodzaak van beter toezicht vanaf de basis, zoals de training data die voor de modellen wordt gebruikt, tot aan de top, zoals het toevoegen van lagen voor audits en veiligheidsbeoordelingen.

Wat zijn microagressies en onbewuste vooroordelen?

Door de geschiedenis heen hebben gemarginaliseerde gemeenschappen of groepen gevochten voor gelijke rechten en vertegenwoordiging. Deze gemeenschappen of groepen vertegenwoordigen women, LGBTQIA+ mensen, gekleurde mensen, mensen met een handicap en nog veel meer. Hoewel gelijke rechten steeds meer geaccepteerd en opgenomen worden, hebben deze gemeenschappen en groepen nog steeds dagelijks te maken met discriminatie als gevolg van het feit dat ze een minderheid zijn. Deze incidenten kunnen per ongeluk/onbewust veroorzaakt worden door systemische maatschappelijke vooroordelen of opzettelijk in stand worden gehouden om dominantie te laten gelden, wat in combinatie met elkaar aanzienlijke psychologische schade kan veroorzaken. Onderzoek suggereert dat dergelijke subtiele vormen van discriminatie “nadelig kunnen zijn voor de doelwitten in vergelijking met meer traditionele, openlijke vormen van discriminatie”.”

Aangezien de meeste basismodellen getraind zijn op echte data van het internet, bestendigen ze deze discriminatie die, wanneer ze door bedrijven gebruikt worden, hun consumenten en audience's schade kan berokkenen. Een schoonheids- en cosmeticabedrijf bijvoorbeeld, dat niet alleen women's maar ook de LGBTQIA+-gemeenschap tot zijn klantenkring rekent, moet rekening houden met genderintegriteit wanneer het AI gebruikt om met zijn consumenten te communiceren, omdat het anders vervreemding zou veroorzaken door microagressies. Daarom moet elke poging om veilige, verantwoordelijke en ethische AI te ontwikkelen een laag bevatten om microagressies en onbewuste vooroordelen aan te pakken.

Fierté AI door Artefact: Een ethische GenAI-assistent die audience's en consumenten beschermt

Bekijk de “Fierté” GenAI assistent demo

Microagressies zijn alledaagse handelingen die opzettelijk of onopzettelijk vijandige of negatieve boodschappen overbrengen aan een persoon of groep op basis van een aspect van hun identiteit. Hier zijn enkele voorbeelden: “Ben je niet te jong om manager te zijn?” of “Oké, Boomer”. Dit kunnen microagressies genoemd worden. Het kan lastig zijn omdat microagressies soms subjectief zijn, maar het doel is om mensen bewust te maken van mogelijke microagressies.

Laten we een concreet voorbeeld nemen: U bent een marketeer en u verkoopt kleding. Uw marketingboodschap is dat u mensen een gelukkig gevoel wilt geven als ze een van uw artikelen dragen. U zou kunnen zeggen: “Met deze jurk voelt u zich als een filmster.” In dit geval zal de tool een microaggressie detecteren. De categorie is “fysieke verschijning en de LGBTQ+ gemeenschap”. De reden hiervoor is dat het aanneemt dat de aangesproken persoon eruit wil zien als een stereotype actrice, wat een schoonheidsstandaard en een heteronormatief perspectief impliceert. De suggestie van de GenAI-assistent is: “Met deze jurk voelt u zich zelfverzekerd en fantastisch.”

Laten we een ander voorbeeld nemen dat u op een willekeurige dag op het werk kunt tegenkomen. “Hé jongens, na een vergadering met de marketingafdeling vandaag, moeten we Alex aan het team toevoegen. Kan iemand zijn referenties delen, aangezien hij Frans is? Laten we proberen ons Engels zo te verwoorden dat hij zich echt welkom voelt. Tot ziens, en tot vanavond op onze mannenavond. We gaan de nieuwe actiefilm zien.”

Laten we dit eens analyseren. De tool detecteert hier meerdere microagressies:

  • “Kan iemand zijn referenties delen?” Dit gaat ervan uit dat Alex een man is, wat waar zou kunnen zijn. De suggestie is “Kan iemand zijn referenties delen, alstublieft?” om meer inclusief te zijn.

  • “Omdat hij Frans is, laten we proberen ons Engels te articuleren.” Dit gaat ervan uit dat Franstaligen niet goed Engels begrijpen, een stereotype. De suggestie is: “Laten we ons inspannen om duidelijk en effectief te communiceren, gezien onze diverse groep talen.”

  • “Tot ziens” wordt gezien als het uitsluiten van Alex. De suggestie is “Tot ziens iedereen, laten we vanavond allemaal een leuke tijd hebben, inclusief jij, Alex.”

  • “Vergeet ons mannenuitje vanavond niet.” De suggestie is om te zeggen: “Vergeet het sociale evenement vanavond niet” om iedereen erbij te betrekken.

  • De tool detecteert dat de verwijzing naar de actiefilm gezien kan worden als een microagressie omdat het mensen uitsluit die geen man zijn.

De tool bevindt zich in de bètafase en we willen altijd een mens erbij betrekken, maar het belangrijkste doel is om mensen bewuster te maken van microagressies binnen de organisatie die we wel of niet in het dagelijks leven gebruiken.

Fierté AI is een geavanceerd hulpmiddel dat gebouwd is op de Mixtral LLM

Het verfijnt de parameters van Mixtral en maakt gebruik van prompt engineering om microagressies in communicatie effectief te detecteren, te beredeneren en te herformuleren. Dit zorgt ervoor dat gebruikers hun berichten kunnen overbrengen zonder schade of aanstoot te veroorzaken.

Belangrijkste kenmerken van Fierté AI:

  • Meertalige ondersteuning: Fierté AI ondersteunt meerdere talen, waaronder Engels, Frans en Zweeds, waardoor het toegankelijk is voor een diverse audience. Deze meertaligheid vergroot de bruikbaarheid in verschillende omgevingen en bevordert inclusiviteit tussen taalgroepen.

  • Dataset voor fijnafstelling: De datasets die gebruikt worden voor de fijnafstemming van Fierté AI zijn zorgvuldig samengesteld om ervoor te zorgen dat ze een breed scala aan uitdrukkingen en contexten bevatten. Deze diversiteit in data helpt de AI om microagressies nauwkeurig te detecteren en relevante geherformuleerde alternatieven te bieden.

  • Modeloverzicht: Fierté AI maakt gebruik van de robuuste architectuur van Mixtral LLM, verfijnd voor specifieke taken met betrekking tot het detecteren en aanpakken van microagressies. Deze aanpak op maat verbetert de prestaties van het model bij het bevorderen van respectvolle communicatie.

  • Prestaties en kostenvergelijking met GPT: Vergeleken met GPT-modellen biedt Fierté AI een kosteneffectieve oplossing zonder in te leveren op prestaties. Dankzij de gespecialiseerde techniek blinkt het uit in het detecteren van microagressies, een nichetoepassing die algemene modellen zoals GPT mogelijk niet zo effectief aanpakken.

Bestaande LLM-richtlijnen voor verantwoorde AI zijn goed, maar beperkt

Een positief punt is dat bedrijven het probleem van vooroordelen en de noodzaak om veilige en verantwoordelijke AI te bouwen, hebben erkend. Drie opmerkelijke shout-outs gaan naar Databricks, NVIDIA, en Giskard AI, die allemaal de eerste stappen hebben gezet in het detecteren van schadelijke inhoud en de daaruit voortvloeiende verspreiding ervan onder het publiek. Guardrails kunnen worden opgevat als veiligheidscontroles die gebruikersinteracties met een LLM-toepassing controleren en definiëren. De mogelijkheid om de gegenereerde uitvoer in een specifieke indeling of context te forceren, maakt het een oplossing voor de eerste laag om op vertekeningen te controleren.

Volgens Databricks kunnen de vangrails in de Model Serving Foundation Model API's fungeren als een veiligheidsfilter tegen giftige of onveilige inhoud. De vangrail voorkomt dat het model interactie heeft met de gedetecteerde inhoud die als onveilig wordt beschouwd. In zo'n geval antwoordt het model de gebruiker met de expliciete mededeling dat het niet kan helpen met het verzoek.

Databricks, net als Giskard AI en anderen, stelt dat de huidige vangrails in actie komen bij de detectie van inhoud in zes primaire categorieën: Geweld en haat, seksuele inhoud, criminele planning, wapens en illegale wapens, gereglementeerde en gecontroleerde stoffen, en zelfmoord en zelfbeschadiging.

Hoewel dergelijk werk prijzenswaardig en noodzakelijk is voor de inzet/vrijgave van GenAI-systemen aan het publiek, zijn ze beperkt in hun vermogen om de alledaagse vooroordelen en discriminatie aan te pakken die de menselijke samenleving doordringen. Deze alledaagse onbewuste vooroordelen en discriminatie worden microagressies, die zich snel kunnen opstapelen en aanzienlijke schade kunnen toebrengen aan individuen. Derald Wing Sue, professor in de psychologie aan de Columbia University, omschrijft microagressie het best als dood door duizend sneden.

Meervoudige benadering van veilige, verantwoordelijke en ethische AI

AI is een blijvertje en heeft het potentieel om miljoenen mensen te helpen. Het is echter onze collectieve verantwoordelijkheid om te zorgen voor een veilige, transparante en verantwoorde toepassing van AI.

Het opbouwen van vertrouwen in AI-systemen staat centraal bij het invoeren van AI, wat wordt bereikt door een meervoudige aanpak, variërend van vangrails tot open-source LLM-lagen en voortdurend menselijk toezicht. Alleen door een dergelijke collectieve implementatie en samenwerking kunnen we ervoor zorgen dat de voordelen van AI gelijkelijk over de hele wereld worden verdeeld.