Door een reeks controverses rond de resultaten van GenAI-modellen is het pleidooi voor ethisch toezicht op en bestuur van AI toegenomen. Terwijl expliciete vooroordelen, geweld en discriminatie vooruit zijn gegaan, zijn impliciete vooroordelen en microagressies dat niet.
Aan de vooravond van Pride Month 2024 heeft Artefact Fierté AI uitgebracht, een ethische open source LLM-assistent die microagressies en onbewuste vooroordelen in alle GenAI-modellen kan detecteren en herformuleren.
Bij Artefact geloven we echt dat “AI is about people”. Dit is onze belangrijkste motivatie geweest om Fierté AI te bouwen. “Fierté” betekent “trots” in het Frans en staat voor de voortdurende strijd van de LGBTQIA+-gemeenschap voor gelijkheid in de samenleving.
GenAI ontketent creativiteit en innovatie op grote schaal, met het potentieel om het leven van miljoenen mensen over de hele wereld positief te beïnvloeden. Een aantal ethische controverses heeft echter tot bezorgdheid geleid over de veilige en ethische toepassing van GenAI-systemen. Hoewel GenAI nieuw en flitsend lijkt, lijkt het doorspekt te zijn met dezelfde oude vooroordelen.
A UNESCO-rapport van maart 2024 benadrukt hoe “De output van generatieve AI weerspiegelt nog steeds een aanzienlijke mate van vooringenomenheid op basis van geslacht en seksualiteit: vrouwelijke namen worden geassocieerd met traditionele rollenpatronen, er wordt negatieve inhoud over homoseksuele onderwerpen gegenereerd, ...”.”. Ondanks de uitgesproken beperkingen van het onderzoek, onderstreept het de alomtegenwoordigheid van vooringenomenheid in GenAI en de noodzaak van beter toezicht vanaf de basis, zoals de training data die voor de modellen wordt gebruikt, tot aan de top, zoals het toevoegen van lagen voor audits en veiligheidsbeoordelingen.
Wat zijn microagressies en onbewuste vooroordelen?
Door de geschiedenis heen hebben gemarginaliseerde gemeenschappen of groepen gevochten voor gelijke rechten en vertegenwoordiging. Deze gemeenschappen of groepen vertegenwoordigen women, LGBTQIA+ mensen, gekleurde mensen, mensen met een handicap en nog veel meer. Hoewel gelijke rechten steeds meer geaccepteerd en opgenomen worden, hebben deze gemeenschappen en groepen nog steeds dagelijks te maken met discriminatie als gevolg van het feit dat ze een minderheid zijn. Deze incidenten kunnen per ongeluk/onbewust veroorzaakt worden door systemische maatschappelijke vooroordelen of opzettelijk in stand worden gehouden om dominantie te laten gelden, wat in combinatie met elkaar aanzienlijke psychologische schade kan veroorzaken. Onderzoek suggereert dat dergelijke subtiele vormen van discriminatie “nadelig kunnen zijn voor de doelwitten in vergelijking met meer traditionele, openlijke vormen van discriminatie”.”
Aangezien de meeste basismodellen getraind zijn op echte data van het internet, bestendigen ze deze discriminatie die, wanneer ze door bedrijven gebruikt worden, hun consumenten en audience's schade kan berokkenen. Een schoonheids- en cosmeticabedrijf bijvoorbeeld, dat niet alleen women's maar ook de LGBTQIA+-gemeenschap tot zijn klantenkring rekent, moet rekening houden met genderintegriteit wanneer het AI gebruikt om met zijn consumenten te communiceren, omdat het anders vervreemding zou veroorzaken door microagressies. Daarom moet elke poging om veilige, verantwoordelijke en ethische AI te ontwikkelen een laag bevatten om microagressies en onbewuste vooroordelen aan te pakken.
Fierté AI door Artefact: Een ethische GenAI-assistent die audience's en consumenten beschermt
Bekijk de “Fierté” GenAI assistent demo
Microagressies zijn alledaagse handelingen die opzettelijk of onopzettelijk vijandige of negatieve boodschappen overbrengen aan een persoon of groep op basis van een aspect van hun identiteit. Hier zijn enkele voorbeelden: “Ben je niet te jong om manager te zijn?” of “Oké, Boomer”. Dit kunnen microagressies genoemd worden. Het kan lastig zijn omdat microagressies soms subjectief zijn, maar het doel is om mensen bewust te maken van mogelijke microagressies.
Laten we een concreet voorbeeld nemen: U bent een marketeer en u verkoopt kleding. Uw marketingboodschap is dat u mensen een gelukkig gevoel wilt geven als ze een van uw artikelen dragen. U zou kunnen zeggen: “Met deze jurk voelt u zich als een filmster.” In dit geval zal de tool een microaggressie detecteren. De categorie is “fysieke verschijning en de LGBTQ+ gemeenschap”. De reden hiervoor is dat het aanneemt dat de aangesproken persoon eruit wil zien als een stereotype actrice, wat een schoonheidsstandaard en een heteronormatief perspectief impliceert. De suggestie van de GenAI-assistent is: “Met deze jurk voelt u zich zelfverzekerd en fantastisch.”
Laten we een ander voorbeeld nemen dat u op een willekeurige dag op het werk kunt tegenkomen. “Hé jongens, na een vergadering met de marketingafdeling vandaag, moeten we Alex aan het team toevoegen. Kan iemand zijn referenties delen, aangezien hij Frans is? Laten we proberen ons Engels zo te verwoorden dat hij zich echt welkom voelt. Tot ziens, en tot vanavond op onze mannenavond. We gaan de nieuwe actiefilm zien.”
Laten we dit eens analyseren. De tool detecteert hier meerdere microagressies:
De tool bevindt zich in de bètafase en we willen altijd een mens erbij betrekken, maar het belangrijkste doel is om mensen bewuster te maken van microagressies binnen de organisatie die we wel of niet in het dagelijks leven gebruiken.
Fierté AI is een geavanceerd hulpmiddel dat gebouwd is op de Mixtral LLM
Het verfijnt de parameters van Mixtral en maakt gebruik van prompt engineering om microagressies in communicatie effectief te detecteren, te beredeneren en te herformuleren. Dit zorgt ervoor dat gebruikers hun berichten kunnen overbrengen zonder schade of aanstoot te veroorzaken.
Belangrijkste kenmerken van Fierté AI:
Bestaande LLM-richtlijnen voor verantwoorde AI zijn goed, maar beperkt
Een positief punt is dat bedrijven het probleem van vooroordelen en de noodzaak om veilige en verantwoordelijke AI te bouwen, hebben erkend. Drie opmerkelijke shout-outs gaan naar Databricks, NVIDIA, en Giskard AI, die allemaal de eerste stappen hebben gezet in het detecteren van schadelijke inhoud en de daaruit voortvloeiende verspreiding ervan onder het publiek. Guardrails kunnen worden opgevat als veiligheidscontroles die gebruikersinteracties met een LLM-toepassing controleren en definiëren. De mogelijkheid om de gegenereerde uitvoer in een specifieke indeling of context te forceren, maakt het een oplossing voor de eerste laag om op vertekeningen te controleren.
Volgens Databricks kunnen de vangrails in de Model Serving Foundation Model API's fungeren als een veiligheidsfilter tegen giftige of onveilige inhoud. De vangrail voorkomt dat het model interactie heeft met de gedetecteerde inhoud die als onveilig wordt beschouwd. In zo'n geval antwoordt het model de gebruiker met de expliciete mededeling dat het niet kan helpen met het verzoek.

Databricks, net als Giskard AI en anderen, stelt dat de huidige vangrails in actie komen bij de detectie van inhoud in zes primaire categorieën: Geweld en haat, seksuele inhoud, criminele planning, wapens en illegale wapens, gereglementeerde en gecontroleerde stoffen, en zelfmoord en zelfbeschadiging.
Hoewel dergelijk werk prijzenswaardig en noodzakelijk is voor de inzet/vrijgave van GenAI-systemen aan het publiek, zijn ze beperkt in hun vermogen om de alledaagse vooroordelen en discriminatie aan te pakken die de menselijke samenleving doordringen. Deze alledaagse onbewuste vooroordelen en discriminatie worden microagressies, die zich snel kunnen opstapelen en aanzienlijke schade kunnen toebrengen aan individuen. Derald Wing Sue, professor in de psychologie aan de Columbia University, omschrijft microagressie het best als dood door duizend sneden.
Meervoudige benadering van veilige, verantwoordelijke en ethische AI
AI is een blijvertje en heeft het potentieel om miljoenen mensen te helpen. Het is echter onze collectieve verantwoordelijkheid om te zorgen voor een veilige, transparante en verantwoorde toepassing van AI.
Het opbouwen van vertrouwen in AI-systemen staat centraal bij het invoeren van AI, wat wordt bereikt door een meervoudige aanpak, variërend van vangrails tot open-source LLM-lagen en voortdurend menselijk toezicht. Alleen door een dergelijke collectieve implementatie en samenwerking kunnen we ervoor zorgen dat de voordelen van AI gelijkelijk over de hele wereld worden verdeeld.

BLOG






