Une série de controverses autour des résultats des modèles d'IA générative a renforcé les appels en faveur d'un contrôle éthique et d'une gouvernance de l'IA. Si les préjugés explicites, la violence et la discrimination ont été mis en évidence, il n'en va pas de même pour les préjugés implicites et les microagressions.

À la veille du Mois des fiertés 2024, Artefact Fierté AI, un assistant LLM open source et éthique capable de détecter et de reformuler les microagressions et les préjugés inconscients présents dans tous les modèles d’IA générative.
Chez Artefact, nous sommes convaincus que «AI is about peopletoutAI is about people». C'est ce qui nous a principalement motivés à créer Fierté AI. « Fierté » signifie « pride » en français et symbolise la lutte permanente de la communauté LGBTQIA+ pour l'égalité dans la société.

L'IA générative libère la créativité et l'innovation à très grande échelle, avec le potentiel d'avoir un impact positif sur la vie de millions de personnes à travers le monde. Cependant, plusieurs controverses éthiques ont soulevé des inquiétudes quant à la sécurité et à l'éthique du déploiement des systèmes d'IA générative. Bien que l'IA générative semble nouvelle et spectaculaire, elle semble en réalité criblée des mêmes vieux préjugés.

Un rapport de l'UNESCO datant de mars 2024 souligne que « les résultats de l'IA générative reflètent encore un nombre considérable de préjugés liés au genre et à la sexualité, associant les prénoms féminins à des rôles de genre traditionnels, générant du contenu négatif sur des sujets liés à l'homosexualité, … ». Malgré les limites explicites de l'étude, celle-ci souligne l'omniprésence des préjugés dans l'IA générative et la nécessité d'un meilleur contrôle, depuis la base (comme les data d'entraînement data pour les modèles) jusqu'au sommet (comme l'ajout de niveaux supplémentaires pour les audits et les évaluations de sécurité).

Que sont les microagressions et les préjugés inconscients ?

Tout au long de l'histoire, les communautés ou groupes marginalisés se sont battus pour l'égalité des droits et une représentation équitable. Ces communautés ou groupes comprennent les femmes, les personnes LGBTQIA+, les personnes de couleur, les personnes en situation de handicap, et bien d'autres encore. Bien que l'égalité des droits soit de plus en plus acceptée et prise en compte, ces communautés et groupes sont toujours confrontés à une discrimination quotidienne du fait de leur statut de minorité. Ces incidents peuvent être le fruit de préjugés sociétaux systémiques, manifestés de manière accidentelle ou inconsciente, ou être perpétués intentionnellement pour affirmer une position dominante ; cumulés, ils peuvent causer un préjudice psychologique considérable. Des recherches suggèrent que ces actes de discrimination subtils peuvent être « plus préjudiciables aux personnes ciblées que les formes de discrimination plus traditionnelles et manifestes ».

Étant donné que la plupart des modèles fondamentaux sont entraînés à partir de data réelles data Internet, ils perpétuent cette discrimination qui, lorsqu’elle est mise en œuvre par les entreprises, peut porter préjudice à leurs consommateurs et à leur public. Par exemple, une entreprise de beauté et de cosmétiques dont la clientèle comprend non seulement des femmes, mais aussi la communauté LGBTQIA+, doit veiller à l’inclusivité de genre lorsqu’elle utilise l’IA pour communiquer avec ses consommateurs, sans quoi elle risquerait de provoquer une aliénation par le biais de microagressions. Par conséquent, tout effort visant à développer une IA sûre, responsable et éthique doit inclure un volet permettant de lutter contre les microagressions et les préjugés inconscients.

Fierté AI par Artefact: un assistant IA générative éthique qui protège les publics et les consommateurs

Regardez la démonstration de l'assistant GenAI « Fierté »

Les microagressions sont des gestes quotidiens qui, intentionnellement ou non, véhiculent des messages hostiles ou négatifs à l’égard d’une personne ou d’un groupe en raison d’un aspect de leur identité. En voici quelques exemples : « N’es-tu pas trop jeune pour être responsable ? » ou « OK, Boomer ». Ces phrases peuvent être considérées comme des microagressions. La question peut s’avérer délicate, car les microagressions sont parfois subjectives, mais l’objectif est de sensibiliser le public à ces comportements potentiels.

Prenons un exemple concret : vous êtes responsable marketing et vous vendez des vêtements. Votre message marketing vise à faire en sorte que les gens se sentent heureux lorsqu’ils portent l’un de vos articles. Vous pourriez dire : « Cette robe vous donnera l’impression d’être une star de cinéma. » Dans ce cas, l’outil détectera une microagression. La catégorie concernée est « l’apparence physique et la communauté LGBTQ+ ». La raison en est qu’il suppose que la personne à qui l’on s’adresse souhaite ressembler à une actrice stéréotypée, ce qui implique un idéal de beauté et une perspective hétéronormative. La suggestion de l’assistant GenAI est la suivante : « Cette robe vous donnera confiance en vous et vous rendra fabuleuse. »

Prenons un autre exemple que vous pourriez rencontrer n'importe quel jour au travail. « Salut tout le monde, après notre réunion avec le service marketing aujourd’hui, on doit intégrer Alex à l’équipe. Quelqu’un pourrait-il lui présenter nos références, vu qu’il est français ? Essayons de bien nous exprimer en anglais pour qu’il se sente vraiment le bienvenu. À plus tard, et rendez-vous ce soir pour notre soirée entre gars. On va voir le nouveau film d’action. »

Analysons cela. L'outil détecte ici plusieurs microagressions :

  • « Quelqu'un pourrait-il partager ses identifiants ? » Cette formulation suppose qu'Alex est un homme, ce qui est peut-être le cas. Il serait préférable de dire « Quelqu'un pourrait-il partager ses identifiants, s'il vous plaît ? » pour être plus inclusif.

  • « Puisqu’il est français, essayons de bien articuler notre anglais. » Cela sous-entend que les francophones ne maîtrisent pas bien l’anglais, ce qui est un stéréotype. La suggestion est la suivante : « Faisons l’effort de communiquer clairement et efficacement, compte tenu de la diversité linguistique de notre groupe. »

  • On considère que « Bye-bye » exclut Alex. La suggestion est la suivante : « Au revoir tout le monde, passons tous une excellente soirée, toi aussi, Alex. »

  • « N'oubliez pas notre soirée entre hommes ce soir. » Il serait préférable de dire : « N'oubliez pas la soirée de ce soir » pour inclure tout le monde.

  • L'outil détecte que la référence au film d'action peut être considérée comme une microagression, car elle exclut les personnes qui ne sont pas des hommes.

L'outil est encore en phase bêta et nous souhaitons toujours faire intervenir un être humain dans le processus, mais l'objectif principal est de sensibiliser davantage au sein de l'organisation aux microagressions que nous pouvons ou non commettre au quotidien.

Fierté AI est un outil sophistiqué basé sur le modèle de langage Mixtral

Il affine les paramètres de Mixtral et utilise l'ingénierie des prompts pour détecter, analyser et reformuler efficacement les microagressions dans la communication. Cela permet aux utilisateurs de transmettre leurs messages sans causer de tort ni offenser qui que ce soit.

Principales fonctionnalités de Fierté AI :

  • Prise en charge multilingue: Fierté AI prend en charge plusieurs langues, notamment l'anglais, le français et le suédois, ce qui le rend accessible à un public varié. Cette fonctionnalité multilingue renforce son utilité dans divers contextes et favorise l'inclusion entre les différents groupes linguistiques.

  • Ensemble de données pour le réglage fin: Les ensembles de données utilisés pour le réglage fin de Fierté AI sont soigneusement sélectionnés afin de garantir qu'ils couvrent un large éventail d'expressions et de contextes. Cette diversité des data l'IA data détecter avec précision les microagressions et data proposer des reformulations pertinentes.

  • Présentation du modèle: Fierté AI s'appuie sur l'architecture robuste du modèle de langage Mixtral, optimisé pour des tâches spécifiques liées à la détection et à la gestion des microagressions. Cette approche sur mesure améliore les performances du modèle en matière de promotion d'une communication respectueuse.

  • Comparaison des performances et des coûts avec GPT: par rapport aux modèles GPT, Fierté AI offre une solution économique sans compromettre les performances. Grâce à son ingénierie spécialisée, il excelle dans la détection des microagressions, proposant ainsi une application de niche que les modèles généraux tels que GPT ne traitent pas toujours aussi efficacement.

Les garde-fous existants en matière de LLM pour une IA responsable sont efficaces, mais ont leurs limites

Du côté positif, les entreprises ont pris conscience du problème des biais et de la nécessité de développer une IA sûre et responsable. Trois mentions spéciales reviennent à Databricks, NVIDIA et Giskard AI, qui ont toutes fait des premiers pas dans la détection de contenus préjudiciables et leur diffusion ultérieure auprès du public. Les garde-fous peuvent être considérés comme des contrôles de sécurité qui examinent et définissent les interactions des utilisateurs avec une application LLM. La capacité à imposer un format ou un contexte spécifique à la sortie générée en fait une solution de premier niveau pour vérifier l'absence de biais.

Selon Databricks, les mécanismes de contrôle intégrés à ses API Model Serving Foundation peuvent servir de filtre de sécurité contre tout contenu toxique ou dangereux. Ces mécanismes empêchent le modèle d'interagir avec le contenu détecté jugé dangereux. Dans ce cas, le modèle répond à l'utilisateur en indiquant explicitement qu'il n'est pas en mesure de répondre à sa demande.

class="lazyload

À l'instar de Giskard AI et d'autres entreprises, Databricks indique que les mesures de protection actuelles se déclenchent dès la détection de contenus relevant de six catégories principales : violence et discours de haine, contenu à caractère sexuel, planification d'actes criminels, armes à feu et armes illégales, substances réglementées et contrôlées, ainsi que suicide et automutilation.

Si ces travaux sont louables et indispensables au déploiement et à la mise à disposition du grand public des systèmes d’IA générative, ils restent toutefois limités dans leur capacité à lutter contre les préjugés et la discrimination quotidiens qui imprègnent la société humaine. Ces manifestations de préjugés et de discrimination inconscients au quotidien se transforment en microagressions, qui peuvent rapidement s’accumuler et causer un préjudice considérable aux individus. Derald Wing Sue, professeur de psychologie à l’université Columbia, décrit très justement les microagressions comme une mort à petit feu.

Une approche à plusieurs volets pour une IA sûre, responsable et éthique

L'IA est là pour rester et a le potentiel d'apporter des avantages et d'améliorer la vie de millions de personnes. Cependant, il est de notre responsabilité à tous de veiller à ce que son adoption se fasse de manière sûre, transparente et responsable.

Pour que l'IA soit adoptée, il est essentiel d'instaurer la confiance dans ces systèmes, ce qui passe par une approche à plusieurs volets allant des mesures de protection aux couches de modèles de langage (LLM) open source, en passant par une supervision humaine continue. Ce n'est que grâce à une telle mise en œuvre collective et à une telle collaboration que nous pourrons garantir que les avantages de l'IA soient répartis équitablement à travers le monde.