Eine Reihe von Kontroversen um die Ergebnisse von GenAI-Modellen hat die Forderung nach ethischer Kontrolle und Regulierung der AI verstärkt. Während explizite Voreingenommenheit, Gewalt und Diskriminierung zugenommen haben, ist dies bei impliziter Voreingenommenheit und Mikroaggressionen nicht der Fall.

Am Vorabend des Pride-Monats 2024 Artefact „Fierté AI Artefact , einen ethischen Open-Source-LLM-Assistenten, der Mikroaggressionen und unbewusste Vorurteile in allen GenAI-Modellen erkennen und umformulieren kann.
Wir bei Artefact sind fest davon überzeugt, dassAI beiAI um MenschenAI . Dies war unsere Hauptmotivation bei der Entwicklung von Fierté AI. „Fierté“ bedeutet auf Französisch „Stolz“ und steht für den anhaltenden Kampf der LGBTQIA+-Community für Gleichberechtigung in der Gesellschaft.

GenAI setzt Kreativität und Innovation in großem Maßstab frei und hat das Potenzial, das Leben von Millionen Menschen weltweit positiv zu beeinflussen. Allerdings haben eine Reihe ethischer Kontroversen Bedenken hinsichtlich des sicheren und ethischen Einsatzes von GenAI-Systemen aufkommen lassen. Auch wenn GenAI neu und spektakulär erscheint, scheint es doch von denselben alten Vorurteilen durchzogen zu sein.

Ein UNESCO-Bericht vom März 2024 hebt hervor, dass „die Ergebnisse generativer AInach wie vor in erheblichem Maße geschlechts- und sexualitätsbezogene Vorurteile widerspiegeln, indem sie weibliche Namen mit traditionellen Geschlechterrollen in Verbindung bringen und negative Inhalte über homosexuelle Themen generieren, …“. Trotz der ausdrücklich genannten Einschränkungen der Studie unterstreicht sie die Allgegenwärtigkeit von Vorurteilen in der generativen KI und die Notwendigkeit einer besseren Aufsicht – von der Basisebene, wie den für die Modelle data , bis hin zur obersten Ebene, wie dem Hinzufügen von Ebenen für Audits und Sicherheitsüberprüfungen.

Was sind Mikroaggressionen und unbewusste Vorurteile?

Im Laufe der Geschichte haben marginalisierte Gemeinschaften oder Gruppen für gleiche Rechte und Vertretung gekämpft. Zu diesen Gemeinschaften und Gruppen zählen Frauen, LGBTQIA+-Personen, People of Color, Menschen mit Behinderungen und viele andere. Obwohl die Akzeptanz und Inklusion in Bezug auf gleiche Rechte zunimmt, sind diese Gemeinschaften und Gruppen aufgrund ihrer Minderheitenposition nach wie vor täglich mit Diskriminierung konfrontiert. Diese Vorfälle können unbeabsichtigt oder unbewusst durch systemische gesellschaftliche Vorurteile bedingt sein oder absichtlich fortgeführt werden, um Dominanz zu behaupten, was in der Summe erheblichen psychischen Schaden verursachen kann. Forschungsergebnisse deuten darauf hin, dass solche subtilen Diskriminierungshandlungen „für die Betroffenen schädlicher sein können als traditionellere, offenere Formen der Diskriminierung“.

Da die meisten Grundmodelle anhand von realen data dem Internet trainiert werden, perpetuieren sie diese Diskriminierung, die, wenn sie von Unternehmen eingesetzt wird, deren Kunden und Zielgruppen Schaden zufügen kann. So muss beispielsweise ein Unternehmen aus der Beauty- und Kosmetikbranche, zu dessen Kundenstamm nicht nur Frauen, sondern auch die LGBTQIA+-Community gehört, bei der Nutzung AI Kommunikation mit seinen Kunden auf geschlechtliche Inklusivität achten, da es andernfalls durch Mikroaggressionen zu Entfremdung kommen könnte. Daher AI jeder Versuch, AI sichere, verantwortungsvolle und ethische AI zu entwickeln, eine Ebene beinhalten, die sich mit Mikroaggressionen und unbewussten Vorurteilen befasst.

Fierté AI Artefact: Ein ethischer GenAI-Assistent, der Zielgruppen und Verbraucher schützt

Sehen Sie sich die Demo des GenAI-Assistenten „Fierté“ an

Mikroaggressionen sind alltägliche Handlungen, die – bewusst oder unbewusst – feindselige oder negative Botschaften gegenüber einer Person oder Gruppe vermitteln, die auf einem Aspekt ihrer Identität beruhen. Hier sind einige Beispiele: „Bist du nicht zu jung, um Manager zu sein?“ oder „Okay, Boomer.“ Dies können als Mikroaggressionen angesehen werden. Das kann schwierig sein, da Mikroaggressionen manchmal subjektiv sind, aber das Ziel ist es, das Bewusstsein für potenzielle Mikroaggressionen zu schärfen.

Nehmen wir ein konkretes Beispiel: Sie sind Marketingfachmann und verkaufen Kleidung. Ihre Marketingbotschaft lautet, dass Sie den Menschen Freude bereiten möchten, wenn sie eines Ihrer Kleidungsstücke tragen. Sie könnten sagen: „In diesem Kleid fühlen Sie sich wie ein Filmstar.“ In diesem Fall erkennt das Tool eine Mikroaggression. Die Kategorie lautet „Äußeres Erscheinungsbild und die LGBTQ+-Community“. Der Grund dafür ist, dass davon ausgegangen wird, dass die angesprochene Person wie eine stereotype Schauspielerin aussehen möchte, was einen Schönheitsstandard und eine heteronormative Perspektive impliziert. Der Vorschlag des GenAI-Assistenten lautet: „In diesem Kleid wirst du dich selbstbewusst und fabelhaft fühlen.“

Nehmen wir ein weiteres Beispiel, das dir an einem ganz normalen Arbeitstag begegnen könnte. „Hey Leute, nach dem heutigen Treffen mit der Marketingabteilung müssen wir Alex ins Team aufnehmen. Kann mir jemand seine Unterlagen schicken, da er Franzose ist? Lasst uns versuchen, uns auf Englisch klar auszudrücken, damit er sich wirklich willkommen fühlt. Tschüss, und wir sehen uns heute Abend bei unserem Männerabend. Wir schauen uns den neuen Actionfilm an.“

Lassen Sie uns das einmal analysieren. Das Tool erkennt hier mehrere Mikroaggressionen:

  • „Kann mir jemand seine Zugangsdaten mitteilen?“ Dies setzt voraus, dass Alex ein Mann ist, was durchaus zutreffen könnte. Der Vorschlag lautet: „Kann mir bitte jemand seine Zugangsdaten mitteilen?“, um inklusiver zu sein.

  • „Da er Franzose ist, sollten wir versuchen, uns auf Englisch klar auszudrücken.“ Das setzt voraus, dass Französischsprachige das Englische nicht gut verstehen – ein Klischee. Der Vorschlag lautet: „Lasst uns angesichts unserer sprachlichen Vielfalt das Beste tun, um klar und effektiv zu kommunizieren.“

  • „Bye-bye“ wird so verstanden, als würde Alex ausgeschlossen. Der Vorschlag lautet: „Tschüss, ihr alle, lasst uns heute Abend eine tolle Zeit haben, auch du, Alex.“

  • „Vergesst nicht unseren Männerabend heute Abend.“ Es wird empfohlen, zu sagen: „Vergesst nicht die Veranstaltung heute Abend“, um alle einzubeziehen.

  • Das Tool erkennt, dass der Verweis auf den Actionfilm als Mikroaggression angesehen werden kann, da er Menschen ausschließt, die keine Männer sind.

Das Tool befindet sich derzeit in der Beta-Phase, und wir möchten stets einen Menschen in den Prozess einbeziehen; das wichtigste Ziel ist jedoch, das Bewusstsein für Mikroaggressionen innerhalb der Organisation zu schärfen – unabhängig davon, ob wir diese im Alltag anwenden oder nicht.

Fierté AI ein hochentwickeltes Tool, das auf dem Mixtral-LLM basiert

Es optimiert die Parameter von Mixtral und nutzt Prompt Engineering, um Mikroaggressionen in der Kommunikation effektiv zu erkennen, zu analysieren und umzuformulieren. So wird sichergestellt, dass Nutzer ihre Botschaften vermitteln können, ohne andere zu verletzen oder zu beleidigen.

Die wichtigsten Funktionen von Fierté AI:

  • Mehrsprachige Unterstützung: Fierté AI mehrere Sprachen, darunter Englisch, Französisch und Schwedisch, und ist somit für ein vielfältiges audience zugänglich. Diese Mehrsprachigkeit erhöht den Nutzen der Plattform in unterschiedlichen Umgebungen und fördert die Inklusion über Sprachgruppen hinweg.

  • Datensatz für das Fine-Tuning: Die für das Fine-Tuning von Fierté AI verwendeten Datensätze AI sorgfältig zusammengestellt, um sicherzustellen, dass sie ein breites Spektrum an Ausdrucksweisen und Kontexten abdecken. Diese data der AI dabei, Mikroaggressionen präzise AI und relevante Umformulierungen anzubieten.

  • Modellübersicht: Fierté AI die robuste Architektur des Mixtral-LLM, das speziell auf bestimmte Aufgaben im Zusammenhang mit der Erkennung und Bekämpfung von Mikroaggressionen optimiert wurde. Dieser maßgeschneiderte Ansatz verbessert die Leistungsfähigkeit des Modells bei der Förderung einer respektvollen Kommunikation.

  • Leistungs- und Kostenvergleich mit GPT: Im Vergleich zu GPT-Modellen AI Fierté AI eine kostengünstige Lösung, ohne dabei Abstriche bei der Leistung zu machen. Dank seiner speziellen Technik zeichnet sich das Modell bei der Erkennung von Mikroaggressionen aus und bietet damit eine Nischenanwendung, die allgemeine Modelle wie GPT möglicherweise nicht so effektiv abdecken.

Die bestehenden LLM-Sicherheitsvorkehrungen für verantwortungsvolle AI gut, aber begrenzt

Positiv zu vermerken ist, dass Unternehmen das Problem der Voreingenommenheit und die Notwendigkeit, sichere und verantwortungsvolle AI zu entwickeln, anerkannt haben. Besondere Erwähnung verdienen Databricks, NVIDIA und Giskard AI, die alle erste Fortschritte bei der Erkennung schädlicher Inhalte und deren anschließender Verbreitung in der Öffentlichkeit erzielt haben. Guardrails können als Sicherheitskontrollen verstanden werden, die die Interaktionen der Nutzer mit einer LLM-Anwendung überprüfen und definieren. Die Möglichkeit, die generierte Ausgabe in ein bestimmtes Format oder einen bestimmten Kontext zu zwingen, ermöglicht eine Lösung auf der ersten Ebene zur Überprüfung auf Voreingenommenheit.

Laut Databricks können die Schutzmechanismen in den Model Serving Foundation-Modell-APIs als Sicherheitsfilter gegen schädliche oder unsichere Inhalte dienen. Der Schutzmechanismus verhindert, dass das Modell mit den erkannten Inhalten interagiert, die als unsicher eingestuft wurden. In einem solchen Fall teilt das Modell dem Nutzer ausdrücklich mit, dass es bei der Anfrage nicht helfen kann.

class="lazyload

Databricks gibt ebenso wie Giskard AI andere an, dass die derzeitigen Schutzmechanismen bei der Erkennung von Inhalten in sechs Hauptkategorien in Kraft treten: Gewalt und Hass, sexuelle Inhalte, kriminelle Planungen, Schusswaffen und illegale Waffen, regulierte und kontrollierte Substanzen sowie Selbstmord und Selbstverletzung.

Auch wenn solche Bemühungen lobenswert und für die Einführung bzw. Veröffentlichung von GenAI-Systemen in der Öffentlichkeit unerlässlich sind, sind sie doch nur begrenzt in der Lage, die alltäglichen Vorurteile und Diskriminierungen zu bekämpfen, die die menschliche Gesellschaft durchziehen. Diese Fälle alltäglicher unbewusster Vorurteile und Diskriminierung werden zu Mikroaggressionen, die sich schnell häufen und Einzelpersonen erheblichen Schaden zufügen können. Derald Wing Sue, Professor für Psychologie an der Columbia University, beschreibt Mikroaggressionen am treffendsten als „Tod durch tausend Schnitte“.

Ein mehrgleisiger Ansatz für AI sichere, verantwortungsvolle und ethische AI

AI nicht mehr wegzudenken und hat das Potenzial, Millionen von Menschen zu helfen und ihr Leben zu verbessern. Es liegt jedoch in unserer gemeinsamen Verantwortung, dafür zu sorgen, dass AI sicher, transparent und verantwortungsbewusst eingesetzt wird.

Im Mittelpunkt der Einführung steht der Aufbau von Vertrauen in AI , was durch einen mehrgleisigen Ansatz erreicht wird, der von Sicherheitsvorkehrungen über Open-Source-LLM-Ebenen bis hin zu kontinuierlicher menschlicher Aufsicht reicht. Nur durch eine solche gemeinsame Umsetzung und Zusammenarbeit können wir sicherstellen, dass die Vorteile der AI weltweit gerecht verteilt AI .