Eine Reihe von Kontroversen um die Ergebnisse von GenAI-Modellen hat die Forderung nach einer ethischen Überwachung und Steuerung von KI verstärkt. Während explizite Voreingenommenheit, Gewalt und Diskriminierung Fortschritte gemacht haben, sind implizite Voreingenommenheit und Mikroaggressionen noch nicht so weit.

Am Vorabend des Pride Month 2024 veröffentlichte Artefact Fierté AI, einen ethischen Open Source LLM-Assistenten, der Mikroaggressionen und unbewusste Voreingenommenheit in allen GenAI-Modellen erkennen und umformulieren kann.
Wir bei Artefact glauben fest daran, dass “AI is about people”. Das war unsere Hauptmotivation bei der Entwicklung von Fierté AI. “Fierté” bedeutet auf Französisch “Stolz” und steht für den ständigen Kampf der LGBTQIA+-Gemeinschaft um Gleichberechtigung in der Gesellschaft.

GenAI setzt Kreativität und Innovation in großem Umfang frei und hat das Potenzial, das Leben von Millionen Menschen auf der ganzen Welt positiv zu beeinflussen. Eine Reihe von ethischen Kontroversen hat jedoch Bedenken hinsichtlich des sicheren und ethischen Einsatzes von GenAI-Systemen aufgeworfen. Während GenAI neu und auffällig erscheint, scheint sie mit den gleichen alten Vorurteilen behaftet zu sein.

A UNESCO-Bericht vom März 2024 zeigt, wie “Die Ergebnisse der generativen KI spiegeln immer noch ein beträchtliches Maß an geschlechts- und sexualitätsbezogener Voreingenommenheit wider, indem sie weibliche Namen mit traditionellen Geschlechterrollen assoziieren, negative Inhalte über homosexuelle Themen generieren,...”. Trotz der ausdrücklichen Einschränkungen der Studie unterstreicht sie die Allgegenwärtigkeit von Verzerrungen in GenAI und die Notwendigkeit einer besseren Überwachung von der Basis, wie z.B. das Training data, das für die Modelle verwendet wird, bis hin zur Spitze, wie z.B. zusätzliche Ebenen für Audits und Sicherheitsüberprüfungen.

Was sind Mikroaggressionen und unbewusste Vorurteile?

Im Laufe der Geschichte haben marginalisierte Gemeinschaften oder Gruppen für gleiche Rechte und Vertretung gekämpft. Zu diesen Gemeinschaften oder Gruppen gehören women, LGBTQIA+ Menschen, People of Color, Menschen mit Behinderungen und viele mehr. Auch wenn die Akzeptanz und Einbeziehung gleicher Rechte zunimmt, sind diese Gemeinschaften und Gruppen immer noch täglich mit Diskriminierung konfrontiert, weil sie eine Minderheit sind. Diese Vorfälle können versehentlich/unbewusst durch systemische gesellschaftliche Voreingenommenheit ausgelöst oder absichtlich aufrechterhalten werden, um Dominanz durchzusetzen, was in der Summe zu erheblichen psychologischen Schäden führen kann. Forschung weist darauf hin, dass solche subtilen Handlungen der Diskriminierung “im Vergleich zu traditionelleren, offenen Formen der Diskriminierung nachteilig für die Zielpersonen sein können.”

Da die meisten grundlegenden Modelle an realen data aus dem Internet trainiert werden, halten sie diese Diskriminierung aufrecht, die, wenn sie von Unternehmen eingesetzt werden, ihren Verbrauchern und audience Schaden zufügen kann. Ein Kosmetikunternehmen beispielsweise, zu dessen Kundenstamm nicht nur women, sondern auch die LGBTQIA+-Gemeinschaft gehört, muss bei der Verwendung von KI zur Kommunikation mit seinen Kunden auf geschlechtsspezifische Inklusion achten, was andernfalls zu Entfremdung durch Mikroaggressionen führen würde. Daher muss jede Bemühung, sichere, verantwortungsvolle und ethische KI zu entwickeln, eine Ebene beinhalten, die Mikroaggressionen und unbewusste Vorurteile anspricht.

Fierté AI von Artefact: Ein ethischer GenAI-Assistent, der audiences und Verbraucher schützt

Sehen Sie sich die “Fierté” GenAI Assistent Demo

Mikroaggressionen sind alltägliche Handlungen, die absichtlich oder unabsichtlich feindselige oder negative Botschaften gegenüber einer Person oder Gruppe auf der Grundlage eines Aspekts ihrer Identität vermitteln. Hier sind ein paar Beispiele: “Sind Sie nicht zu jung, um Manager zu sein?” oder “Okay, Boomer.” Diese Aussagen können als Mikroaggressionen betrachtet werden. Es kann schwierig sein, weil Mikroaggressionen manchmal subjektiv sind, aber das Ziel ist es, das Bewusstsein für mögliche Mikroaggressionen zu schärfen.

Lassen Sie uns ein konkretes Beispiel nehmen: Sie sind ein Vermarkter und Sie verkaufen Kleidung. Ihre Marketingbotschaft lautet, dass Sie die Menschen glücklich machen wollen, wenn sie eines Ihrer Produkte tragen. Sie könnten sagen: “In diesem Kleid werden Sie sich wie ein Filmstar fühlen.” In diesem Fall wird das Tool eine Mikroaggression erkennen. Die Kategorie ist “Körperliches Aussehen und die LGBTQ+ Gemeinschaft”. Der Grund dafür ist, dass es davon ausgeht, dass die angesprochene Person wie eine stereotype Schauspielerin aussehen möchte, was einen Schönheitsstandard und eine heteronormative Perspektive impliziert. Der Vorschlag der GenAI-Assistentin lautet: “In diesem Kleid werden Sie sich selbstbewusst und fabelhaft fühlen.”

Nehmen wir ein anderes Beispiel, das Sie an einem beliebigen Tag bei der Arbeit sehen könnten. “Hey Leute, nachdem wir uns heute mit der Marketingabteilung getroffen haben, müssen wir Alex in unser Team aufnehmen. Kann uns jemand seine Qualifikationen mitteilen, da er Franzose ist? Lassen Sie uns versuchen, unser Englisch zu artikulieren, damit er sich wirklich willkommen fühlt. Auf Wiedersehen, und wir sehen uns heute Abend bei unserem Männerabend. Wir sehen uns den neuen Action-Film an.”

Lassen Sie uns das analysieren. Das Tool erkennt hier mehrere Mikroaggressionen:

  • “Kann mir jemand seine Referenzen nennen?” Das setzt voraus, dass Alex männlich ist, was vielleicht stimmt. Der Vorschlag lautet: “Kann mir jemand seine Referenzen nennen?”, um mehr zu bieten.

  • “Da er Franzose ist, sollten wir versuchen, unser Englisch zu artikulieren.” Dies unterstellt, dass französischsprachige Menschen nicht gut Englisch verstehen, ein Klischee. Der Vorschlag lautet: “Lassen Sie uns versuchen, klar und effektiv zu kommunizieren, in Anbetracht unserer vielfältigen Sprachgruppen.”

  • “Auf Wiedersehen” wird als Ausschluss von Alex verstanden. Der Vorschlag lautet: “Auf Wiedersehen, wir wollen uns heute Abend alle amüsieren, auch du, Alex.”

  • “Vergessen Sie nicht unseren Männerabend heute Abend.” Der Vorschlag ist, zu sagen: “Vergessen Sie das gesellschaftliche Ereignis heute Abend nicht”, um alle einzubeziehen.

  • Das Tool erkennt, dass der Verweis auf den Actionfilm als Mikroagression angesehen werden kann, weil er Menschen ausschließt, die keine Männer sind.

Das Tool befindet sich noch in der Beta-Phase und wir wollen immer einen Menschen in die Schleife einbeziehen, aber das wichtigste Ziel ist es, das Bewusstsein für Mikroaggressionen innerhalb der Organisation zu schärfen, die wir im täglichen Leben verwenden können oder auch nicht.

Fierté AI ist ein hochentwickeltes Tool, das auf dem Mixtral LLM

Es stimmt die Parameter von Mixtral fein ab und setzt Prompt-Engineering ein, um Mikroaggressionen in der Kommunikation effektiv zu erkennen, zu begründen und umzuformulieren. So wird sichergestellt, dass Benutzer ihre Botschaften übermitteln können, ohne Schaden anzurichten oder zu beleidigen.

Hauptmerkmale von Fierté AI:

  • Mehrsprachige Unterstützung: Fierté AI unterstützt mehrere Sprachen, darunter Englisch, Französisch und Schwedisch, so dass die Software für eine Vielzahl von audience zugänglich ist. Diese Mehrsprachigkeit erhöht die Nützlichkeit in verschiedenen Umgebungen und fördert die Inklusion aller Sprachgruppen.

  • Dataset für die Feinabstimmung: Die data-Sets, die für die Feinabstimmung der Fierté KI verwendet werden, wurden sorgfältig ausgewählt, um sicherzustellen, dass sie eine breite Palette von Ausdrücken und Kontexten erfassen. Diese Vielfalt an data hilft der KI dabei, Mikroausdrücke genau zu erkennen und entsprechende umformulierte Alternativen anzubieten.

  • Modell Übersicht: Fierté AI nutzt die robuste Architektur von Mixtral LLM, die für spezielle Aufgaben im Zusammenhang mit der Erkennung und Behandlung von Mikroagressionen optimiert wurde. Dieser maßgeschneiderte Ansatz verbessert die Leistung des Modells bei der Förderung einer respektvollen Kommunikation.

  • Leistungs- und Kostenvergleich mit GPT: Im Vergleich zu den GPT-Modellen bietet Fierté AI eine kostengünstige Lösung ohne Leistungseinbußen. Dank seiner spezialisierten Technik ist es in der Lage, Mikroaggressionen zu erkennen. Dies ist eine Nischenanwendung, die allgemeine Modelle wie GPT möglicherweise nicht so effektiv abdecken.

Bestehende LLM-Leitplanken für verantwortungsvolle KI sind gut, aber begrenzt

Die Unternehmen haben das Problem der Voreingenommenheit und die Notwendigkeit der Entwicklung einer sicheren und verantwortungsvollen KI erkannt. Drei bemerkenswerte Stimmen gehen an Databricks, NVIDIA, und Giskard AI, die alle erste Fortschritte bei der Erkennung schädlicher Inhalte und deren konsequenter Verbreitung in der Öffentlichkeit gemacht haben. Guardrails können als Sicherheitskontrollen verstanden werden, die die Benutzerinteraktionen mit einer LLM-Anwendung überprüfen und definieren. Die Möglichkeit, die generierte Ausgabe in einem bestimmten Format oder Kontext zu erzwingen, macht sie zu einer First-Layer-Lösung zur Überprüfung auf Verzerrungen.

Laut Databricks können die Leitplanken in den Model Serving Foundation Model APIs als Sicherheitsfilter gegen toxische oder unsichere Inhalte dienen. Die Leitplanke verhindert, dass das Modell mit dem erkannten Inhalt interagiert, der als unsicher eingestuft wurde. In einem solchen Fall antwortet das Modell dem Benutzer mit dem ausdrücklichen Hinweis, dass es nicht in der Lage ist, die Anfrage zu bearbeiten.

Databricks erklärt wie Giskard AI und andere, dass die derzeitigen Leitplanken bei der Entdeckung von Inhalten in sechs Hauptkategorien in Aktion treten: Gewalt und Hass, sexuelle Inhalte, kriminelle Pläne, Waffen und illegale Waffen, regulierte und kontrollierte Substanzen sowie Selbstmord und Selbstverletzung.

Diese Arbeit ist zwar lobenswert und für die Einführung/Freigabe von GenAI-Systemen für die Öffentlichkeit unerlässlich, aber sie ist nur begrenzt in der Lage, die alltäglichen Vorurteile und Diskriminierungen zu bekämpfen, die die menschliche Gesellschaft durchdringen. Diese alltäglichen unbewussten Vorurteile und Diskriminierungen werden zu Mikroaggressionen, die sich schnell auftürmen und dem Einzelnen erheblichen Schaden zufügen können. Derald Wing Sue, Professor für Psychologie an der Columbia University, beschreibt Mikroaggression am besten als Tod durch tausend Schnitte.

Mehrgleisiger Ansatz für sichere, verantwortungsvolle und ethische KI

KI wird sich durchsetzen und hat das Potenzial, Millionen von Menschen zu nutzen und zu verbessern. Es liegt jedoch in unserer gemeinsamen Verantwortung, die sichere, transparente und verantwortungsvolle Einführung von KI zu gewährleisten.

Entscheidend für die Akzeptanz ist der Aufbau von Vertrauen in KI-Systeme, was durch einen mehrgleisigen Ansatz erreicht wird, der von Leitplanken über Open-Source-LLM-Schichten bis hin zu kontinuierlicher menschlicher Aufsicht reicht. Nur durch eine solche kollektive Umsetzung und Zusammenarbeit können wir sicherstellen, dass die Vorteile der KI auf der ganzen Welt gerecht verteilt werden.