Una serie de controversias en torno a los resultados de los modelos de GenAI ha aumentado la defensa de la supervisión ética y la gobernanza de la IA. Mientras que el sesgo explícito, la violencia y la discriminación han avanzado, el sesgo implícito y las microagresiones no lo han hecho.
En vísperas del Mes del Orgullo 2024, Artefact lanzó Fierté AI, un asistente ético de código abierto LLM que puede detectar y reformular las microagresiones y los prejuicios inconscientes en todos los modelos GenAI.
En Artefact, realmente creemos que “AI is about people”. Esta ha sido nuestra principal motivación a la hora de crear Fierté AI. “Fierté” significa “orgullo” en francés y representa la lucha constante de la comunidad LGBTQIA+ por la igualdad en la sociedad.
La GenAI está dando rienda suelta a la creatividad y la innovación a gran escala, con el potencial de influir positivamente en la vida de millones de personas en todo el mundo. Sin embargo, una serie de controversias éticas ha suscitado inquietudes sobre el despliegue seguro y ético de los sistemas GenAI. Aunque la GenAI parece nueva y llamativa, parece estar plagada de los mismos viejos prejuicios.
A Informe de la UNESCO de marzo de 2024 destaca cómo “Los resultados de la IA generativa siguen reflejando una cantidad considerable de sesgos basados en el género y la sexualidad, asociando nombres femeninos con roles de género tradicionales, generando contenidos negativos sobre temas homosexuales,...”. A pesar de las limitaciones expresas del estudio, éste subraya la omnipresencia del sesgo en la GenAI y la necesidad de una mejor supervisión desde la base, como la formación data utilizada para los modelos, hasta la cima, como la adición de capas para auditorías y revisiones de seguridad.
¿Qué son las microagresiones y los prejuicios inconscientes?
A lo largo de la historia, las comunidades o grupos marginados han luchado por la igualdad de derechos y la representación. Entre estas comunidades o grupos se encuentran los women, las personas LGBTQIA+, las personas de color, las personas con discapacidad y muchos más. Aunque cada vez hay una mayor aceptación e inclusión de la igualdad de derechos, estas comunidades y grupos siguen sufriendo discriminación a diario por el hecho de ser una minoría. Estos incidentes pueden ser impulsados accidental o inconscientemente por prejuicios sociales sistémicos o perpetuados intencionadamente para afirmar la dominación, lo que, cuando se agrava, puede causar un daño psicológico significativo. Investigación sugiere que tales actos sutiles de discriminación pueden ser “perjudiciales para los objetivos en comparación con formas más tradicionales y manifiestas de discriminación”.”
Dado que la mayoría de los modelos fundacionales se entrenan con data del mundo real procedentes de Internet, perpetúan esta discriminación que, cuando es desplegada por las empresas, puede infligir daños a sus consumidores y audience. Por ejemplo, una empresa de belleza y cosméticos cuya base de consumidores incluya no sólo a women sino también a la comunidad LGBTQIA+ debe tener en cuenta la inclusión de género cuando utilice la IA para comunicarse con sus consumidores, lo que de otro modo causaría alienación a través de microagresiones. Por lo tanto, cualquier esfuerzo por construir una IA segura, responsable y ética debe incluir una capa para abordar las microagresiones y los prejuicios inconscientes.
Fierté AI de Artefact: Un asistente GenAI ético que protege a los audience y a los consumidores
Vea la “Fierté demostración del asistente GenAI
Las microagresiones son acciones cotidianas que, de forma intencionada o no, comunican mensajes hostiles o negativos hacia una persona o grupo basándose en un aspecto de su identidad. He aquí algunos ejemplos: “¿No eres demasiado joven para ser gerente?” o “Vale, Boomer”. Éstas pueden considerarse microagresiones. Puede ser complicado porque a veces las microagresiones son subjetivas, pero el objetivo es concienciar sobre las posibles microagresiones.
Pongamos un ejemplo concreto: Usted es un vendedor y vende ropa. Su mensaje de marketing es que quiere que la gente se sienta feliz cuando lleve uno de sus artículos. Podría decir: “Este vestido le hará sentirse como una estrella de cine”. En este caso, la herramienta detectará una microagresión. La categoría es “apariencia física y la comunidad LGBTQ+”. La razón es que asume que la persona a la que se dirige quiere parecerse a una actriz estereotipada, lo que implica un estándar de belleza y una perspectiva heteronormativa. La sugerencia de la asistente GenAI es: “Este vestido te hará sentir segura y fabulosa”.”
Tomemos otro ejemplo que puede ver un día cualquiera en el trabajo. “Hola chicos, después de reunirnos hoy con el departamento de marketing, necesitamos incorporar a Alex al equipo. ¿Alguien puede compartir sus credenciales ya que es francés? Intentemos articular nuestro inglés para que se sienta realmente bienvenido. Adiós, y nos vemos esta noche en nuestra noche de hombres. Vamos a ver la nueva película de acción”.”
Analicemos esto. La herramienta detecta aquí múltiples microagresiones:
La herramienta está en su fase beta y siempre queremos incluir a un humano en el bucle, pero el objetivo más importante es aumentar la concienciación sobre las microagresiones dentro de la organización que podemos o no utilizar en el día a día.
Fierté AI es una sofisticada herramienta construida sobre el LLM Mixtral
Afina los parámetros de Mixtral y emplea la ingeniería de la inmediatez para detectar, razonar y reformular eficazmente las microagresiones en la comunicación. Esto garantiza que los usuarios puedan transmitir sus mensajes sin causar daño ni ofender.
Características principales de Fierté AI:
Los guardarraíles LLM existentes para una IA responsable son buenos pero limitados
En un tono más positivo, las empresas han reconocido el problema de la parcialidad y la necesidad de construir una IA segura y responsable. Tres ejemplos notables son Databricks, NVIDIA, y Giskard AI, todos los cuales han dado los primeros pasos en la detección de contenidos nocivos y su consiguiente difusión al público. Los guardarraíles pueden entenderse como controles de seguridad que revisan y definen las interacciones de los usuarios con una aplicación LLM. La capacidad de forzar que la salida generada esté en un formato o contexto específico le permite ser una solución de primera capa para comprobar la existencia de sesgos.
Según Databricks, los quitamiedos de sus API de modelos de la Fundación para el Servicio de Modelos pueden actuar como un filtro de seguridad contra cualquier contenido tóxico o inseguro. El quitamiedos impide que el modelo interactúe con el contenido detectado que se haya considerado inseguro. En tal caso, el modelo responde al usuario indicando explícitamente que no puede atender la solicitud.

Databricks, al igual que Giskard AI y otros, afirma que las actuales barreras de seguridad entran en acción al detectar contenidos en seis categorías principales: Violencia y odio, Contenido sexual, Planes delictivos, Armas de fuego y armas ilegales, Sustancias reguladas y controladas, y Suicidio y autolesiones.
Aunque este trabajo es encomiable e imperativo para el despliegue/liberación de los sistemas GenAI al público, su capacidad para abordar el sesgo y la discriminación cotidianos que impregnan la sociedad humana es limitada. Estos casos de prejuicios y discriminación inconscientes cotidianos se convierten en microagresiones, que pueden acumularse rápidamente hasta causar un daño significativo a las personas. Derald Wing Sue, profesor de psicología de la Universidad de Columbia, describe mejor la microagresión como muerte por mil cortes.
Enfoque múltiple para una IA segura, responsable y ética
La IA ha llegado para quedarse y tiene el potencial de beneficiar y elevar a millones de personas. Sin embargo, es nuestra responsabilidad colectiva garantizar la adopción segura, transparente y responsable de la IA.
Un elemento central para la adopción es la creación de confianza en los sistemas de IA, que se consigue mediante un enfoque múltiple que va desde los guardarraíles hasta las capas LLM de código abierto y la supervisión humana continua. Sólo a través de esta implementación y colaboración colectivas podremos garantizar que los beneficios de la IA se compartan equitativamente en todo el mundo.

BLOG






