Uma série de controvérsias em torno dos resultados dos modelos de GenAI aumentou a defesa da supervisão ética e da governança da IA. Embora o preconceito explícito, a violência e a discriminação tenham avançado, o preconceito implícito e as microagressões não avançaram.

Na véspera do Pride Month 2024, o Artefact lançou o Fierté AI, um assistente ético de LLM de código aberto que pode detectar e reformular microagressões e preconceitos inconscientes em todos os modelos GenAI.
Na Artefact, acreditamos verdadeiramente que “AI is about people”. Essa foi a nossa principal motivação para criar a Fierté AI. “Fierté” significa “orgulho” em francês e representa a luta contínua da comunidade LGBTQIA+ pela igualdade na sociedade.

A GenAI está liberando a criatividade e a inovação em grande escala, com o potencial de impactar positivamente a vida de milhões de pessoas em todo o mundo. No entanto, uma série de controvérsias éticas levantou preocupações sobre a implantação segura e ética dos sistemas GenAI. Embora a GenAI pareça nova e chamativa, ela parece estar repleta dos mesmos velhos preconceitos.

A Relatório da UNESCO de março de 2024 destaca como “Os resultados da IA generativa ainda refletem uma quantidade considerável de preconceitos baseados em gênero e sexualidade, associando nomes femininos a papéis tradicionais de gênero, gerando conteúdo negativo sobre assuntos gays,...”. Apesar das limitações expressas no estudo, ele ressalta a abrangência do viés na GenAI e a necessidade de uma melhor supervisão desde o nível básico, como o treinamento data usado para os modelos, até o nível superior, como a adição de camadas para auditorias e revisões de segurança.

O que são microagressões e preconceitos inconscientes?

Ao longo da história, comunidades ou grupos marginalizados têm lutado por direitos iguais e representação. Essas comunidades ou grupos representam women, pessoas LGBTQIA+, pessoas de cor, pessoas com deficiência e muitos outros. Embora haja uma crescente aceitação e inclusão de direitos iguais, essas comunidades e grupos ainda enfrentam discriminação cotidiana por serem minoria. Esses incidentes podem ser acidentalmente/inconscientemente motivados por preconceitos sistêmicos da sociedade ou intencionalmente perpetuados para afirmar o domínio, o que, quando combinado, pode causar danos psicológicos significativos. Pesquisa sugere que esses atos sutis de discriminação podem ser “prejudiciais aos alvos em comparação com formas mais tradicionais e evidentes de discriminação”.”

Como a maioria dos modelos fundamentais é treinada em data do mundo real da Internet, eles perpetuam essa discriminação que, quando implantada por empresas, pode causar danos a seus consumidores e audiences. Por exemplo, uma empresa de beleza e cosméticos cuja base de consumidores inclui não apenas women, mas também a comunidade LGBTQIA+, deve estar atenta à inclusão de gênero ao usar IA para se comunicar com seus consumidores, o que, de outra forma, causaria alienação por meio de microagressões. Portanto, qualquer esforço para criar uma IA segura, responsável e ética deve incluir uma camada para lidar com microagressões e preconceitos inconscientes.

Fierté AI by Artefact: um assistente GenAI ético que protege os audiences e os consumidores

Assista à demonstração do assistente “Fierté” Demonstração do assistente GenAI

Microagressões são ações cotidianas que, intencionalmente ou não, comunicam mensagens hostis ou negativas a uma pessoa ou grupo com base em um aspecto de sua identidade. Aqui estão alguns exemplos: “O senhor não é muito jovem para ser gerente?” ou “Ok, Boomer”. Essas podem ser consideradas microagressões. Pode ser complicado porque às vezes as microagressões são subjetivas, mas o objetivo é aumentar a conscientização sobre possíveis microagressões.

Vamos dar um exemplo concreto: O senhor é um profissional de marketing e vende roupas. Sua mensagem de marketing é que o senhor quer fazer com que as pessoas se sintam felizes quando usam um de seus itens. O senhor poderia dizer: “Este vestido fará com que a senhora se sinta como uma estrela de cinema”. Nesse caso, a ferramenta detectará uma microagressão. A categoria é “aparência física e a comunidade LGBTQ+”. O motivo é que ela supõe que a pessoa a quem se dirige quer se parecer com uma atriz estereotipada, o que implica um padrão de beleza e uma perspectiva heteronormativa. A sugestão do assistente do GenAI é: “Esse vestido fará com que a senhora se sinta confiante e fabulosa”.”

Vejamos outro exemplo que o senhor pode ver em qualquer dia de trabalho. “Pessoal, depois de nos reunirmos com o departamento de marketing hoje, precisamos adicionar o Alex à equipe. Alguém pode compartilhar suas credenciais, já que ele é francês? Vamos tentar articular nosso inglês para que ele realmente se sinta bem-vindo. Adeus, e vejo o senhor na nossa noite masculina hoje. Vamos ver o novo filme de ação”.”

Vamos analisar isso. A ferramenta detecta várias microagressões aqui:

  • “Alguém pode compartilhar suas credenciais?” Isso pressupõe que Alex seja homem, o que pode ser verdade. A sugestão é “Can anyone share their credentials, please?” (Alguém pode compartilhar suas credenciais, por favor?) para ser mais inclusivo.

  • “Já que ele é francês, vamos tentar articular nosso inglês”. Isso pressupõe que os falantes de francês não entendem bem o inglês, o que é um estereótipo. A sugestão é: “Vamos nos esforçar para nos comunicar de forma clara e eficaz, considerando nosso grupo diversificado de idiomas”.”

  • “Bye-bye” é visto como uma exclusão de Alex. A sugestão é “Goodbye everyone, let's all have a great time tonight, including you, Alex”.”

  • “O senhor não se esqueça da nossa noite dos homens hoje à noite”. A sugestão é dizer: “Não se esqueça do evento social de hoje à noite” para incluir todos.

  • A ferramenta detecta que a referência ao filme de ação pode ser vista como uma microagressão porque exclui pessoas que não são homens.

A ferramenta está em sua fase beta e sempre queremos incluir um ser humano no circuito, mas o objetivo mais importante é aumentar a conscientização sobre as microagressões dentro da organização que podemos ou não usar no dia a dia.

O Fierté AI é uma ferramenta sofisticada criada com base no LLM Mixtral

Ele ajusta os parâmetros do Mixtral e emprega engenharia imediata para detectar, raciocinar e reformular com eficácia as microagressões na comunicação. Isso garante que os usuários possam transmitir suas mensagens sem causar danos ou ofensas.

Principais recursos do Fierté AI:

  • Suporte multilíngue: O Fierté AI é compatível com vários idiomas, incluindo inglês, francês e sueco, o que o torna acessível a um público diversificado audience. Esse recurso multilíngue aumenta sua utilidade em diversos ambientes, promovendo a inclusão de grupos linguísticos.

  • Dataset para ajuste fino: Os conjuntos de data usados para o ajuste fino da IA da Fierté são cuidadosamente selecionados para garantir que capturem uma ampla variedade de expressões e contextos. Essa diversidade no data ajuda a IA a detectar microagressões com precisão e a fornecer alternativas reformuladas relevantes.

  • Visão geral do modelo: O Fierté AI aproveita a arquitetura robusta do Mixtral LLM, ajustada para tarefas específicas relacionadas à detecção e ao tratamento de microagressões. Essa abordagem personalizada aprimora o desempenho do modelo na promoção de uma comunicação respeitosa.

  • Comparação de desempenho e custo com a GPT: Em comparação com os modelos GPT, o Fierté AI oferece uma solução econômica sem comprometer o desempenho. Sua engenharia especializada permite que ele se sobressaia na detecção de microagressões, fornecendo uma aplicação de nicho que os modelos gerais, como o GPT, podem não abordar com a mesma eficácia.

As proteções existentes no LLM para a IA responsável são boas, mas limitadas

Em uma nota mais positiva, as empresas reconheceram o problema do preconceito e a necessidade de criar uma IA segura e responsável. Três menções notáveis vão para Databricks, NVIDIA, e Giskard AI, que deram os primeiros passos na detecção de conteúdo nocivo e sua consequente difusão para o público. Os guardrails podem ser entendidos como controles de segurança que analisam e definem as interações do usuário com um aplicativo LLM. A capacidade de forçar a saída gerada a estar em um formato ou contexto específico permite que ele seja uma solução de primeira camada para verificar a existência de vieses.

De acordo com a Databricks, os guardrails em suas APIs Model Serving Foundation Model podem atuar como um filtro de segurança contra qualquer conteúdo tóxico ou inseguro. O guardrail impede que o modelo interaja com o conteúdo detectado que foi considerado inseguro. Nesse caso, o modelo responde ao usuário declarando explicitamente que não pode ajudar com a solicitação.

Databricks, assim como a Giskard AI e outros, afirma que as grades de proteção atuais entram em ação ao detectar conteúdo em seis categorias principais: Violência e Ódio, Conteúdo Sexual, Planejamento Criminal, Armas e Armas Ilegais, Substâncias Regulamentadas e Controladas e Suicídio e Autoagressão.

Embora esse trabalho seja louvável e imperativo para a implantação/liberação de sistemas GenAI para o público, eles são limitados em sua capacidade de lidar com o preconceito e a discriminação cotidianos que permeiam a sociedade humana. Essas instâncias de preconceito e discriminação inconscientes cotidianos tornam-se microagressões, que podem se acumular rapidamente e causar danos significativos aos indivíduos. Derald Wing Sue, professor de psicologia da Universidade de Columbia, descreve melhor a microagressão como morte por mil cortes.

Abordagem multifacetada para uma IA segura, responsável e ética

A IA veio para ficar e tem o potencial de beneficiar e elevar milhões de pessoas. No entanto, é nossa responsabilidade coletiva garantir a adoção segura, transparente e responsável da IA.

O ponto central para a adoção é criar confiança nos sistemas de IA, o que é alcançado por meio de uma abordagem multifacetada que vai desde proteções até camadas de LLM de código aberto e supervisão humana contínua. Somente por meio dessa implementação e colaboração coletivas poderemos garantir que os benefícios da IA sejam compartilhados de forma equitativa em todo o mundo.