Uma série de controvérsias em torno dos resultados dos modelos de GenAI aumentou a defesa da supervisão ética e da governança da AI. Embora o preconceito explícito, a violência e a discriminação tenham avançado, o preconceito implícito e as microagressões não avançaram.

Na véspera do Pride Month 2024, Artefact lançou o Fierté AI, um assistente de LLM ético de código aberto que pode detectar e reformular microagressões e preconceitos inconscientes em todos os modelos de GenAI.
Em Artefact, acreditamos verdadeiramente que "AI é sobre pessoas". Essa foi nossa principal motivação para criar o Fierté AI. "Fierté" significa "orgulho" em francês e representa a luta contínua da comunidade LGBTQIA+ pela igualdade na sociedade.

A GenAI está liberando a criatividade e a inovação em grande escala, com o potencial de impactar positivamente a vida de milhões de pessoas em todo o mundo. No entanto, várias controvérsias éticas levantaram preocupações sobre a implantação segura e ética dos sistemas de GenAI. Embora a GenAI pareça nova e chamativa, ela parece estar repleta dos mesmos preconceitos de sempre.

Um relatório da UNESCO de março de 2024 destaca como "os resultados da Generative AIainda refletem uma quantidade considerável de preconceitos baseados em gênero e sexualidade, associando nomes femininos a papéis tradicionais de gênero, gerando conteúdo negativo sobre assuntos gays...". Apesar das limitações expressas no estudo, ele ressalta a abrangência do preconceito na GenAI e a necessidade de uma melhor supervisão desde o nível básico, como o treinamento data usado para os modelos, até o nível superior, como a adição de camadas para auditorias e revisões de segurança.

O que são microagressões e preconceitos inconscientes?

Ao longo da história, comunidades ou grupos marginalizados lutaram por direitos iguais e representação. Essas comunidades ou grupos representam mulheres, pessoas LGBTQIA+, pessoas de cor, pessoas com deficiência e muitos outros. Embora haja uma crescente aceitação e inclusão de direitos iguais, essas comunidades e grupos ainda enfrentam discriminação cotidiana por serem minoria. Esses incidentes podem ser causados acidentalmente/inconscientemente por preconceitos sistêmicos da sociedade ou perpetuados intencionalmente para afirmar o domínio, o que, quando combinado, pode causar danos psicológicos significativos. Pesquisas sugerem que esses atos sutis de discriminação podem ser "prejudiciais aos alvos em comparação com formas mais tradicionais e evidentes de discriminação".

Como a maioria dos modelos fundamentais é treinada no mundo real data da Internet, eles perpetuam essa discriminação que, quando implantada por empresas, pode causar danos a seus consumidores e públicos. Por exemplo, uma empresa de beleza e cosméticos cuja base de consumidores inclui não apenas mulheres, mas também a comunidade LGBTQIA+, deve estar atenta à inclusão de gênero ao usar o site AI para se comunicar com seus consumidores, o que, de outra forma, causaria alienação por meio de microagressões. Portanto, qualquer esforço para criar um AI seguro, responsável e ético deve incluir uma camada para tratar de microagressões e preconceitos inconscientes.

Fierté AI por Artefact: Um assistente GenAI ético que protege o público e os consumidores

Assista à demonstração do assistente "Fierté" Demonstração do assistente GenAI

Microagressões são ações cotidianas que, intencionalmente ou não, comunicam mensagens hostis ou negativas a uma pessoa ou grupo com base em um aspecto de sua identidade. Aqui estão alguns exemplos: "Você não é muito jovem para ser gerente?" ou "Ok, Boomer". Essas podem ser consideradas microagressões. Pode ser complicado porque às vezes as microagressões são subjetivas, mas o objetivo é aumentar a conscientização sobre possíveis microagressões.

Vamos dar um exemplo concreto: Você é um profissional de marketing e vende roupas. Sua mensagem de marketing é que você quer fazer com que as pessoas se sintam felizes quando estiverem usando um de seus itens. Você poderia dizer: "Este vestido fará com que você se sinta como uma estrela de cinema". Nesse caso, a ferramenta detectará uma microagressão. A categoria é "aparência física e a comunidade LGBTQ+". O motivo é que ela presume que a pessoa a quem se dirige quer se parecer com uma atriz estereotipada, o que implica um padrão de beleza e uma perspectiva heteronormativa. A sugestão do assistente do GenAI é: "Esse vestido fará você se sentir confiante e fabulosa".

Vejamos outro exemplo que você pode ver em qualquer dia de trabalho. "Pessoal, depois de nos reunirmos com o departamento de marketing hoje, precisamos adicionar o Alex à equipe. Alguém pode compartilhar suas credenciais, já que ele é francês? Vamos tentar articular nosso inglês para que ele realmente se sinta bem-vindo. Tchau, e nos vemos hoje à noite em nossa festa masculina. Vamos ver o novo filme de ação".

Vamos analisar isso. A ferramenta detecta várias microagressões aqui:

  • "Alguém pode compartilhar suas credenciais?" Isso pressupõe que Alex seja homem, o que pode ser verdade. A sugestão é "Can anyone share their credentials, please?" (Alguém pode compartilhar suas credenciais, por favor?) para ser mais inclusivo.

  • "Já que ele é francês, vamos tentar articular nosso inglês." Isso pressupõe que as pessoas de língua francesa não entendem bem o inglês, o que é um estereótipo. A sugestão é: "Vamos nos esforçar para nos comunicar de forma clara e eficaz, considerando nosso grupo diversificado de idiomas".

  • "Bye-bye" é visto como uma exclusão de Alex. A sugestão é "Adeus a todos, vamos nos divertir muito esta noite, inclusive você, Alex".

  • "Não se esqueça de nossa noite masculina hoje à noite". A sugestão é dizer: "Não se esqueça do evento social desta noite" para incluir todos.

  • A ferramenta detecta que a referência ao filme de ação pode ser vista como uma microagressão porque exclui pessoas que não são homens.

A ferramenta está em sua fase beta e sempre queremos incluir um ser humano no circuito, mas o objetivo mais importante é aumentar a conscientização sobre as microagressões dentro da organização que podemos ou não usar no dia a dia.

O Fierté AI é uma ferramenta sofisticada desenvolvida com base no LLM Mixtral

Ele ajusta os parâmetros do Mixtral e emprega engenharia imediata para detectar, raciocinar e reformular com eficácia as microagressões na comunicação. Isso garante que os usuários possam transmitir suas mensagens sem causar danos ou ofensas.

Principais recursos do Fierté AI:

  • Suporte multilíngue: O Fierté AI é compatível com vários idiomas, incluindo inglês, francês e sueco, o que o torna acessível a uma diversidade de audience. Esse recurso multilíngue aumenta sua utilidade em diversos ambientes, promovendo a inclusão de grupos linguísticos.

  • Conjunto de dados para ajuste fino: Os conjuntos de dados usados para o ajuste fino do Fierté AI são cuidadosamente selecionados para garantir que capturem uma ampla variedade de expressões e contextos. Essa diversidade em data ajuda o AI a detectar microagressões com precisão e fornecer alternativas reformuladas relevantes.

  • Visão geral do modelo: O Fierté AI aproveita a arquitetura robusta do Mixtral LLM, ajustada para tarefas específicas relacionadas à detecção e ao tratamento de microagressões. Essa abordagem personalizada aprimora o desempenho do modelo na promoção de uma comunicação respeitosa.

  • Comparação de desempenho e custo com o GPT: Em comparação com os modelos GPT, o Fierté AI oferece uma solução econômica sem comprometer o desempenho. Sua engenharia especializada permite que ele se sobressaia na detecção de microagressões, fornecendo uma aplicação de nicho que os modelos gerais, como o GPT, podem não abordar com a mesma eficácia.

As proteções existentes no LLM para o AI responsável são boas, mas limitadas

Em um tom mais positivo, as empresas reconheceram o problema da parcialidade e a necessidade de criar um site seguro e responsável AI. Três menções notáveis vão para a Databricks, a NVIDIA e a Giskard AI, que deram os primeiros passos na detecção de conteúdo nocivo e sua consequente difusão para o público. Os guardrails podem ser entendidos como controles de segurança que analisam e definem as interações do usuário com um aplicativo LLM. A capacidade de forçar a saída gerada a estar em um formato ou contexto específico permite que ela seja uma solução de primeira camada para verificar vieses.

De acordo com a Databricks, as grades de proteção em suas APIs Model Serving Foundation Model podem atuar como um filtro de segurança contra qualquer conteúdo tóxico ou inseguro. A barreira de proteção impede que o modelo interaja com o conteúdo detectado que foi considerado inseguro. Nesse caso, o modelo responde ao usuário declarando explicitamente que não pode ajudar com a solicitação.

class="img-responsive

A Databricks, assim como a Giskard AI e outras, afirma que as grades de proteção atuais entram em ação ao detectar conteúdo em seis categorias principais: Violência e Ódio, Conteúdo Sexual, Planejamento Criminal, Armas e Armas Ilegais, Substâncias Regulamentadas e Controladas e Suicídio e Autoagressão.

Embora esse trabalho seja louvável e imperativo para a implantação/liberação de sistemas GenAI para o público, eles são limitados em sua capacidade de lidar com o preconceito e a discriminação cotidianos que permeiam a sociedade humana. Essas instâncias de preconceito e discriminação inconscientes cotidianos tornam-se microagressões, que podem se acumular rapidamente e causar danos significativos aos indivíduos. Derald Wing Sue, professor de psicologia da Universidade de Colúmbia, descreve melhor a microagressão como a morte por mil cortes.

Abordagem multifacetada para uma gestão segura, responsável e ética AI

AI veio para ficar e tem o potencial de beneficiar e elevar milhões de pessoas. No entanto, é nossa responsabilidade coletiva garantir a adoção segura, transparente e responsável do AI.

O ponto central para a adoção é a criação de confiança nos sistemas AI , que é alcançada por meio de uma abordagem multifacetada que vai desde proteções até camadas de LLM de código aberto e supervisão humana contínua. Somente por meio dessa implementação e colaboração coletivas poderemos garantir que os benefícios da AI sejam compartilhados de forma equitativa em todo o mundo.