Uma série de controvérsias em torno dos resultados dos modelos de GenAI aumentou a defesa da supervisão ética e da governança da IA. Embora o preconceito explícito, a violência e a discriminação tenham avançado, o preconceito implícito e as microagressões não avançaram.
Na véspera do Pride Month 2024, o Artefact lançou o Fierté AI, um assistente ético de LLM de código aberto que pode detectar e reformular microagressões e preconceitos inconscientes em todos os modelos GenAI.
Na Artefact, acreditamos verdadeiramente que “AI is about people”. Essa foi a nossa principal motivação para criar a Fierté AI. “Fierté” significa “orgulho” em francês e representa a luta contínua da comunidade LGBTQIA+ pela igualdade na sociedade.
A GenAI está liberando a criatividade e a inovação em grande escala, com o potencial de impactar positivamente a vida de milhões de pessoas em todo o mundo. No entanto, uma série de controvérsias éticas levantou preocupações sobre a implantação segura e ética dos sistemas GenAI. Embora a GenAI pareça nova e chamativa, ela parece estar repleta dos mesmos velhos preconceitos.
A Relatório da UNESCO de março de 2024 destaca como “Os resultados da IA generativa ainda refletem uma quantidade considerável de preconceitos baseados em gênero e sexualidade, associando nomes femininos a papéis tradicionais de gênero, gerando conteúdo negativo sobre assuntos gays,...”. Apesar das limitações expressas no estudo, ele ressalta a abrangência do viés na GenAI e a necessidade de uma melhor supervisão desde o nível básico, como o treinamento data usado para os modelos, até o nível superior, como a adição de camadas para auditorias e revisões de segurança.
O que são microagressões e preconceitos inconscientes?
Ao longo da história, comunidades ou grupos marginalizados têm lutado por direitos iguais e representação. Essas comunidades ou grupos representam women, pessoas LGBTQIA+, pessoas de cor, pessoas com deficiência e muitos outros. Embora haja uma crescente aceitação e inclusão de direitos iguais, essas comunidades e grupos ainda enfrentam discriminação cotidiana por serem minoria. Esses incidentes podem ser acidentalmente/inconscientemente motivados por preconceitos sistêmicos da sociedade ou intencionalmente perpetuados para afirmar o domínio, o que, quando combinado, pode causar danos psicológicos significativos. Pesquisa sugere que esses atos sutis de discriminação podem ser “prejudiciais aos alvos em comparação com formas mais tradicionais e evidentes de discriminação”.”
Como a maioria dos modelos fundamentais é treinada em data do mundo real da Internet, eles perpetuam essa discriminação que, quando implantada por empresas, pode causar danos a seus consumidores e audiences. Por exemplo, uma empresa de beleza e cosméticos cuja base de consumidores inclui não apenas women, mas também a comunidade LGBTQIA+, deve estar atenta à inclusão de gênero ao usar IA para se comunicar com seus consumidores, o que, de outra forma, causaria alienação por meio de microagressões. Portanto, qualquer esforço para criar uma IA segura, responsável e ética deve incluir uma camada para lidar com microagressões e preconceitos inconscientes.
Fierté AI by Artefact: um assistente GenAI ético que protege os audiences e os consumidores
Assista à demonstração do assistente “Fierté” Demonstração do assistente GenAI
Microagressões são ações cotidianas que, intencionalmente ou não, comunicam mensagens hostis ou negativas a uma pessoa ou grupo com base em um aspecto de sua identidade. Aqui estão alguns exemplos: “O senhor não é muito jovem para ser gerente?” ou “Ok, Boomer”. Essas podem ser consideradas microagressões. Pode ser complicado porque às vezes as microagressões são subjetivas, mas o objetivo é aumentar a conscientização sobre possíveis microagressões.
Vamos dar um exemplo concreto: O senhor é um profissional de marketing e vende roupas. Sua mensagem de marketing é que o senhor quer fazer com que as pessoas se sintam felizes quando usam um de seus itens. O senhor poderia dizer: “Este vestido fará com que a senhora se sinta como uma estrela de cinema”. Nesse caso, a ferramenta detectará uma microagressão. A categoria é “aparência física e a comunidade LGBTQ+”. O motivo é que ela supõe que a pessoa a quem se dirige quer se parecer com uma atriz estereotipada, o que implica um padrão de beleza e uma perspectiva heteronormativa. A sugestão do assistente do GenAI é: “Esse vestido fará com que a senhora se sinta confiante e fabulosa”.”
Vejamos outro exemplo que o senhor pode ver em qualquer dia de trabalho. “Pessoal, depois de nos reunirmos com o departamento de marketing hoje, precisamos adicionar o Alex à equipe. Alguém pode compartilhar suas credenciais, já que ele é francês? Vamos tentar articular nosso inglês para que ele realmente se sinta bem-vindo. Adeus, e vejo o senhor na nossa noite masculina hoje. Vamos ver o novo filme de ação”.”
Vamos analisar isso. A ferramenta detecta várias microagressões aqui:
A ferramenta está em sua fase beta e sempre queremos incluir um ser humano no circuito, mas o objetivo mais importante é aumentar a conscientização sobre as microagressões dentro da organização que podemos ou não usar no dia a dia.
O Fierté AI é uma ferramenta sofisticada criada com base no LLM Mixtral
Ele ajusta os parâmetros do Mixtral e emprega engenharia imediata para detectar, raciocinar e reformular com eficácia as microagressões na comunicação. Isso garante que os usuários possam transmitir suas mensagens sem causar danos ou ofensas.
Principais recursos do Fierté AI:
As proteções existentes no LLM para a IA responsável são boas, mas limitadas
Em uma nota mais positiva, as empresas reconheceram o problema do preconceito e a necessidade de criar uma IA segura e responsável. Três menções notáveis vão para Databricks, NVIDIA, e Giskard AI, que deram os primeiros passos na detecção de conteúdo nocivo e sua consequente difusão para o público. Os guardrails podem ser entendidos como controles de segurança que analisam e definem as interações do usuário com um aplicativo LLM. A capacidade de forçar a saída gerada a estar em um formato ou contexto específico permite que ele seja uma solução de primeira camada para verificar a existência de vieses.
De acordo com a Databricks, os guardrails em suas APIs Model Serving Foundation Model podem atuar como um filtro de segurança contra qualquer conteúdo tóxico ou inseguro. O guardrail impede que o modelo interaja com o conteúdo detectado que foi considerado inseguro. Nesse caso, o modelo responde ao usuário declarando explicitamente que não pode ajudar com a solicitação.

Databricks, assim como a Giskard AI e outros, afirma que as grades de proteção atuais entram em ação ao detectar conteúdo em seis categorias principais: Violência e Ódio, Conteúdo Sexual, Planejamento Criminal, Armas e Armas Ilegais, Substâncias Regulamentadas e Controladas e Suicídio e Autoagressão.
Embora esse trabalho seja louvável e imperativo para a implantação/liberação de sistemas GenAI para o público, eles são limitados em sua capacidade de lidar com o preconceito e a discriminação cotidianos que permeiam a sociedade humana. Essas instâncias de preconceito e discriminação inconscientes cotidianos tornam-se microagressões, que podem se acumular rapidamente e causar danos significativos aos indivíduos. Derald Wing Sue, professor de psicologia da Universidade de Columbia, descreve melhor a microagressão como morte por mil cortes.
Abordagem multifacetada para uma IA segura, responsável e ética
A IA veio para ficar e tem o potencial de beneficiar e elevar milhões de pessoas. No entanto, é nossa responsabilidade coletiva garantir a adoção segura, transparente e responsável da IA.
O ponto central para a adoção é criar confiança nos sistemas de IA, o que é alcançado por meio de uma abordagem multifacetada que vai desde proteções até camadas de LLM de código aberto e supervisão humana contínua. Somente por meio dessa implementação e colaboração coletivas poderemos garantir que os benefícios da IA sejam compartilhados de forma equitativa em todo o mundo.

BLOG






