Uma série de controvérsias em torno dos resultados dos modelos de IA gerativa (GenAI) tem intensificado a defesa da supervisão ética e da governança da AI. Enquanto o preconceito explícito, a violência e a discriminação têm se intensificado, o preconceito implícito e as microagressões não.

Na véspera do Mês do Orgulho de 2024, Artefact o Fierté AI, um assistente LLM de código aberto e ético capaz de detectar e reformular microagressões e preconceitos inconscientes em todos os modelos de IA de geração.
Na Artefact, acreditamos sinceramente queAI a ver com pessoas”. Essa tem sido nossa principal motivação na criação AI Fierté AI. “Fierté” significa “orgulho” em francês e representa a luta contínua da comunidade LGBTQIA+ pela igualdade na sociedade.

A IA Gerativa está liberando criatividade e inovação em grande escala, com o potencial de impactar positivamente a vida de milhões de pessoas em todo o mundo. No entanto, uma série de controvérsias éticas tem suscitado preocupações quanto à implantação segura e ética dos sistemas de IA Gerativa. Embora a IA Gerativa pareça nova e atraente, ela parece estar repleta dos mesmos velhos preconceitos.

Um relatório da UNESCO de março de 2024 destaca que “os resultados AIgenerativa ainda refletem um viés considerável baseado em gênero e sexualidade, associando nomes femininos a papéis de gênero tradicionais, gerando conteúdo negativo sobre temas relacionados à comunidade gay,…”. Apesar das limitações expressas do estudo, ele ressalta a prevalência do preconceito na IA generativa e a necessidade de uma melhor supervisão desde a base — como os data de treinamento data para os modelos — até o topo, como a adição de camadas para auditorias e análises de segurança.

O que são microagressões e preconceitos inconscientes?

Ao longo da história, comunidades ou grupos marginalizados têm lutado por direitos iguais e representatividade. Essas comunidades ou grupos incluem mulheres, pessoas LGBTQIA+, pessoas de cor, pessoas com deficiência e muitos outros. Embora haja uma crescente aceitação e inclusão da igualdade de direitos, essas comunidades e grupos ainda enfrentam discriminação no dia a dia por serem minorias. Esses incidentes podem ser motivados acidentalmente ou inconscientemente por preconceitos sociais sistêmicos, ou perpetuados intencionalmente para afirmar domínio, o que, quando se acumula, pode causar danos psicológicos significativos. Pesquisas sugerem que tais atos sutis de discriminação podem ser “mais prejudiciais para as vítimas do que formas mais tradicionais e evidentes de discriminação”.

Como a maioria dos modelos fundamentais é treinada com data do mundo real data da internet, eles perpetuam essa discriminação que, quando implementada pelas empresas, pode causar danos aos seus consumidores e públicos. Por exemplo, uma empresa de beleza e cosméticos cuja base de consumidores inclui não apenas mulheres, mas também a comunidade LGBTQIA+, deve estar atenta à inclusão de gênero ao usar AI se comunicar com seus consumidores, o que, de outra forma, causaria alienação por meio de microagressões. Portanto, qualquer esforço para construir AI segura, responsável e ética AI incluir uma camada para lidar com microagressões e preconceitos inconscientes.

Fierté AI Artefact: Um assistente de IA gerativa ético que protege o público e os consumidores

Assista à demonstração do assistente GenAI “Fierté”

Microagressões são atitudes cotidianas que, intencionalmente ou não, transmitem mensagens hostis ou negativas a uma pessoa ou grupo com base em algum aspecto de sua identidade. Aqui estão alguns exemplos: “Você não é muito jovem para ser gerente?” ou “Ok, Boomer”. Essas frases podem ser consideradas microagressões. Isso pode ser complicado, pois, às vezes, as microagressões são subjetivas, mas o objetivo é aumentar a conscientização sobre possíveis microagressões.

Vamos dar um exemplo concreto: você é profissional de marketing e vende roupas. Sua mensagem de marketing é que deseja fazer com que as pessoas se sintam felizes ao usar uma de suas peças. Você poderia dizer: “Este vestido vai fazer você se sentir como uma estrela de cinema”. Nesse caso, a ferramenta detectará uma microagressão. A categoria é “aparência física e a comunidade LGBTQ+”. O motivo é que ela pressupõe que a pessoa a quem se dirige deseja se parecer com uma atriz estereotipada, sugerindo um padrão de beleza e uma perspectiva heteronormativa. A sugestão do assistente GenAI é: “Este vestido vai fazer você se sentir confiante e fabulosa.”

Vamos dar outro exemplo que você pode ver em qualquer dia no trabalho. “Ei, pessoal, depois da reunião com o departamento de marketing hoje, precisamos incluir o Alex na equipe. Alguém poderia compartilhar as credenciais dele, já que ele é francês? Vamos tentar falar um inglês mais claro para que ele se sinta realmente bem-vindo. Tchau, e nos vemos na nossa noite dos rapazes hoje à noite. Vamos assistir ao novo filme de ação.”

Vamos analisar isso. A ferramenta detecta várias microagressões aqui:

  • “Alguém poderia compartilhar suas credenciais?” Isso pressupõe que Alex é homem, o que pode ser verdade. A sugestão é: “Alguém poderia compartilhar suas credenciais, por favor?”, para ser mais inclusivo.

  • “Como ele é francês, vamos tentar falar um inglês mais claro.” Isso pressupõe que os falantes de francês não entendem bem o inglês, o que é um estereótipo. A sugestão é: “Vamos nos esforçar para nos comunicar de forma clara e eficaz, levando em conta a diversidade de idiomas do nosso grupo.”

  • “Tchau” dá a impressão de excluir o Alex. A sugestão é: “Adeus a todos, vamos nos divertir muito esta noite, incluindo você, Alex.”

  • “Não se esqueçam da nossa noite dos rapazes hoje.” A sugestão é dizer: “Não se esqueçam do evento social de hoje à noite” para incluir todo mundo.

  • A ferramenta detecta que a referência ao filme de ação pode ser vista como uma microagressão, pois exclui pessoas que não são homens.

A ferramenta está em fase beta e sempre queremos contar com a participação humana, mas o objetivo principal é aumentar a conscientização sobre as microagressões dentro da organização, que podemos ou não utilizar no dia a dia.

O Fierté AI uma ferramenta sofisticada desenvolvida com base no modelo de linguagem de grande escala (LLM) Mixtral

Ele ajusta os parâmetros do Mixtral e utiliza a engenharia de prompts para detectar, analisar e reformular microagressões na comunicação de maneira eficaz. Isso garante que os usuários possam transmitir suas mensagens sem causar danos ou ofender ninguém.

Principais recursos do Fierté AI:

  • Suporte multilíngue: O Fierté AI vários idiomas, incluindo inglês, francês e sueco, tornando-o acessível a um audience diversificado. Essa capacidade multilíngue amplia sua utilidade em diversos contextos, promovendo a inclusão entre diferentes grupos linguísticos.

  • Conjunto de dados para ajuste fino: Os conjuntos de dados utilizados para o ajuste fino AI Fierté AI cuidadosamente selecionados para garantir que capturem uma ampla variedade de expressões e contextos. Essa diversidade nos data a AI microagressões com precisão e a oferecer alternativas de reformulação relevantes.

  • Visão geral do modelo: O Fierté AI a arquitetura robusta do LLM Mixtral, ajustada para tarefas específicas relacionadas à detecção e ao tratamento de microagressões. Essa abordagem personalizada melhora o desempenho do modelo na promoção de uma comunicação respeitosa.

  • Comparação de desempenho e custo com o GPT: Em comparação com os modelos GPT, o Fierté AI uma solução econômica sem comprometer o desempenho. Sua engenharia especializada permite que ele se destaque na detecção de microagressões, proporcionando uma aplicação específica que modelos gerais como o GPT podem não abordar com a mesma eficácia.

As diretrizes existentes para o LLM em matéria de AI responsável AI boas, mas limitadas

Por outro lado, as empresas reconheceram o problema do viés e a necessidade de desenvolver AI segura e responsável. Três menções especiais vão para a Databricks, a NVIDIA e AI Giskard AI, que deram os primeiros passos na detecção de conteúdo prejudicial e sua consequente difusão ao público. Guardrails podem ser entendidos como controles de segurança que analisam e definem as interações do usuário com um aplicativo LLM. A capacidade de forçar a saída gerada a estar em um formato ou contexto específico permite que seja uma solução de primeira linha para verificar se há preconceitos.

De acordo com a Databricks, os mecanismos de proteção nas APIs do Model Serving Foundation podem atuar como um filtro de segurança contra qualquer conteúdo tóxico ou perigoso. Esses mecanismos impedem que o modelo interaja com o conteúdo detectado que foi considerado perigoso. Nesse caso, o modelo responde ao usuário indicando explicitamente que não pode atender à solicitação.

class="lazyload

A Databricks, assim como a Giskard AI outras empresas, afirma que os mecanismos de proteção atuais entram em ação assim que detectam conteúdo nas seis categorias principais: violência e discurso de ódio, conteúdo sexual, planejamento de crimes, armas de fogo e armas ilegais, substâncias regulamentadas e controladas, e suicídio e automutilação.

Embora esse trabalho seja louvável e indispensável para a implantação e o lançamento de sistemas de IA geral ao público, eles têm capacidade limitada para lidar com o preconceito e a discriminação cotidianos que permeiam a sociedade humana. Esses casos de preconceito e discriminação inconscientes do dia a dia se transformam em microagressões, que podem se acumular rapidamente e causar danos significativos aos indivíduos. Derald Wing Sue, professor de psicologia da Universidade de Columbia, descreve as microagressões como “morte por mil cortes”.

Abordagem multifacetada para AI segura, responsável e ética

AI para ficar e tem o potencial de beneficiar e melhorar a vida de milhões de pessoas. No entanto, é nossa responsabilidade coletiva garantir que a adoção da AI seja segura, transparente e responsável.

Um aspecto fundamental para a adoção AI é a construção da confiança nos AI , o que é alcançado por meio de uma abordagem multifacetada que abrange desde medidas de segurança até camadas de LLM de código aberto e supervisão humana contínua. Somente por meio dessa implementação coletiva e colaboração é que podemos garantir que os benefícios da AI compartilhados de forma equitativa em todo o mundo.