Uma série de controvérsias em torno dos resultados dos modelos de IA gerativa (GenAI) tem intensificado a defesa da supervisão ética e da governança da AI. Enquanto o preconceito explícito, a violência e a discriminação têm se intensificado, o preconceito implícito e as microagressões não.
Na véspera do Mês do Orgulho de 2024, Artefact o Fierté AI, um assistente LLM de código aberto e ético capaz de detectar e reformular microagressões e preconceitos inconscientes em todos os modelos de IA de geração.
Na Artefact, acreditamos sinceramente queAI a ver com pessoas”. Essa tem sido nossa principal motivação na criação AI Fierté AI. “Fierté” significa “orgulho” em francês e representa a luta contínua da comunidade LGBTQIA+ pela igualdade na sociedade.
A IA Gerativa está liberando criatividade e inovação em grande escala, com o potencial de impactar positivamente a vida de milhões de pessoas em todo o mundo. No entanto, uma série de controvérsias éticas tem suscitado preocupações quanto à implantação segura e ética dos sistemas de IA Gerativa. Embora a IA Gerativa pareça nova e atraente, ela parece estar repleta dos mesmos velhos preconceitos.
Um relatório da UNESCO de março de 2024 destaca que “os resultados AIgenerativa ainda refletem um viés considerável baseado em gênero e sexualidade, associando nomes femininos a papéis de gênero tradicionais, gerando conteúdo negativo sobre temas relacionados à comunidade gay,…”. Apesar das limitações expressas do estudo, ele ressalta a prevalência do preconceito na IA generativa e a necessidade de uma melhor supervisão desde a base — como os data de treinamento data para os modelos — até o topo, como a adição de camadas para auditorias e análises de segurança.
O que são microagressões e preconceitos inconscientes?
Ao longo da história, comunidades ou grupos marginalizados têm lutado por direitos iguais e representatividade. Essas comunidades ou grupos incluem mulheres, pessoas LGBTQIA+, pessoas de cor, pessoas com deficiência e muitos outros. Embora haja uma crescente aceitação e inclusão da igualdade de direitos, essas comunidades e grupos ainda enfrentam discriminação no dia a dia por serem minorias. Esses incidentes podem ser motivados acidentalmente ou inconscientemente por preconceitos sociais sistêmicos, ou perpetuados intencionalmente para afirmar domínio, o que, quando se acumula, pode causar danos psicológicos significativos. Pesquisas sugerem que tais atos sutis de discriminação podem ser “mais prejudiciais para as vítimas do que formas mais tradicionais e evidentes de discriminação”.
Como a maioria dos modelos fundamentais é treinada com data do mundo real data da internet, eles perpetuam essa discriminação que, quando implementada pelas empresas, pode causar danos aos seus consumidores e públicos. Por exemplo, uma empresa de beleza e cosméticos cuja base de consumidores inclui não apenas mulheres, mas também a comunidade LGBTQIA+, deve estar atenta à inclusão de gênero ao usar AI se comunicar com seus consumidores, o que, de outra forma, causaria alienação por meio de microagressões. Portanto, qualquer esforço para construir AI segura, responsável e ética AI incluir uma camada para lidar com microagressões e preconceitos inconscientes.
Fierté AI Artefact: Um assistente de IA gerativa ético que protege o público e os consumidores
Assista à demonstração do assistente GenAI “Fierté”
Microagressões são atitudes cotidianas que, intencionalmente ou não, transmitem mensagens hostis ou negativas a uma pessoa ou grupo com base em algum aspecto de sua identidade. Aqui estão alguns exemplos: “Você não é muito jovem para ser gerente?” ou “Ok, Boomer”. Essas frases podem ser consideradas microagressões. Isso pode ser complicado, pois, às vezes, as microagressões são subjetivas, mas o objetivo é aumentar a conscientização sobre possíveis microagressões.
Vamos dar um exemplo concreto: você é profissional de marketing e vende roupas. Sua mensagem de marketing é que deseja fazer com que as pessoas se sintam felizes ao usar uma de suas peças. Você poderia dizer: “Este vestido vai fazer você se sentir como uma estrela de cinema”. Nesse caso, a ferramenta detectará uma microagressão. A categoria é “aparência física e a comunidade LGBTQ+”. O motivo é que ela pressupõe que a pessoa a quem se dirige deseja se parecer com uma atriz estereotipada, sugerindo um padrão de beleza e uma perspectiva heteronormativa. A sugestão do assistente GenAI é: “Este vestido vai fazer você se sentir confiante e fabulosa.”
Vamos dar outro exemplo que você pode ver em qualquer dia no trabalho. “Ei, pessoal, depois da reunião com o departamento de marketing hoje, precisamos incluir o Alex na equipe. Alguém poderia compartilhar as credenciais dele, já que ele é francês? Vamos tentar falar um inglês mais claro para que ele se sinta realmente bem-vindo. Tchau, e nos vemos na nossa noite dos rapazes hoje à noite. Vamos assistir ao novo filme de ação.”
Vamos analisar isso. A ferramenta detecta várias microagressões aqui:
A ferramenta está em fase beta e sempre queremos contar com a participação humana, mas o objetivo principal é aumentar a conscientização sobre as microagressões dentro da organização, que podemos ou não utilizar no dia a dia.
O Fierté AI uma ferramenta sofisticada desenvolvida com base no modelo de linguagem de grande escala (LLM) Mixtral
Ele ajusta os parâmetros do Mixtral e utiliza a engenharia de prompts para detectar, analisar e reformular microagressões na comunicação de maneira eficaz. Isso garante que os usuários possam transmitir suas mensagens sem causar danos ou ofender ninguém.
Principais recursos do Fierté AI:
As diretrizes existentes para o LLM em matéria de AI responsável AI boas, mas limitadas
Por outro lado, as empresas reconheceram o problema do viés e a necessidade de desenvolver AI segura e responsável. Três menções especiais vão para a Databricks, a NVIDIA e AI Giskard AI, que deram os primeiros passos na detecção de conteúdo prejudicial e sua consequente difusão ao público. Guardrails podem ser entendidos como controles de segurança que analisam e definem as interações do usuário com um aplicativo LLM. A capacidade de forçar a saída gerada a estar em um formato ou contexto específico permite que seja uma solução de primeira linha para verificar se há preconceitos.
De acordo com a Databricks, os mecanismos de proteção nas APIs do Model Serving Foundation podem atuar como um filtro de segurança contra qualquer conteúdo tóxico ou perigoso. Esses mecanismos impedem que o modelo interaja com o conteúdo detectado que foi considerado perigoso. Nesse caso, o modelo responde ao usuário indicando explicitamente que não pode atender à solicitação.

A Databricks, assim como a Giskard AI outras empresas, afirma que os mecanismos de proteção atuais entram em ação assim que detectam conteúdo nas seis categorias principais: violência e discurso de ódio, conteúdo sexual, planejamento de crimes, armas de fogo e armas ilegais, substâncias regulamentadas e controladas, e suicídio e automutilação.
Embora esse trabalho seja louvável e indispensável para a implantação e o lançamento de sistemas de IA geral ao público, eles têm capacidade limitada para lidar com o preconceito e a discriminação cotidianos que permeiam a sociedade humana. Esses casos de preconceito e discriminação inconscientes do dia a dia se transformam em microagressões, que podem se acumular rapidamente e causar danos significativos aos indivíduos. Derald Wing Sue, professor de psicologia da Universidade de Columbia, descreve as microagressões como “morte por mil cortes”.
Abordagem multifacetada para AI segura, responsável e ética
AI para ficar e tem o potencial de beneficiar e melhorar a vida de milhões de pessoas. No entanto, é nossa responsabilidade coletiva garantir que a adoção da AI seja segura, transparente e responsável.
Um aspecto fundamental para a adoção AI é a construção da confiança nos AI , o que é alcançado por meio de uma abordagem multifacetada que abrange desde medidas de segurança até camadas de LLM de código aberto e supervisão humana contínua. Somente por meio dessa implementação coletiva e colaboração é que podemos garantir que os benefícios da AI compartilhados de forma equitativa em todo o mundo.

BLOG





