围绕生成式人工智能(GenAI)模型产出的一系列争议,促使人们更加呼吁对人工智能进行伦理监督和治理。虽然显性偏见、暴力和歧视问题已得到关注,但隐性偏见和微观攻击却尚未引起足够重视。

在2024年“骄傲月”来临之际Artefact Fierté AI——一款符合伦理的开源大型语言模型(LLM)助手,能够检测并重写所有生成式人工智能(GenAI)模型中的微观攻击和无意识偏见。
在Artefact,我们坚信“AI 关乎人”。这正是我们开发 Fierté AI 的主要动力。“Fierté”在法语中意为“自豪”,象征着 LGBTQIA+ 群体在社会中为争取平等而持续进行的斗争。

生成式人工智能(GenAI)正在大规模释放创造力和创新力,有望对全球数百万人的生活产生积极影响。然而,一系列伦理争议引发了人们对生成式人工智能系统安全与合乎伦理的部署的担忧。尽管生成式人工智能看似新颖且引人注目,但它似乎仍充斥着那些陈旧的偏见。

联合国教科文组织2024年3月发布的一份报告指出,“生成式人工智能的输出结果仍然存在大量基于性别和性取向的偏见,例如将女性名字与传统性别角色联系起来,生成关于同性恋主题的负面内容……”。 尽管该研究明确指出了其局限性,但它突显了生成式人工智能中偏见的普遍性,以及从基层(如模型所用的训练数据)到高层(如增加审计和安全审查环节)都需要加强监管的必要性。

什么是微观歧视和无意识偏见?

纵观历史,边缘化群体一直为争取平等权利和代表权而奋斗。这些群体包括女性、LGBTQIA+人群、有色人种、残障人士等。尽管社会对平等权利的接纳和包容度日益提高,但这些群体因身为少数群体,仍面临着日常的歧视。此类事件可能源于系统性的社会偏见所导致的无意或无意识行为,也可能是为了维护支配地位而故意为之;这些因素叠加在一起,会造成严重的心理伤害。研究表明,此类隐晦的歧视行为“相比于更传统、更公开的歧视形式,对受害者造成的伤害可能更大”。

鉴于大多数基础模型都是在互联网上的真实世界数据上训练而成的,它们会延续这种歧视;而当企业部署这些模型时,可能会对消费者和受众造成伤害。例如,一家美容和化妆品公司的消费者群体不仅包括女性,还包括LGBTQIA+群体,因此在利用人工智能与消费者沟通时,必须注重性别包容性,否则可能会因微观攻击而导致疏离感。 因此,任何旨在构建安全、负责任且符合伦理的AI的努力,都必须包含应对微观攻击和无意识偏见的机制。

Artefact 推出的 Fierté AI:一款保护受众和消费者的合乎伦理的生成式人工智能助手

观看“Fierté”生成式人工智能助手演示

微歧视是指日常生活中那些基于某人或某群体的身份特征,有意或无意地向其传递敌意或负面信息的言行。以下是一些例子:“你这么年轻当经理是不是太早了?”或“好吧,老一辈。”这些都可以被视为微歧视。这有时会比较棘手,因为微歧视往往带有主观性,但我们的目的是提高人们对潜在微歧视的认识。

让我们举个具体的例子:假设你是一名营销人员,从事服装销售。你的营销信息是希望人们穿上你的产品时感到快乐。你可能会说:“这条裙子会让你感觉自己像电影明星一样。”在这种情况下,该工具会检测到一种微观歧视。其分类为“外貌与LGBTQ+群体”。 原因在于,该表述假设受众希望自己看起来像刻板印象中的女演员,这暗含了某种美学标准和异性恋规范的视角。生成式AI助手给出的建议是:“这件连衣裙会让你感到自信且光彩照人。”

再举一个你在工作中随时可能遇到的例子。“嘿,大家好,今天和市场部开会后,我们决定把亚历克斯招进团队。因为他是法国人,谁能分享一下他的背景资料吗?咱们说话时注意用英语表达,让他真切地感受到我们的欢迎。再见,今晚的男士之夜见。我们要去看那部新上映的动作片。”

让我们来分析一下。该工具在此处检测到了多处微观歧视:

  • “有人能分享一下他的凭证吗?”这句话默认亚历克斯是男性,这或许确实如此。为了更具包容性,建议改为“有人能分享一下他们的凭证吗?”

  • “既然他是法国人,我们就尽量把英语说清楚些。”这种说法暗含着法语使用者英语水平不佳的刻板印象。更恰当的说法应该是:“考虑到我们语言背景各异,让我们努力做到清晰有效地沟通。”

  • “拜拜”被视为将亚历克斯排除在外。建议改为:“大家晚安,今晚让我们一起玩得开心,亚历克斯,你也包括在内。”

  • “别忘了今晚的男士聚会。”建议改为:“别忘了今晚的社交活动”,这样才能涵盖所有人。

  • 该工具检测到,提及动作电影可能被视为一种微观歧视,因为这排除了非男性群体。

该工具目前处于测试阶段,我们始终希望在决策过程中保留人工干预,但最重要的目标是提高组织内部对微观歧视的认识——这些行为可能存在于我们的日常生活中,也可能并不存在。

Fierté AI 是一款基于 Mixtral 大型语言模型(LLM)构建的先进工具

它通过微调 Mixtral 的参数并运用提示工程技术,能够有效识别、分析并重述交流中的微观歧视行为。这确保了用户在传达信息时不会造成伤害或冒犯。

Fierté AI 的主要特点:

  • 多语言支持:Fierté AI 支持多种语言,包括英语、法语和瑞典语,因此能够服务于多元化的用户群体。这种多语言能力增强了其在各种场景中的实用性,促进了不同语言群体之间的包容性。

  • 微调数据集用于微调 Fierté AI 的数据集经过精心筛选,以确保涵盖广泛的表达方式和语境。这种数据的多样性有助于 AI 准确识别微观歧视,并提供相关的措辞替代方案。

  • 模型概述:Fierté AI 基于 Mixtral 大型语言模型(LLM)的强大架构,并针对检测和应对微观攻击(microaggressions)的相关任务进行了微调。这种定制化方法有效提升了模型在促进尊重性沟通方面的表现。

  • 与 GPT 的性能与成本对比:与 GPT 模型相比,Fierté AI 提供了一种既能保证性能又不增加成本的解决方案。其专门的工程设计使其在检测微观歧视方面表现出色,提供了一种 GPT 等通用模型可能无法有效处理的特定应用场景。

现有用于负责任人工智能的大语言模型(LLM)防护措施虽好,但仍有局限性

值得欣慰的是,各家公司已认识到偏见问题,并意识到有必要构建安全且负责任的人工智能。 值得特别点名的有DatabricksNVIDIAGiskard AI 三家公司,它们在检测有害内容及其向公众的扩散方面都已取得初步进展。所谓“防护栏”,可以理解为一种安全控制机制,用于审查和定义用户与大语言模型(LLM)应用程序的交互。通过强制将生成的输出限定在特定格式或语境中,这种机制能够作为第一层解决方案来检测偏见。

据 Databricks 介绍,其 Model Serving Foundation 模型 API 中的防护机制可作为安全过滤器,用于屏蔽任何有害或不安全的内容。该防护机制会阻止模型与被检测出且被判定为不安全的内容进行交互。在这种情况下,模型会明确告知用户无法处理该请求。

class="lazyload

Databricks 与 Giskard AI 等公司一样表示,当前的防护机制会在检测到属于以下六大类的内容时立即启动:暴力与仇恨、色情内容、犯罪策划、枪支与非法武器、受管制物质,以及自杀与自残。

尽管此类工作值得称赞,且对于将生成式人工智能系统部署或向公众发布而言至关重要,但它们在应对渗透于人类社会中的日常偏见和歧视方面能力有限。这些日常的无意识偏见和歧视会演变为微观攻击,并可能迅速累积,对个人造成重大伤害。哥伦比亚大学心理学教授德尔德·温·苏(Derald Wing Sue)将微观攻击精辟地描述为“千刀万剐”

采取多管齐下的方法,推动安全、负责任且符合伦理的人工智能

人工智能已然成为不可逆转的趋势,它有潜力造福并改善数百万人的生活。然而,确保人工智能得到安全、透明且负责任地应用,是我们共同的责任。

推广人工智能的关键在于建立对人工智能系统的信任,这需要采取多管齐下的方法,包括设置防护措施、采用开源的大型语言模型(LLM)层以及实施持续的人工监督。只有通过这种集体实施与协作,我们才能确保人工智能带来的好处在全球范围内得到公平分享。