围绕 GenAI 模型结果的一系列争议增加了对人工智能伦理监督和治理的倡导。虽然显性偏见、暴力和歧视有所发展,但隐性偏见和微观诽谤却没有。.
在 2024 年 "自豪月 "前夕,Artefact 发布了 Fierté AI,这是一款符合道德规范的开源 LLM 助手,可以在所有 GenAI 模型中检测并重新表述微冒犯和无意识偏见。.
在 Artefact,我们坚信 “AI is about people”。这是我们建立 Fierté AI 的主要动机。“Fierté ”在法语中是 “骄傲 ”的意思,代表了 LGBTQIA+ 群体为争取社会平等而不断奋斗的精神。.
GenAI 正在大规模释放创造力和创新力,有可能对全世界数百万人的生活产生积极影响。然而,一些道德争议引发了人们对 GenAI 系统安全和道德部署的担忧。虽然 GenAI 看起来新颖而华丽,但似乎也充斥着同样的陈旧偏见。.
A 教科文组织报告 从 2024 年 3 月起,我们将重点关注 “生成式人工智能的输出结果仍然反映出大量基于性别和性取向的偏见,将女性名字与传统性别角色联系起来,生成有关同性恋主题的负面内容......”. .尽管这项研究存在明显的局限性,但它强调了 GenAI 中普遍存在的偏见,以及从基层(如模型使用的培训 data)到高层(如增加审计和安全审查的层级)进行更好监督的必要性。.
什么是微小侵害和无意识偏见?
纵观历史,边缘化社区或群体一直在为争取平等权利和代表权而斗争。这些社区或群体包括 women、LGBTQIA+、有色人种、残疾人等。虽然人们越来越接受和包容平等权利,但这些社群和群体作为少数群体,每天仍然面临歧视。这些事件可能是由系统性的社会偏见意外/无意识地造成的,也可能是为了维护统治地位而故意延续的,这些事件如果叠加在一起,可能会造成严重的心理伤害。. 研究 表明,与更传统、更公开的歧视形式相比,这种微妙的歧视行为可能 “对目标不利”。”
鉴于大多数基础模型都是根据互联网上的真实世界 data 训练出来的,因此这些模型延续了这种歧视,当公司使用这些模型时,可能会对其消费者和 audience 造成伤害。例如,一家美容化妆品公司的消费者群体不仅包括 women 而且还包括 LGBTQIA+ 群体,该公司在使用人工智能与其消费者沟通时必须注意性别包容性,否则会因微小的冒犯而造成疏远。因此,任何旨在建立安全、负责任和合乎道德的人工智能的努力,都必须包括解决微小冒犯和无意识偏见的内容。.
Artefact 的 Fierté AI:保护 audience 和消费者的道德 GenAI 助手
观看 “Fierté”GenAI 助手演示
微小侵害是指基于个人或群体身份的某一方面,有意或无意地向其传达敌意或负面信息的日常行为。下面是几个例子:“你当经理是不是太年轻了?”或 “好吧,潮人”。这些都可以被视为微冒犯。这可能很棘手,因为有时微冒犯是主观的,但我们的目标是提高对潜在微冒犯的认识。.
让我们举一个具体的例子:你是一名营销人员,销售服装。你的营销信息是,你希望让人们在穿上你的商品时感到快乐。你可以这样说“这件衣服会让你感觉像电影明星一样”在这种情况下,工具会检测到微侵犯。类别是 “外貌和 LGBTQ+ 群体”。原因在于,它假定对方希望自己看起来像一个刻板的女演员,这意味着一种美的标准和异性恋的观点。GenAI 助手的建议是:“这件衣服会让你感到自信和美妙”。”
让我们再举一个你在工作中随时可能看到的例子。“嘿,伙计们,今天与市场营销部门会面后,我们需要亚历克斯加入团队。既然他是法国人,谁能介绍一下他的资历?让我们尽量用英语表达,让他真正感受到我们的欢迎。再见 今晚的男士之夜见我们要去看新的动作片”
让我们来分析一下。该工具在这里检测到了多种微冒犯:
该工具正处于测试阶段,我们一直希望在循环中加入一个人,但最重要的目标是提高我们对组织内部微小诽谤的认识,我们在日常生活中可能会用到,也可能用不到。.
Fierté AI 是一个基于 Mixtral LLM 的复杂工具。
它对 Mixtral 的参数进行了微调,并采用了及时工程技术,以有效地检测、推理和重新表述交流中的微词。这确保了用户在传递信息时不会造成伤害或冒犯。.
Fierté AI 的主要功能:
现有的法律硕士负责任人工智能的指导原则很好,但很有限
令人欣慰的是,一些公司已经认识到了偏见问题,并认识到有必要建立安全、负责任的人工智能。以下三家公司值得一提 Databricks, 英伟达, 和 吉斯卡德人工智能, 在检测有害内容及其向公众传播方面都取得了长足进步。可以将 "防护栏 "理解为审查和定义用户与 LLM 应用程序交互的安全控制。强制生成特定格式或上下文输出的能力使其成为检查偏差的第一层解决方案。.
据 Databricks 称,其模型服务基础模型应用程序接口中的护栏可作为安全过滤器,防止任何有毒或不安全的内容。护栏可防止模型与检测到的不安全内容进行交互。在这种情况下,模型会响应用户,明确表示无法协助处理请求。.

Databricks 和 Giskard AI 等人一样指出,目前的防护网在检测到六大类内容时就会启动:暴力和仇恨、性内容、犯罪计划、枪支和非法武器、受管制和控制的物质以及自杀和自残。.
虽然这些工作值得称赞,而且对于向公众部署/发布 GenAI 系统来说也势在必行,但它们在解决渗透人类社会的日常偏见和歧视方面能力有限。这些日常无意识的偏见和歧视会变成微小的冒犯,迅速累积起来,对个人造成重大伤害。哥伦比亚大学心理学教授 Derald Wing Sue 将微侵害描述为 千刀万剐.
多管齐下,实现安全、负责和合乎道德的人工智能
人工智能将继续存在,并有可能造福和提升数百万人。然而,确保安全、透明和负责任地采用人工智能是我们的共同责任。.
采用人工智能的核心是建立对人工智能系统的信任,这要通过多管齐下的方法来实现,从防护栏到开源乐虎国际客户端下载层,再到持续的人工监督。只有通过这样的集体实施和协作,我们才能确保人工智能的好处在全世界得到公平分享。.

博客






