×

模型 偏见 倾向 生成 图像

OpenAI的模型更倾向生成男性图像?研究发现AI模型均存在性别偏见

jnlyseo998998 jnlyseo998998 发表于2023-03-31 13:25:02 浏览23 评论0

抢沙发发表评论

针对当下流行的大语言模型(Large Language Models,LLMs),比尔·盖茨称 OpenAI 的 GPT 模型是“自 1980 年以来最重要的技术进步”,英伟达 CEO 黄仁勋也表示 AI 的“iPhone 时刻”已经来临。

但是,当下流行的 AI 图像生成模型,也倾向于放大有害型偏见以及刻板印象。2023 年 2 月,《麻省理工科技评论》记者梅丽莎·海基拉(Melissa Heikkilä)发现,美国 Midjourney 实验室研发的同名大语言模型 Midjourney,已经封禁了一批有关人类生殖系统的词汇。当用户使用时,这些词汇不能被用作提示语。

如果有人将“胎盘”“输卵管”“乳腺”“精子”“子宫”“尿道”“子宫颈”“处女膜”或“外阴”输入 Midjourney,系统会发出禁止使用的提示。有时,尝试使用这些提示词的用户,会因为试图生成被禁止的内容,而被暂时禁用一段时间。而其他与人类生物学有关的单词,比如“肝脏”和“肾脏”则被允许使用。

美国 Midjourney 公司的创始人大卫·霍尔兹(David Holz)表示,禁止这些词汇是一种权宜之计,以防止用户在 Midjourney“优化 AI 技术”的过程中,产生令人震惊或血腥的内容。他说,Midjourney 管理员会关注用户如何使用文字、以及生成了什么图片,并定期对禁令进行调整。该公司的社区指导方针显示,Midjourney 会拦阻性、血腥、暴力等图片的生成。

Midjourney 的禁令是一个相对少见的尝试。一些与男性生殖系统有关的词语,例如“精子”和“睾丸”也已经被屏蔽。但是,被禁用的词汇列表似乎主要侧重于和女性相关的词汇。

这一禁令最初由美国 Datafy Clinical 公司的临床数据分析师茱莉亚·罗克韦尔(Julia Rockwell)和她的朋友美国北卡罗来纳大学教堂山分校的细胞生物学家玛德琳·基宁(Madeline Keenen)发现的。

利用 Midjourney 这款 AI 图像生成工具,罗克韦尔尝试为研究胎盘的基宁生成一个有趣的胎盘图像。令她惊讶的是,罗克韦尔发现当使用“胎盘”作为提示词会被禁止。然后,她开始试验其他与人类生殖系统有关的词汇,并且发现了同样的结果。

不过,两人也展示了如何绕过这些禁令,比如通过使用不同的文字拼写,或使用关于性或血腥内容的委婉语,来创造出本应该被禁止的图像。

他们发现使用“妇科检查”这一提示词时,如果使用英国拼写,就会产生一些令人毛骨悚然的画面,比如医生办公室里有两个裸女,一个断臂的人切开自己的胃(图片可能引起不适请谨慎观看)。

图 | 当使用英式拼法的“妇科检查”提示词时,Midjourney 所生成的图像(来源:JULIA ROCKWELL)

展开全文

再比如,使用 Midjourney 也可以生成一个充满“珠宝气息的卵巢”。

图 | Midjourney 生成了一个充满“珠宝气息的卵巢”(来源:JULIA ROCKWELL)

可以说,Midjourney“一刀切”地禁止与生殖系统相关的提示,凸显出管控生成式 AI 模型的内容是多么的棘手。罗克韦尔说,它还表明 AI 模型将女性“性化”的趋势是如何延伸到内脏器官的。

拥有同类产品的 OpenAI 和 Stability.AI 已经成功过滤掉一些不合适的输出和提示,所以当你分别在 OpenAI 的 DALL-E 2、以及 Stability.AI 的 Stable Diffusion 中输入同一词语时,它们会产生非常不同的图像。

比如,用英式拼法的“妇科检查”作为提示词,DALL-E 2 展示了一个人拿着一件医疗设备的图片,Stable Diffusion 则生成了两个戴着橡胶手套、穿着实验服但是面容略显扭曲的戴口罩女性的图片。

(来源:资料图)

同时,DALL-E 2 和 Stable Diffusion 这两个 AI 模型,都允许将“胎盘”作为提示词,但是生成结果都是不符合生物学实际描述的肉质器官图像。

Stability.AI 的发言人表示,他们的最新模型里有一个过滤器,可以屏蔽用户提供的不安全、不合适的内容。Stability.AI 还研发了一款工具,可用于检测裸体以及其他不合适的图像。针对一些敏感词它只会返回模糊的图像。总体而言,Stability.AI 使用关键词、图像识别和其他技术的组合,来调节其人工智能系统生成的图像。对于这类问题,OpenAI 没有回应《麻省理工科技评论》的置评请求。

目前还不清楚为何提到“妇科检查”或“胎盘”等词语,会产生血腥或露骨的内容。在微软研究院研究公平医疗保健的研究员艾琳·陈(Irene Chen)表示,这可能与该模型在数据集的图像之间找到的关联有关。

此外,AI 模型除了会生成带有女性偏见的内容,也会生成带有种族偏见的内容。

基于 Stable Diffusion 的 AI 模型 Lensa:为亚裔女性生成的裸露形象,远远多于白人女性

美国 Prisma Labs 公司研发的开源型 AI 模型 Lensa,是一款可以生成虚拟化身的产品,它能基于文本提示词来生成图像。Lensa 使用 Stable Diffusion 来生成它的虚拟化身,而 Stable Diffusion 则是使用 LAION-5B 构建的。LAION-5B 是一个大型开源数据集,充满着从互联网上抓取的图像。

Lensa 最早于 2018 年推出,2022 年底其添加了新功能“魔法虚拟化身(Magic Avatars)”——可以根据用户的自拍照生成数字肖像,此次更新也让它变得倍受欢迎。

2022 年 12 月,当《麻省理工科技评论》的记者梅丽莎·海基拉尝试使用 Lensa 时,她希望生成的结果,能和现实中周围人对于她的认知保持一致。

图 | Lensa 为梅丽莎生成的图片(来源:资料图)

据了解,Lensa 曾为用户创造了既符合现实、又讨喜的化身,譬如宇航员、魁梧的战士和酷炫的电子音乐专辑封面。

而梅丽莎却得到了大量暴露而性感的照片。在她制作的 100 个虚拟形象中,有 16 个是上身赤裸的,还有 14 个是身着非常暴露的衣服,并摆出了非常性感的姿势。

梅丽莎的亚洲血统,似乎是 AI 模型从她的自拍中唯一准确得到的东西。AI 模型为她生成的亚洲女性形象,显然是模仿了动漫或电子游戏的角色。甚至最有可能是模仿了色情内容,因为她的虚拟形象里要么会出现裸体、要么是非常暴露。

另外,她的几个虚拟形象似乎在哭泣。而梅丽莎的白人女同事得到的性感形象,明显要少得多——只有几个裸体和露出乳沟的迹象。另一位有中国血统的同事则得到了与梅丽莎类似的结果,即大量色情风格的虚拟化身。

(来源:资料图)

Lensa 对亚洲女性的迷恋是如此“强烈”,以至于当让它为梅丽莎生成一个男性化身时,它仍然在梅丽莎生身上施加了女性裸体和性感姿势。

图 | Lensa 为梅丽莎生成的图片(来源:资料图)

有趣的是,当梅丽莎的照片经过男性内容过滤器时,她的 Lensa 虚拟化身变得更加真实。她更加喜欢自己穿着衣服和不带任何暗示的姿势。在好几张照片中,她穿着一件似乎属于厨师或医生的白大褂。

由此可见,至少在 2022 年底,Lensa 的开发者所做的选择是:让男性虚拟化身穿上宇航服,而女性虚拟化身则身着丁字裤、以及戴着仙女翅膀。

Lensa 背后公司 Prisma Labs 的一位发言人说,照片“偶然的性感化”发生在所有性别的人身上,但方式有所不同。该公司表示,由于 Stable Diffusion 是使用互联网上未经过滤的数据训练而来,它和 Stability.AI 公司都不能“有意识地应用任何偏见,或有意地整合传统的美学元素。”这位发言人表示:“这些人工制造的、未经过滤的网络数据将该模型带入了人类现有的偏见。”尽管如此,该公司声称自己仍在努力解决这一问题。

Prisma Labs 公司还在一篇博客文章中表示,他们已经调整了某些文字和图片之间的关系以便减少偏见。不过,这位发言人没有透露更多细节。

Lensa 是第一个基于 Stable Diffusion 开发出来的颇受欢迎的应用程序,但它可能不会是最后一个。作为产品它似乎是无辜的,毕竟很难阻止坏人的滥用,比如用社交媒体上找到的女性图片,在非自愿的情况下生成女性裸照,甚至是儿童的裸照。

美国非营利组织 Mozilla 基金会的高级研究员阿贝巴·伯汉(Abeba Birhane)、美国移动行为生物识别公司 UnifyID 首席科学家维奈·乌代·普拉布(Vinay Uday Prabhu)、以及 OECD AI 的 CEO 伊曼纽尔·卡亨布(Emmanuel Kahembwe),在分析了一个类似于构建 Stable Diffusion 的数据集后发现,AI 训练数据里充满了种族主义的刻板印象,甚至是明晃晃的色情图像和强奸图像。

值得注意的是,他们之所以能有所发现,是因为 LAION 的数据集是开源的。但大多数其他流行的图像制作 AI,如谷歌的 Imagen 和 OpenAI 的 DALL-E,它们的数据集并不对外开放,但都采取类似的方式构建、使用类似的训练数据。因此,这是一个全行业的问题。

2022 年 9 月,当 Stable Diffusion 的第一个版本刚刚发布时,在模型的数据集中搜索“亚洲”等关键词,结果几乎是清一色的色情内容。Stable Diffusion 于 2022 年 11 月底推出了一个新版本。一位发言人表示,伴随最初版本发布的还有一个安全过滤器,但 Lensa 似乎没有使用,因为过滤器会去除这些输出。Stable Diffusion2.0 过滤内容的一种方法是删除经常重复的图像。有些东西被重复的次数越多,比如性感图片场景中的亚洲女性图像被重复得越多,这种关联在人工智能模型中就越强。

对于 AI 模型生出的女性偏见类内容,多数科技公司均在做出整改。然而,在 AI 模型生成的内容中,职业偏见和种族偏见并未引起较大的重视,但它们的存在却很普遍。

DALL-E 2 和 Stable Diffusion 倾向于产生看起来像白人和男性的图像

2022 年 3 月,美国 AI 初创公司 Hugging Face 和德国莱比锡大学的研究人员,发表了一篇未经同行评议的预印本论文。

研究中,他们审视了三种 AI 图像生成模型的偏见:分别是 OpenAI 的 DALL-E 2、以及两个最新版本的 StableDiffusion v1.4 和 Stable Diffusion v2。

论文作者首先使用这三款模型生成了 96000 张不同种族、性别和职业的人物图像。他们要求模型根据社会属性生成一组图像,比如“女人”或“拉丁裔男人”,然后再生成另一组“职业+形容词”相关的图像,比如“雄心勃勃的水管工”或“富有同情心的 CEO”。

为了研究这两组图像到底是如何变化的,他们通过使用“对图片进行聚类”的机器学习技术来实现这一点。

借助这种技术,可以在图像中找到模式,无需给它们分配类别比如性别或种族。这让论文作者们能够分析不同图像之间的相似性,借此观察这些 AI 模型究竟会将什么实验对象组合在一起。

然后,他们通过建立一款交互式工具,以便让任何人都可以探索这些 AI 模型产生的图像、以及输出中所反映的任何偏见。目前,上述工具可以在 HuggingFace 网站上免费获取。

在分析了 DALL-E 2 和 Stable Diffusion 生成的图像后,他们发现这些 AI 模型倾向于产生看起来像白人和男性的图像,特别是当被要求描绘处于权威地位的人物时。

(来源:STABLE DIFFUSION、DALLE-2)

研究人员还发现,在这方面 DALL-E 2 可谓“表现更甚”,当得到“首席执行官”或“董事”等提示时,97% 的情况下它都生成了白人男性的图像。原因在于,这些模型是根据从互联网上收集到的大量数据和图像进行训练的,这一过程既反映、又进一步放大了关于种族和性别的刻板印象。

同时,普通用户也可以通过自行使用这些工具,来看到自己身上的偏见。

例如,有一个工具能让用户借助 AI 模型生成的不同群体的图像。另一种工具可以用来分析 AI 模型生成的特定职业的人脸,并将它们组合成该职业的“平均图像”。

图 | 由 Stable Diffusion 和 DALL-E 2 生成的教师的常见面貌(来源:资料图)

还有一个工具可以让人们看到,当将不同的形容词添加到提示词上,到底会如何改变 AI 模型的输出图像。

最终,这些模型的输出“压倒性”地反映了典型的性别偏见。比如,当在描述一个职业的提示词中加入“富有同情心”、“情绪化”或“敏感”等形容词,AI 模型往往会生成女性图像而非男性图像。相比之下,使用“顽固”、“聪明”或“不合理”这类形容词,在大多数情况下会生成男人的图像。

(来源:资料图)

还有一个工具,可以让人们看到 AI 模型是如何代表不同种族和性别的。例如,当输入提示词“美国土著人(Native American,印第安人)”时,DALL-E 2 和 Stable Diffusion 都会生成戴着印第安人传统头饰的人物图像。

“在几乎所有的印第安人的代表中,他们都戴着传统头饰,而现实生活中显然不是这样的,”领导这项研究的 Hugging Face 研究员萨沙·卢乔尼(Sasha Luccioni)说。

图 | 针对印第安人生成的图片(来源:资料图)

在非二元人群中,研究人员也有令人惊讶的发现。图像生成类 AI 模型倾向于将白人非二元人群描述得几乎相同,但在对其他种族的非二元人群的描述中,描述方式会产生更多的变化。

(来源:资料图)

同样担任论文作者的 Hugging Face 研究员雅辛·耶尼特(Yacine Jernite)说,关于其原因有一种说法是,近年来非二元棕色人种可能在媒体上有更多的知名度,这意味着他们的图像会更多地出现在训练 AI 模型的数据集里。

作为 DALL-E 2 和 Stable Diffusion 两个模型背后的公司——OpenAI 和 Stability.AI,他们都表示自己已经引入修复措施,以减轻系统中根深蒂固的偏见,比如阻止了某些似乎可能产生冒犯性图像的提示。然而,Hugging Face 的研究论文也显示了这些修复是多么的有限。

Stability.AI 的发言人告诉《麻省理工科技评论》,该公司在“面向不同国家和文化的数据集”上训练其模型,并补充说这应该“有助于减轻在一般数据集中由于‘过度代表’所造成的偏见”。

对于 Hugging Face 团队在论文中所展示的工具,OpenAI 的发言人并没有发表详细评论,但对方向《麻省理工科技评论》推荐了一篇博客文章,其解释了该公司如何在 DALL-E 2 中通过添加各种技术,以过滤掉偏见、性和暴力图片等。

当下,AI 模型产生逼真图像的能力越来越强,并让其获得了大量拥趸。同时,偏见正成为一个愈发紧迫的问题。

Hugging Face 研究员萨沙·卢乔尼说,她担心这些模型可能存在大规模地强化有害偏见的风险。她希望自己和团队创造的工具,能为图像生成 AI 模型带来更大的透明度,并且帮助减少偏见内容的产生。

只要 AI 使用人类数据,就会学到偏见?

据了解,由于互联网上充斥着裸体或衣着暴露女性的图片,以及反映性别歧视、种族主义、刻板印象的图片,数据集也会向这类图片倾斜。

华盛顿大学助理教授艾林·卡利斯坎(Aylin Caliskan)主要研究 AI 模型中的偏见和表现,其表示这导致 AI 模型会将女性性感化,无论她们是否愿意被这样描述——尤其是在历史上曾处于不利地位的有色人种女性。因此,梅丽莎得到的性感图像并不令人“惊讶”。

卡利斯坎说,这进一步推动了刻板印象和偏见的流行,会对女性和以及女孩如何看待自己、以及其他人如何看待她们造成巨大的损害。“我们正在通过这些图片产生当下社会和文化的‘指纹’。当 1000 年之后,我们的子孙后代研究历史时,这种对待女性的方式,就是我们希望他们看到的吗?”她说。

卡利斯坎研究了对比语言图像预训练(CLIP,Contrastive Language Image Pretraining),这是一个帮助 Stable Diffusion 生成图像的系统。CLIP 会将数据集中的图像与描述性文本提示进行匹配。卡利斯坎发现,它充满了性别偏见和种族偏见。

此外,也有研究团队发现,AI 模型会带来女性“性物化”的偏见,并会反映在所产生的图像中。数据集的规模如此庞大,以至于我们几乎不可能删除所有不想要的图像,比如那些具有性或暴力性质的图像,或者那些可能产生偏见的图像。在数据集中出现的东西越频繁,人工智能模型建立的联系就越强,这意味着它更有可能出现在模型生成的图像中。

而训练数据并不是唯一的罪魁祸首。美国卡内基梅隆大学的博士生瑞安·斯蒂德(Ryan Steed)说,开发这些模型和应用程序的公司,对于如何使用这些数据也会做出抉择。

他说:“必须通过选择合适的训练数据来建立模型,并借助某些措施来减轻这些偏见。”

整体来看,AI 生成图像的过滤工具仍然非常不完善。麻省理工学院助理教授马尔泽·加塞米(Marzyeh Ghassemi)主要研究将机器学习用于人类健康,其表示由于 AI 产品的开发者还不知道如何系统地审计和改进模型,所以他们只能和 Midjourney 一样,引入一刀切的禁令来“修复”它们。

事实上,除了完全禁用某些词汇之外,科技公司还可以采取其他方法来解决这个问题。例如,加塞米说,某些与人类生物学有关的提示在特定情况下应该被允许,但在其他情况下则需要被禁止。

假如提示中的一些单词表明,用户正试图生成一个用于教育或科研的器官图像,则可以允许使用“胎盘”作为提示词。但如果这个提示是在有人在试图产生性或血腥内容,它可能会被禁止。

加塞米说:“这些保护措施是为了保护妇女和少数族裔,不会在她们身上产生令人不安的内容,并被用来针对和伤害她们。”

另外一个问题在于,这些模型主要是在以美国为中心的数据上训练的,这意味着它们主要反映了美国的偏见、价值和文化。前文的华盛顿大学副教授艾琳·卡利斯坎表示:“我们看到的现实是,美国网络文化的‘指纹’……已经遍及世界各地。”

卡利斯坎继续说道,而 Hugging Face的工具将帮助 AI 开发者更好地理解和减少 AI 模型中的偏见。她说:“当人们直观地看到这些例子时,我相信他们将能够更好地理解这些偏见的重要性。”女性与性内容相关、而男性与医学、科学、商业等重要领域的职业相关——这些都是赤裸裸的性别偏见和职业偏见。

麻省理工学院助理教授马尔泽·加塞米认为:“我们需要做的还有很多,比如我们需要了解究竟哪些有害型关联可能会被模型学习,因为(只要)我们使用人类数据,它就会学到偏见。”

支持:Ren

参考:

/

/

/