OpenAI的模型更倾向生成男性图像？研究发现AI模型均存在性别偏见

针对当下流行的大语言模型（Large Language Models，LLMs），比尔·盖茨称 OpenAI 的 GPT 模型是“自 1980 年以来最重要的技术进步”，英伟达 CEO 黄仁勋也表示 AI 的“iPhone 时刻”已经来临。

但是，当下流行的 AI 图像生成模型，也倾向于放大有害型偏见以及刻板印象。2023 年 2 月，《麻省理工科技评论》记者梅丽莎·海基拉（Melissa Heikkilä）发现，美国 Midjourney 实验室研发的同名大语言模型 Midjourney，已经封禁了一批有关人类生殖系统的词汇。当用户使用时，这些词汇不能被用作提示语。

如果有人将“胎盘”“输卵管”“乳腺”“精子”“子宫”“尿道”“子宫颈”“处女膜”或“外阴”输入 Midjourney，系统会发出禁止使用的提示。有时，尝试使用这些提示词的用户，会因为试图生成被禁止的内容，而被暂时禁用一段时间。而其他与人类生物学有关的单词，比如“肝脏”和“肾脏”则被允许使用。

美国 Midjourney 公司的创始人大卫·霍尔兹（David Holz）表示，禁止这些词汇是一种权宜之计，以防止用户在 Midjourney“优化 AI 技术”的过程中，产生令人震惊或血腥的内容。他说，Midjourney 管理员会关注用户如何使用文字、以及生成了什么图片，并定期对禁令进行调整。该公司的社区指导方针显示，Midjourney 会拦阻性、血腥、暴力等图片的生成。

Midjourney 的禁令是一个相对少见的尝试。一些与男性生殖系统有关的词语，例如“精子”和“睾丸”也已经被屏蔽。但是，被禁用的词汇列表似乎主要侧重于和女性相关的词汇。

这一禁令最初由美国 Datafy Clinical 公司的临床数据分析师茱莉亚·罗克韦尔（Julia Rockwell）和她的朋友美国北卡罗来纳大学教堂山分校的细胞生物学家玛德琳·基宁（Madeline Keenen）发现的。

利用 Midjourney 这款 AI 图像生成工具，罗克韦尔尝试为研究胎盘的基宁生成一个有趣的胎盘图像。令她惊讶的是，罗克韦尔发现当使用“胎盘”作为提示词会被禁止。然后，她开始试验其他与人类生殖系统有关的词汇，并且发现了同样的结果。

不过，两人也展示了如何绕过这些禁令，比如通过使用不同的文字拼写，或使用关于性或血腥内容的委婉语，来创造出本应该被禁止的图像。

他们发现使用“妇科检查”这一提示词时，如果使用英国拼写，就会产生一些令人毛骨悚然的画面，比如医生办公室里有两个裸女，一个断臂的人切开自己的胃（图片可能引起不适请谨慎观看）。

图 | 当使用英式拼法的“妇科检查”提示词时，Midjourney 所生成的图像（来源：JULIA ROCKWELL）

展开全文

再比如，使用 Midjourney 也可以生成一个充满“珠宝气息的卵巢”。

图 | Midjourney 生成了一个充满“珠宝气息的卵巢”（来源：JULIA ROCKWELL）

可以说，Midjourney“一刀切”地禁止与生殖系统相关的提示，凸显出管控生成式 AI 模型的内容是多么的棘手。罗克韦尔说，它还表明 AI 模型将女性“性化”的趋势是如何延伸到内脏器官的。

拥有同类产品的 OpenAI 和 Stability.AI 已经成功过滤掉一些不合适的输出和提示，所以当你分别在 OpenAI 的 DALL-E 2、以及 Stability.AI 的 Stable Diffusion 中输入同一词语时，它们会产生非常不同的图像。

比如，用英式拼法的“妇科检查”作为提示词，DALL-E 2 展示了一个人拿着一件医疗设备的图片，Stable Diffusion 则生成了两个戴着橡胶手套、穿着实验服但是面容略显扭曲的戴口罩女性的图片。

（来源：资料图）

同时，DALL-E 2 和 Stable Diffusion 这两个 AI 模型，都允许将“胎盘”作为提示词，但是生成结果都是不符合生物学实际描述的肉质器官图像。

Stability.AI 的发言人表示，他们的最新模型里有一个过滤器，可以屏蔽用户提供的不安全、不合适的内容。Stability.AI 还研发了一款工具，可用于检测裸体以及其他不合适的图像。针对一些敏感词它只会返回模糊的图像。总体而言，Stability.AI 使用关键词、图像识别和其他技术的组合，来调节其人工智能系统生成的图像。对于这类问题，OpenAI 没有回应《麻省理工科技评论》的置评请求。

目前还不清楚为何提到“妇科检查”或“胎盘”等词语，会产生血腥或露骨的内容。在微软研究院研究公平医疗保健的研究员艾琳·陈（Irene Chen）表示，这可能与该模型在数据集的图像之间找到的关联有关。

此外，AI 模型除了会生成带有女性偏见的内容，也会生成带有种族偏见的内容。

基于 Stable Diffusion 的 AI 模型 Lensa：为亚裔女性生成的裸露形象，远远多于白人女性

美国 Prisma Labs 公司研发的开源型 AI 模型 Lensa，是一款可以生成虚拟化身的产品，它能基于文本提示词来生成图像。Lensa 使用 Stable Diffusion 来生成它的虚拟化身，而 Stable Diffusion 则是使用 LAION-5B 构建的。LAION-5B 是一个大型开源数据集，充满着从互联网上抓取的图像。

Lensa 最早于 2018 年推出，2022 年底其添加了新功能“魔法虚拟化身（Magic Avatars）”——可以根据用户的自拍照生成数字肖像，此次更新也让它变得倍受欢迎。

2022 年 12 月，当《麻省理工科技评论》的记者梅丽莎·海基拉尝试使用 Lensa 时，她希望生成的结果，能和现实中周围人对于她的认知保持一致。

图 | Lensa 为梅丽莎生成的图片（来源：资料图）

据了解，Lensa 曾为用户创造了既符合现实、又讨喜的化身，譬如宇航员、魁梧的战士和酷炫的电子音乐专辑封面。

而梅丽莎却得到了大量暴露而性感的照片。在她制作的 100 个虚拟形象中，有 16 个是上身赤裸的，还有 14 个是身着非常暴露的衣服，并摆出了非常性感的姿势。

梅丽莎的亚洲血统，似乎是 AI 模型从她的自拍中唯一准确得到的东西。AI 模型为她生成的亚洲女性形象，显然是模仿了动漫或电子游戏的角色。甚至最有可能是模仿了色情内容，因为她的虚拟形象里要么会出现裸体、要么是非常暴露。

另外，她的几个虚拟形象似乎在哭泣。而梅丽莎的白人女同事得到的性感形象，明显要少得多——只有几个裸体和露出乳沟的迹象。另一位有中国血统的同事则得到了与梅丽莎类似的结果，即大量色情风格的虚拟化身。

（来源：资料图）

Lensa 对亚洲女性的迷恋是如此“强烈”，以至于当让它为梅丽莎生成一个男性化身时，它仍然在梅丽莎生身上施加了女性裸体和性感姿势。

图 | Lensa 为梅丽莎生成的图片（来源：资料图）

有趣的是，当梅丽莎的照片经过男性内容过滤器时，她的 Lensa 虚拟化身变得更加真实。她更加喜欢自己穿着衣服和不带任何暗示的姿势。在好几张照片中，她穿着一件似乎属于厨师或医生的白大褂。

由此可见，至少在 2022 年底，Lensa 的开发者所做的选择是：让男性虚拟化身穿上宇航服，而女性虚拟化身则身着丁字裤、以及戴着仙女翅膀。

Lensa 背后公司 Prisma Labs 的一位发言人说，照片“偶然的性感化”发生在所有性别的人身上，但方式有所不同。该公司表示，由于 Stable Diffusion 是使用互联网上未经过滤的数据训练而来，它和 Stability.AI 公司都不能“有意识地应用任何偏见，或有意地整合传统的美学元素。”这位发言人表示：“这些人工制造的、未经过滤的网络数据将该模型带入了人类现有的偏见。”尽管如此，该公司声称自己仍在努力解决这一问题。

Prisma Labs 公司还在一篇博客文章中表示，他们已经调整了某些文字和图片之间的关系以便减少偏见。不过，这位发言人没有透露更多细节。

Lensa 是第一个基于 Stable Diffusion 开发出来的颇受欢迎的应用程序，但它可能不会是最后一个。作为产品它似乎是无辜的，毕竟很难阻止坏人的滥用，比如用社交媒体上找到的女性图片，在非自愿的情况下生成女性裸照，甚至是儿童的裸照。

美国非营利组织 Mozilla 基金会的高级研究员阿贝巴·伯汉（Abeba Birhane）、美国移动行为生物识别公司 UnifyID 首席科学家维奈·乌代·普拉布（Vinay Uday Prabhu）、以及 OECD AI 的 CEO 伊曼纽尔·卡亨布（Emmanuel Kahembwe），在分析了一个类似于构建 Stable Diffusion 的数据集后发现，AI 训练数据里充满了种族主义的刻板印象，甚至是明晃晃的色情图像和强奸图像。

值得注意的是，他们之所以能有所发现，是因为 LAION 的数据集是开源的。但大多数其他流行的图像制作 AI，如谷歌的 Imagen 和 OpenAI 的 DALL-E，它们的数据集并不对外开放，但都采取类似的方式构建、使用类似的训练数据。因此，这是一个全行业的问题。

2022 年 9 月，当 Stable Diffusion 的第一个版本刚刚发布时，在模型的数据集中搜索“亚洲”等关键词，结果几乎是清一色的色情内容。Stable Diffusion 于 2022 年 11 月底推出了一个新版本。一位发言人表示，伴随最初版本发布的还有一个安全过滤器，但 Lensa 似乎没有使用，因为过滤器会去除这些输出。Stable Diffusion2.0 过滤内容的一种方法是删除经常重复的图像。有些东西被重复的次数越多，比如性感图片场景中的亚洲女性图像被重复得越多，这种关联在人工智能模型中就越强。

对于 AI 模型生出的女性偏见类内容，多数科技公司均在做出整改。然而，在 AI 模型生成的内容中，职业偏见和种族偏见并未引起较大的重视，但它们的存在却很普遍。

DALL-E 2 和 Stable Diffusion 倾向于产生看起来像白人和男性的图像

2022 年 3 月，美国 AI 初创公司 Hugging Face 和德国莱比锡大学的研究人员，发表了一篇未经同行评议的预印本论文。

研究中，他们审视了三种 AI 图像生成模型的偏见：分别是 OpenAI 的 DALL-E 2、以及两个最新版本的 StableDiffusion v1.4 和 Stable Diffusion v2。

论文作者首先使用这三款模型生成了 96000 张不同种族、性别和职业的人物图像。他们要求模型根据社会属性生成一组图像，比如“女人”或“拉丁裔男人”，然后再生成另一组“职业+形容词”相关的图像，比如“雄心勃勃的水管工”或“富有同情心的 CEO”。

为了研究这两组图像到底是如何变化的，他们通过使用“对图片进行聚类”的机器学习技术来实现这一点。

借助这种技术，可以在图像中找到模式，无需给它们分配类别比如性别或种族。这让论文作者们能够分析不同图像之间的相似性，借此观察这些 AI 模型究竟会将什么实验对象组合在一起。

然后，他们通过建立一款交互式工具，以便让任何人都可以探索这些 AI 模型产生的图像、以及输出中所反映的任何偏见。目前，上述工具可以在 HuggingFace 网站上免费获取。

在分析了 DALL-E 2 和 Stable Diffusion 生成的图像后，他们发现这些 AI 模型倾向于产生看起来像白人和男性的图像，特别是当被要求描绘处于权威地位的人物时。

（来源：STABLE DIFFUSION、DALLE-2）

研究人员还发现，在这方面 DALL-E 2 可谓“表现更甚”，当得到“首席执行官”或“董事”等提示时，97% 的情况下它都生成了白人男性的图像。原因在于，这些模型是根据从互联网上收集到的大量数据和图像进行训练的，这一过程既反映、又进一步放大了关于种族和性别的刻板印象。

同时，普通用户也可以通过自行使用这些工具，来看到自己身上的偏见。

例如，有一个工具能让用户借助 AI 模型生成的不同群体的图像。另一种工具可以用来分析 AI 模型生成的特定职业的人脸，并将它们组合成该职业的“平均图像”。

图 | 由 Stable Diffusion 和 DALL-E 2 生成的教师的常见面貌（来源：资料图）

还有一个工具可以让人们看到，当将不同的形容词添加到提示词上，到底会如何改变 AI 模型的输出图像。

最终，这些模型的输出“压倒性”地反映了典型的性别偏见。比如，当在描述一个职业的提示词中加入“富有同情心”、“情绪化”或“敏感”等形容词，AI 模型往往会生成女性图像而非男性图像。相比之下，使用“顽固”、“聪明”或“不合理”这类形容词，在大多数情况下会生成男人的图像。

（来源：资料图）

还有一个工具，可以让人们看到 AI 模型是如何代表不同种族和性别的。例如，当输入提示词“美国土著人（Native American，印第安人）”时，DALL-E 2 和 Stable Diffusion 都会生成戴着印第安人传统头饰的人物图像。

“在几乎所有的印第安人的代表中，他们都戴着传统头饰，而现实生活中显然不是这样的，”领导这项研究的 Hugging Face 研究员萨沙·卢乔尼（Sasha Luccioni）说。

图 | 针对印第安人生成的图片（来源：资料图）

在非二元人群中，研究人员也有令人惊讶的发现。图像生成类 AI 模型倾向于将白人非二元人群描述得几乎相同，但在对其他种族的非二元人群的描述中，描述方式会产生更多的变化。

（来源：资料图）

同样担任论文作者的 Hugging Face 研究员雅辛·耶尼特（Yacine Jernite）说，关于其原因有一种说法是，近年来非二元棕色人种可能在媒体上有更多的知名度，这意味着他们的图像会更多地出现在训练 AI 模型的数据集里。

作为 DALL-E 2 和 Stable Diffusion 两个模型背后的公司——OpenAI 和 Stability.AI，他们都表示自己已经引入修复措施，以减轻系统中根深蒂固的偏见，比如阻止了某些似乎可能产生冒犯性图像的提示。然而，Hugging Face 的研究论文也显示了这些修复是多么的有限。

Stability.AI 的发言人告诉《麻省理工科技评论》，该公司在“面向不同国家和文化的数据集”上训练其模型，并补充说这应该“有助于减轻在一般数据集中由于‘过度代表’所造成的偏见”。

对于 Hugging Face 团队在论文中所展示的工具，OpenAI 的发言人并没有发表详细评论，但对方向《麻省理工科技评论》推荐了一篇博客文章，其解释了该公司如何在 DALL-E 2 中通过添加各种技术，以过滤掉偏见、性和暴力图片等。

当下，AI 模型产生逼真图像的能力越来越强，并让其获得了大量拥趸。同时，偏见正成为一个愈发紧迫的问题。

Hugging Face 研究员萨沙·卢乔尼说，她担心这些模型可能存在大规模地强化有害偏见的风险。她希望自己和团队创造的工具，能为图像生成 AI 模型带来更大的透明度，并且帮助减少偏见内容的产生。

只要 AI 使用人类数据，就会学到偏见？

据了解，由于互联网上充斥着裸体或衣着暴露女性的图片，以及反映性别歧视、种族主义、刻板印象的图片，数据集也会向这类图片倾斜。

华盛顿大学助理教授艾林·卡利斯坎（Aylin Caliskan）主要研究 AI 模型中的偏见和表现，其表示这导致 AI 模型会将女性性感化，无论她们是否愿意被这样描述——尤其是在历史上曾处于不利地位的有色人种女性。因此，梅丽莎得到的性感图像并不令人“惊讶”。

卡利斯坎说，这进一步推动了刻板印象和偏见的流行，会对女性和以及女孩如何看待自己、以及其他人如何看待她们造成巨大的损害。“我们正在通过这些图片产生当下社会和文化的‘指纹’。当 1000 年之后，我们的子孙后代研究历史时，这种对待女性的方式，就是我们希望他们看到的吗？”她说。

卡利斯坎研究了对比语言图像预训练（CLIP，Contrastive Language Image Pretraining），这是一个帮助 Stable Diffusion 生成图像的系统。CLIP 会将数据集中的图像与描述性文本提示进行匹配。卡利斯坎发现，它充满了性别偏见和种族偏见。

此外，也有研究团队发现，AI 模型会带来女性“性物化”的偏见，并会反映在所产生的图像中。数据集的规模如此庞大，以至于我们几乎不可能删除所有不想要的图像，比如那些具有性或暴力性质的图像，或者那些可能产生偏见的图像。在数据集中出现的东西越频繁，人工智能模型建立的联系就越强，这意味着它更有可能出现在模型生成的图像中。

而训练数据并不是唯一的罪魁祸首。美国卡内基梅隆大学的博士生瑞安·斯蒂德（Ryan Steed）说，开发这些模型和应用程序的公司，对于如何使用这些数据也会做出抉择。

他说：“必须通过选择合适的训练数据来建立模型，并借助某些措施来减轻这些偏见。”

整体来看，AI 生成图像的过滤工具仍然非常不完善。麻省理工学院助理教授马尔泽·加塞米（Marzyeh Ghassemi）主要研究将机器学习用于人类健康，其表示由于 AI 产品的开发者还不知道如何系统地审计和改进模型，所以他们只能和 Midjourney 一样，引入一刀切的禁令来“修复”它们。

事实上，除了完全禁用某些词汇之外，科技公司还可以采取其他方法来解决这个问题。例如，加塞米说，某些与人类生物学有关的提示在特定情况下应该被允许，但在其他情况下则需要被禁止。

假如提示中的一些单词表明，用户正试图生成一个用于教育或科研的器官图像，则可以允许使用“胎盘”作为提示词。但如果这个提示是在有人在试图产生性或血腥内容，它可能会被禁止。

加塞米说：“这些保护措施是为了保护妇女和少数族裔，不会在她们身上产生令人不安的内容，并被用来针对和伤害她们。”

另外一个问题在于，这些模型主要是在以美国为中心的数据上训练的，这意味着它们主要反映了美国的偏见、价值和文化。前文的华盛顿大学副教授艾琳·卡利斯坎表示：“我们看到的现实是，美国网络文化的‘指纹’……已经遍及世界各地。”

卡利斯坎继续说道，而 Hugging Face的工具将帮助 AI 开发者更好地理解和减少 AI 模型中的偏见。她说：“当人们直观地看到这些例子时，我相信他们将能够更好地理解这些偏见的重要性。”女性与性内容相关、而男性与医学、科学、商业等重要领域的职业相关——这些都是赤裸裸的性别偏见和职业偏见。

麻省理工学院助理教授马尔泽·加塞米认为：“我们需要做的还有很多，比如我们需要了解究竟哪些有害型关联可能会被模型学习，因为（只要）我们使用人类数据，它就会学到偏见。”

支持：Ren

参考：

历史小故事

历史人物故事_中国历史朝代顺序_历史记录

模型 偏见 倾向 生成 图像

OpenAI的模型更倾向生成男性图像？研究发现AI模型均存在性别偏见

jnlyseo998998 发表于2023-03-31 13:25:02 浏览40 评论0

少长咸集

历史人物故事_中国历史朝代顺序_历史记录

模型 偏见 倾向 生成 图像

OpenAI的模型更倾向生成男性图像？研究发现AI模型均存在性别偏见

jnlyseo998998 发表于2023-03-31 13:25:02 浏览40 评论0

少长咸集

模型偏见倾向生成图像