科学家们刚刚找到了一种发现人工智能偏见的新方法——结果出乎意料

2025-01-19 11:04:58 英文原文

作者：Eric W. Dolan

幽默正在成为理解人工智能系统中偏见的揭示镜头。一项新研究发表于科学报告研究发现，当 ChatGPT 和 DALL-E 等工具被提示使图像“更有趣”时，由此产生的表现变化凸显了潜在的偏见模式。对年龄、体重和视力障碍的刻板印象变得更加突出，而对种族和性别少数群体的描述则减少了。

OpenAI 的 ChatGPT 和 DALL-E 等生成式人工智能工具因其在各个领域创建内容的能力而受到关注。ChatGPT 是一种大型语言模型，可根据其训练的大量数据集处理和生成类似人类的文本。它理解上下文、预测响应并生成连贯且有意义的文本。同样，DALL-E 是一个文本到图像生成器，可根据详细提示创建视觉内容。

幽默是一种复杂的人类技能，结合了惊喜、时机和意图等元素。研究表明人工智能不仅能产生幽默但有时胜过人类创造者。例如，一项研究公共科学图书馆一号发现人工智能生成的笑话与人类参与者（包括专业讽刺作家）创造的笑话同等甚至更幽默。这表明人工智能检测模式和生成内容的能力延伸到制作引起广泛共鸣的笑话，即使没有人类为幽默带来的情感或体验深度。

当前的研究试图以此为基础，研究幽默如何影响人工智能生成图像中的偏见。研究人员对一个观察结果很感兴趣：当他们要求 ChatGPT 修改图像以使其“更有趣”时，它经常会引入夸张或刻板的特征。这种模式引发了人们的担忧，即人工智能系统中的幽默是否会强化刻板印象，特别是针对历史上一直是偏见目标的群体。

– 我对研究消费者如何与生成人工智能等新兴技术互动非常感兴趣。有一次，我和我的合著者注意到，当我们指示 ChatGPT 制作“更有趣”的图像时，它经常会引入奇怪和刻板的转变，例如将开车的白人变成穿着衣服的肥胖男子。超大眼镜，”研究作者说罗杰·索穆尔是宾夕法尼亚大学沃顿商学院的博士生。

– 这让我们感到震惊，这不仅仅是一个简单的故障，并且表明当大型语言模型与文本到图像生成器交互时可能会出现系统偏差。鉴于心理学和社会学领域的大量研究表明幽默会加剧刻板印象，我们认为实证检验人工智能模型之间的相互作用是否会强化刻板印象在理论上和实践上都很重要。

该研究涉及对人工智能生成的图像进行系统审核。两名研究助理（对研究假设视而不见）将 150 个描述人类活动的提示输入到流行的生成人工智能系统中。这些提示生成了 150 个初始图像。为了创建第二组图像，助手指示 AI 让每张图像“更有趣”。重复该过程，最终生成了两种条件（原始版本和更有趣版本）的 600 张图像。

然后，该团队分析了图像的视觉特征以及人工智能生成图像所使用的文本描述符。每张图像都根据五个维度进行编码：种族、性别、年龄、体重和视力障碍。研究人员注意到“更有趣”图像中的特征是否与原始图像中的特征有所偏差，以及这些偏差是否反映了刻板印象。

研究人员发现，在“更有趣”的图像中，对老年人、高体重者和视力障碍者的刻板印象变得更加普遍。与此同时，种族和性别少数群体（经常处于偏见讨论中心的群体）的代表性有所下降。

“最让我们震惊的是，我们观察到的偏见模式与文献预测的相反，”索穆尔告诉 PsyPost。– 最初，我们希望通过幽默的视角复制已知的种族和性别偏见模式，同时阐明偏见是否源于文本或图像模型。 –

但我们最终发现，如果说有什么不同的话，那就是生成式人工智能对这些类别的偏见较少，同时对政治敏感度较低的群体存在偏见。也就是说，当我们要求人工智能使图像变得“更有趣”时，政治敏感群体（种族和性别少数群体）出现的可能性较小，而老年人、视力障碍者或体重较高的群体则不太可能出现。被更频繁地描绘。”

幽默往往会夸大与非政治敏感群体相关的特征，例如让老年人显得虚弱，或者以不讨人喜欢、夸张的方式描绘高体重的人。例如，对一个正在读书的人的中性描述可能会变成一个戴着厚厚眼镜和夸张身体特征的老年人的漫画。

有趣的是，这种偏差似乎主要源自文本到图像生成器，而不是语言模型。虽然 ChatGPT 生成了详细的文本描述来指导图像生成过程，但表示形式的变化似乎源于 DALL-E 如何解释这些提示以创建视觉效果。

这项研究的一个主要结论是，当代人工智能系统可能会过度纠正对政治上突出的群体（例如性别和种族）的偏见，而对政治上不太突出的群体（例如体重较高、年龄较大、视力障碍），”索穆尔说。因此，尽管 OpenAI 这样的公司在减少偏见方面做出了相当大的努力，但这些努力很可能主要是为了让消费者和媒体满意，而不是减少全球总体偏见。我们认为，这强调了企业和政策制定者需要采取更加全球化和包容性的方法来审计所有形式的人工智能偏见。”

– 我们工作的第二个要点是，消除某些模式（即图像而不是文本）的偏见特别具有挑战性。第三个要点是，幽默可以作为一个非常有用的镜头，用于揭示各种类型的人工智能输出（包括文本、图像、音频和其他形式）中有时微妙的偏见。

研究人员还指出，即使在引入幽默提示之前，某些群体的代表性不足就很明显。“例如，在我们最初的一组图像中，只有大约 9.80% 是女性个体，0% 是高体重个体——严重低估了 73.60% 和 50.50% 的全国平均水平，”索穆尔解释道。– 这一结果表明人工智能模型可能反映了默认的文化假设，即“瘦、男性和白人”作为常态。展望未来，公司必须解决和纠正这些遗漏，以创建更具包容性和公平的人工智能系统。”

然而，值得注意的是，该研究主要集中在单个生成人工智能系统上，从而留下了类似模式是否出现在其他模型中的问题。文化背景是另一个变量：在不同地区训练的人工智能系统可能会表现出反映当地敏感性和社会动态的偏见。

“我们的理论观点还预测，偏见的模式应该出现在不同的文化中，具体取决于哪些特定群体被视为政治敏感，”索穆尔说。– 例如，考虑到印地语文化中印度教徒和穆斯林之间的紧张关系更加突出，我们应该期望根据印地语提示生成图像的法学硕士更有可能纠正针对穆斯林的偏见。

– 我期待继续研究消费者如何与生成人工智能互动。我目前正在研究这些技术的说服力——它们如何说服消费者传达特定的信息或重新构建我们对信息的解释。最终，我的目标是更好地了解这些工具如何塑造消费者行为和福祉。”

这项研究，——幽默是了解人工智能生成偏见的窗口, — 由 Roger Saumure、Julian De Freitas 和 Stefano Puntoni 撰写。

关于《科学家们刚刚找到了一种发现人工智能偏见的新方法——结果出乎意料》的评论

暂无评论

发表评论

摘要

《科学报告》上发表的一项新研究表明，当 ChatGPT 和 DALL-E 等人工智能系统被提示让内容变得更有趣时，它们会突出对年龄、体重和视力障碍的潜在偏见，同时减少种族和性别少数群体的代表性。研究人员对 600 张人工智能生成的图像进行了系统审核，发现“更有趣”的版本中存在夸大的刻板特征。该研究表明，幽默可能会加剧对政治不太敏感群体的刻板印象，这表明需要采取更具包容性的方法来审计所有模式中的人工智能偏见。

科学家们刚刚找到了一种发现人工智能偏见的新方法——结果出乎意料

关于《科学家们刚刚找到了一种发现人工智能偏见的新方法——结果出乎意料》的评论

发表评论

摘要

相关新闻

相关讨论