根据最近的研究,在软件工程职位的模拟面试中,最近评估回答的人工智能模型对男性的评价较差,尤其是那些具有盎格鲁撒克逊名字的人。
这项研究由 Celeste De Nadai 在瑞典斯德哥尔摩皇家理工学院 (KTH) 的本科生论文项目中进行,旨在调查当代法学硕士在提供性别数据和姓名时是否表现出偏见。进行文化推论。
人工智能内容公司 Monok 的首席营销官 De Nadai 表示登记册在电话采访中,她对这个话题的兴趣源于之前有关旧人工智能模型偏见的报道。她指出最近的一个彭博社文章由于基于姓名的偏见,质疑使用神经网络进行招聘。
“没有任何研究使用最新模型来进行更大的数据集,”德纳代解释道。“我看到的研究是关于 GPT-3.5 或更旧的模型。对我来说,有趣的是较小的模型、最新的模型,与旧模型相比,它们的表现如何,因为它们具有不同的数据集?”
De Nadai 表示,她开展该项目的部分原因是,她看到很多人工智能招聘初创公司表示,他们使用语言模型并且没有偏见。
“我的观点是,‘不,你不是没有偏见的,’”她解释道。“你可以删除名字,但你仍然有一些标记,即使只是用语言,可以帮助法学硕士了解一个人来自哪里。”
德纳代的学习[PDF] 研究了 Google 的 Gemini-1.5-flash、Mistral AI 的 Open-Mistral-nemo-2407 和 OpenAI 的 GPT4o-mini,看看他们如何在给定温度变化的情况下对 24 个求职面试问题的回答进行分类和评级(模型设置)影响可预测性和随机性)、性别以及与文化群体相关的名称。
这些服务存在固有的偏见,在这个特定的研究案例中,男性名字普遍受到歧视,特别是盎格鲁撒克逊名字
至关重要的是,相同的答案使用了不同的姓名和背景组合来测试模型。因此,这并不是说具有盎格鲁-撒克逊名字的人在软件工程方面就不如他们的对手;相反,他们是在软件工程方面表现得更好。问题在于,当模特们面对这类男性申请人时,计算机系统会降低其他有利答案的评分。
“申请人的姓名和性别被排列了 200 次,对应于 200 个离散的角色,细分为 100 名男性和 100 名女性,并分为四个不同的不同文化群体(西非、东亚、中东、盎格鲁-撒克逊)通过他们的名字和姓氏反映出来,”该研究解释道。
每个法学硕士被要求在 15 种温度设置范围(0.1 到 1.5,间隔为 0.1)内针对两个不同的系统提示(其中一个包括更详细的评分说明)中的每一个进行 4,800 次推理调用,总共 432,000 次推理调用。
根据这项研究,预期的结果是男性和西方名字会受到青睐,正如之前的偏见研究发现的那样。相反,结果讲述了一个不同的故事。
研究报告称:“结果具有统计学意义,证明这些服务存在固有的偏见,在这个特定的研究案例中,男性名字普遍受到歧视,特别是盎格鲁撒克逊名字。”
然而,当使用包含更详细的问题评分标准和高于 1 的温度的提示时,Gemini 模型的表现优于其他模型。
德纳代对这些发现有一个理论,但她说她无法证明这一点:她认为,对具有盎格鲁-撒克逊名字的男性的偏见反映了对反向输出的过度修正——在之前的研究中发现了这种偏向相反的方向。
让人工智能模型公平地做出反应,并具有“人工智能”一词所暗示的智能,仍然是一个尚未解决的挑战。回想一下谷歌在二月份暂停在创建了二战时期德国士兵的图像后,它的 Gemini(以前称为 Bard)生成人工智能服务美国开国元勋具有令人难以置信的种族和民族多样性。为了避免粉饰历史,该模型被抹去来自历史准确场景的白人。
研究表明,使面试评估结果更加公平的一种方法是提供有关如何对面试问题进行评分的严格而详细的标准提示。温度调整可能会有所帮助或有害,具体取决于型号。
该论文的结论是,仅通过调整设置和提示无法完全缓解模型偏差。它还主张拒绝模型访问可能被用来做出不必要的推断的信息,例如招聘环境中的姓名和性别。
研究表明:“解决这些偏差需要采取细致入微的方法,同时考虑模型的特征及其运行的背景。”“在分类或评估时,我们建议您始终掩盖姓名并混淆性别,以确保结果尽可能普遍和公正,并提供如何在系统指示提示中评分的标准。”
谷歌、OpenAI 和 Mistral AI 没有回应置评请求。®