麻省理工学院和宾夕法尼亚州立大学研究人员的一项新研究表明,如果大型语言模型用于家庭监控,即使监控视频显示没有犯罪活动,他们也可以建议报警。
此外,研究人员研究的模型中标记为警方干预的视频不一致。例如,模型可能会标记一个显示车辆闯入的视频,但不会标记另一个显示类似活动的视频。模型们经常就是否为同一视频报警而产生分歧。
此外,研究人员发现,在大多数居民是白人的社区,一些模型标记视频以供警察干预的频率相对较低,控制了其他因素。研究人员表示,这表明模型表现出受社区人口统计影响的固有偏差。
这些结果表明,模型在将社会规范应用于描绘类似活动的监控视频方面不一致。研究人员将这种现象称为规范不一致,使得预测模型在不同环境中的行为变得困难。
在任何地方部署生成式人工智能模型的快速、突破性的做法,尤其是在电气工程和计算机科学系李斯特兄弟职业发展教授、信息与决策实验室首席研究员、共同资深作者阿希亚·威尔逊 (Ashia Wilson) 表示,高风险环境值得更多思考,因为它可能相当有害。系统(LIDS)。
此外,由于研究人员无法访问这些专有人工智能模型的训练数据或内部工作原理,他们无法确定规范不一致的根本原因。
虽然大语言模型(LLM)目前可能尚未部署在真实的监控环境中,它们正在被用来在其他高风险环境中做出规范性决策,例如医疗保健、抵押贷款和招聘。威尔逊说,模型在这些情况下似乎会表现出类似的不一致。
人们隐含着这样的信念,即这些大语言模型已经学习或可以学习某些规范和价值观。我们的工作表明情况并非如此。数据、系统和社会研究所 (IDSS) 的研究生、主要作者 Shomik Jain 表示,也许他们学到的只是任意模式或噪音。
威尔逊和 Jain 联合撰写了这篇论文共同高级作者 Dana Calacci 23 岁博士,宾夕法尼亚州立大学信息科学与技术学院助理教授。该研究将在 AAAI 人工智能、伦理与社会会议上公布。
真正的、迫在眉睫的实际威胁
该研究源自包含数千个 Amazon Ring 的数据集家庭监控视频,这是 Calacci 于 2020 年制作的,当时她还是麻省理工学院媒体实验室的研究生。Ring 是一家智能家居监控摄像头制造商,于 2018 年被亚马逊收购,为客户提供访问名为 Neighbors 的社交网络的权限,他们可以在其中分享和讨论视频。
Calaccis 之前的研究表明,人们有时会使用该平台根据视频对象的肤色来确定谁属于或不属于该社区,从而对社区进行种族把关。她计划训练自动为视频添加字幕的算法,以研究人们如何使用 Neighbors 平台,但当时现有的算法在字幕方面还不够好。
该项目随着大语言模型人数的激增而发展。
有人使用现成的生成式人工智能模型来观看视频、向房主发出警报并自动呼叫执法部门,这是一个真实、迫在眉睫的实际威胁。Calacci 说,我们想了解这有多大风险。
研究人员选择了三位大语言模型 GPT-4、Gemini 和 Claude,并向他们展示了从 Calaccis 数据集发布到 Neighbors 平台的真实视频。他们问模特两个问题:视频中是否发生了犯罪?该模型会建议报警吗?
他们让人类对视频进行注释,以识别是白天还是晚上、活动类型以及对象的性别和肤色。研究人员还使用人口普查数据来收集有关视频录制社区的人口统计信息。
决策不一致
他们发现,所有三个模型几乎总是表示视频中没有发生犯罪,或者给出了模棱两可的回应,尽管 39% 确实表现出犯罪行为。
我们的假设是,开发这些模型的公司采取了保守的方法,限制了模型可以说的内容,Jain 说。
Jain 说。p>
但是,即使模型表示大多数视频不包含犯罪,他们还是建议对 20% 到 45% 的视频报警。
当研究人员深入了解社区人口统计信息时,他们发现,发现在控制其他因素的情况下,一些模特不太可能建议在白人占多数的社区报警。
他们发现这令人惊讶,因为这些模特没有获得有关社区人口统计数据的信息,而且视频只显示了距离房屋前门几码远的区域。
除了向模特询问视频中的犯罪情况外,研究人员还提示他们提供做出这些选择的原因。当他们检查这些数据时,他们发现模型更有可能在大多数白人社区使用送货工人等术语,但在有色人种居民比例较高的社区使用入室盗窃工具或房屋外壳等术语。
也许这些视频的背景条件给模型带来了这种隐含的偏见。Jain 说,很难判断这些不一致的根源,因为这些模型或它们所训练的数据没有太多透明度。
研究人员还惊讶于,人们的肤色视频中的人物对于模特是否建议报警并没有发挥重要作用。他们推测这是因为机器学习研究社区一直致力于减轻肤色偏差。
但是您可能会发现无数的偏差,这是很难控制的。这几乎就像打地鼠游戏。Jain 说,你可以缓解其他地方出现的一个或另一个偏见。
许多缓解技术需要从一开始就了解偏见。Calacci 补充道,如果部署这些模型,公司可能会测试肤色偏差,但社区人口统计偏差可能会完全被忽视。
对于公司测试的模型如何产生偏差,我们有自己的刻板印象在他们部署模型之前。她说,我们的结果表明这还不够。
为此,卡拉奇和她的合作者希望开发一个系统,让人们更容易识别和报告人工智能偏见和潜在危害
研究人员还想研究大语言模型在高风险情况下与人类相比如何做出规范性判断,以及大语言模型对这些情况的理解事实。
p>
这项工作的部分资金来自 IDSSs 打击系统性种族主义倡议。