作者:Stanford University
斯坦福大学法学院的研究人员和斯坦福大学以人为中心的AI为中心的研究人员说,一种称为“模型修剪”的方法可用于查明和去除始终导致偏见反应的神经元。
斯坦福大学法学教授朱利安·尼亚科(Julian Nyarko)和合着者最近发表的一项研究发现,种族和其他偏见。大型语言模型(LLMS)可以“修剪”,但是由于偏见是高度背景特定的,因此让AI模型开发人员(例如OpenAI或Google Vision)有限制有害行为,鉴于这些公司将无法做到有害行为提出一个千篇一律的解决方案。
相反,研究人员发现,从法律和政策的角度来看,要对在特定用例中部署模型的公司负责,例如在线零售商这使用OpenAI的型号来提出产品建议。
在过去的几年中,许多研究,包括研究来自斯坦福大学法学院和斯坦福大学的来自斯坦福大学的回应表明,LLMS在他们的回应中表现出种族偏见。这些偏见通常以增强刻板印象或基于种族标记(例如名称或方言)的系统上不同的输出的方式表现出来。
例如,在2024年,Nyarko和合着者发表了广泛讨论的纸,“名称是什么?审计种族和性别偏见的大型语言模型”,该语言模型分析了AI生成的响应如何根据用户查询中的隐式种族和性别提示而有所不同。
在他的最新消息中纸,“分解偏见:在可概括的修剪策略的范围内”arxivPreprint Server Nyarko和他的合着者深入探究了LLMS的内部机制,以识别和减轻偏见的输出来源。
他们确定,类似于人工“神经元”的选择性去除或修剪的特定计算单元可以减少偏见而不会损害模型的整体效用。他们发现,但是对财务决策进行培训的偏见缓解策略并不一定适用于商业交易或雇用决策。
Nyarko说:“这里真正的挑战是,AI模型中的偏差在一个固定的位置中不存在,它取决于上下文。”“有充分的理由使开发人员对其模型所表现出的一些负面后果负责。但是,为了设计有效的缓解策略,我们确实需要考虑监管和法律框架,这些框架专注于实际上实际使用这些模型的公司实际使用这些模型 - 世界情景。”
Nyarko是经验法律研究和计算法专家,将他的研究重点放在AI,机器学习和法律责任的交集上。他还是斯坦福大学以人为中心AI(HAI)的副主任和高级研究员。
该论文的合着者是斯坦福法律研究研究员Sibo Ma和Alejandro Salinas,以及普林斯顿计算机科学教授彼得·亨德森(Peter Henderson)。
根据Nyarko的说法,他的最新研究采用了一种新颖的方法来识别和减轻LLM中的种族偏见。研究人员首先剖析了LLM的内部结构,LLM的内部结构本质上是庞大的人造神经元网络,可与大脑中的神经元相提并论。这些人工神经元处理信息并有助于产生反应,包括有时偏见的反应。
为了减轻这些偏见,该团队使用了一种称为模型修剪的方法。这涉及选择性停用或去除被确定为有偏见行为的特定神经元。
为了确定要修剪的神经元,研究人员进行了全面的分析,以确定哪些神经元仅在输入提示涉及少数族裔时才激活,但不是其他情况。然后,研究团队将其修剪策略应用于各种情况,以确定其方法的有效性。
他们使用了包括财务决策,商业交易和招聘决策在内的方案,以了解修剪过程在每种特定情况下都降低了偏见。这种方法使他们可以查明并删除神经元这始终导致在不同情况下的偏见反应。
除了神经元修剪外,他们还尝试了注意头修剪。注意力头是帮助LLM在产生响应时专注于输入的特定部分的机制的一部分。通过有选择地修剪这些注意力头,该团队评估了这种方法是否也可以有效地降低偏见,而不会显着破坏模型的整体性能。
他们的发现表明,神经元水平的修剪更有效地减少偏见,同时保持模型的效用。但是,他们发现,修剪技术的有效性在不同情况下差异很大。
该研究的结论引起了关于AI治理的持续法律辩论。监管提案,例如《欧盟AI法》,采取了一种基于风险的方法,该方法对使用AI进行高风险应用程序的公司赋予了额外的合规义务。同样,最近的美国诉讼,例如Mobley诉Workday,就AI服务提供商是否应面临与使用其工具做出招聘决定的企业相同的法律审查的问题。
Nyarko说,这项研究强调了决策者阐明对AI相关危害的责任的必要性。正如研究所暗示的那样,如果偏见固有地依赖上下文依赖性,那么对AI开发人员施加广泛的责任将不会很有效。
相反,监管机构可能会考虑要求部署AI模型的公司进行严格的偏见审核,保持其AI使用透明度,并确保遵守反歧视法律。
更多信息:Sibo Ma等人,分解偏见:在可概括的修剪策略的范围内,arxiv(2025)。doi:10.48550/arxiv.2502.07771
期刊信息: arxiv
引用:小说“修剪”技术显示出有望在不损害性能的情况下减少AI偏见(2025年2月19日)检索2025年2月20日来自https://techxplore.com/news/2025-02-pruning-technique-ai-bias.html
该文档具有版权。除了为私人研究或研究目的的任何公平交易外,没有未经书面许可,可以复制部分。内容仅用于信息目的。