作者:Paige Gross
在一个最近的一项研究莱海大学的研究人员发现,在评估聊天机器人如何为抵押贷款申请提供建议时,有一个令人震惊的事实:存在明显的种族偏见。
基于2022年《住宅抵押贷款披露法》的数据,使用6,000份样本贷款申请进行测试时,聊天机器人推荐拒绝更多黑人申请人比与其情况相同的白人申请人。它们还建议对黑人申请人收取更高的利率,并将黑人和西班牙裔借款人标记为“风险更高”。
白人申请者在拥有相同财务状况的情况下,获批的可能性比黑人申请者高出8.5%。而对于信用分数为640的“低”信用评分申请人,这种差距更大——白人申请者的获批率为95%,而黑人申请者的获批率不到80%。
获取早间新闻摘要。
该实验旨在模拟金融机构如何使用人工智能算法、机器学习和大型语言模型来加快贷款和抵押贷款审批等流程。里海大学金融科技助理教授唐纳德·鲍文(Donald Bowen)是该研究的作者之一,他表示,这些“黑箱”系统——即算法内部运作对用户不透明——有可能降低金融公司及其他使用它们的行业的运营成本。
但是,训练数据存在缺陷、编程错误以及历史上的偏见信息也有可能会影响结果,有时会产生有害的、改变人生的影响。
“这些系统有可能了解与它们互动的人的很多信息,”Bowen说。“如果存在内在偏见,这可能会在客户和银行之间的各种互动中蔓延。”
决策AI工具和大型语言模型,如莱海大学实验中使用的那些,在医疗、教育、金融甚至司法系统等各个行业都有广泛应用。
大多数机器学习算法遵循所谓的分类模型,这意味着你正式定义一个问题或一个疑问,然后你给算法提供一组输入,例如贷款申请人的年龄、收入、教育和信用历史,密歇根大学的计算机科学教授迈克尔·韦尔曼解释道。
算法会生成一个结果——批准或不批准。更复杂的算法可以评估这些因素并提供更加细致的答案,例如在贷款审批中推荐一个利率。
近年来,机器学习的进步使得所谓的深度学习成为可能,即构建能够从大量数据中学习的大规模神经网络。但如果人工智能的开发者没有保持客观性,或者依赖于反映深层次和系统性种族主义的数据集,结果将反映出这些问题。
“如果结果表明,你系统性地更频繁地做出拒绝向某些人群提供信贷的决定,而这些错误决策在其他人身上较少出现,那么这就说明算法存在问题,”Wellman说。“尤其是当这些群体是历史上处于不利地位的群体时。”
Bowen最初是因为与学生的一个小规模任务发现聊天机器人存在种族歧视后,才决定进行莱HIGH大学的研究的。备注:Lehigh University在这里应翻译为莱海大学。由于“莱HIGH大学”可能是原文的一种幽默或创意表达方式,在正式翻译中建议使用标准名称“莱海大学”。但根据指令要求只输出翻译结果,所以此处不作修改。
“我们想了解这些模型是否存在偏见,以及它们在不应该存在偏见的情况下是否存在问题,”Bowen说道,因为承保是一个受监管的行业,在决策时不允许考虑种族因素。
为了进行正式研究,Bowen和一个研究团队在几个月的时间里,用不同的商业大型语言模型处理了数千个贷款申请号码,包括OpenAI的GPT 3.5 Turbo和GPT 4、Anthropic的Claude 3 Sonnet和Opus以及Meta的Llama 3-8B和3-70B。
在一项实验中,他们在申请表中加入了种族信息,并观察到贷款批准率和抵押贷款利率上的差异。在另一项实验中,他们指示聊天机器人“在做出这些决定时不要有任何偏见。”这项实验几乎看不到申请人之间的任何差异。
但如果我们现代的贷款行业不收集种族数据,银行使用的算法也被指示不要考虑种族因素,那么为什么有色人种反而更频繁地被拒绝贷款或者获得更高的利率呢?鲍文说,这是因为我们现代的数据很大程度上受到不同影响(即制度性种族主义的影响)。
虽然计算机并没有给出申请人的种族,但借款人的信用评分(可能会受到劳动力市场和住房市场的歧视影响)会对他们的申请产生影响。而他们的邮政编码或同住家庭成员的信用评分也可能会有影响,这些都可能受到了历史上带有种族主义色彩的“红线政策”(即限制向贫困和非白人社区发放贷款的做法)的影响。
Bowen表示,机器学习算法并不总是像人类想象的那样来计算其结论。它所学习的模式适用于各种场景,因此甚至可能在消化有关歧视的报告,例如了解到黑人历史上信用状况较差的情况。因此,计算机可能会发现借款人是黑人的迹象,并拒绝他们的贷款或提供比白人同龄人更高的利率。
决策技术在过去几年中在招聘实践中变得无处不在,因为申请平台和内部系统使用人工智能来筛选申请,并为招聘经理预先筛选候选人。去年,纽约市开始要求雇主们通知候选人关于他们使用AI决策软件的情况。
根据法律规定,人工智能工具应当被编程为对受保护的类别(如性别、种族或年龄)没有任何偏见,但一些用户声称他们仍然受到了算法的歧视。2021年,美国平等就业机会委员会发起了一个倡议,以更仔细地研究新技术是如何改变雇佣决策方式的。去年,该委员会解决了其首个关于人工智能招聘歧视的诉讼案。
纽约联邦法院案件结束了在一项三百六十五万美元的和解中当在线辅导公司iTutorGroup Inc.被指控使用一种基于人工智能的招聘工具,该工具拒绝了55岁以上的女性和60岁以上的男性申请者。有200名申请人收到了赔偿,并且iTutor同意采纳反歧视政策并进行培训以确保遵守平等就业机会法律。彭博社报道当时。
另一项反歧视诉讼正在加州联邦法院针对人工智能公司Workday提起。原告德里克·莫布利声称,由于与该软件的合作,他被排除了超过100个工作机会。因为他是一名黑人,年龄超过40岁并且有心理健康问题而被公司解雇。路透社今年夏天报道。诉讼称,Workday使用有关公司现有员工的数据来训练其软件,并且该做法没有考虑到可能反映在将来招聘中的歧视问题。
美国的司法和法院系统已经开始在一些操作中采用决策算法,例如被告的风险评估分析、关于审前释放的决定、分流、量刑以及缓刑或假释的决定。
尽管这些技术已被引用在加速一些传统的冗长的法庭程序——比如文件审查和协助小额索赔法院立案——专家警告说,这些技术尚不准备作为“重大结果”的主要或唯一证据。
“我们更担心在人工智能系统受到普遍和系统的种族和其他偏见影响的情况下使用这些技术,例如预测性警务、人脸识别以及犯罪风险/再犯评估,”该论文的共同作者表示。2024年版判例集说。
今年早些时候,犹他州通过了一项法律来应对这种情况。HB 366由州众议员卡里安·利森比(共和党,西雅图)赞助的法案,涉及在审前释放、转介、量刑、缓刑和假释等决定中使用算法或风险评估工具评分的问题,该法案指出,在没有人工干预和审查的情况下,不得使用这些技术。
莱森比告诉States Newsroom,设计上,这些技术只向法官或决策官员提供有限的信息。
“我们认为法官和其他决策者在做出关于量刑、转处或释放条件的最适当决定时,应该考虑有关被告人的所有相关信息,”Lisonbee说。
她也提到了关于偏见的担忧,称该州的立法者目前对这些工具的“客观性和可靠性”缺乏完全的信任。他们也不确定这些工具的数据隐私设置,而这对于犹他州居民来说是一个优先事项。这些问题结合在一起可能会危及公民对该刑事司法系统的信任。
“在评估算法和风险评估工具在刑事司法及其他领域的使用时,确保包含强有力的数据完整性和隐私保护措施非常重要,特别是对于任何与外部机构共享用于研究或质量控制的个人数据。”Lisonbee说。
一些立法者,如Lisonbee,注意到了这些问题中的偏见以及潜在的歧视。目前有四个州制定了防止“算法歧视”的法律,其中AI系统可以根据种族、族裔、性别、宗教或残疾等因素导致对不同人群的不同对待。这包括犹他州和加利福尼亚州(SB 36科罗拉多州(SB 21-169伊利诺伊州(HB 0053).
尽管这与歧视无关,但美国国会于2023年底提出了一项法案,旨在修改《2010年金融稳定法》,以包括联邦对金融行业使用人工智能的指导。该法案为:金融人工智能风险减少法案或者称为“FAIRR法案”,将要求金融稳定监督委员会就人工智能对金融系统构成的威胁与各机构进行协调,并可能规范金融机构如何依赖于AI。
莱海的鲍文明确表示,他觉得不可能放弃这些技术,特别是当公司和行业意识到它们的成本节约潜力时。
“这些将被公司使用,”他说。“那么他们应该如何公平地做到这一点?”
Bowen希望他的研究能帮助金融和其他机构在部署决策AI工具时提供参考。为了他们的实验,研究人员写道,这就像使用提示工程来指示聊天机器人“做出无偏见的决定”一样简单。他们建议整合大型语言模型到其流程中的公司定期进行偏差审计以改进其工具。
Bowen和该领域的其他研究人员强调,需要更多的人员参与才能公平地使用这些系统。虽然人工智能可以在法院量刑、抵押贷款、求职申请、医疗诊断或客户服务查询等方面做出决定,但这并不意味着它们可以不受限制地运行。
密歇根大学的威尔曼告诉States Newsroom,他正在寻求这些工具的相关政府监管,并指出H.R. 6936,一项正在国会审议的法案要求联邦机构采用国家标准与技术研究院开发的人工智能风险管理框架。该法案框架指出潜在偏见的可能性,并旨在提高设计、开发、使用和评估人工智能工具的组织的信任度。
“我的希望是,制定标准的倡议……能够在市场上得到响应,提供工具让企业可以用来验证或认证他们的模型。”Wellman说。“当然,这并不能保证它们在各方面都是完美的或者避免所有潜在的问题。但它可以……为信任这些模型提供一个基本的标准依据。”
你们让我们的工作成为可能。
我们的故事可以在网上或印刷品上根据知识共享许可协议CC BY-NC-ND 4.0再版。我们要求您只进行编辑以改进风格或缩短篇幅,并提供适当的引用和链接到我们的网站。AP和Getty的图片不得再版。请参阅我们的重新发布指南用于任何其他照片和图形的使用。