作者:Paige Gross
在一个最近的一项研究莱海大学的研究人员发现,在评估聊天机器人如何为抵押贷款申请提供建议时,有一个令人震惊的事实:存在明显的种族偏见。
基于2022年《住宅抵押贷款披露法》的数据,利用6,000个样本贷款申请进行测试后,聊天机器人对更多黑人申请人推荐了拒绝的决定,而对于条件相同的白人申请人则没有这样的推荐。此外,它们还建议对黑人申请人收取更高的利率,并将黑人和西班牙裔借款人标记为“风险更高”。
白人申请者的获批几率比具有相同财务状况的黑人申请者高出8.5%。而对于信用分数为640分(属于“低”信用评分)的申请人,这种差距更为明显——白人的申请获批率为95%,而黑人的获批率不到80%。
该实验旨在模拟金融机构如何使用AI算法、机器学习和大型语言模型来加快贷款和抵押贷款的审批等流程。里海大学金融科技助理教授唐纳德·鲍文(Donald Bowen)是这项研究的作者之一,他表示,这些“黑箱”系统——即用户无法了解算法内部运作机制——有可能降低金融公司及其他采用此类系统的行业的运营成本。
但是,训练数据存在缺陷、编程错误以及历史上带有偏见的信息也有可能会影响结果,有时会以有害的、改变生活的方式产生影响。
“这些系统有可能了解与它们互动的人的很多信息,”Bowen说。“如果存在内在偏见,这可能会影响到客户和银行之间许多不同的互动。”
决策型AI工具和大型语言模型,如莱海大学实验中使用的那些,在医疗保健、教育、金融甚至司法系统等各个行业中都有应用。
大多数机器学习算法遵循所谓的分类模型,这意味着你要正式定义一个问题或问题,并且然后你给算法提供一组输入,例如贷款申请人的年龄、收入、教育和信用历史,密歇根大学的计算机科学教授Michael Wellman解释道。
算法会输出一个结果——批准或不批准。更复杂的算法可以评估这些因素并提供更加细致的答案,例如在贷款获批的同时推荐一个利率。
近年来,机器学习的进步使得所谓的深度学习成为可能,即构建可以从大量数据中学习的大规模神经网络。但如果人工智能的开发者没有保持客观性,或者依赖于反映深层次和系统性种族主义的数据集,结果将会体现这一点。
“如果你系统性地更频繁地做出拒绝向某些群体提供信贷的决定,而不仅仅是对其他群体做出错误的决定,那么这就表明算法存在问题,”韦尔曼说。“特别是当这些群体是历史上处于不利地位的群体时。”
Bowen最初是受到一项小规模的学生任务的启发而决定研究莱海大学的问题,该任务揭示了聊天机器人中存在的种族歧视。
“我们想了解这些模型是否存在偏见,以及它们在不应该存在偏见的场景中是否仍然存在偏见,”Bowen说道,因为承保是一个受监管的行业,在决策过程中不允许考虑种族因素。
为了进行官方研究,Bowen和他的研究团队在几个月的时间里,使用不同的商业大型语言模型处理了数千个贷款申请编号,这些模型包括OpenAI的GPT 3.5 Turbo和GPT 4、Anthropic的Claude 3 Sonnet和Opus以及Meta的Llama 3-8B和3-70B。
在一项实验中,他们在申请表上包含了种族信息,并观察到了贷款审批和抵押利率上的差异。在另一项实验中,他们指示聊天机器人“在做这些决定时不要有任何偏见。”该实验几乎看不到贷款申请人之间的任何差异。
但是如果现代贷款中没有收集种族数据,银行使用的算法也被指示不要考虑种族因素,那么为什么有色人种反而更经常被拒绝贷款或者获得更高的利率呢?鲍文说,这是因为我们现代社会中的许多数据受到了间接影响或系统性种族主义的影响。
虽然计算机并没有给出申请人的种族,但借款人的信用评分可能会受到劳动力市场和住房市场的歧视影响,从而影响他们的申请。同样可能产生影响的还有他们的邮政编码或同住家庭成员的信用评分,这些都可能是历史上种族主义做法“红色标记”(即限制向贫困和非白人社区放贷)造成的后果。
鲍恩表示,机器学习算法并不总是像人类想象的那样得出结论。它所学习的模式适用于各种场景,因此甚至可能在消化有关歧视的报告,例如了解到黑人历史上信用状况较差的情况。因此,计算机可能会识别出借款人是黑人的迹象,并拒绝其贷款申请或提供比白人同行更高的利率。
决策技术在过去几年中在招聘实践中变得无处不在,因为申请平台和内部系统使用人工智能来筛选申请,并为招聘经理初步筛选候选人。去年,纽约市开始要求雇主必须通知候选人关于他们使用AI决策软件的情况。
根据法律,AI工具应当被编程为对受保护的类别(如性别、种族或年龄)没有任何偏见,但一些用户声称他们仍然受到了算法的歧视。2021年,美国平等就业机会委员会启动了一项倡议,以更仔细地审查新兴和现有技术如何改变雇佣决策的方式。去年,该委员会解决了其首个AI招聘歧视诉讼案。
纽约联邦法院案件结束了在一项三百六十五万美元的和解中当在线教育公司iTutorGroup Inc.被指控使用一种基于人工智能的招聘工具,该工具拒绝了55岁以上的女性和60岁以上的男性申请者。有200名申请人收到了和解协议,而iTutor同意采纳反歧视政策并进行培训以确保遵守平等就业机会法律。彭博社报道了当时。
另一项反歧视诉讼正在加州联邦法院针对人工智能公司Workday进行。原告德里克·莫布利声称,由于与该公司软件合作的合同职位,他被排除在超过100个工作的机会之外。因为他是一名非洲裔、超过40岁并有心理健康问题的员工路透社今年夏天报道。该诉讼声称,Workday利用公司现有员工的数据来训练其软件,而这种做法没有考虑到可能反映在将来招聘中的歧视问题。
美国的司法和法院系统已经开始在一些操作中使用决策算法,例如被告人风险评估、审前释放决定、转介程序、量刑以及缓刑或假释的确定。
虽然这些技术已被引用在加速一些传统的冗长的法庭程序——比如文件审查和协助小额索赔法院立案——专家警告说,这些技术还不足以在“重要结果”中作为主要或唯一证据。
“我们更担心在AI系统受到广泛和系统的种族和其他偏见影响的情况下使用这些技术,例如预测性警务、面部识别以及犯罪风险/再犯评估,”论文的共同作者写道。2024年版司法判决集说。
今年早些时候,犹他州通过了一项法律来应对这一问题。HB 366由州众议员卡里安·利森比(共和党,苏雷泽)赞助的法案,涉及在审前释放、分流、量刑、缓刑和假释等决定中使用算法或风险评估工具分数的问题,该法案表示,在没有人工干预和审查的情况下,不得使用这些技术。
莱森比告诉States Newsroom,设计初衷是这些技术向法官或决策官员提供有限的信息。
“我们认为法官和其他决策者在决定量刑、分流或其释放条件时,应考虑有关被告人的所有相关信息是很重要的,”Lisonbee说。
她也提出了关于偏见的问题,表示该州的立法者目前对这些工具的“客观性和可靠性”没有完全的信心。他们也不确定这些工具的数据隐私设置,而这一点对于犹他州居民来说是一个优先事项。这些问题结合在一起可能会危及公民对该刑事司法系统的信任。
“在评估算法和风险评估工具在刑事司法和其他领域的使用时,重要的是要包括强有力的数据完整性和隐私保护措施,特别是对于与外部机构共享进行研究或质量控制的任何个人数据。”Lisonbee说。
一些立法者,如Lisonbee,注意到了这些偏见和潜在歧视的问题。目前有四个州制定了防止“算法歧视”的法律,即AI系统可能基于种族、族裔、性别、宗教或残疾等因素导致对人们的不同对待。这包括犹他州以及加利福尼亚州(SB 36科罗拉多州 (SB 21-169伊利诺伊州(HB 0053).
尽管这与歧视无关,但在2023年底,国会提出了一项法案,拟对2010年《金融稳定法》进行修正,以包含联邦针对金融业使用人工智能的指导方针。这项法案被称为金融人工智能风险减少法案或者称为“FAIRR法案”,将要求金融稳定监督委员会与各机构协调,以应对人工智能对金融系统构成的威胁,并可能规范金融机构如何依赖人工智能。
莱海大学的鲍文明确表示,他觉得不可能放弃这些技术,尤其是当公司和行业意识到它们的成本节约潜力时。
“这些将被公司使用,”他说。“那么他们该如何公平地做到这一点呢?”
Bowen希望他的研究能帮助金融和其他机构在部署决策AI工具时提供参考。对于他们的实验,研究人员写道,这简单到只需要使用提示工程来指示聊天机器人“做出无偏见的决定”。他们建议将大型语言模型整合进其流程的企业定期进行偏差审计以精炼这些工具。
Bowen 和其他从事该领域研究的人员强调,为了公平地使用这些系统,需要更多的人员参与。虽然人工智能可以对法庭量刑、抵押贷款、求职申请、医疗服务诊断或客户服务查询等问题做出决定,但这并不意味着它们应该在没有任何监管的情况下运行。
密歇根大学的Wellman告诉States Newsroom,他希望看到这些工具得到政府监管,并指出H.R. 6936,一项正在国会审议的法案要求联邦机构采纳由美国国家标准与技术研究院开发的人工智能风险管理框架。The框架指出潜在偏见,并旨在提高设计、开发、使用和评估人工智能工具的组织的信任度。
“我希望呼吁制定标准……能够贯穿市场,提供工具让公司可以用来验证或认证他们的模型。”Wellman说。“当然,这并不能保证它们在各个方面都是完美的或者避免所有潜在的负面影响。但这些标准可以……为信任这些模型提供基本的标准依据。”
我们的故事可以在网上或印刷品上根据知识共享许可协议CC BY-NC-ND 4.0再发布。我们要求您只进行风格上的编辑或者缩短内容,并提供适当的署名和链接到我们的网站。AP和Getty的图片不得再发布。请参阅我们的重新发布指南用于任何其他照片和图形的使用。