英语轻松读发新版了,欢迎下载、更新

在阿姆斯特丹的高风险实验中创造公平的福利AI

2025-06-11 09:00:00 英文原文

作者:by Eileen Guo archive pageGabriel Geiger archive pageJustin-Casimir Braun archive page

这个故事是麻省理工学院技术评论,,,,灯塔报告, 和特劳,并得到普利策中心的支持。 

两个期货

体育老师汉斯·德·兹瓦特(Hans de Zwart)说,当他看到阿姆斯特丹计划让算法评估该市的每个福利申请人的潜在欺诈案件时,他几乎脱离了主席。” 

那是2023年2月,荷兰领先的数字权利非政府组织曾担任自由的执行董事,他一直在阿姆斯特丹市政府担任非正式顾问近两年,审查并提供了正在发展的AI系统的反馈。 

根据该市的文档,该特定的AI模型称为“智能检查”将考虑潜在的福利收件人的提交,并确定谁可能提交了不正确的申请。他比任何其他遇到的项目都立即脱颖而出,他告诉我们,这不是很好。他说,在使用这种算法时,有一些非常基本的问题(而且)是不合时宜的。

从他在阿姆斯特丹市政厅的玻璃窗上扫荡的弧线后面,保罗·德·康宁(Paul de Koning)是该市的顾问,其顾问包括在荷兰福利州的各个机构的停靠站,他以骄傲的态度看到了同样的系统。管理Smart Check的飞行阶段的De Koning对他认为该项目提高效率并消除阿姆斯特丹社会福利体系的偏见感到兴奋。” 

一个欺诈调查人员和数据科学家团队花了多年的时间进行智能检查,De Koning认为有希望的早期结果证明了他们的方法。该市曾咨询过专家,运行偏见测试,实施技术保障,并征求人们的反馈意见,这些人或多或少地受到该计划的影响,遵循该计划的所有建议。他告诉我们,我有一种很好的感觉。 

这些相反的观点体现了关于算法在做出塑造人们生活的决定时是否可以公平的全球辩论。在过去的几年中,以这种方式使用人工智能的努力,附带损害的例子已经持续了:非白人求职者从事美国的应用程序池,家庭被错误地标记为虐待儿童的调查在日本,低收入居民是拒绝食品补贴在印度 

这些评估系统的支持者认为,他们可以通过更少的努力来创造更有效的公共服务,并且在福利系统的情况下,据称是从公共钱包中丢失的钱。在实践中,许多从一开始就设计得很糟糕。它们有时会以导致歧视的方式来考虑个人特征,有时它们在没有测试偏见或有效性的情况下被部署。一般而言,他们几乎没有选择挑战甚至了解直接影响其生活方式的自动行动的选择。 

结果是十多年的丑闻。作为回应,从阿姆斯特丹到纽约,首尔到墨西哥城,立法者,官僚和私营部门一直在试图通过创建算法系统来弥补,以建立算法系统,这些系统旨在将负责的AI原理整合到一种旨在指导AI发展的方法,同时指导AI开发,同时使社会受益。 

Chantal Jahchan

发展和部署道德AI是欧洲联盟的重中之重,对于美国前总统乔·拜登(Joe Biden)的领导下,美国也是如此,后者发布了AI人权法案的蓝图。特朗普政府取消了该计划,该计划已取消了国家一级公平和公平的考虑,包括技术。尽管如此,受这些原则影响的系统仍在国家,州,州,省和城市的领导人内外进行测试,这些系统具有巨大的权力,可以做出诸如雇用的决定,何时调查潜在的虐待儿童案件,以及哪些居民应首先接受服务。 

阿姆斯特丹确实认为这是正确的道路。福利部的市政官员认为,他们可以建立技术,以防止在保护公民权利的同时欺诈。他们遵循了这些新兴的最佳实践,并在最终处理实时福利应用程序的项目中投入了大量时间和金钱。但是在他们的飞行员中,他们发现他们开发的系统仍然不公平有效。为什么? 

灯塔报告,麻省理工学院技术评论和荷兰报纸特劳已经获得了对系统的前所未有的访问,以尝试找出答案。为了响应公共记录请求,该市披露了智能检查算法的多个版本和有关其评估现实福利申请人如何评估的数据,从而为我们提供了独特的洞察力,即在最佳条件下,算法系统是否可以兑现其雄心勃勃的承诺。 

这个问题的答案远非简单。对于De Koning,智能检查代表了朝着更公平,更透明的福利系统方面的技术进步。对于de Zwart来说,它代表了福利接收者权利的重大风险,没有任何技术调整可以解决。随着该算法实验在几年中进行了几年的发展,它引起了质疑该项目的中心前提:负责的AI可以不仅仅是思想实验或公司卖点,实际上使算法系统在现实世界中公平。

赎回的机会

了解阿姆斯特丹是如何通过AI驱动的预防欺诈行为进行高风险的努力,需要追溯到四十年,这是围绕福利调查的全国丑闻。 

1984年,阿尔宾·格伦布·¶ck(AlbineGrumbãck)是一位离婚的三个孩子的母亲,在得知社会服务当地办公室的一名雇员的邻居中,她已经秘密地监视了她的生活。他记录了一位男性朋友的访问,从理论上讲,他们本来可以向家庭贡献未报告的收入。根据他的观察,福利办公室削减了Grumbãck的好处。她在法庭上作战并获胜。

Albine Grumböck in the courtroom with her lawyer and assembled spectators
AlbineGrumbãck的好处已被切断,他得知了临时救济的判断。

罗布·博加特(Rob Bogaerts)/民族纳尔(Nationaal Archief)

尽管她有个人的辩护,但荷兰福利政策仍在继续增强福利欺诈调查员的权力,有时被称为“牙刷柜台”,以换下人们的生活。律师马克·范·霍夫(Marc van Hoof)说,这有助于营造一种怀疑的气氛,这给双方带来了问题,他一名律师马克·范·霍夫(Marc Van Hoof)帮助荷兰福利获得者驾驶该系统数十年:政府不信任其人民,不信任政府。

职业公务员哈里·博达尔(Harry Bodaar)在整个时间里大部分时间都以社会工作者的身份观察到荷兰的福利政策,然后是欺诈调查员,现在是该市的福利政策顾问。在过去的30年中,他表明该系统由橡皮筋和钉书钉固定在一起,”他说。如果您处于该系统的底部,那么您是第一个掉入裂缝的地方。”

他补充说,使该系统在2019年开始设计智能检查时,使该系统更加有益于受益人。我们只想对我们认为需要检查的人进行公平的检查,与先前的部门政策相反,与先前的部门政策相反,直到2007年才能为每个申请人进行家庭访问。 

但是他还知道,荷兰已成为有问题的福利AI部署的零地面。荷兰政府试图通过AI现代化欺诈侦查现代化,但在一些臭名昭著的场合适得其反。

在2019年,据透露,国民政府一直在使用算法来创建它希望在托儿福利系统中发现欺诈的风险概况。由此导致的丑闻看到了近35,000名父母,其中大多数是移民或移民的子女,被错误地指控在六年内欺骗援助系统。它使家庭承担债务,使一些人陷入贫困,并最终导致整个政府在2021年辞职。 

front page of Trouw from January 16, 2021

由Trouw提供

在鹿特丹,2023年调查通过灯塔向检测福利欺诈的系统报告,发现它偏向于妇女,父母,非本地荷兰发言人和其他弱势群体,最终迫使该市暂停使用该系统。其他城市,例如阿姆斯特丹和莱顿,都使用了一个名为The The的系统欺诈记分卡它是20多年前首次部署的,包括教育,邻里,父母身份和性别,作为评估福利申请人的原始风险因素;该计划也停产。

荷兰并不孤单。根据非营利性福利技术倡导枢纽的说法,在美国,州政府使用算法使用算法来帮助分散公共利益的情况至少有11个案例,通常会带来令人不安的结果。例如,密歇根州错误地指控40,000人犯有失业欺诈。在法国,竞选者正在将国家福利权力授予法庭通过算法,他们声称对低收入申请人和残疾人歧视。” 

这条丑闻以及人们对种族歧视如何嵌入算法系统中的越来越多的认识,有助于促进人们日益强调负责的AI。说我们不仅需要思考道德,而且还需要公平,这成为这个伞的术语。我认为我们已经意识到我们需要透明度和隐私,安全性和安全性等事情。” 

这种方法是基于一套旨在阻止增殖技术造成的危害的工具,这引起了基于熟悉的公式的快速发展的领域:智囊团和国际机构的白皮书和框架,以及由像大5大咨询公司这样的传统权力参与者组成的有利可图的咨询行业,以及一家初创公司和非专业和非专业和非专业公司的主持人。例如,2019年,全球经济政策机构的经济合作与发展组织发表了人工智能原则作为可信赖的AI的开发指南。这些原则包括建立可解释的系统,咨询公共利益相关者和进行审计。 

但是,数十年来的算法不当行为留下的遗产证明很难摆脱,几乎没有达成共识,在哪里可以在公平与不公平之间划清界限。荷兰虽然在国家一级由负责人AI塑造的改革,但算法审计(荷兰语非政府组织)已为政府部提供了道德的AI审计服务,得出的结论是,该技术应用于仅在严格确定的条件下概述福利受众,并且只有在系统避免考虑受保护特征的系统之下,才能使用诸如性别范围之类的系统。同时,大赦国际,像德·兹瓦特(De Zwart)这样的数字权利倡导者,以及一些福利接收者本身认为,在对人们的生活做出决定时,就像在社会服务的情况下一样,公共部门不应使用AI。

阿姆斯特丹希望它找到了正确的平衡。过去的丑闻政策顾问博达尔说,我们从我们面前发生的事情中学到了东西。这次,这座城市想建立一个可以向阿姆斯特丹向人们展示我们做得很好的系统。

找到更好的方法

每当阿姆斯特丹居民申请福利时,案例工作者都会审查违规行为的申请。如果申请看起来可疑,则可以将其发送到纽约市的调查部门,这可能导致拒绝,纠正文书工作错误的请求或建议候选人收到较少的钱。一旦福利散布,调查也可以在以后进行;结果可能会迫使接收者偿还资金,甚至将一些债务推向债务。

官员对申请人和现有福利接收者都有广泛的权力。他们可以要求银行记录,召唤受益人到市政厅,在某些情况下,他们对一个人的家进行了宣布的访问。随着调查或文书工作错误,固定急需的付款可能会延迟。根据博达尔(Bodaar)提供的数字,在超过一半的申请调查中,该市没有发现不法行为的证据。在这种情况下,这可能意味着该市遭受了错误的骚扰,”博达尔说。 

智能检查系统旨在通过最终取代最初的案例工作者来避免这些方案,后者标记了要发送给调查部门的案件。该算法将筛选应用程序,以根据某些个人特征确定最有可能涉及重大错误的人,并将这些案件重定向以进行执法团队的进一步审查。

如果一切顺利,该市在内部文档中写道,该系统将改善其人类案例工作者的绩效,标记更少福利申请人进行调查,同时确定更大有错误的案件比例。在一份文件中,该市预计该模型将防止多达125名阿姆斯特达玛人面对债务,并每年节省240万。” 

Smart Check对于像De Koning这样的城市官员来说是一个令人兴奋的前景,他们在部署该项目时会管理该项目。他说,他很乐观,因为这座城市正在采用科学方法。它会看看它是否会起作用,而不是采取态度,即这必须起作用,无论如何,我们都将继续下去。

这是一个大胆的想法,吸引了乐观的技术人员,例如Loek Berkers,这是一位数据科学家,他仅在大学毕业的第二份工作中就从事智能检查。伯克斯在藏在阿姆斯特丹市政厅后面的一家咖啡馆里,他记得他与该系统的首次接触给他留下了深刻的印象:尤其是对于市内的一个项目,他说,这是一种尝试新事物的创新项目。

Smart Check使用了一种称为“可解释的提升机”的算法,该算法使人们可以更轻松地了解AI模型如何产生预测。大多数其他机器学习模型通常都被视为“黑匣子”,运行抽象的数学过程,对于使用它们的人和受结果影响的人员而言,这两个员工都难以理解。” 

智能检查模型将考虑15个特征,包括申请人是否曾经申请过或获得福利,其资产总和以及他们存档的地址数量为每个人分配风险分数。它有目的地避免了被认为会导致偏见的性别,国籍或年龄等人口因素。它还试图避免像邮政编码那样在表面上看起来不敏感的委员会因素,但如果例如,邮政编码与特定种族群体统计相关,则可以变得如此。

在一个不寻常的步骤中,纽约市已经披露了此信息,并与我们共享了智能检查模型的多个版本,从而有效地邀请了系统的设计和功能进行外部审查。有了这些数据,我们能够建立一个假设的福利收件人,以深入了解如何通过智能检查评估单个申请人。 

该模型对数据集进行了培训,该数据集涵盖了3,400个先前对福利接受者的研究。这个想法是,它将使用城市雇员进行的这些调查的结果来弄清楚最初申请中的哪些因素与潜在的欺诈有关。” 

但是,使用过去的调查从一开始就引入了潜在的问题,阿姆斯特丹大学市民AI实验室(CAIL)的科学总监Sennay Ghebreab说,这座城市所咨询的外部团体之一。他说,使用历史数据来构建模型的问题是,我们最终会出现历史性的偏见。 

该市决定将严格审核其系统,以试图捕捉弱势群体的这种偏见。但是应该如何定义偏见,因此,算法公平的实际含义是一个问题凶猛的 辩论。在过去的十年中,学者提出了数十种相互竞争的公平概念,其中一些是不兼容的。这意味着一个根据这样的标准而设计为公平的系统将不可避免地违反其他的。

阿姆斯特丹官员采用了公平定义,重点是平等地分配负担错误跨不同人口组的调查。 

换句话说,他们希望这种方法能够确保不同背景的福利申请人会承担以类似速率进行错误调查的同样的负担。” 

混合反馈

当它建立智能检查时,阿姆斯特丹咨询了有关该模型的各种公共机构,包括该市的内部数据保护官和阿姆斯特丹个人数据委员会。它还咨询了包括咨询公司德勤在内的私人组织。每个人都给了该项目的批准。 

但是,一个关键团体不是船上的:参与委员会,由15名成员组成的咨询委员会由收益者,拥护者和其他非政府利益相关者组成,这些利益相关者代表该系统旨在帮助和审查的人的利益。像数字权利倡导者德·兹瓦特(De Zwart)一样,该委员会对系统对已经处于不稳定立场的个人的意义深深困扰。” 

Anke van der Vliet现年70年代,是理事会的长期成员。从步行者慢慢沉入居住的阿姆斯特丹Zuid社区的一家餐厅的座位后,她从他们的案子中取回了阅读眼镜。她说,我们从一开始就不信任它。每个人都反对。

几十年来,她一直是该市福利接受者的坚定拥护者,到2024年底,人数约为35,000。在1970年代后期,她帮助找到了福利妇女,该组织致力于揭露福利系统中妇女面临的独特挑战。

城市雇员于2021年秋天首次向参与委员会提出了计划。我们想知道,这对我有利还是不利?”她说。 

另外两次会议无法说服他们。他们的反馈确实导致关键变化,包括减少该市最初考虑的变量数量来计算申请人的分数并排除可能从系统中引入偏见的变量。但是,参与委员会在六个月后完全停止参与该市的发展工作。该组织在2022年3月写道:理事会认为,这种实验会影响公民的基本权利,应停止。

项目经理德·康宁(De Koning)持怀疑态度,该系统将获得范德·弗利特(Van der Vliet)及其同事的批准。他说,我认为整个参与委员会都将站在智能检查想法的背后是永远的。”在那个小组中,人们对社会福利制度的整个过程有太多的情感。 

但是,对于与福利受益人一起工作的拥护者,对于一些受益人本身而言,担心的担忧不是丑闻,而是真正伤害的前景。该技术不仅可以犯有破坏性的错误,而且使他们更加难以纠正,允许福利官员将自己隐藏在数字墙壁后面,''倡导者亨克·克鲁恩(Henk Kroon)说,他协助在1970年代建立的工会的阿姆斯特丹福利协会协助福利受益人。他说,这样的系统可以使[官员]容易工作。但是对于普通公民而言,这很常见。 

是时候测试了 

尽管参与委员会的最终异议,但该市还是决定推动并将工作的智能检查模型进行测试。” 

第一个结果不是他们所希望的。当纽约市的高级分析团队于2022年5月运行最初的模型时,他们发现该算法对移民和男子表现出巨大的偏见,我们能够独立验证。” 

正如城市告诉我们的那样分析证实,最初的模型更可能错误地标记非直属申请人。而且,错误地标记非西方国籍的申请人的可能性几乎是申请人的两倍。该模型的可能性也更高14%。 

在培训模型的过程中,该市还收集了有关其人类案例工作者标记调查的数据,以及哪些被错误标记的人更可能属于哪些群体。从本质上讲,他们对自己的模拟系统进行了偏见测试,这是一种在部署此类系统之前很少进行的基准测试的重要方法。” 

他们在案例工作者领导的过程中发现的是一种截然不同的模式。尽管智能检查模型更有可能错误地标记非统一国民和男性,但人类案例工作者更有可能将荷兰国民和妇女旗标记。” 

Smart Check背后的团队知道,如果他们无法对偏见正确,该项目将被取消。因此,他们转向了一种学术研究的技术,称为训练数据重量。实际上,这意味着拥有非西方国籍的申请人被认为在申请中犯有有意义的错误的数据在数据中的重量较小,而具有西方国籍的人则获得了更多。

最终,这似乎可以解决他们的问题:正如Lighthouse的分析确认,一旦该模型重新升级,荷兰人和非荷兰国民也可能会被错误地标记。” 

在数据重新加权后加入智能检查团队的德·康宁(De Koning)表示,结果是一个积极的信号:因为这很公平 - 我们可以继续这一过程。” 

该模型似乎也比案例工作者更好地识别值得额外审查的应用程序,内部测试表明准确性提高了20%。

在2023年春季,这座城市几乎准备公开。它将智能支票提交给政府运营的透明度倡议算法登记册,旨在使公民在开发或已经在政府使用的情况下了解机器学习算法。

对于De Koning来说,这座城市的广泛评估和磋商令人鼓舞,特别是因为它们也揭示了模拟系统中的偏见。但是对于de Zwart来说,这些相同的过程也代表了一种深刻的误解:可以设计公平。 

德·兹瓦特(De Zwart)在致市政府官员的信中批评了该项目的前提,更具体地说,概述了重新持续数据可能造成的意外后果。它可能会降低对整体移民背景的人的偏见,但不能保证在相交的身份之间公平。例如,该模型仍然可以区分具有迁移背景的女性。他认为,即使解决了这个问题,该模型仍可能不公平地对待某些邮政法规,等等。这种偏见很难检测到。

de Zwart告诉我们,该市已经使用了负责人工具套件中的所有工具。他们有偏见测试,人权评估;简而言之,他们已经考虑了自动化偏见。尽管如此,市政当局仍在继续,这在根本上是一个坏主意。

最终,他告诉我们,这是一个问题,即使用过去的行为的数据是否合法来判断您的公民的未来行为,从根本上讲,您无法预测。” 

官员们仍然敦促,并将2023年3月作为飞行员开始的日期。阿姆斯特丹市议会的成员几乎没有警告。实际上,他们仅在同一个月被告知,绿党的第一任理事会成员伊丽莎白·伊伊姆克(Elisabeth Ijmker)失望,后者在阿姆斯特丹的Vrije大学对她在市政府中的宗教和价值观进行了研究,使她在市政府中的角色保持平衡。 

她告诉我们,阅读算法和预防欺诈行为的话,我认为这值得讨论。”但是到她了解该项目的时候,这座城市已经在研究该项目了多年了。就她而言,很明显,市议会被告知而不是被要求对该系统进行投票。” 

该市希望飞行员能够证明自己的怀疑论者是错误的。

提高赌注

智能检查的正式发布始于有限的实际福利申请人,该申请人将通过该算法运行,并分配风险分数,以确定是否应标记申请进行调查。同时,人类会审查同一申请。 

Smart检查的性能将受到两个关键标准的监控。首先,它可以考虑没有偏见的申请人吗?其次,智能检查真的很聪明吗?换句话说,构成算法的复杂数学实际上可以比人案件工作者更好,更公平地检测到福利欺诈吗? 

很长一段时间都清楚地表明,模型在这两个方面都没有。” 

虽然它旨在减少标记进行调查的福利申请人的数量,但仍在标记更多。事实证明,这比人类案例工作者可以确定那些实际上需要额外审查的人更好。” 

更重要的是,尽管该市为了重新校准系统而竭尽全力,但在现场飞行员中重新出现了偏见。但是这一次,该模型现在更有可能错误地标记具有荷兰国籍和妇女的申请人,而不是错误地标记非荷兰人和男人。” 

Lighthouse自己的分析还揭示了该市文档中未提及的其他形式的偏见,其中包括更有可能将福利申请人与儿童进行错误标记进行调查。

(A spokesperson for Amsterdam sent comment after publication to note that “when conducting the bias analysis, [it] did not look at whether a benefit applicant had children or not.” The spokesperson also added that the city's “welfare policy has been at the forefront for years when it comes to trust and not sanctioning people who have made a mistake. Various policy changes have been implemented and arrangements made for this”; but they note the city has also hit “the limits of the local policy space that municipalities have” since “the national welfare system creates distrust and obliges municipalities to punish.”)

The city was stuck.Nearly 1,600 welfare applications had been run through the model during the pilot period.But the results meant that members of the team were uncomfortable continuing to test—especially when there could be genuine consequences.In short, de Koning says, the city could not “definitely” say that “this is not discriminating.” 

He, and others working on the project, did not believe this was necessarily a reason to scrap Smart Check.They wanted more time—say, “a period of 12 months,” according to de Koning—to continue testing and refining the model. 

They knew, however, that would be a hard sell. 

In late November 2023, Rutger Groot Wassink—the city official in charge of social affairs—took his seat in the Amsterdam council chamber.He glanced at the tablet in front of him and then addressed the room: “I have decided to stop the pilot.”

The announcement brought an end to the sweeping multiyear experiment.In another council meeting a few months later, he explained why the project was terminated: “I would have found it very difficult to justify, if we were to come up with a pilot … that showed the algorithm contained enormous bias,” he said.“There would have been parties who would have rightly criticized me about that.” 

Viewed in a certain light, the city had tested out an innovative approach to identifying fraud in a way designed to minimize risks, found that it had not lived up to its promise, and scrapped it before the consequences for real people had a chance to multiply. 

But for IJmker and some of her city council colleagues focused on social welfare, there was also the question of opportunity cost.She recalls speaking with a colleague about how else the city could’ve spent that money—like to “hire some more people to do personal contact with the different people that we’re trying to reach.” 

City council members were never told exactly how much the effort cost, but in response to questions from麻省理工学院技术评论, Lighthouse, andTrouwon this topic, the city estimated that it had spent some €500,000, plus €35,000 for the contract with Deloitte—but cautioned that the total amount put into the project was only an estimate, given that Smart Check was developed in house by various existing teams and staff members. 

For her part, van der Vliet, the Participation Council member, was not surprised by the poor result.The possibility of a discriminatory computer system was “precisely one of the reasons” her group hadn’t wanted the pilot, she says.And as for the discrimination in the existing system?“Yes,” she says, bluntly.“But we have always said that [it was discriminatory].” 

She and other advocates wished that the city had focused more on what they saw as the real problems facing welfare recipients: increases in the cost of living that have not, typically, been followed by increases in benefits;the need to document every change that could potentially affect their benefits eligibility;and the distrust with which they feel they are treated by the municipality. 

Can this kind of algorithm ever be done right?

When we spoke to Bodaar in March, a year and a half after the end of the pilot, he was candid in his reflections.“Perhaps it was unfortunate to immediately use one of the most complicated systems,” he said, “and perhaps it is also simply the case that it is not yet … the time to use artificial intelligence for this goal.”

“Niente, zero, nada.We’re not going to do that anymore,” he said about using AI to evaluate welfare applicants.“But we’re still thinking about this: What exactly have we learned?”

That is a question that IJmker thinks about too.In city council meetings she has brought up Smart Check as an example of what不是to do.While she was glad that city employees had been thoughtful in their “many protocols,” she worried that the process obscured some of the larger questions of “philosophical” and “political values” that the city had yet to weigh in on as a matter of policy. 

Questions such as “How do we actually look at profiling?” or “What do we think is justified?”—or even “What is bias?” 

These questions are, “where politics comes in, or ethics,” she says, “and that’s something you cannot put into a checkbox.”

But now that the pilot has stopped, she worries that her fellow city officials might be too eager to move on.“I think a lot of people were just like, ‘Okay, well, we did this.We're done, bye, end of story,’” she says.It feels like “a waste,” she adds, “because people worked on this for years.”

CHANTAL JAHCHAN

In abandoning the model, the city has returned to an analog process that its own analysis concluded was biased against women and Dutch nationals—a fact not lost on Berkers, the data scientist, who no longer works for the city.By shutting down the pilot, he says, the city sidestepped the uncomfortable truth—that many of the concerns de Zwart raised about the complex, layered biases within the Smart Check model also apply to the caseworker-led process.

“That’s the thing that I find a bit difficult about the decision,” Berkers says.“It’s a bit like no decision.It is a decision to go back to the analog process, which in itself has characteristics like bias.” 

Chen, the ethical-AI consultant, largely agrees.“Why do we hold AI systems to a higher standard than human agents?” he asks.When it comes to the caseworkers, he says, “there was no attempt to correct [the bias] systematically.” Amsterdam has promised to write a report on human biases in the welfare process, but the date has been pushed back several times.

“In reality, what ethics comes down to in practice is: nothing’s perfect,” he says.“There’s a high-level thing ofDo not discriminate, which I think we can all agree on, but this example highlights some of the complexities of how you translate that [principle].” Ultimately, Chen believes that finding any solution will require trial and error, which by definition usually involves mistakes: “You have to pay that cost.”

But it may be time to more fundamentally reconsider how fairness should be defined—and by whom.Beyond the mathematical definitions, some researchers argue that the people most affected by the programs in question should have a greater say.“Such systems only work when people buy into them,” explains Elissa Redmiles, an assistant professor of computer science at Georgetown University who has studied algorithmic fairness. 

No matter what the process looks like, these are questions that every government will have to deal with—and urgently—in a future increasingly defined by AI. 

And, as de Zwart argues, if broader questions are not tackled, even well-intentioned officials deploying systems like Smart Check in cities like Amsterdam will be condemned to learn—or ignore—the same lessons over and over. 

“We are being seduced by technological solutions for the wrong problems,” he says.“Should we really want this?Why doesn’t the municipality build an algorithm that searches for people who do not apply for social assistance but are entitled to it?”

This piece has been updated to include further comment from Amsterdam officials.


Eileen Guo is the senior reporter for features and investigations at MIT Technology Review.Gabriel Geiger is an investigative reporter at Lighthouse Reports.Justin-Casimir Braun is a data reporter at Lighthouse Reports.

Additional reporting by Jeroen van Raalte forTrouw,Melissa Heikkilä for麻省理工学院技术评论, and Tahmeed Shafiq for Lighthouse Reports.Fact checked by Alice Milliken。一个 You can read a detailed explanation of our technical methodology

这里您可以阅读 Trouw'scompanion story, in Dutch, 这里.

关于《在阿姆斯特丹的高风险实验中创造公平的福利AI》的评论


暂无评论

发表评论

摘要

阿姆斯特丹市议会对SMART检查的AI系统进行了多年实验,旨在识别和减少福利欺诈,同时最大程度地减少人类审查过程中固有的偏见。但是,尽管进行了严格的测试和重新校准工作,但该项目最终未能实现其目标。这是故事中的一些要点:1。**初始目标**:主要目的是使用机器学习算法比传统的基于人类的方法更有效,公平地检测潜在的福利欺诈案例。2。**发展阶段**: - 建立基本模型的原型阶段。 - 广泛的测试阶段,包括偏置分析,人口不平衡调整以及具有实际应用的实时试验试验。3。**遇到的挑战**: - 尽管对算法进行了重新校准,以最大程度地减少对某些人口统计的偏见(例如,非单口个体),但在现场测试中出现了新的偏见,这些偏见比其他人的申请人相对于其他人。 - 与人类审稿人相比,该模型标记了更多的调查案例,但在确定实际欺诈实例方面表现不佳。4。**金融投资**:该项目花费了大约53.5万欧元,其中包括35,000欧元用于与城市员工咨询德勤和内部发展成本的咨询。5。**道德问题**: - 关于AI系统是否符合偏见纠正的人AI系统是否符合人AI系统的问题。 - 倡导者强调了正在进行的系统性问题,例如不受利益增加的生活成本上升以及与福利申请人进行更多个人互动的需求。6。**终止决定**:该项目在2023年末终止,当时很明显,智能支票包含重大偏见,这与减少歧视的目的相反。7。**未来的影响**: - 这一集提出了有关在公共服务中部署AI系统的更广泛问题,以及更需要定义公平的包容性方法。 - 有人呼吁更直接地参与受影响的社区,以确定应如何应用这种技术解决方案。8。**学习的教训**: - 虽然该项目旨在创新福利管理,但其复杂性突显了一些基本问题可能需要政治而不是纯粹的技术解决方案。 - 恢复手动过程的决定强调,如果自动化替代方案引入新的偏见或效率低下,即使是有缺陷的人类系统似乎也是可取的。智能检查的失败强调了将先进的AI技术集成到公共服务交付中所涉及的挑战和道德考虑,尤其是在处理诸如社会福利之类的敏感问题时。