作者:Ben Green
这篇文章是控制意识形态的一部分:关于技术权力和民主危机的系列,与数据与社会。阅读有关该系列的更多信息这里。
埃隆·马斯克(Elon Musk)于2025年5月30日星期五在椭圆形办公室与美国总统唐纳德·特朗普(Donald Trump)一起参加告别新闻发布会。(官方白宫照片莫莉·莱利(Molly Riley))
上周,埃隆·马斯克(Elon Musk)宣布他的正式离开来自特朗普政府和政府效率部(DOGE)。在周五下午与唐纳德·特朗普总统在椭圆形办公室举行的新闻发布会上,马斯克表示他将继续为总统提供建议,而马诺将继续工作。他说,门槛的影响只会变得更强大。它在整个政府中渗透。
但是,尽管特朗普从坚决的办公桌后面读到的假定成就清单,但对于马斯克来说,他在政府的任期远远没有期望。他最初吹嘘,在AI的帮助下,有可能削减一万亿美元政府支出。现在,到达后只是该目标的一小部分(甚至可能增加长期预算赤字),麝香似乎受到惩罚。在接受采访华盛顿邮报,他承认肯定是一场艰苦的战斗试图改善DC。
鉴于马斯克的真正优先事项显然是解雇工人并切断了对弱势群体的援助,因此欢迎他无法获得更大的削减。但是,他的经验强调了超越道路的更广泛的教训:使用AI来改革政府比决策者和技术人员认为要难得多。
这一课很重要,因为它不仅是麝香和杜格,他们在AI上看涨作为改革政府的工具。4月,管理和预算办公室发布了一项备忘录,指导机构加速联邦使用人工智能同时,超出特朗普政府,许多州包括一个由民主党人领导的还在积极探索他们如何利用AI来提高效率和决策。
对于政策制定者和其他政府官员来说,这些努力似乎是对AI快速发展的谨慎回应。公开可用工具的新型能力,再加上技术公司的诺言,即取得进一步的进步,使人们可以轻松地相信AI有望快速改善政府的所有方面。
尽管如此,尽管如此,现实还是更加清醒。问题不是许多AI工具不可靠,并且取决于凌乱的数据集,尽管这些问题无处不在。更深层次的问题是技术新颖性和实际功能之间的差距很大。
即使是技术上复杂的AI工具,实际上也无助。同时,两党对通过AI进行改革政府合理性的信念为紧缩政策和右翼接管 政府程序。
理解炒作与现实之间这种差距的关键是考虑政府如何将AI融入其运营。当我们在上下文中检查AI,而不是固定工具的技术能力时,我们可以确定三个特别的重大挑战,使其难以通过AI改善政府。
政府官员特别是Doge领导人有时将AI作为人工工人的全面替代者。这些主张通常是基于比较这显示了在律师考试等测试中匹配或超过人类绩效的AI工具。
尽管它们具有令人信服的性质,但这些对AI性能的测试仍然具有误导性,因为它们无法衡量AI对现实世界任务的执行方式。实际的人工劳动需要比这些测试评估的更多多方面行为。
毕竟,律师不会整天坐在回答酒吧考试问题上。至关重要的是,由于AI的运作与人的运作截然不同,因此没有证据在酒吧上得分良好的AI工具将与获得相同分数的人一样好。实际上,有证据表明,尽管有大量的语言模型定期幻觉回答法律问题时。
Doge的计划之一是更换许多政府编码人员使用编写软件的AI代理。这些AI软件工具可能看起来适合任务,给定测试表明它们可以通过工程面试任务以接近完美的速度。问题是,实际软件工程工作比这些面试任务要复杂得多。政府软件工程师必须遵循安全协议,将其代码集成到复杂的代码库中,并确保代码易于维护。AI是无法管理所有这些任务。结果,将AI代码注入政府软件可能会导致软件破裂,黑客入侵和妥协数据。
加入我们的新闻通讯,讨论技术与民主的交汇处
许多政府机构认识到AI通常可以取代人类工人,因此采用了AI工具来增加工人。他们希望AI可以帮助政府工作人员分析信息并做出决定。
尽管这种结果是可能的,但一个重大的障碍是AI并不能使人们更加有效地工作。只有在决策者希望收到该工具的建议并可以采取行动的情况下,算法才会有益。为此,AI工具需要高度量身定制为特定于领域的目标和政府工作人员的工作流程。然而,技术人员很少花时间到了解这些需求和操作过程。
工人需求与AI工具的产出之间的不匹配是政府AI失败的常见来源。考虑一下宾夕法尼亚州阿勒格尼县的社会工作者如何回应一种基于AI的工具,旨在帮助他们确定要调查儿童虐待的家庭。案例工作者注意到很大的差异在他们的目标和算法提供的建议之间。尽管他们优先考虑儿童的直接安全性,但筛查算法预测了两年内儿童的安全性。鉴于这种差异,案例工作者没有发现该算法有用,并且常常忽略了其建议。
同样,在这里,一位员工如何评估新的AI聊天机器人部署给联邦工人在通用服务管理局:它与实习生一样好。通用和猜测的答案。
假设政府采用了一种AI工具,该工具对决策者的建议和可行。问题解决了,对吗?未必。
从理论上讲,配对人和人工智能应带来两全其美的最好:算法的准确性和一致性以及人们的监督和专业知识。但是,实际上,这种期望的融合主要是未能实现。
一个核心挑战是,人们擅长评判AI建议的质量。难以辨别哪些建议是好是坏。结果,人类决策者对算法过多信任,导致他们遵循不正确且有偏见的建议。作为这种行为的一个显着例子,美国各地的警察依靠面部识别算法明显不正确的比赛逮捕黑人与正在调查的犯罪没有任何联系。一个人在监狱里花了十天的时间,而对他的指控却花了近一年的时间。
对这些问题的典型响应是使用文本或可视化来帮助人类用户了解算法的建议。尽管这些信息似乎会帮助人们决定算法的建议是否值得信赖,但这不是实践中会发生什么。相反,解释具有增加用户对AI工具的信任的意想不到的效果,使人们更有可能接受不正确的建议。
期望AI在每种情况下都会有所帮助,促使人们渴望加速政府的一项策略,这是一个失败的食谱。当政府未能考虑这三个挑战时,它会导致公众面临人手不足的部门,效率低下的官僚机构和荒谬的决定。
对这些挑战的直接反应是,决策者对采用AI是否会受益于公众更加怀疑。而不是只是为了增加政府的努力使用在AI中,决策者应努力提高政府评估能力AI是否会改善组织流程。在采用任何AI工具之前,政府应需要具体的证据表明该工具可靠地针对预期目的,工人认为该工具有用,并且该工具可以明显地改善人类的决策。
除了这一直接反应之外,决策者首先需要重新考虑为政府AI采用合理的价值观。在整个政治范围内,提高效率的基本原理是促进政府AI的大多数努力。但是,正如Doge的重点一样,政府效率的提高通常意味着实施紧缩。为了利用AI实际上改善公共生活的方式,决策者必须首先改变他们对改善政府意味着什么的假设。应该针对支持公务员的尊严以及所有人过着蓬勃发展的生活的能力而面向改革。否则,以效率为导向的AI改革将证明马斯克承诺的真理或对所有级别的政府的影响的威胁。