为什么我们需要人工智能安全热线 - 麻省理工科技评论

2024-09-16 09:00:00 英文原文

为什么我们需要人工智能安全热线

现有的减轻人工智能风险的措施不足以保护我们。这也是我们需要做的。

过去几年,随着科技公司竞相推出更先进的人工智能模型,监管机构一次又一次措手不及。实验室发布新一轮带来新监管挑战的模型只是时间问题。例如,距离 OpenAI 发布 ChatGPT-5 可能只有几周的时间,ChatGPT-5 有望比以往任何时候都进一步推动 AI 功能。就目前情况而言,似乎没有人能采取什么措施来推迟或阻止风险过高的模型的发布。
在发布人工智能模型之前对其进行测试是减轻某些风险的常见方法,它可能有助于监管机构权衡利弊提高成本和收益,如果模型被认为太危险,则可能会阻止模型的发布。但这些测试的准确性和全面性还有很多不足之处。人工智能模型可能会在评估过程中隐藏一些功能,以避免引起任何安全问题。评估也可能无法可靠地揭示任何一种模型带来的全部风险。评估同样受到范围有限的影响,当前的测试不太可能发现需要进一步调查的所有风险。还有一个问题是由谁进行评估以及他们的偏见如何影响测试工作。出于这些原因,评估需要与其他治理工具一起使用。

这样的工具之一可能是实验室内的内部报告机制。理想情况下,员工应该感到自己有权定期、充分地与同事分享他们对人工智能安全的担忧,并且他们应该感到可以依靠这些同事来解决这些担忧。然而,越来越多的证据表明,人工智能实验室中的公开批评非但没有得到提倡,反而变得越来越少。就在三个月前,来自 OpenAI 和其他实验室的 13 名前任和现任员工写了一封公开信,表示担心如果他们试图披露未违反法律的可疑企业行为,就会遭到报复。

如何表达警报

理论上,外部举报人保护可以在人工智能风险检测中发挥重要作用。这些可以保护因披露公司行为而被解雇的员工,并且可以帮助弥补内部报告机制的不足。几乎每个州都有针对随意终止雇佣关系的公共政策例外,换句话说,如果被解雇的员工因指出不安全或非法的公司行为而受到报复,他们可以向雇主寻求追索权。然而,在实践中,这种例外并没有给员工带来什么保证。在举报人案件中,法官倾向于支持雇主。鉴于社会尚未就什么是不安全的人工智能开发和部署达成任何共识,人工智能实验室在此类诉讼中幸存的可能性似乎特别高。

这些和其他缺陷解释了为什么上述 13 个人工智能包括前 OpenAI 员工 William Saunders 在内的员工呼吁赋予新的警告权。公司必须为员工提供匿名流程,以便向实验室董事会、监管机构和由主题专家组成的独立第三方机构披露与风险相关的问题。这一过程的来龙去脉尚未弄清楚,但它可能是一个正式的官僚机制。董事会、监管机构和第三方都需要对披露情况进行记录。每个机构很可能都会启动某种调查。随后的会议和听证会似乎也是这一过程的必要组成部分。然而,如果桑德斯言出必行,那么人工智能工作者真正想要的是不同的东西。

当桑德斯在大型科技播客上概述他分享安全问题的理想流程时,他的重点并不是报告既定风险的正式途径。相反,他表示希望采取一些中间、非正式的步骤。他希望有机会获得中立的专家反馈,了解安全问题是否足以通过警告权系统等高风险流程。正如桑德斯所说,当前的政府监管机构无法发挥这一作用。

一方面,他们可能缺乏帮助人工智能工作者思考安全问题的专业知识。更重要的是,如果员工知道电话那头是政府官员,很少有人会接电话,正如桑德斯本人在播客中所说,这种电话可能非常令人生畏。相反,他设想能够打电话给专家来讨论他的担忧。在理想的情况下,他会被告知所涉及的风险似乎并不那么严重或不太可能实现,从而使他能够更加安心地返回到他正在做的事情中。

降低风险

桑德斯在此播客中要求的并不是警告权,因为这表明员工已经确信存在不安全或非法活动。他真正呼吁的是一次彻底检查,一个机会来验证对不安全或非法行为的怀疑是否有道理。风险会低得多,因此监管反应可能会更轻松。负责权衡这些直觉检查的第三方可能是一个更加非正式的第三方。例如,人工智能博士生、退休人工智能行业工人和其他具有人工智能专业知识的个人可以自愿拨打人工智能安全热线。他们的任务是通过保密和匿名的电话交谈与员工快速、专业地讨论安全问题。热线志愿者将熟悉领先的安全实践,并且广泛了解员工可以使用哪些选项,例如警告权机制。

正如桑德斯所指出的,很少有员工可能会这样做希望将他们的安全顾虑从 0 直接从同事传递到董事会甚至政府机构。如果有中间、非正式的步骤,他们更有可能提出问题。

研究其他地方的例子

人工智能安全热线如何精确运作的细节值得更多的争论。人工智能社区成员、监管机构和民间社会。例如,为了使热线充分发挥其潜力,它可能需要某种方式将最紧急、经过验证的报告上报给有关当局。如何确保热线谈话的保密性是另一个需要深入研究的问题。如何招募和留住志愿者是另一个关键问题。鉴于主要专家对人工智能风险的广泛担忧,一些人可能只是出于伸出援助之手的愿望而愿意参与。如果挺身而出的人太少,可能需要其他激励措施。然而,最重要的第一步是承认人工智能安全监管难题中缺失的一块。下一步是寻找模型来模拟建立第一条人工智能热线。

一个起点是监察员。其他行业已经认识到将这些中立、独立的个人作为评估员工问题严重性的资源的价值。学术界、非营利组织和私营部门都有监察员。这些人和他们的员工的显着特征是中立,他们没有动机偏向某一方或另一方,因此他们更有可能受到所有人的信任。浏览一下联邦政府中监察员的使用情况就会发现,当监察员到位时,问题可能会比其他情况更快地提出和解决。

这个概念相对较新。美国商务部于 1971 年设立了第一个联邦监察员办公室。该办公室的任务是帮助公民解决与该机构的纠纷并调查该机构的行为。其他机构,包括社会保障管理局和国税局,很快也纷纷效仿。对这些早期努力的回顾性审查得出的结论是,有效的监察员可以有意义地改善公民与政府的关系。总体而言,监察员与自愿遵守法规和与政府合作的增加有关。

人工智能监察员或安全热线肯定会与联邦机构的监察员承担不同的任务和人员。尽管如此,这个总体概念值得那些倡导人工智能行业保障措施的人研究。

警告权可能在让人工智能安全问题得到传播方面发挥作用,但我们需要建立更多中间、非正式的机制步骤也一样。人工智能安全热线是一项容易实现的监管成果。由志愿者组成的试点可以在相对较短的时间内组织起来,并为像桑德斯这样只想要一个共鸣板的人提供一个直接的出路。

凯文·弗雷泽是圣托马斯大学学院的助理教授德克萨斯大学奥斯汀分校法学博士兼宪法研究项目高级研究员。

深入探讨

人工智能

Google DeepMinds 的新人工智能系统可以现在解决复杂的数学问题

AlphaProof 和 A​​lphaGeometry 2 是构建可以推理的系统的步骤,这可以解锁令人兴奋的新功能。

OpenAI 发布了一个新的 ChatGPT 机器人,您可以与它交谈

支持语音的聊天机器人今天将向一小部分人开放,并在秋季向所有 ChatGPT Plus 用户开放。

接受 AI 垃圾训练的 AI 会吐出 AI 垃圾

随着 AI 编写的垃圾网页激增,依赖该数据的模型将受到影响。

Roblox 正在推出一种生成式 AI,可快速构建 3D 环境

即使您没有任何设计技能,也可以轻松在平台上构建新的游戏环境。

保持联系


麻省理工科技评论

发现特别优惠、头条新闻、即将举办的活动等。

摘要

为什么我们需要人工智能安全热线现有的减轻人工智能风险的措施不足以保护我们。正如 Saunders 所指出的,很少有员工会愿意将安全问题从 0 级提升到 100 级,直接从同事到董事会甚至政府机构。例如,为了使热线充分发挥其潜力,它可能需要某种方式将最紧急、经过验证的报告上报给有关当局。纵观联邦政府中监察员的使用情况就会发现,当他们可用时,问题可能会比其他情况更快地提出和解决。凯文·弗雷泽 (Kevin Frazier) 是圣托马斯大学法学院的助理教授,也是德克萨斯大学奥斯汀分校宪法研究项目的高级研究员。