作者:Alice Saltini and Yanliang Pan
11 月 16 日,美国和中国领导人在秘鲁利马举行的亚太经合组织峰会期间举行会面。共同 肯定– 需要保持人类对使用核武器决定的控制。 – 这一声明呼应了一项联合声明文档由法国、英国和美国在 2022 年《核不扩散条约》审议过程中提交。
随着各国越来越重视人工智能的军事应用,将人工智能集成到核武器系统中正成为一种明显的可能性,特别是在核武库正在进行现代化的情况下。尽管一些核武器国家强调了对使用核武器的决定保持人类监督和控制的重要性,但现在就取得胜利还为时过早。天网– 人工智能独立控制核武器的情况对于降低意外核发射的实际风险几乎没有作用。
人工智能有望提高性能和能力核指挥、控制和通信系统,构成核决策的支柱。然而,如果仓促整合且没有充分的风险评估、保障措施和冗余,这种整合可能会大大增加意外核升级的风险。升级风险可能来自于决策动态的改变、超出人类监督的处理速度的加快,或者可能通过复杂系统在未被发现的情况下传播的潜在错误——无论人类是否仍在决策循环中。
为了防止核灾难并确保在核指挥和控制中负责任地使用人工智能,各国不应仅仅对人类监督作出规定性承诺。降低意外核升级的风险需要一个治理框架,为意外核发射的最大可接受概率建立一个量化阈值,作为统一的安全基准。 可以从民用核安全监管中汲取宝贵的治理经验,特别是监管机构所说的“基于风险的安全治理方法和基于绩效的安全治理方法。将这些原则应用于核指挥与控制系统需要超越简单的“人在环”处方,而专注于评估系统的安全性能。其目标是评估人工智能和非人工智能子系统特定配置下发生意外核发射的定量可能性,并确保该可能性安全地保持在可接受的阈值以下。
人工智能对核风险的影响一个
评估人工智能如何影响核领域并导致意外升级并非易事。目前对人工智能模型行为的理解有限,其快速且不可预测的进步,以及参与决策过程的核系统和子系统的复杂性和不透明性,使得这一讨论在很大程度上是推测性的。尽管如此,仍然可以预见状态如何可能会考虑基于现有的核态势和各国获得战略优势的愿望,将人工智能作为对老化核武库进行现代化改造的更广泛努力的一部分。
例如,美国战略司令部司令安东尼·J·科顿将军指向人工智能具有自动化数据收集、简化处理并加速与盟友共享数据的潜力。 相似地,官方的 声明和文件来自其他核权力机构经常将人工智能视为一种工具,帮助人类决策者在核领域之外做出更快、更明智的决策。
原则上,人工智能分析来自不同来源的大量数据的能力非常适合快速识别威胁、分析传感器数据、自动识别对象以及评估潜在的行动方案。然而,人工智能带来了许多重大风险,因为固有的局限性当今先进的人工智能模型。
首先,人工智能不可靠。今天的人工智能可以自信地生成虚假信息,从而导致有缺陷的预测和建议,最终扭曲决策。这种现象被称为“幻觉”。示例包括大型语言模型生成有关历史事件的错误事实,或者视觉模型“看到”不存在的物体。其次,人工智能系统的不透明性(被称为“黑匣子”问题)使得人们很难完全理解人工智能系统如何得出结论。缺乏透明度会破坏信任,并降低人工智能在核决策等高风险环境中的效用,而透明度在这些环境中至关重要。第三,人工智能系统容易受到网络攻击,为对手创造了破坏核指挥和控制系统完整性的机会。最后,当前的人工智能模型很难使输出与人类目标和价值观保持一致,可能会偏离战略目标。核决策的高压环境加上有限的响应时间,加剧了这些危险,因为决策可能依赖于不准确、不透明、妥协或不一致的信息。
尽管一些核武国家宣称要维持人类对核决策的控制,但并非所有国家都明确承诺这样做,这为误解或曲解各国意图而造成严重后果留下了空间。但即使所有核国家都做出了类似的声明,也没有简单的方法来验证这些承诺。而且,人机交互本身就会带来严重的风险。操作员可能过度信任人工智能系统,在没有充分审查的情况下依赖其输出,或者他们可能完全不信任它,在速度至关重要时犹豫采取行动。即使人工智能系统按预期运行,这两种情况也会扭曲决策过程。即使国家维持人类监督,所有这些限制仍然存在。
人工智能未来发展的不确定性进一步加剧了这些风险。虽然当前的限制最终可能会得到解决,但也可能出现现阶段仍无法预测的新风险。
民用核安全监管先例
虽然人工智能集成指挥与控制的风险似乎很新奇, 管理对公众健康和安全造成严重后果的核风险对于各国政府来说并不是一个新挑战。事实上,源自民用核安全治理的风险知情、基于绩效和技术中立的监管原则可能有效地适用于人工智能与核指挥与控制的关系。
在美国,核安全监管的“风险告知”过程始于 1975 年的反应堆安全研究。这量化的使用事件树和故障树等概率风险评估技术来评估与核发电相关的事故和放射性释放的风险。简而言之,这些技术绘制了最终可能导致事故的级联事件的各种序列,包括系统故障,从而可以量化各种后果的概率。
在风险量化之前,法规主要基于规定性和确定性要求。例如,监管机构规定的多个冗余安全功能可防止某些可预见的事故,而无需明确考虑任何给定事故序列的可能性。1979 年三哩岛事故后,核管理委员会扩大它对概率风险评估技术的更广泛应用进行研究。这是事故发生后调查所建议的,达到顶峰在 1995 年的政策声明和随后的委员会安全监管“风险告知”计划中。
与此同时,行业推动更广泛地使用基于绩效的监管,为被许可人在确定如何实现既定安全目标方面提供更大的灵活性。基于性能的监管要求不是指定反应堆设计中必须包括哪些安全功能,而是简单地建立可量化的安全结果。在其公开沟通中,核管理委员会说明其基于性能的方法使用跳伞示例。在这种情况下,监管机构将制定一项“性能要求”,即“降落伞必须在 5,000 英尺的高度以上打开”,但没有具体说明是否应使用开伞绳或自动启动装置来确保这一结果。
以核电厂运行不应对个人和社会风险产生重大影响这一质量安全目标为指导,到 1986 年,核管理委员会定义的一个可测量的基准——反应堆事故导致的放射性物质大量释放到环境中的总体平均频率应低于反应堆运行期间每年百万分之一。”精制纳入更具可操作性的标准。
近年来,随着各种新颖的反应堆概念的出现,传统反应堆规定的许多安全特征显然不再适用。监管机构因此优先的制定技术中立的法规,为反应堆设计如何满足安全性能基准提供更大的灵活性。在这种背景下,几十年来开发的概率风险评估技术和基于绩效的监管方法已被证明对于确保安全治理适应技术进步至关重要。
将民用核安全的经验教训应用于核指挥、控制和通信
正如科顿将军承认:“我们需要指导研究工作,以了解人工智能模型的级联效应、突发和意外行为以及人工智能间接融入核决策过程的风险。”事实上,人工智能的快速发展人工智能正在超越研究工作,这使得我们对支持核决策的人工智能集成功能如何无意中导致升级的理解存在重大差距。
正在进行的关于军事领域负责任的人工智能集成的多边讨论尚未确定什么是核指挥控制及邻近系统中的“安全”人工智能集成,特别是考虑到即使是一个错误也可能引发的高风险后果。更复杂的是,拥有核武器的国家可能会在其独特的理论、能力和威胁认知的推动下,以不同的方式整合人工智能。例如,认为自己处于战略劣势的国家可能愿意接受与人工智能集成相关的更高风险,如果它能提供更快的决策和战略平等等战略优势。
因此,为人工智能集成建立可量化的风险阈值至关重要。风险评估框架可以帮助政策制定者区分高风险和可接受的人工智能应用。为了确保意外升级的风险不超过既定阈值,他们将分析特定的人工智能模型如何与核指挥控制和相邻系统交互,并识别级联故障点及其潜在后果。
这就是民用核安全监管可以提供有益经验的地方。核指挥与控制中人工智能风险的管理应整合概率风险评估技术,并采用基于绩效而非规定性的基准,其中绩效是指人工智能系统的可靠性以及生成准确且一致的输出的能力以及系统安全护栏的有效性。概率风险评估技术是必要的,因为黑匣子系统本质上抵制确定性故障分析,并且复杂的事故序列需要系统的风险量化。
此外,技术中立的安全治理需要一种风险知情、基于绩效的方法。虽然概率风险评估必须考虑技术,但鉴于方式不同,双边和多边安全承诺必须适用于各种技术各国可能会将人工智能集成到其指挥和控制系统中。此外,人工智能系统的快速发展将产生新的故障模式,而规范的护栏无法总是赶上这些模式。因此,各国就一系列广泛的安全目标达成一致,而不是制定严格的规定(无论如何都很难用人工智能等无形技术来验证)。例如,各国可以承诺实现总体质量安全目标,即融入核指挥与控制的人工智能系统不应增加核武器使用的风险,并在此基础上制定可衡量的安全目标,例如保持核武器使用的风险。每年发生核发射事故的概率低于千万分之一。然后可以使用概率风险评估技术来评估人工智能(或非人工智能)系统的特定配置是否能够满足这些目标。
例如,可以绘制事件树来评估将威胁数据幻觉为起始事件可能导致意外升级的概率。树的一个分支可以代表冗余系统自动纠正数据的概率。另一个可能代表人类操作员仔细检查预警系统源数据的概率。还有一个与冗余和人为监督都失败的概率相关,可能代表正在传输的威胁数据以及在此基础上制定的打击建议。鉴于这一特定的始发事件,意外升级为核战争的风险相当于所有护栏失效的可能性——这种风险可以定量评估。如果所有初始事件的风险超过定义的定量阈值,则必须调整系统配置以消除某些高风险集成或提高护栏的有效性。
对于人工智能系统,这种风险评估会同时考虑技术风险和集成风险。技术风险与模型的可靠性、透明度和性能有关。另一方面,集成风险主要集中在人工智能的使用方式和地点——从提高通信效率等低风险任务到制定罢工建议等高风险功能。系统的设计和内置冗余也是评估中的关键因素。
规定性承诺(例如人机交互原则或排除某些类型的前沿人工智能系统)可能看起来是明确的,但它们既不是技术中立的,也不能保证降低意外风险核使用低于可量化的阈值。事实上,它们制造了一种错误的安全感,并助长了这样一种错觉,即核武器拥有者可以通过遵循一系列不随时间演变的规定来履行其降低风险的义务,并且不能保证将事故风险控制在规定的数量级以下。一个
诚然,客观的绩效标准并不总是能够被定义,这就是为什么民用核安全监管机构必须保留一些规定性要求。概率风险评估技术也有其局限性,特别是在评估人为、组织和安全文化因素的风险贡献。因此,尽管美国核管理委员会致力于对其安全监管进行风险告知,但它维持它致力于纵深防御原则,这是指将不太可能同时发生故障的冗余安全系统分层的做法。同样的原则也应该适用于人工智能和核指挥与控制的背景下,但要以考虑风险洞察的方式进行。早期民用核安全监管完全依赖冗余安全系统的经验教训显示单独的纵深防御方法并不是最理想的。
最终,防止意外或无意升级的责任在于核武器拥有者,无论其指挥和控制系统是否依赖于软盘或前沿人工智能。安全结果才是最重要的,降低人工智能核风险的方法必须与其基于性能的逻辑相一致。
建议
展望未来,美国和中国应以对人类控制的规定性承诺为基础,并在定性安全目标下商定一套可量化的安全目标,即人工智能的使用不应导致核战争风险的增加,无论人类是否处于众所周知的循环中。他们还应该带头研究概率风险评估技术,这些技术可用于量化人工智能集成核指挥控制系统的事故频率。这可能包括努力了解各种人工智能系统的故障模式并开发适当的人工智能安全性能评估框架。也许最重要的是,研究应该确定在核指挥与控制应用方面评估人工智能风险的各种技术的局限性。一旦华盛顿和北京达成初步协议,涉及联合国安理会五个常任理事国的外交进程和《核不扩散条约》审查进程可以为将其他核武器国家和无核武器国家带到谈判桌上提供机会。“军队中负责任的人工智能”领域峰会可能有助于让更多不同的利益相关者参与风险管理讨论。
最终,各国可能会发现,自信地量化人工智能集成核指挥与控制的风险是不可行的,或者即使是合理可实现的最低事故概率——无论是百万分之一还是千万分之一— 仍然对人类构成令人无法接受的高风险。如果是这样,那么量化核指挥与控制系统中的人工智能风险并将这些风险限制在定量阈值以下的努力将是值得的,因为它将揭示诸如人类控制等单纯规定性承诺的不足。除非每个核武器国家都能够配置其指挥和控制系统,以确保意外核发射的可能性保持在定量阈值以下,否则让人类参与其中的承诺只会带来安全的幻觉。
爱丽丝·萨尔蒂尼 (Alice Saltini) 是詹姆斯·马丁防扩散研究中心的人工智能非常驻专家。爱丽丝的研究重点是人工智能和核武器的交叉点。她被认为是该领域的领军人物,就人工智能在核领域的影响向政府提供建议。她发表了有关人工智能与核交叉点的广泛研究成果,并将其提交给各国政府和国际组织。Alice 还开发了一个通用风险评估框架来分析这些风险。
潘彦良是詹姆斯·马丁防扩散研究中心的研究员,他在那里进行研究并促进专注于人工智能和核能的第二轨参与计划。他对核能问题的评论发表在原子科学家公报和电力杂志,以及卡内基国际和平基金会、世界政治评论和乔治城大学外交研究所的网站。
图像:美国太空部队通过维基共享资源