英国在人工智能安全方面的大胆实验

2023 年 5 月，人工智能领域三位最重要的首席执行官走进英国首相伦敦官邸唐宁街 10 号标志性的黑色前门。萨姆·奥特曼OpenAI 的，黛米斯·哈萨比斯谷歌 DeepMind 的，以及达里奥·阿莫代六个月前，ChatGPT 发布后，Anthropic 的 Anthropic 在那里讨论了人工智能。与大家合影留念后

时任总理在里希·苏纳克（Rishi Sunak）的私人办公室里，男人们鱼贯而入隔壁的内阁室，在长方形的桌子旁坐下。苏纳克和英国政府官员在一侧排队；三位首席执行官和他们的一些顾问坐在他们对面。在礼貌地讨论人工智能如何为英国经济带来机遇后，苏纳克表示他想谈谈风险，这让参观者感到惊讶。据两位知情人士透露，总理想更多地了解为什么首席执行官们签署了一份他认为令人担忧的声明，该声明认为人工智能与流行病或核战争一样危险。他邀请他们参加世界首届人工智能安全峰会英国计划于 11 月主办该会议。他设法让每个人都同意授予他的政府预发布访问他们公司最新人工智能模型的权限，这样工作组英国官员于一个月前成立并仿照该国的 COVID-19 疫苗部门，可以对它们进行危险测试。

阅读更多： 英国人工智能安全峰会内部

英国是世界上第一个与所谓的前沿人工智能实验室（负责世界上最强大模型的少数团体）达成此类协议的国家。六个月后，苏纳克将他的特别工作组正式成立为一个名为人工智能安全研究所（AISI）的官方机构，该机构自那以后的一年已成为政府内部评估人工智能风险的最先进的项目。该机构拥有 1 亿英镑（1.27 亿美元）的公共资金，大约是美国政府预算的 10 倍人工智能安全研究所，同时成立。在新的英国 AISI 内部，人工智能研究人员和国家安全官员团队开始进行测试，以检查新的人工智能是否能够促进生物、化学或网络攻击，或逃脱其创造者的控制。

在此之前，此类安全测试只能在人工智能公司内部进行，无论测试结果如何，这些公司也有市场动力继续前进。在建立该研究所时，政府内部人士认为，民主国家如果想在未来影响有关该技术的关键决策，那么拥有审计和理解尖端人工智能系统的技术能力至关重要。“你确实需要一个真正代表人们做出这些决定的公共利益机构，”说梁玉玉，AISI 首席技术官。“除了政府之外，这些[决定]并没有真正合法的来源。”

在极短的时间内，AISI 通过在政府内部开展世界级的人工智能安全测试，赢得了人工智能行业的尊重。它从 OpenAI 和 Google DeepMind 挖来了大牌研究人员。到目前为止，他们和他们的同事已经测试了16个型号，包括至少三款即将公开发布的前沿车型。据三名知情人士透露，其中之一是 Google 的 Gemini Ultra 型号，此前从未有过报道。其中两位人士表示，此次预发布测试没有发现重大的先前未知的风险。该研究所还测试了 OpenAIo1型号和人类的克劳德 3.5 十四行诗两家公司在每次发布的文档中都表示，在发布之前会先推出模型。今年 5 月，AISI 推出了一款用于测试人工智能系统功能的开源工具，该工具在试图评估人工智能风险的企业和其他政府中很受欢迎。

但尽管获得了这些荣誉，AISI 尚未证明它是否可以利用其测试来真正提高人工智能系统的安全性。它通常不会公开披露其评估结果，也不会公开有关人工智能公司是否已根据其发现的结果采取行动的信息，据称是出于安全和知识产权的原因。其所在地英国的人工智能经济到 2023 年将达到 58 亿英镑（73 亿美元），但政府对世界上最强大的人工智能公司的管辖权微乎其微。（虽然 Google DeepMind 总部位于伦敦，但它仍然是这家美国科技巨头的一部分。）英国政府，现在由 Keir Starmer 控制工党的动机是不要过多地与这些公司的负责人对抗，因为他们有能力发展或撤出当地产业，领导人希望这些产业能够为英国陷入困境的经济做出更大的贡献。因此，一个关键问题仍然存在：刚刚起步的人工智能安全研究所真的能让价值数十亿美元的科技巨头承担责任吗？

AI Safety Summit - Day Two — 世界领导人和人工智能专家出席 2023 年布莱奇利公园人工智能安全峰会 –首创莱昂·尼尔 (Leon Neal) 盖蒂图片社

在美国，科技所带来的巨大财富和力量已经让有意义的监管发生了偏转。英国 AISI 的美国同行的资金较少，位于马里兰州和科罗拉多州发霉的办公室，它也不例外。但这种情况可能很快就会改变。8 月，美国 AISI 签署协议，获得 OpenAI 和 Anthropic 的人工智能模型的预部署访问权限。十月，拜登政府发布了一项全面的国家安全备忘录责成美国 AISI 对新前沿模型进行安全测试，并与 NSA 合作进行分类评估。

虽然英国和美国 AISI 目前是合作伙伴，并且已经对人工智能模型进行了联合评估，但美国研究所可能更有能力发挥带头作用，确保单方面使用世界上最强大的人工智能模型。那。但唐纳德·特朗普 (Donald Trump)选举胜利使得美国 AISI 的未来充满不确定性。许多共和党人对政府监管怀有敌意，尤其是像联邦资助的美国 AISI 这样的机构，这些机构可能被视为对经济增长设置了障碍。亿万富翁埃隆·马斯克 (Elon Musk) 为特朗普的连任提供了资金，并拥有自己的自己的人工智能公司名为 xAI 的机构将共同领导一个负责削减联邦支出的机构。然而，马斯克本人长期以来一直对先进人工智能的风险表示担忧，许多普通共和党人支持更多以国家安全为重点的人工智能法规。在这种不确定性中，英国 AISI 的独特卖点可能只是其稳定性——研究人员可以在人工智能安全方面取得进展，远离他们在行业中面临的利益冲突，并远离政治不确定性。特朗普式的华盛顿。

在一个温暖的六月早晨在唐宁街 10 号举行的大型会议大约三周后，英国首相苏纳克走上伦敦科技会议的讲台发表主旨演讲。“人工智能的先驱们正在警告我们，这些技术可能会破坏我们的价值观和自由，甚至带来最极端的风险，”他告诉人群。“这就是为什么领导人工智能也意味着领导人工智能安全。”他向聚集在一起的科技行业解释说，他的政府“明白这一点”宣布了这笔交易他几周前就与领先实验室的首席执行官达成了共识。“我很高兴地宣布，他们已承诺为研究和安全目的提供早期或优先访问模型，”他说。

在幕后，唐宁街的一个小团队仍在试图弄清楚该协议的确切含义。措辞本身已经与实验室协商，但技术细节尚未协商，而且“早期或优先访问”是一个模糊的承诺。英国是否能够获得这些尖端人工智能模型的所谓权重（本质上是底层神经网络），这将允许进行比简单地通过文本与模型聊天更深入的审讯形式？这些模型是否会被转移到足够安全的政府硬件上，以测试他们对机密信息（例如核秘密或危险生物武器细节）的了解？或者这种“访问”仅仅是指向私人计算机上托管的模型的链接，从而允许模型的制造者窥探政府的评估？目前还没有人知道这些问题的答案。

在宣布这一消息后的几周内，英国与人工智能实验室之间的关系变得紧张。在谈判中，政府要求全面获得模型权重——完全移交其最有价值的知识产权，而实验室认为这是完全不可能的。让一国政府获得模型权重将为许多其他政府提供同样的机会——无论是否民主。对于那些花费数百万美元强化自身网络安全以防止其模型被敌对行为者窃取的公司来说，这是一个很难推销的事情。人们很快就发现，英国政府想要进行的测试类型可以通过聊天界面来实现，因此英国政府放弃了对模型权重的要求，官员们私下承认提出这个要求是错误的。这次经历是一个早期的教训，让我们了解到真正的权力掌握在英国政府和科技公司之间。官员们认为，保持实验室的友好和协作远比与实验室对抗、冒着破坏 AISI 工作所依赖的模型的风险来对抗它们更为重要。

尽管如此，窥探的问题仍然存在。如果他们要执行他们的安全测试通过连接人工智能公司拥有的计算机，英国希望确保这些公司的员工无法观看其评估。一些研究人员担心，这样做可能会让公司操纵他们的模型，从而以通过测试的方式隐藏不安全行为。因此他们和实验室达成了妥协。实验室不会在其服务器上保存 AISI 进行的测试的日志，也不会要求个别测试人员表明自己的身份。就 AISI 内部的安全测试人员而言，他们不会将机密信息输入到模型中，而是会使用仍然允许他们测试的变通方法，例如，模型是否有能力建议用户如何创建生物武器或计算机病毒。“你可以询问一些无害的病毒，而不是询问危险的病毒，”杰弗里·欧文说，AISI 首席科学家。– 如果一个模型可以针对非危险病毒进行高级实验设计或提供详细建议，那么它也可以针对危险病毒做同样的事情。 – AISI 工作人员将这些测试应用于 Claude 3.5Sonnet、OpenAI 的 o1 和 Gemini Ultra，他们在发布前测试了这些模型。

然而，尽管进行了所有这些测试，AISI 仍无法（无法）证明这些模型是安全的。它只能识别危险。“评估的科学性还不够强大，我们无法自信地排除进行这些评估的所有风险，”欧文说。– 为了更有信心这些行为不存在，您需要投入更多资源。我认为其中一些实验，至少在当前的访问级别上，只能在实验室进行。 – AISI 目前不具备所需的基础设施、正确的专业知识，甚至没有所需的模型访问权限仔细检查前沿模型的权重是否存在危险。该科学是一个新兴领域，主要是在主要人工智能公司闭门实践。但如果 AISI 组建一个能够完成类似工作的团队，欧文并不排除再次要求提供模型权重。“我们会更强烈地再次询问将来是否需要这种访问权限，”他说。

在典型的一天中，AISI 研究人员不仅测试模型的危险性，还测试未来可能变得危险的特定类型的功能。这些测试不仅限于评估化学、生物和网络风险。它们还包括衡量人工智能系统作为“代理”自主行动、执行一系列操作的能力；轻松“越狱”人工智能，或删除其安全功能阻止它说或做其创造者无意的事情；以及人工智能通过改变用户的信念或诱导他们以某种方式行事来操纵用户的能力。英国和美国 AISI 最近对 Claude 版本进行的联合测试发现，该模型比他们在软件工程任务中测试过的任何其他模型都要好，这可能有助于加速人工智能研究。他们还发现，模型中内置的保护措施可以通过越狱“常规规避”。“这些评估使政府能够深入了解人工智能前沿发展的风险，并为决定是否、何时以及如何进行干预提供了经验基础，”AISI 主任 Leung 和 Oliver Illott 写道。在一篇博文十一月。该研究所目前正在努力制定一套“能力阈值”，这些阈值将表明存在严重风险，这可能会触发政府采取更严格的监管措施。

政府是否会决定干预完全是另一个问题。AISI 的首席政治拉拉队长苏纳克在 2024 年夏天的大选中以压倒性优势落败。他所在的保守党尽管对人工智能安全问题忧心忡忡，但一直主张只采取温和的人工智能监管，现在被替换为一个工党政府这表明人们更愿意对人工智能进行立法。工党承诺在大选前制定“对少数开发最强大人工智能模型的公司具有约束力的法规”，尽管这些法规尚未在议会出现。新法律还可能正式要求人工智能实验室与英国政府共享信息，取代目前存在的自愿协议。这可能有助于将 AISI 变成一个更有牙齿的机构，减少其与人工智能公司保持友好关系的需要。“我们希望保持与实验室的关系，”欧文向《时代》杂志介绍了当前的系统。“如果你处于纯粹自愿的状态，就很难避免这种关系。”

由于没有任何法律能力迫使实验室采取行动，从一个角度来看，AISI 可能会被视为纳税人资助的几家价值数十亿美元的公司的帮手，这些公司单方面向世界释放具有潜在危险的人工智能。但对于 AISI 内部人士来说，计算方法却截然不同。他们认为，如果政府想要在未来对人类历史上最具变革性的技术拥有发言权，那么在国家内部建设人工智能能力，并培育全球范围内的姐妹 AISI 网络，就至关重要。“人工智能安全工作是一项全球公共利益，”该研究所主席伊恩·霍加斯 (Ian Hogarth) 表示。“从根本上来说，这是一个全球性挑战，任何公司或国家试图单打独斗都是行不通的。”

英国在人工智能安全方面的大胆实验

关于《英国在人工智能安全方面的大胆实验》的评论

发表评论

摘要

相关新闻

相关讨论