今天我们发布了一个重要的更新到我们的负责任扩展政策(RSP),这是我们用来减轻前沿人工智能系统潜在灾难性风险的治理框架。此更新引入了更灵活和细致的方法来评估和管理AI风险,同时保持我们承诺在实施充分的安全措施之前不会训练或部署模型。关键改进包括新的能力阈值以表明我们将何时升级我们的安全措施,以及经过改进的流程用于评估模型能力和我们的安全措施是否足够(受启发于)安全案例方法学),以及内部治理和外部输入的新措施。通过借鉴我们的实施经验和其他高风险行业中的风险管理实践,我们旨在更好地应对人工智能迅速发展的步伐。
先进人工智能的承诺与挑战
随着前沿人工智能模型的进步,它们有可能为我们的社会和经济带来变革性的益处。人工智能可以加速科学发现,革新医疗保健,增强教育体系,并创造全新的领域以激发人类的创造力和创新力。然而,前沿人工智能系统也带来了新的挑战和风险,这些需要进行谨慎的研究并采取有效的保护措施。
2023年9月,我们发布我们的负责任扩增政策,这是一个管理日益强大的人工智能系统带来的风险的框架。经过一年的实施和学习,我们现在分享一个更新版本,该版本反映了实际见解,并考虑了技术能力的进步。
尽管该政策侧重于像下面列出的类别那样的重大风险,但它们并不是我们监控和准备的唯一风险。我们的使用政策规定了我们产品使用的标准,包括禁止使用我们的模型传播虚假信息、煽动暴力或仇恨行为,或者从事欺诈或滥用行为的规定。我们不断改进技术措施以大规模执行信任和安全标准。此外,我们开展研究以了解更广泛的影响和地区差异。社会影响我们的模型。我们的负责任扩展政策在这些领域的工作中起到了补充作用,有助于我们了解当前和潜在的风险。
比例原则保障框架
一如以往,我们保持核心承诺:除非我们实施了将风险控制在可接受水平的安全和保障措施,否则不会训练或部署模型。我们的RSP基于比例保护原则:防护措施与潜在风险成正比。为此,我们使用人工智能安全等级标准(ASL标准),制定了一系列的安全和保障措施,随着模型能力的增强而变得更加严格。受启发于生物安全等级,这些从ASL-1开始,适用于具有非常基本功能的模型(例如国际象棋机器人),然后依次通过ASL-2、ASL-3等级别。
在我们更新的政策中,我们完善了评估特定能力(及其相关风险)以及实施相应安全和保障措施的方法。我们的更新框架有两个关键组成部分:
- 能力阈值:达到特定人工智能能力水平后,将需要比我们当前基础安全措施更强的安全保障。
- 所需的安全措施:达到能力阈值后所需的具体ASL标准以降低风险。
目前,我们所有的模型都遵循ASL-2标准,这反映了当前行业的最佳实践。我们的更新政策定义了两个关键的能力阈值,这些阈值需要更高级别的安全保障:
- 自主人工智能研发:如果一个模型能够独立进行通常需要人类专业知识的复杂AI研究任务——可能以一种难以预测的方式显著加速AI的发展——我们需要提高安全标准(可能是ASL-4或更高标准)并提供额外的安全保障,以避免开发速度超过我们应对新兴风险的能力的情况。
- 化学、生物、放射性和核(CBRN)武器:如果一个模型能够实质性地帮助具有基本技术背景的人创建或部署化学、生物、放射性和核武器(CBRN),则需要加强的安全和部署保障措施(ASL-3标准)。
ASL-3安全措施包括增强的安全手段和部署控制。在安全性方面,这将包括内部访问控制和对模型权重的更强大的保护。对于部署风险,我们计划实施多层次的方法以防止误用,包括实时和异步监控、快速响应协议以及全面的预部署红队测试。
实施和监督
为了有效实施该政策,我们已建立:
- 能力评估基于我们的能力阈值进行常规模型评估,以确定当前的安全措施是否仍然适当。(过去评估的摘要可用)这里.)
- 安全评估:对我们安全和部署安全措施的有效性进行常规评估,以确定是否达到了必要的保护标准。(这些决定的摘要将可供查阅)这里.)
- 文档和决策:记录能力和保护评估的流程,借鉴了诸如 procedure(程序、手续)之类的步骤安全案例方法论在高可靠性行业中很常见。
- 内部治理和外部输入的措施:我们的评估方法将在现有的安全问题内部报告流程的基础上,通过内部压力测试来支持,并且我们还在征求外部专家对我们方法论的反馈。1
从经验中学习
我们在上一个RSP实施的第一年学到了很多,并利用这次更新的机会反思哪些方面运行良好,以及政策中哪些部分需要进行调整。作为其中的一部分,我们进行了第一次审查,以评估我们遵守框架的情况,并发现了一些未能完全满足其要求的案例。这些问题包括程序性问题,例如比预定时间晚三天完成一组评估或不清楚应该如何记录对我们占位符评估所做的任何更改的位置。此外,我们也标记了一些评估,在这些评估中,通过实施标准技术(如链式思维或最佳N策略),我们本可以稍微提高模型的表现。
在所有情况下,我们发现这些实例对我们的模型安全性的威胁很小。我们利用额外的三天时间来完善和改进我们的评估;我们使用的不同评估集比占位符评估提供了更准确的评估结果;并且我们的评估方法仍然显示我们距离阈值还有足够的差距。从中,我们吸取了两个宝贵的教训并将其纳入更新后的框架:我们需要在政策中加入更多的灵活性,并且需要改进跟踪RSP合规性的流程。您可以阅读更多相关内容。这里.
自从我们一年前首次发布RSP以来,我们的目标是提供一个框架示例,其他组织在制定自己的AI风险治理政策时可以从中获得灵感。我们希望主动分享我们在实施自己政策方面的经验,能帮助其他公司在实施自身的风险管理框架方面取得进展,并有助于在整个AI生态系统中建立最佳实践。
展望未来
人工智能的前沿正在迅速发展,使得预测未来系统适当的安全措施变得具有挑战性。我们安全计划的所有方面将继续演变:我们的政策、评估方法、防护措施以及对潜在风险和缓解措施的研究。
此外,联合创始人兼首席科学官贾里德·卡普兰将担任Anthropic的负责任扩展官,接替过去一年担任此职务的联合创始人兼首席技术官萨姆·麦坎迪什。萨姆监督了RSP(负责任系统协议)的初始实施,并将继续专注于其作为首席技术官的职责。随着我们努力扩大在实施RSP方面的努力,我们也正在开放一个负责扩展部门负责人的职位。该角色将负责协调所需的各种团队以迭代并成功遵守RSP。
如果您希望参与到Anthropic的人工智能风险管理中,我们正在招聘! 我们现在有许多团队通过RSP参与风险管理,包括:
- 前沿红队(负责威胁建模和能力评估)
- 信任与安全(负责开发部署防护措施)
- 安全与合规(负责安全保障和风险管理)
- 对齐科学(包括负责开发针对能力评估中偏差聚焦的安全措施ASL-3+的子团队,以及我们内部对齐压力测试项目的子团队)
- RSP团队(负责政策起草、保障和跨公司执行)
查阅更新后的政策anthropic.com/rsp以及补充信息在anthropic.com/rsp-updates
我们衷心感谢众多外部团体在我们负责任扩展政策的开发和改进过程中提供的宝贵反馈。