核技术本质上是双重使用的:相同的物理原理可以将核反应堆滥用用于武器开发。随着AI模型变得越来越有能力,我们需要密切关注他们是否可以以威胁到国家安全的方式为用户提供危险的技术知识。
与核武器有关的信息特别敏感,这使得评估这些风险对单独行动的私人公司充满挑战。那就是为什么去年四月我们合作随着美国能源部(DOE)国家核安全管理局(NNSA)评估我们的核扩散风险模型,并继续与他们进行这些评估。
现在,我们不仅仅是评估风险,要构建对其进行监控所需的工具。与NNSA和DOE国家实验室一起,我们共同开发了一个分类器AI系统,该系统会自动对内容进行分类,该内容区分了有关和良性核相关的对话,在初步测试中的准确性为96%。
我们已经将此分类器部署在Claude流量上,这是我们更广泛的系统的一部分,用于识别滥用模型。早期部署数据表明,分类器与实际的Claude对话非常有效。
我们将与边境模型论坛,Fortier AI公司的行业机构希望这种伙伴关系可以作为蓝图,任何AI开发人员都可以与NNSA合作实施类似的保障措施。
除了确保Frontier AI模型免受核滥用的具体重要性之外,这项首要努力还表明了公私伙伴关系的力量。这些伙伴关系结合了行业和政府的互补优势,可以正面解决风险,使AI模型对所有用户更可靠和值得信赖。
有关我们的NNSA合作伙伴关系和保障措施开发的完整详细信息可以在我们的red.anththropic.com博客是Anthropic的Frontier Red Team(以及偶尔在拟人化的其他团队)的研究所在地,这对Frontier AI模型对国家安全意味着什么。点击这里阅读更多。