作者:Written by Radhika Rajkumar, Editor Nov. 1, 2024 at 10:56 a.m. PT
距离美国总统大选只有几天了,人工智能公司 Anthropic 正在倡导自己的监管——趁一切还来得及之前。
周四,该公司因注重安全而在行业中脱颖而出,发布建议各国政府应实施“有针对性的监管”,同时应对所谓“灾难性”病例增加的潜在令人担忧的数据人工智能风险。一个
还:人工智能,真正的焦虑:为什么我们不能停止担忧并热爱人工智能
Anthropic 在一篇博客文章中指出,人工智能模型在短短一年内在编码和网络攻击方面取得了巨大进步。“在 SWE-bench 软件工程任务中,模型已经能够解决 1.96% 的实际编码问题测试集(克劳德 2, 2023 年 10 月)至 13.5%(德文,2024 年 3 月) 至 49% (克劳德 3.5 十四行诗,2024 年 10 月),”该公司写道。“在内部,我们的 Frontier Red Team 发现当前的模型已经可以协助执行广泛的网络攻击相关任务,我们预计下一代模型将能够规划长期、多步骤的任务——将会更加有效。”
此外,博客文章指出,仅今年 6 月到 9 月,人工智能系统的科学理解能力就提高了近 18%,根据GPQA基准测试。OpenAI o1在测试中最难的部分取得了 77.3% 的成绩;人类专家得分为81.2%。
该公司还引用了英国人工智能安全研究所风险测试研究了化学、生物、放射和核(CBRN)滥用的几种模型,发现“模型可以用来获取有关生物学和化学的专家级知识”。研究还发现,一些模型对科学问题的回答“与博士级专家的回答相当”。
还:Anthropic 最新的人工智能模型可以像你一样使用计算机 - 错误和所有
这个数据让 Anthropic 黯然失色 2023年预测网络和 CBRN 风险将在两到三年内变得紧迫。该博客称:“基于上述进展,我们相信我们现在已经更接近此类风险了。”
该博客解释道:“明智、目标明确的监管可以让我们两全其美:实现人工智能的好处,同时降低风险。”“拖拖拉拉可能会导致两全其美的结果:设计不当、下意识的监管会阻碍进步,同时也无法发挥作用。”
Anthropic 为政府行动提出了指导方针,以在不妨碍科学和商业创新的情况下降低风险,并利用自己的指导方针 负责任的扩展政策(RSP) 作为“原型”,但不是替代品。Anthropic 承认很难预测何时实施护栏,因此将其 RSP 描述为一个比例风险管理框架,可通过例行测试来适应人工智能不断增长的能力。
“‘如果-那么’结构要求采取安全措施,但前提是一个 模型变得足够有能力来保证它们,”Anthropic 解释道。
该公司确定了成功的人工智能监管的三个要素:透明度、激励安全性以及简单性和重点。
目前,公众无法验证人工智能公司是否遵守自己的安全准则。Anthropic 表示,为了创造更好的记录,政府应要求公司“制定并发布类似 RSP 的政策”,明确何时触发哪些保护措施,并发布每一代系统的风险评估。当然,政府还必须有一种方法来验证所有这些公司声明是否真实。
Anthropic 还建议政府激励更高质量的安全实践。“监管机构可以根据某种合理性标准确定 RSP 必须解决的威胁模型,同时将细节留给公司。或者他们可以简单地指定 RSP 必须满足的标准,”该公司建议。
即使这些激励措施是间接的,Anthropic 也敦促各国政府保持灵活性。该博客表示:“监管流程在不断发展的过程中学习最佳实践,而不是一成不变,这一点很重要。”尽管这对于官僚系统来说可能很难实现。
这可能是不言而喻的,但 Anthropic 还强调立法应该易于理解和实施。该公司将理想的监管描述为“外科手术”,在其建议中主张“简单和专注”,鼓励政府不要给人工智能公司造成不必要的“负担”,因为这可能会分散人们的注意力。
该博客指出:“对于灾难性风险预防而言,可能发生的最糟糕的事情之一是预防风险所需的监管与繁琐或不合逻辑的规则之间形成的联系。”
Anthropic 还敦促其他人工智能公司实施支持监管的 RSP。它指出了提前定位计算机安全和安全的重要性,而不是后风险造成了损害——这对于实现这一目标进行招聘是多么重要。
“如果实施得当,RSP 可以推动组织结构和优先事项。它们成为产品路线图的关键部分,而不仅仅是纸面上的政策,”该博客指出。Anthropic 表示,RSP 还敦促开发人员探索并重新审视威胁模型,即使它们很抽象。
还:当今的人工智能生态系统对于大多数人来说都是不可持续的,但英伟达除外一个
那么下一步是什么?
Anthropic 总结道:“明年至关重要的是,政策制定者、人工智能行业、安全倡导者、民间社会和立法者共同努力,制定一个满足上述条件的有效监管框架。”“在美国,理想情况下,这将在联邦一级进行,尽管紧迫性可能要求它由各个州制定。”