人类撤回可能“破坏”人工智能研究人员的政策
作者:Maxwell Zeff
人择正在回溯一项暗中限制竞争对手使用其新人工智能模型的政策,克劳德寓言5,开发其他人工智能模型。此举遭到了来自政府的强烈反对后,该公司改变了方向。人工智能研究社区。
“我们正在改变《神鬼寓言 5》对前沿法学硕士发展的保障措施,使它们变得可见,”Anthropic 在给《连线》的一份声明中表示。“我们做出了错误的权衡,对于没有取得正确的平衡,我们深表歉意。”
Anthropic 于本周早些时候发布了 Claude Fable 5,这是其最新人工智能模型的一个版本,带有额外的安全护栏,旨在防止误操作。Anthropic 决定采取的一些保障措施并不令人意外:该公司表示,它将把提出有关网络安全、生物学或化学问题的用户重新路由到功能较弱的人工智能模型,以减少有人使用先进人工智能进行网络攻击或制造生物武器的机会。
但对于试图使用 Claude Fable 5 进行前沿人工智能开发的研究人员来说,Anthropic 概述了一种不同的方法。该公司会以用户看不见的方式故意降低模型的性能。此举将有效地破坏试图利用 Claude 来训练竞争性人工智能模型的研究人员,而 Anthropic 明确禁止此类模型的使用。服务条款。
Anthropic 现在表示它正在改变方向,并且《克劳德寓言 5》对人工智能开发的保障措施将对用户可见。如果该公司怀疑用户正在尝试使用 Claude 来构建功能强大的人工智能,它会提醒他们,它要么拒绝请求,要么将用户重新路由到能力较差的模型。
在受到人工智能研究界的强烈反对后,Anthropic 改变了这一政策。Anthropic 已经采取措施限制竞争对手使用克劳德建立封闭和开源的人工智能模型,但批评者表示,悄悄降低模型对某些用户的性能有点太过分了。克劳德的编码代理已成为开发人员(包括从事开源人工智能研究项目的开发人员)青睐的工具,研究人员告诉《连线》杂志,该公司的最新政策可能会导致一个令人不安的未来,即只有少数领先的人工智能实验室可以进行先进的人工智能研究。
美国创新基金会高级研究员、前白宫人工智能顾问 Dean Ball 在一篇文章中写道帖子在 X 上,“在不告知用户的情况下降低 ML 研究的性能是令人震惊的敌意,而且看起来很糟糕。”他在另一篇文章中继续说道。帖子“秘密破坏”政策破坏了 Anthropic 的整体立场,因为它限制了人工智能研究人员在人工智能安全方面的合作。
– 感觉就像 Anthropic 对公众说,“我们不相信任何其他人可以进行人工智能研究。我们是唯一需要进行人工智能研究的人,”开源人工智能初创公司 Prime Intellect 的研究负责人 Will Brown 说道。“感觉有点像他们开始把身后的梯子拉上来。”
布朗表示,这项政策还会让开发商对自己是否违反了 Anthropic 的规则一无所知,因为该公司在其安全措施被触发时不会向他们发出警报。他补充说,这些限制可能会产生广泛的后果。例如,他指出,第三方评估公司的生态系统正在不断发展,这些公司测试前沿模型的安全性、性能和可靠性——如果 Anthropic 秘密降低其模型的性能,这些工作可能会受到阻碍。