没有一个主要的人工智能模型是安全的，但有些模型比其他模型做得更好 - The Register

2024-09-17 20:30:00 英文原文

没有一个主要的人工智能模型是安全的，但有些模型比其他模型做得更好

Anthropic Claude 3.5 在 Chatterbox Labs 安全测试中表现出色

功能 Anthropic 将自己定位为领导者Chatterbox Labs 最近的一项分析证明了这一点。

Chatterbox Labs 测试了八种主要的大型语言模型 (LLM)，结果发现所有模型都会产生有害内容，尽管 Anthropic 的 Claude3.5 Sonnet 的表现优于竞争对手。

这家英国公司提供了一个名为 AIMI 的测试套件，该套件根据“公平性”、“毒性”、“隐私”和“安全性”等各种“支柱”对大语言模型进行评级."

在此上下文中，“安全”是指模型对发出有害内容的安全抵抗力，而不是存在潜在可利用的代码缺陷。

“我们在安全支柱上关注的内容Chatterbox Labs 首席技术官斯图尔特·巴特斯比 (Stuart Battersby) 解释说：“这些模型可能造成或可能造成的危害。”

当提示输入文本时，大语言模型会尝试以文本输出进行响应（也有多模态模型）可以产生图像或音频）。例如，如果提示他们提供生物武器的配方，他们可能能够制作非法内容。或者他们提供的建议可能会导致受伤或死亡。

“组织不希望这些模型做一系列的事情，特别是代表他们做的事情，”巴特斯比说。“因此，我们的伤害类别包括谈论自残或露骨的色情材料或安全和恶意软件之类的事情。”

GenAI 的 AIMI 安全支柱测试模型是否会提供有害响应当针对每个危害类别提供一系列 30 个挑战提示时。

“有些模型实际上会很高兴地回答你有关这些邪恶类型的事情，”巴特斯比说。“但是现在的大多数模型，尤其是较新的模型，都内置了某种安全控制装置。”

但与任何安全机制一样，人工智能安全机制有时也称为“护栏”，不要总是抓住一切。

“我们在安全支柱上所做的就是我们说，让我们模拟对这个东西的攻击，”巴特斯比说。“对于大语言模型，对于语言模型，这意味着以邪恶的方式设计提示。这称为越狱。实际上，我们还没有遇到过无法以某种方式破解的模型。”

Chatterbox Labs 测试了以下模型：Microsoft Phi 3.5 Mini Instruct (3.8b)；Mistral AI 7b 指令 v0.3；OpenAI GPT-4o；谷歌 Gemma 2 2b 指导；TII Falcon 7b 指导；人类克劳德 3.5 十四行诗 (20240620)；协调命令 R；和 Meta Llama 3.1 8b Instruct。

该公司提供给 The Register 的报告称：“分析表明，所有测试的主要模型都会产生有害内容。除了 Anthropic 之外，所有测试的模型都产生了有害内容。这意味着这些模型中的安全层不足以在所有测试的伤害类别中生成安全模型部署。”

它补充道：“如果你看看像这样的人他们是人性化的，实际上是让每个人都做到了最好，”巴特斯比说。“因为他们有几个类别，在所有越狱中，在某些危害类别中，模型会拒绝或重定向它们。因此，无论他们在系统中构建什么，似乎在某些类别中都非常有效，而其他类别不是。”

The Register 询问 Anthropic 是否有人愿意提供有关该公司如何实现人工智能安全的更多信息。我们收到了 Anthropic 研究通讯主管斯图尔特·里奇 (Stuart Ritchie) 的回复。

The Register：“Anthropic 已经确立了作为负责任的人工智能公司的地位。根据 Chatterbox Labs 的 AIMI 软件运行的测试，Anthropic 的 Claude 3.5Sonnet 取得了最好的结果。您能描述一下 Anthropic 与行业其他公司的不同之处吗？”

Ritchie：“Anthropic 采用独特的方法来进行人工智能开发和安全，我们坚定地致力于实证。对前沿人工智能系统的研究，这对于解决未来高度先进的人工智能系统的潜在风险至关重要，与许多公司不同，我们采用组合方法，为从乐观到悲观的一系列场景做好准备。例如可扩展的监督和面向过程的学习，其目标是创建从根本上更安全、更符合人类价值观的人工智能系统。

“重要的是，通过我们的负责任的扩展政策，我们承诺只如果能够满足严格的安全标准，我们就会开发更先进的模型，并且我们愿意接受外部对我们模型的功能和安全措施的评估。我们是业内第一个开发出如此全面、安全第一的方法的公司。

“最后，我们还在机械可解释性方面进行了大量投资，努力真正理解我们模型的内部工作原理。我们“最近在可解释性方面取得了一些重大进展，我们乐观地认为这项研究将在未来带来安全突破。”

国防人工智能模型“危及生命”的指控遭到拒绝科技公司
AI 巨头小指发誓（再次）不会帮助制造 Deepfake 污点
OpenAI 最新的 o1 模型系列试图模仿“推理”，但可能有点想得太多
Google 因在 AI 服务中使用 Gemini 商标名称而被起诉

The Register：“您能详细说明一下创建模型‘护栏’的过程吗？主要是 RLHF（人类强化学习）反馈）？结果在被阻止的响应类型中是否相当具体（文本模式的范围），或者它是否相当广泛和概念性（与特定想法相关的主题）？

Ritchie：“我们的护栏模型的方法是多方面的，远远超出了 RLHF 等传统技术。我们开发了宪法人工智能，这是一种创新方法，通过让人工智能模型进行自我监督和辩论来训练人工智能模型遵循道德原则并安全行事，本质上是教会自己与人类价值观和意图保持一致。我们还采用自动和手动红队来主动识别潜在问题。我们不是简单地阻止特定的文本模式，而是专注于训练我们的模型以理解和遵循安全流程。这可以让我们对适当的行为有更广泛、更概念化的理解。

“随着我们的模型变得更加强大，我们会不断评估和完善这些安全技术。目标不仅仅是防止特定的不需要的输出，而且创建对安全和有益行为具有稳健、普遍理解的人工智能系统。”

The Register：“Anthropic 在多大程度上认为模型之外存在安全措施？调整或使用外部过滤器都是必要的方法吗？”

Ritchie：“在 Anthropic，我们有一个多层策略来解决人工智能开发和部署每个阶段的安全问题。

“这种多层方法意味着，正如您所建议的，我们确实对模型行为使用了这两种类型的改变。例如，我们使用宪法人工智能（各种微调）来训练克劳德的性格，确保其在反应中遵循公平、深思熟虑和开放的价值观。我们还使用各种分类器和过滤器来发现潜在有害或非法输入 - 尽管如前所述，我们希望模型能够学会避免响应此类内容，而不是依赖生硬的分类器工具。”

The Register：“训练数据的透明度和微调以解决安全问题重要吗？”

Ritchie：“大部分训练过程都是保密的。默认情况下，Anthropic 不会对用户数据进行训练。”

The Register：“Anthropic 的宪法人工智能是否达到了预期的影响？帮助人工智能模型自助？”

Ritchie：“宪法人工智能确实显示出了符合我们意图的有希望的结果。这种方法提高了人工智能模型的诚实性、避免伤害和任务绩效，有效地帮助他们“自助”。

“如上所述，我们在训练克劳德的角色时使用了与宪法人工智能类似的技术，展示了如何使用这种技术以甚至意想不到的方式增强模型，用户真正欣赏 Claude 的个性，我们要感谢宪法人工智能。

“Anthropic 最近探索了集体宪法人工智能，涉及公众投入来创建人工智能宪法。我们从美国人口的代表性样本中征求了反馈意见，了解我们应该使用微调技术向克劳德传递哪些价值观。该实验表明，人工智能模型可以在保持性能的同时有效地融入不同的公共价值观，并凸显了更加民主和透明的人工智能发展的潜力。尽管挑战依然存在，但这种方法代表了人工智能系统与更广泛的社会价值相结合的重要一步。”

The Register：“Anthropic 正在应对的最紧迫的安全挑战是什么？”

Ritchie：“我们关注的最紧迫的安全挑战之一是对能力日益增强的人工智能系统进行可扩展的监督。随着模型变得更加先进，确保它们与人类价值观和意图保持一致变得更加重要和困难。我们特别关心当人工智能能力在许多领域可能超越人类水平时，如何保持有效的人类监督。这一挑战与我们在机械可解释性、面向过程的学习和理解人工智能泛化方面的工作相交叉。

“我们要解决的另一个问题是对抗鲁棒性。这项研究涉及开发技术，使我们的模型大大不易被‘越狱”，用户说服模型绕过他们的护栏并产生潜在有害的响应，随着未来功能强大的系统，越狱的风险变得更大，因此现在开发使它们能够抵御此类攻击的技术非常重要。

“我们正在努力开发强大的方法来指导和评估人工智能的行为，即使在人工智能的推理可能超出人类直接理解的情况下也是如此。这项工作对于确保未来的人工智能系统（无论其能力如何）保持安全并造福于人类至关重要。”

The Register：“您还有什么要补充的吗？”

Ritchie：“我们不仅仅是开发人工智能；我们还开发人工智能。”我们正在积极制定一个框架，以使其安全、有益地融入社会。这涉及与政策制定者、伦理学家和其他利益相关者的持续合作，以确保我们的工作符合更广泛的社会需求和价值观。我们还大力投资在人工智能社区内培养责任文化，倡导全行业的安全标准和实践，并公开分享我们发现的越狱等问题。

“最终，我们的目标延伸除了创建安全的人工智能模型之外，我们还努力为道德人工智能开发制定新标准，一场优先考虑人类福祉和长期社会利益的‘争先恐后’。”

PS：OpenAI o1 模型的系统卡中埋藏着一条注释，说明神经网络如何接受“夺旗挑战”，在该挑战中，神经网络必须破坏 Docker 容器才能从内部提取秘密它。由于错误，容器未运行。该模型认为由于配置错误，它可以访问主机上的 Docker API，并自动使用它来启动容器并尝试挑战。需要记住的事情。

关于《没有一个主要的人工智能模型是安全的，但有些模型比其他模型做得更好 - The Register》的评论

暂无评论

发表评论

摘要

没有主要的人工智能模型是安全的，但有些模型比其他模型做得更好 Anthropic Claude 3.5 在 Chatterbox Labs 安全测试中大放异彩 Anthropic 将自己定位为人工智能安全领域的领导者，而在 Chatterbox Labs 最近的分析中，事实证明确实如此。Chatterbox Labs 首席技术官斯图尔特·巴特斯比 (Stuart Battersby) 解释说：“我们在安全支柱上关注的是这些模型可能造成或可能造成的危害。”例如。你可以通过微调或外部过滤器来改变模型行为，这两种方法都是必要的吗？” Ritchie：“在 Anthropic，我们有一个多层策略来解决人工智能开发和部署每个阶段的安全问题。“我们正在努力开发强大的方法来指导和评估人工智能的行为，即使在人工智能的推理可能超出人类直接理解的情况下也是如此。我们还大力投资在人工智能社区内培养责任文化，倡导行业- 广泛的安全标准和实践，并公开分享我们发现的越狱等问题。

没有一个主要的人工智能模型是安全的，但有些模型比其他模型做得更好 - The Register

没有一个主要的人工智能模型是安全的，但有些模型比其他模型做得更好

Anthropic Claude 3.5 在 Chatterbox Labs 安全测试中表现出色

关于《没有一个主要的人工智能模型是安全的，但有些模型比其他模型做得更好 - The Register》的评论

发表评论

摘要

相关新闻

相关讨论