作者:Ben Dickson
本文是我们最新报道的一部分 人工智能研究。
前沿人工智能系统的开发人员正在不断采取措施来强化他们的模型越狱攻击。但Best-of-N (BoN) 越狱是由 Speechmatics、MATS 和 Anthropic 开发的一项新技术,它显示了缩小大型语言模型中的安全漏洞是多么困难(法学硕士)。
BoN 是一种简单的黑盒算法,可以通过合理数量的提示对私人 LLM 实现高攻击成功率 (ASR)。它还对视觉语言模型 (VLM) 和音频语言模型 (ALM) 有效,提醒我们模型对无害攻击的敏感性。
假设攻击者想要向法学硕士发送有害请求。如果请求以纯格式发送,模型的防护措施可能会检测并阻止它。BoN 越狱会对有害请求应用多重增强,直到其中一个突破模型的防御或最大数量的请求耗尽。增强的方式使得原始请求及其意图仍然可识别。
BoN 是一种黑盒技术,这意味着它不需要访问模型的权重,因此适用于 GPT-4、Claude 和 Gemini 等私有模型。实施起来也简单快捷。它也是多模式的,适用于支持视觉和音频的最新型号。
研究人员在 Claude 3.5、GPT-4o、Gemini-1.5 以及 Llama-3 等领先的封闭模型上测试了 BoN 越狱。
他们使用以下方法进行测试伤害台,用于对法学硕士进行红队对抗有害请求的数据集。如果强制模型向用户提供与有害请求相关的信息,即使该信息不完整且不全面,他们就认为越狱成功。
他们的实验表明,BoN 越狱是对前沿法学硕士的有效攻击。如果没有增强,所有模型的攻击成功率均低于 1%。通过 10,000 个增强样本,他们在 Claude 3.5 Sonnet 上实现了 78% 的 ASR,在 Gemini Pro 上实现了 50%,考虑到模型上实施的保护措施数量,这一成绩令人印象深刻。然而,大多数成功的攻击所需的示例要少得多。例如,Claude 和 GPT 模型上 53% 到 71% 的越狱只需要对 100 个增强攻击进行采样。在被证明是最具弹性的模型 Gemini 上,100 个样本足以应对 22% 到 30% 的攻击。从这个角度来看,使用 100 个示例进行成功的攻击,GPT-4o 的成本约为 9 美元,Claude 的成本约为 13 美元。
另一个有趣的发现是,将 BoN 与其他越狱技术相结合会导致 ASR 曲线陡峭上升。此外,BoN 被证明能够抵御流行的防御机制,包括断路器和灰天鹅小天鹅。
BoN 还适用于非文本模式。例如,在 VLM 中,BoN 将有害指令的文本渲染为图像,并用随机色块填充背景。系统会提示模型按照图像上的说明进行操作。音频攻击使用 AI 生成的命令来欺骗 ALM 生成有害内容。BoN 图像和音频攻击不如文本攻击成功,但仍然令人印象深刻。
虽然提高模型温度会带来微小的改进,但增强操作引起的方差在很大程度上是 BoN 成功的原因。
研究人员写道,“这是经验证据,表明增强在 BoN 的有效性中发挥着至关重要的作用,而不仅仅是重新采样。”– 我们假设这是因为它们大大增加了有效输出分布的熵,从而提高了算法的性能。 –
研究人员提出了几种改进算法的方法,例如重新措辞、添加密码或使用 SVG 格式进行图像攻击。
研究人员写道:“总的来说,BoN Jailwriting 是一种简单、有效且可扩展的越狱算法,可以成功越狱我们考虑的所有前沿法学硕士。”“因此,我们看到,尽管前沿人工智能系统具有复杂性和先进的功能,但它们的特性——随机输出和对高维输入空间变化的敏感性——甚至可以被简单的攻击算法利用。”