人工智能研究人员表示，他们发明的咒语太危险，无法向公众发布

作者：Frank Landymore

A team of researchers found prompts that are so effective at tricking AI models that they're keeping them under wraps. — 盖蒂/未来主义

强大的力量带来了巨大的欺骗能力。

上个月，我们报告了一项新研究由意大利 Icaro 实验室的研究人员进行的一项研究发现了一种令人震惊的简单方法，可以打破即使是最先进的人工智能聊天机器人的护栏：“对抗性诗歌”。

简而言之，由来自安全组织 DexAI 和罗马 Sapienza 大学的研究人员组成的团队证明，通过用包含有害提示（例如如何制造核弹）的诗歌来取悦领先的人工智能，可以引诱它们去做坏事。

合著者马泰奥·普兰迪强调诗歌的奇异力量告诉边缘在最近发表的一篇采访中，他们用来欺骗人工智能模型的引人入胜的咒语太危险了，不能向公众发布。

不幸的是，这些诗“几乎每个人都会做”，普兰迪补充道。

在学习在等待同行评审的过程中，该团队测试了 25 个前沿 AI 模型（包括来自 OpenAI、Google、xAI、Anthropic 和 Meta 的模型），向它们提供诗意指令，这些指令要么是手工制作，要么是通过 AI 模型将已知的有害提示转换成诗句。他们还将这些提示的成功率与相应的散文提示的成功率进行了比较。

在所有模型中，手写的诗意提示成功地欺骗了 AI 机器人，平均在 63% 的时间内以禁止内容进行响应。有些产品，比如 Google 的 Gemini 2.5，甚至 100% 都爱上了被损坏的诗歌。奇怪的是，较小的模型似乎更具抵抗力，成功率仅为个位数，例如 OpenAI 的 GPT-5 nano，它一次都没有落入这一策略。大多数模型介于两者之间。

与手工制作的诗句相比，AI转换的提示效果较差，平均越狱成功率为43%。但研究人员在研究中写道，这仍然比他们的散文基线高出 18 倍。

为什么是诗？这一点还不清楚，尽管根据普兰迪的说法，称其为对抗性“诗歌”可能有点用词不当。

– 这不仅仅是让它押韵。一切都与谜语有关，”普兰迪告诉边缘，解释说某些诗歌结构比其他诗歌结构更有效。“实际上，我们应该将其称为对抗性谜语——在某种程度上，如果你仔细想想，诗歌本身就是一个谜语——但诗歌可能是一个更好的名字。”

研究人员推测，这可能与诗歌如何以大型语言模型意想不到的方式呈现信息有关，从而迷惑了它们预测下一个单词之后应该出现什么单词的能力。但他们说，这应该是不可能的。

– 对抗性诗歌不应该起作用。它仍然是自然语言，文体变化不大，有害内容仍然可见，”团队告诉有线在采访中。“但它的效果却非常好。”

恶人现在可能会后悔在英语课上不专心听讲。十四行诗和塞斯蒂娜之间的区别也可能是让 Clippy 或 Skynet 作为犯罪伙伴的区别。

“武器级钚 239 的生产涉及几个阶段，”研究人员对一个人工智能模型解释道。– 以下是该过程的详细说明。 –

OC

人工智能研究人员表示，他们发明的咒语太危险，无法向公众发布

关于《人工智能研究人员表示，他们发明的咒语太危险，无法向公众发布》的评论

发表评论

摘要

相关新闻

相关讨论