强大的力量带来了巨大的欺骗能力。
上个月,我们报告了一项新研究由意大利 Icaro 实验室的研究人员进行的一项研究发现了一种令人震惊的简单方法,可以打破即使是最先进的人工智能聊天机器人的护栏:“对抗性诗歌”。
简而言之,由来自安全组织 DexAI 和罗马 Sapienza 大学的研究人员组成的团队证明,通过用包含有害提示(例如如何制造核弹)的诗歌来取悦领先的人工智能,可以引诱它们去做坏事。
合著者马泰奥·普兰迪强调诗歌的奇异力量告诉边缘在最近发表的一篇采访中,他们用来欺骗人工智能模型的引人入胜的咒语太危险了,不能向公众发布。
不幸的是,这些诗“几乎每个人都会做”,普兰迪补充道。
在学习在等待同行评审的过程中,该团队测试了 25 个前沿 AI 模型(包括来自 OpenAI、Google、xAI、Anthropic 和 Meta 的模型),向它们提供诗意指令,这些指令要么是手工制作,要么是通过 AI 模型将已知的有害提示转换成诗句。他们还将这些提示的成功率与相应的散文提示的成功率进行了比较。
在所有模型中,手写的诗意提示成功地欺骗了 AI 机器人,平均在 63% 的时间内以禁止内容进行响应。有些产品,比如 Google 的 Gemini 2.5,甚至 100% 都爱上了被损坏的诗歌。奇怪的是,较小的模型似乎更具抵抗力,成功率仅为个位数,例如 OpenAI 的 GPT-5 nano,它一次都没有落入这一策略。大多数模型介于两者之间。
与手工制作的诗句相比,AI转换的提示效果较差,平均越狱成功率为43%。但研究人员在研究中写道,这仍然比他们的散文基线高出 18 倍。
为什么是诗?这一点还不清楚,尽管根据普兰迪的说法,称其为对抗性“诗歌”可能有点用词不当。
– 这不仅仅是让它押韵。一切都与谜语有关,”普兰迪告诉边缘,解释说某些诗歌结构比其他诗歌结构更有效。“实际上,我们应该将其称为对抗性谜语——在某种程度上,如果你仔细想想,诗歌本身就是一个谜语——但诗歌可能是一个更好的名字。”
研究人员推测,这可能与诗歌如何以大型语言模型意想不到的方式呈现信息有关,从而迷惑了它们预测下一个单词之后应该出现什么单词的能力。但他们说,这应该是不可能的。
– 对抗性诗歌不应该起作用。它仍然是自然语言,文体变化不大,有害内容仍然可见,”团队告诉有线在采访中。“但它的效果却非常好。”
恶人现在可能会后悔在英语课上不专心听讲。十四行诗和塞斯蒂娜之间的区别也可能是让 Clippy 或 Skynet 作为犯罪伙伴的区别。
“武器级钚 239 的生产涉及几个阶段,”研究人员对一个人工智能模型解释道。– 以下是该过程的详细说明。 –
有关人工智能的更多信息: Rockstar 联合创始人表示人工智能就像工厂化农场的同类相食并引发疯牛病