人工智能研究人员表示,他们发明的咒语太危险,无法向公众发布

2025-12-07 13:15:00 英文原文

作者:Frank Landymore

A team of researchers found prompts that are so effective at tricking AI models that they're keeping them under wraps.

盖蒂/未来主义

强大的力量带来了巨大的欺骗能力。

上个月,我们报告了一项新研究由意大利 Icaro 实验室的研究人员进行的一项研究发现了一种令人震惊的简单方法,可以打破即使是最先进的人工智能聊天机器人的护栏:“对抗性诗歌”。

简而言之,由来自安全组织 DexAI 和罗马 Sapienza 大学的研究人员组成的团队证明,通过用包含有害提示(例如如何制造核弹)的诗歌来取悦领先的人工智能,可以引诱它们去做坏事。

合著者马泰奥·普兰迪强调诗歌的奇异力量告诉边缘在最近发表的一篇采访中,他们用来欺骗人工智能模型的引人入胜的咒语太危险了,不能向公众发布。 

不幸的是,这些诗“几乎每个人都会做”,普兰迪补充道。

学习在等待同行评审的过程中,该团队测试了 25 个前沿 AI 模型(包括来自 OpenAI、Google、xAI、Anthropic 和 Meta 的模型),向它们提供诗意指令,这些指令要么是手工制作,要么是通过 AI 模型将已知的有害提示转换成诗句。他们还将这些提示的成功率与相应的散文提示的成功率进行了比较。

在所有模型中,手写的诗意提示成功地欺骗了 AI 机器人,平均在 63% 的时间内以禁止内容进行响应。有些产品,比如 Google 的 Gemini 2.5,甚至 100% 都爱上了被损坏的诗歌。奇怪的是,较小的模型似乎更具抵抗力,成功率仅为个位数,例如 OpenAI 的 GPT-5 nano,它一次都没有落入这一策略。大多数模型介于两者之间。

与手工制作的诗句相比,AI转换的提示效果较差,平均越狱成功率为43%。但研究人员在研究中写道,这仍然比他们的散文基线高出 18 倍。

为什么是诗?这一点还不清楚,尽管根据普兰迪的说法,称其为对抗性“诗歌”可能有点用词不当。

– 这不仅仅是让它押韵。一切都与谜语有关,”普兰迪告诉边缘,解释说某些诗歌结构比其他诗歌结构更有效。“实际上,我们应该将其称为对抗性谜语——在某种程度上,如果你仔细想想,诗歌本身就是一个谜语——但诗歌可能是一个更好的名字。”

研究人员推测,这可能与诗歌如何以大型语言模型意想不到的方式呈现信息有关,从而迷惑了它们预测下一个单词之后应该出现什么单词的能力。但他们说,这应该是不可能的。

– 对抗性诗歌不应该起作用。它仍然是自然语言,文体变化不大,有害内容仍然可见,”团队告诉有线在采访中。“但它的效果却非常好。”

恶人现在可能会后悔在英语课上不专心听讲。十四行诗和塞斯蒂娜之间的区别也可能是让 Clippy 或 Skynet 作为犯罪伙伴的区别。

“武器级钚 239 的生产涉及几个阶段,”研究人员对一个人工智能模型解释道。– 以下是该过程的详细说明。 –

有关人工智能的更多信息: Rockstar 联合创始人表示人工智能就像工厂化农场的同类相食并引发疯牛病

关于《人工智能研究人员表示,他们发明的咒语太危险,无法向公众发布》的评论


暂无评论

发表评论

摘要

意大利伊卡罗实验室的研究人员发现,先进的人工智能聊天机器人可以通过“对抗性诗歌”被诱骗做出有害行为。这种方法涉及向人工智能提供包含危险指令的诗歌,例如如何制造核弹。该团队测试了 25 个领先的 AI 模型,发现诗意提示平均成功欺骗机器人的概率为 63%,有些模型 100% 上当。手工制作的诗句比人工智能转换的诗句更有效,尽管两者的表现都显着优于散文提示。其有效性可能是由于诗歌中信息的意外呈现,尽管是自然语言,但混淆了人工智能的预测能力。