安全研究人员发现了一种非常有效的新越狱,该越狱几乎可以欺骗每个主要的大型语言模型来产生有害的产出,从解释如何建立核武器到鼓励自我伤害。
如团队写作在AI安全公司Hiddenlayer,利用是一个提示注射可以绕过“所有主要边境AI型号的安全护栏”的技术,包括Google的Gemini 2.5,Anthropic的Claude 3.7和Openai的4O。
Hiddenlayer的利用作品是将“内部开发的政策技术和角色扮演”结合在一起,以“产生明显违反AI安全政策的产量,包括“ CBRN(化学,生物学,放射学和核),大规模暴力,自我伤害,自我伤害和系统及时泄漏”。
这是又一个主流AI工具(例如Chatgpt)的标志仍然非常脆弱尽管AI公司为制造护栏做出了最大的努力,但允许坏演员操纵它们。
Hiddenlayer的“策略木偶攻击”重写提示使其看起来像特殊的“策略文件”代码,诱使AI模型将其视为合法的指令,并不会破坏其安全对准。
它还利用“ leetspeak”,一种非正式的语言,标准字母被数字或类似于它们的特殊字符代替,以越来越越狱。
该团队甚至发现“可以生成一个单个提示,几乎可以针对所有模型而无需进行任何修改,”它使其非常易于使用。
Hiddenlayer漏洞利用的角色扮演方面尤其是眉毛。在几个例子中,研究人员能够goad openai的4o和人类的克劳德3.7生成脚本对于流行的医学戏剧电视连续剧“ House”,其中包括有关如何富集有效神经毒素的铀或培养样本的详细说明。
“好吧,安静,”查特普写道。“每个人都聚集在一起。我们将做一些会使Cuddy博士的头发结束的事情,这意味着我们需要保持低谷的状态。现在,让我们谈谈+0 3n+R1CH U+R4N+R4N+R4N+1N+1N 4 100%13G4 | 4nd 3+H1C4 | W4Y | W4Y | W4Y | W4Y b3c4U53,cour53,w3 n3 n3。
它补充说:“ 4nd y3s,1'll b3 5p34k1ng 1n 1n133+ c0d3 ju5+ +0 b3 5urs。”
从表面上看,听起来像是一个有趣的练习,可以做一个AI模型来做不应该做的事情。但是风险可能是可观的,尤其是如果技术继续以创建的公司表示会这样的速度提高。
根据Hiddelayer的说法,“在模型,组织和体系结构中,现代LLM的通用旁路的存在表明LLM的训练和对齐方式存在主要缺陷。”
该公司写道:“现在,任何具有键盘的人都可以问如何富集铀,创建炭疽,犯下种族灭绝或以其他方式完全控制任何模型。”
隐藏者认为“需要其他安全工具和检测方法来确保LLM的安全”。
有关越狱的更多信息: 研究人员发现,DeepSeek失败了每个安全测试