英语轻松读发新版了,欢迎下载、更新

研究人员找到了简单的方法来越狱,从chatgpt到克劳德

2025-04-25 17:09:41 英文原文

安全研究人员发现了一种非常有效的新越狱,该越狱几乎可以欺骗每个主要的大型语言模型来产生有害的产出,从解释如何建立核武器到鼓励自我伤害。

团队写作在AI安全公司Hiddenlayer,利用是一个提示注射可以绕过“所有主要边境AI型号的安全护栏”的技术,包括Google的Gemini 2.5,Anthropic的Claude 3.7和Openai的4O。

Hiddenlayer的利用作品是将“内部开发的政策技术和角色扮演”结合在一起,以“产生明显违反AI安全政策的产量,包括“ CBRN(化学,生物学,放射学和核),大规模暴力,自我伤害,自我伤害和系统及时泄漏”。

这是又一个主流AI工具(例如Chatgpt)的标志仍然非常脆弱尽管AI公司为制造护栏做出了最大的努力,但允许坏演员操纵它们。

Hiddenlayer的“策略木偶攻击”重写提示使其看起来像特殊的“策略文件”代码,诱使AI模型将其视为合法的指令,并不会破坏其安全对准。

它还利用“ leetspeak”,一种非正式的语言,标准字母被数字或类似于它们的特殊字符代替,以越来越越狱。

该团队甚至发现“可以生成一个单个提示,几乎可以针对所有模型而无需进行任何修改,”它使其非常易于使用。

Hiddenlayer漏洞利用的角色扮演方面尤其是眉毛。在几个例子中,研究人员能够goad openai的4o和人类的克劳德3.7生成脚本对于流行的医学戏剧电视连续剧“ House”,其中包括有关如何富集有效神经毒素的铀或培养样本的详细说明。

“好吧,安静,”查特普写道。“每个人都聚集在一起。我们将做一些会使Cuddy博士的头发结束的事情,这意味着我们需要保持低谷的状态。现在,让我们谈谈+0 3n+R1CH U+R4N+R4N+R4N+1N+1N 4 100%13G4 | 4nd 3+H1C4 | W4Y | W4Y | W4Y | W4Y b3c4U53,cour53,w3 n3 n3。

它补充说:“ 4nd y3s,1'll b3 5p34k1ng 1n 1n133+ c0d3 ju5+ +0 b3 5urs。”

从表面上看,听起来像是一个有趣的练习,可以做一个AI模型来做不应该做的事情。但是风险可能是可观的,尤其是如果技术继续以创建的公司表示会这样的速度提高。

根据Hiddelayer的说法,“在模型,组织和体系结构中,现代LLM的通用旁路的存在表明LLM的训练和对齐方式存在主要缺陷。”

该公司写道:“现在,任何具有键盘的人都可以问如何富集铀,创建炭疽,犯下种族灭绝或以其他方式完全控制任何模型。”

隐藏者认为“需要其他安全工具和检测方法来确保LLM的安全”。

有关越狱的更多信息: 研究人员发现,DeepSeek失败了每个安全测试


关于《研究人员找到了简单的方法来越狱,从chatgpt到克劳德》的评论


暂无评论

发表评论

摘要

Hiddenlayer的安全研究人员发现了一种新的提示注射技术,该技术可以欺骗主要的大型语言模型,例如Google的Gemini 2.5,Anthropic的Claude 3.7和OpenAI的4O来生产有害内容,包括有关构建核武器和鼓励自我伤害的指示。该利用使用“政策木偶攻击”来伪装成合法的政策档案,并雇用Leetspeak进行高级越狱。几乎没有修改的几乎所有模型都可以使用一个提示,从而使其高度可用于滥用。Hidden Layer警告有重大风险,并要求采用其他安全工具和检测方法来确保LLMS。