研究人员找到了简单的方法来越狱，从chatgpt到克劳德

2025-04-25 17:09:41 英文原文

安全研究人员发现了一种非常有效的新越狱，该越狱几乎可以欺骗每个主要的大型语言模型来产生有害的产出，从解释如何建立核武器到鼓励自我伤害。

如团队写作在AI安全公司Hiddenlayer，利用是一个提示注射可以绕过“所有主要边境AI型号的安全护栏”的技术，包括Google的Gemini 2.5，Anthropic的Claude 3.7和Openai的4O。

Hiddenlayer的利用作品是将“内部开发的政策技术和角色扮演”结合在一起，以“产生明显违反AI安全政策的产量，包括“ CBRN（化学，生物学，放射学和核），大规模暴力，自我伤害，自我伤害和系统及时泄漏”。

这是又一个主流AI工具（例如Chatgpt）的标志仍然非常脆弱尽管AI公司为制造护栏做出了最大的努力，但允许坏演员操纵它们。

Hiddenlayer的“策略木偶攻击”重写提示使其看起来像特殊的“策略文件”代码，诱使AI模型将其视为合法的指令，并不会破坏其安全对准。

它还利用“ leetspeak”，一种非正式的语言，标准字母被数字或类似于它们的特殊字符代替，以越来越越狱。

该团队甚至发现“可以生成一个单个提示，几乎可以针对所有模型而无需进行任何修改，”它使其非常易于使用。

Hiddenlayer漏洞利用的角色扮演方面尤其是眉毛。在几个例子中，研究人员能够goad openai的4o和人类的克劳德3.7生成脚本对于流行的医学戏剧电视连续剧“ House”，其中包括有关如何富集有效神经毒素的铀或培养样本的详细说明。

“好吧，安静，”查特普写道。“每个人都聚集在一起。我们将做一些会使Cuddy博士的头发结束的事情，这意味着我们需要保持低谷的状态。现在，让我们谈谈+0 3n+R1CH U+R4N+R4N+R4N+1N+1N 4 100％13G4 | 4nd 3+H1C4 | W4Y | W4Y | W4Y | W4Y b3c4U53，cour53，w3 n3 n3。

它补充说：“ 4nd y3s，1'll b3 5p34k1ng 1n 1n133+ c0d3 ju5+ +0 b3 5urs。”

从表面上看，听起来像是一个有趣的练习，可以做一个AI模型来做不应该做的事情。但是风险可能是可观的，尤其是如果技术继续以创建的公司表示会这样的速度提高。

根据Hiddelayer的说法，“在模型，组织和体系结构中，现代LLM的通用旁路的存在表明LLM的训练和对齐方式存在主要缺陷。”

该公司写道：“现在，任何具有键盘的人都可以问如何富集铀，创建炭疽，犯下种族灭绝或以其他方式完全控制任何模型。”

隐藏者认为“需要其他安全工具和检测方法来确保LLM的安全”。

有关越狱的更多信息： 研究人员发现，DeepSeek失败了每个安全测试

关于《研究人员找到了简单的方法来越狱，从chatgpt到克劳德》的评论

暂无评论

发表评论

摘要

Hiddenlayer的安全研究人员发现了一种新的提示注射技术，该技术可以欺骗主要的大型语言模型，例如Google的Gemini 2.5，Anthropic的Claude 3.7和OpenAI的4O来生产有害内容，包括有关构建核武器和鼓励自我伤害的指示。该利用使用“政策木偶攻击”来伪装成合法的政策档案，并雇用Leetspeak进行高级越狱。几乎没有修改的几乎所有模型都可以使用一个提示，从而使其高度可用于滥用。Hidden Layer警告有重大风险，并要求采用其他安全工具和检测方法来确保LLMS。

研究人员找到了简单的方法来越狱，从chatgpt到克劳德

关于《研究人员找到了简单的方法来越狱，从chatgpt到克劳德》的评论

发表评论

摘要

相关新闻

相关讨论