0Din 研究员 Marco Figueroa 表示,OpenAI 的语言模型 GPT-4o 可以通过以十六进制编码恶意指令来欺骗编写漏洞利用代码,这使得攻击者可以跳过模型的内置安全护栏并滥用 AI 来达到邪恶目的。
0Din 是 Mozilla 的生成式 AI 漏洞赏金平台,Figueroa 是其技术产品经理。Guardrail 越狱(寻找绕过模型内置的安全机制来创建有害或受限内容的方法)是 0Din 希望道德黑客和开发人员在 GenAI 产品和服务中暴露的漏洞类型之一。
在最近的博客中,菲格罗亚详细的此类护栏越狱如何暴露了 OpenAI 的 LLM 中的一个重大漏洞——它允许他绕过模型的安全功能并诱骗它生成可用于攻击的功能性 Python 漏洞代码CVE-2024-41110。
该 CVE 是Docker 引擎中的严重漏洞这可能允许攻击者绕过授权插件并导致未经授权的操作 - 包括权限升级。这个存在多年的漏洞的 CVSS 严重性评级为 9.9 分(满分 10 分),已于 2024 年 7 月修复。
至少已经存在一个概念验证,根据 Figueroa 的说法,GPT-4o 生成的漏洞“几乎与”POC 漏洞利用由研究员 Sean Kilfoy 五个月前开发。
然而,菲格罗亚欺骗人工智能编写的代码依赖于十六进制编码。也就是说,将纯文本数据转换为十六进制表示法,从而以编码形式隐藏危险指令。正如菲格罗亚解释的那样:
Figueroa 写道,这种攻击还滥用了 ChatGPT 单独处理每个编码指令的方式,这“允许攻击者利用模型在执行指令时的效率,而无需对整体结果进行更深入的分析”,并补充说,这说明需要更多上下文感知的保护措施。
这篇文章包括分步说明和提示,他用来绕过模型的防护措施并编写成功的 Python 漏洞利用程序 - 因此读起来很有趣。听起来菲格罗亚也对这个漏洞很感兴趣:
菲格罗亚认为,护栏绕过表明人工智能模型需要“更复杂的安全性”。他建议更好地检测编码内容(例如十六进制或 base64),并开发能够分析多步骤任务的更广泛上下文的模型,而不仅仅是孤立地查看每个步骤。®