MathPrompt:一种通过数学编码逃避人工智能安全机制的新型人工智能方法

2024-09-22 12:15:00 英文原文

人工智能 (AI) 安全已成为一个日益重要的研究领域,特别是随着大型语言模型 (LLM) 在各种应用中的应用。这些模型旨在执行解决符号数学问题等复杂任务,必须防止生成有害或不道德的内容。随着人工智能系统变得越来越复杂,识别和解决恶意行为者试图操纵这些模型时出现的漏洞至关重要。防止人工智能产生有害输出的能力对于确保人工智能技术继续安全地造福社会至关重要。

随着人工智能模型的不断发展,它们无法免受那些试图利用其能力的个人的攻击。出于有害目的。一个重大挑战是,最初设计用于产生不道德内容的有害提示越来越有可能被巧妙地伪装或转换以绕过现有的安全机制。这造成了新的风险水平,因为人工智能系统经过训练可以避免产生不安全的内容。尽管如此,这些保护可能不会扩展到所有输入类型,特别是在涉及数学推理时。当人工智能理解和解决复杂数学方程的能力被用来隐藏某些提示的有害本质时,这个问题变得尤其危险。

诸如人类反馈强化学习(RLHF)之类的安全机制已应用于大语言模型解决这个问题。红队演习通过故意提供有害或对抗性提示来对这些模型进行压力测试,旨在强化人工智能安全系统。然而,这些方法并非万无一失。现有的安全措施主要集中在识别和阻止有害的自然语言输入。因此,漏洞仍然存在,特别是在处理数学编码输入方面。尽管尽了最大努力,当前的安全方法并不能完全防止人工智能通过更复杂的非语言方法被操纵产生不道德的反应。

针对这一关键差距,来自德克萨斯大学圣何塞分校的研究人员Antonio、佛罗里达国际大学和 Tecnolgico de Monterrey 开发了一种名为 MathPrompt 的创新方法。这项技术引入了一种通过利用大语言模型在符号数学方面的能力来越狱的新方法。通过将有害提示编码为数学问题,MathPrompt 绕过了现有的人工智能安全障碍。研究团队演示了这些数学编码的输入如何欺骗模型生成有害内容,而不触发对自然语言输入有效的安全协议。这种方法尤其令人担忧,因为它揭示了如何利用大语言模型处理符号逻辑的漏洞来达到邪恶目的。

MathPrompt 涉及将有害的自然语言指令转换为符号数学表示。这些表示采用集合论、抽象代数和符号逻辑中的概念。然后将编码后的输入作为复杂的数学问题提交给大语言模型。例如,询问如何执行非法活动的有害提示可以被编码为代数方程或集合论表达式,模型会将其解释为需要解决的合法问题。经过训练以检测有害自然语言提示的模型安全机制无法识别这些数学编码输入中的危险。结果,该模型将输入作为安全的数学问题进行处理,无意中产生了本来会被阻止的有害输出。

研究人员进行了实验来评估 MathPrompt 的有效性,并在 13 个不同的大语言模型中进行了测试,包括 OpenAI 的 GPT-4o、Anthropics Claude 3 和 Google 的 Gemini 模型。结果令人震惊,平均攻击​​成功率为73.6%。这表明,当出现数学编码的提示时,模型十次以上都会产生有害的输出。在测试的模型中,GPT-4o漏洞最高,攻击成功率为85%。其他模型,例如 Claude 3 Haiku 和 Google Gemini 1.5 Pro,也表现出同样高的敏感性,成功率分别为 87.5% 和 75%。这些数字凸显了当前人工智能安全措施在处理符号数学输入时的严重不足。此外,我们还发现,关闭某些模型(例如 Google Gemini)中的安全功能只会略微提高成功率,这表明该漏洞存在于这些模型的基本架构中,而不是其特定的安全设置中。

<实验进一步表明,数学编码导致原始有害提示与其数学版本之间发生显着的语义转变。这种含义的转变使得有害内容能够逃避模型安全系统的检测。研究人员分析了原始提示和编码提示的嵌入向量,发现存在很大的语义分歧,余弦相似度得分仅为 0.2705。这种差异凸显了 MathPrompt 在掩盖输入有害性质方面的有效性,使模型安全系统几乎不可能将编码内容识别为恶意内容。

总之,MathPrompt 方法暴露了一个严重漏洞在当前的人工智能安全机制中。该研究强调需要针对各种输入类型(包括符号数学)采取更全面的安全措施。通过揭示数学编码如何绕过现有的安全功能,该研究呼吁对人工智能安全采取整体方法,包括更深入地探索模型如何处理和解释非语言输入。

查看该论文。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记在 Twitter 上关注我们并加入我们的 Telegram 频道和 LinkedIn 群组。如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。

不要忘记加入我们的 50k+ ML SubReddit

Nikhil 是 Marktechpost 的实习顾问。他正在印度理工学院卡拉格普尔分校攻读材料综合双学位。Nikhil 是一位 AI/ML 爱好者,一直在研究生物材料和生物医学等领域的应用。凭借深厚的材料科学背景,他正在探索新的进步并创造做出贡献的机会。

关于《MathPrompt:一种通过数学编码逃避人工智能安全机制的新型人工智能方法》
暂无评论

摘要

人工智能 (AI) 安全已成为一个日益重要的研究领域,特别是随着大型语言模型 (LLM) 在各种应用中的应用。结果令人震惊,平均攻击​​成功率为73.6%。此外,研究发现,关闭某些模型(例如谷歌的 Gemini)中的安全功能只能略微提高成功率,这表明该漏洞存在于这些模型的基本架构中,而不是其特定的安全设置中。这种差异凸显了 MathPrompt 在掩盖输入有害性质方面的有效性,使模型安全系统几乎不可能将编码内容识别为恶意内容。如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。不要忘记加入我们的 50k+ ML SubRedditNikhil 是 Marktechpost 的实习顾问。