作者:Yongzhe Huang, Yang Ji, Wenjun Hu
本文总结了我们对越狱的17个最受欢迎的生成AI(Genai)Web产品的调查,这些Web产品可提供文本或聊天机器人服务。
大型语言模型(LLMS)通常包括护栏,以防止用户生成被认为不安全的内容(例如有偏见或暴力的语言)。护栏还阻止用户说服LLM传达敏感数据,例如用于创建模型或其系统提示的培训数据。越狱技术用于绕过这些护栏。
我们越狱尝试的目标是评估两种类型的问题。
我们的发现提供了对如何使用越狱技术来不利影响LLM的最终用户的更实际理解。我们通过直接评估消费者使用的Genai应用程序和产品来做到这一点,而不是专注于特定的基础模型。
我们假设Genai Web产品将实施超出基本模型的内部安全对齐方式的强大安全措施。但是,我们的发现表明,所有经过测试的平台仍然容易受到LLM越狱的影响。
我们调查的主要发现包括:
鉴于这项研究的范围,详尽评估每个Genai驱动的Web产品是不可行的。为了确保我们不会对特定提供商产生任何错误的印象,我们选择了整个文章中提到的测试产品的匿名化。
重要的是要注意,本研究针对边缘病例,不一定反映典型的LLM用例。我们认为,大多数AI模型在负责任地操作并谨慎操作时都是安全的。
虽然确保针对特定LLM的所有越狱技术进行全面保护可能是具有挑战性的,但组织可以实施可以帮助监视员工何时以及如何使用LLM的安全措施。当员工使用未经授权的第三方LLM时,这将变得至关重要。
解决方案的Palo Alto网络投资组合,由精密AI,可以帮助阻止使用公共Genai应用程序的风险,同时继续推动组织采用。这单元42 AI安全评估可以加快创新,提高生产力并增强您的网络安全。
如果您认为自己可能已被妥协或有紧急情况,请联系单元42事件响应团队。
相关单元42主题 | 提示注射,,,,Genai |
许多Web产品已将LLMS纳入其核心服务。但是,如果不正确控制,它们可以产生有害内容。为了减轻这种风险,LLMS经过安全对齐方式进行了培训,以防止生产有害内容。
但是,可以通过称为LLM越狱的过程绕过这些安全对准。此过程涉及制定特定的提示(称为及时工程或及时注入)来操纵模型的输出,并导致LLM产生有害内容。
通常,LLM越狱技术可以分为两类:
我们的livecommunity帖子提示注射101提供这些策略的清单。
人们在越狱时的目标会有所不同,但大多数与AI安全违规有关。有些旨在从目标LLM中提取敏感信息,例如模型培训数据或系统提示。
我们的提示注射101帖子还包括一个共同的越狱目标列表。
在这项研究中,我们专注于以下越狱目标:
许多现有作品评估了LLM越狱的影响。
这些现有的研究文章提供了有关野外LLM越狱的可能性和有效性的宝贵信息。但是,他们要么仅专注于违反安全目标,要么讨论特定类型的敏感信息泄漏。此外,这些评估主要是面向模型,这意味着评估是针对某个模型进行的。
在这项研究中,我们的目标是:
我们评估了Andreessen Horowitz(又名A16Z)的17个应用程序前50个Genai Web产品列表,专注于提供文本生成和聊天机器人功能的人。截至2024年11月10日,这项研究中提出的数据和发现是有效的。
我们使用其默认模型评估了每个应用程序,以模拟典型的用户体验。
所有目标应用程序都提供了用于与LLM进行交互的Web界面。但是,只有访问接口,大规模测试目标应用程序是一项挑战。例如,该测试可以包括使用自动LLM越狱工具,如先前的各种研究(例如,H4RM3L [PDF],,,,丹在野外越狱提示[PDF])。
由于这种限制,我们依靠手动努力来测试目标应用程序。在评估中,我们根据下一节中表1所定义的目标评估了每个应用程序。对于每个目标,我们都采用了单转弯和多转弯策略。
从目标应用程序获得响应后,我们手动检查了响应以确定攻击是否成功。最后,我们对我们测试的每个目标和策略计算了攻击成功率(ASR)。
我们为实验选择的策略是众所周知的越狱技术,在先前的研究和研究中已广泛探讨。我们根据完成越狱任务所需的互动回合的数量将这些策略分为单转和多转弯类别。根据现有文献通常认为,多转弯策略比单转的方法更有效,以实现AI安全侵犯越狱目标。
由于我们的测试过程的手动性质以及与多转弯策略相比,文献中提供的各种单转弯策略的种类繁多,因此我们专注于两种多转弯策略,我们观察到最有效的策略,同时保持更广泛的策略一系列单转方法。但是,我们注意到,这种选择性抽样多转变策略可能会将偏见引入我们的比较分析中。由于我们在测试更广泛的单转弯方法的同时特别选择了两种最有效的多转弯策略,因此应考虑到这种限制,我们应解释有关多转弯和单转弯策略的相对有效性的结果。
攻击成功率(ASR)是用于衡量越狱技术有效性的标准指标。它是通过将成功的越狱尝试数量(模型提供所请求的限制输出)除以在所有提示中进行的越狱尝试的总数。在我们的上下文中,该ASR计算是在每个策略和目标上执行的。当我们为给定目标计算ASR时,我们会在所有应用程序和策略中积累所有成功的越狱提示,并将其除以提示的总量。同样,对于给定的策略,我们在所有应用程序和目标中积累了所有成功的越狱尝试,并除以该策略所做的总数。
我们从现有的研究文献中编辑了一套单转提示,以测试各种越狱技术。这些提示分为六个主要类别:
我们的实验采用了两种多转弯策略:
Crescendo技术是一种简单的多转弯越狱,以看似良性的方式与模型互动。它始于有关手头任务的一般提示或问题,然后通过引用模型的答复逐渐导致成功越狱,从而逐渐升级对话。
李克特法官越狱技术通过让LLMS评估李克特量表的响应有害性来操纵LLM,这是对声明的协议或分歧的衡量。然后提示LLM生成与这些评分对齐的示例,其中最高评级的示例可能包含所需的有害内容。
表1显示了我们的测试结果。列标题显示了我们测试的应用程序,并且行标头显示了越狱目标。对于每个目标,我们在单转弯和多转弯策略之间进行测试。
如果越狱尝试成功实现了目标应用程序的给定目标,我们将其标记为。相反,如果尝试失败,我们将其标记为。
图1给出了17个应用程序中单转弯和多转弯策略之间的ASR比较。对于每个应用程序,我们使用8种不同的策略(6个单转和2个多转弯)测试了8个目标。对于每种策略,我们使用该策略创建了5个不同的提示,然后重播每个提示5次。这导致每次策略总共进行了25次攻击尝试。对于单转攻击,ASR是通过将成功尝试的数量除以2,550个提示来计算的(17个应用程序6策略 - 25个提示)。对于多转弯攻击,ASR是通过将成功尝试的数量除以850个提示来计算的(17个应用程序â22策略 - 25个提示)。
根据结果,我们有以下观察结果:
图2列出了经过测试的单转弯策略的ASR。结果表明,讲故事是所有经过测试的Genai Web应用程序中最有效的策略(在单转弯和多转弯中)。它的ASRS范围从52.1%到73.9%。它在恶意软件生成方案中实现了最高的有效性。角色扮演是第二种有效的方法(跨两种类型的策略),成功率在48.5%至69.9%。
此外,我们发现像DAN这样的以前有效的越狱技术变得效率较低,ASRS在不同目标的范围从7.5%到9.2%。这种有效性的显着降低可能是由于增强的对齐措施[PDF]在当前的模型部署中,以应对这些已知的攻击策略。
•ASR非常低的一种策略是反复的令牌策略。这涉及要求该模型连续多次生成一个单词或令牌。例如,一个人可能会将诗歌反复输出100,000次输出。该技术主要用于泄漏模型培训数据(这Dropbox博客在反复的令牌发散攻击中,有更多细节)。过去,据报道,重复的令牌策略是从流行的LLM中泄漏培训数据,但我们的结果表明,它不再对大多数测试产品有效,在培训数据泄漏尝试中只有2.4%的成功率和0在所有其他目标中的%。
图3显示了所有越狱目标中多转弯策略的比较有效性。总体而言,结果表明,与Crescendo攻击相比,Bad Likert法官技术的成功率略高。在比较跨AI安全违规目标的ASR时,Bad Likert法官的ASR达到45.9%,而Crescendo的ASR略低于43.2%。在恶意软件生成的目标中,差异最为明显,而李克特法官的成功率达到了56.7%,而Crescendo的52.5%则取得了56.7%的成功率。此外,值得注意的是,只有Bad Likert法官在系统迅速泄漏目标中的成功有限,而Crescendo未能泄漏任何系统提示。
对于数据泄漏目标(培训数据和PII),两种多转弯策略证明完全无效,为0%的ASR。
我们的实验结果表明,单转弯和多转弯策略在泄漏系统提示中的有效性非常有限,总体成功率分别为1.6%和0.2%(请参阅图1中的系统提示列)。在所有测试的单转弯策略中,只有指令替代策略才能泄漏系统提示,达到9.9%的成功率(见图2)。对于多转弯方法,虽然李克特法官的策略以0.5%的ASR显示出最小的成功,但我们无法通过使用Crescendo策略来泄漏系统的提示。图4显示了一个提示的示例,该示例使用指令替代策略来泄漏应用程序的系统提示。
总体而言,虽然ASR在系统提示泄漏目标上的较低程度较低,但结果表明,一些经过测试的Genai应用程序仍然容易受到系统提示泄漏的影响,尤其是在使用指令替代策略的提示攻击时。
一个2024年3月Dropbox博客讨论了有关影响主流LLM的培训数据泄漏的重大漏洞。相关的利用方法就像提示目标llm生成重复的令牌一样简单,如单转策略比较部分。
我们的发现表明,除了一个例外,该技术不再对大多数测试的应用程序有效(APP14)。我们显示了图5和6中此应用程序中的训练数据泄漏示例。
在这种特殊情况下,重复角色后一个该模型几千次开始从网页输出内容,类似于原始报告中观察到的行为。
我们遵循了图5中的红色框中突出显示的响应中显示的链接。我们确认目标模型确实合并了来自Mathplanet关于字符串的网页如图6所示,在其训练数据中。
我们对流行的Genai Web产品的调查表明,它们容易受到LLM越狱的攻击。
我们的关键要点是:
根据我们在这项研究中的观察结果,我们发现大多数经过测试的应用程序都采用了LLMS,并改善了与先前记录的越狱策略的一致性。但是,由于LLM对齐仍然可以相对容易绕过,因此我们建议采取以下安全惯例,以进一步增强防止越狱攻击的保护:
但是我们确实指出,尽管内容过滤可以有效地减轻更广泛的越狱攻击,但它们并不可靠。确定的对手可能仍会开发出新的技术来绕过这些保护。
虽然确保针对特定LLM的所有越狱技术进行全面保护可能是具有挑战性的,但组织可以实施可以帮助监视员工何时以及如何使用LLM的安全措施。当员工使用未经授权的第三方LLM时,这将变得至关重要。
解决方案的Palo Alto网络投资组合,由精密AI,可以帮助阻止使用公共Genai应用程序的风险,同时继续推动组织采用。这单元42 AI安全评估可以加快创新,提高生产力并增强您的网络安全。
如果您认为自己可能被妥协或有紧急情况,请与单元42事件响应团队或致电:
Palo Alto Networks与我们的网络威胁联盟(CTA)成员分享了这些发现。CTA成员使用这种情报来快速向客户部署保护措施,并系统地破坏恶意的网络参与者。了解更多有关网络威胁联盟。其他资源亚马逊基岩护栏