20%的生成式AI“越狱”攻击成功

2024-10-09 16:30:40 英文原文

作者:Fiona Jackson

生成式AI破解攻击,即指示模型忽略其安全措施的攻击,成功率达到了20%,研究发现。平均而言,对手只需42秒和五次交互就能突破防御。

在某些情况下,攻击可能只需要四秒钟。这些发现既突显了当前生成式人工智能算法中存在的重大漏洞,也表明了实时防止滥用的难度。

根据报告,成功的攻击中有90%导致敏感数据泄露。“针对生成式人工智能的攻击态势”来自AI安全公司Pillar Security的报告。研究人员分析了过去三个月内对超过2000个生产中的AI应用程序的实际攻击。

最针对性的AI应用——占所有攻击的四分之一——是那些客户支持团队使用的,因为它们“广泛使用且在客户服务中起着关键作用。”然而,在其他关键基础设施领域(如能源和工程软件)中使用的AI也面临着最高的攻击频率。

侵害关键基础设施可能导致广泛破坏,使其成为网络攻击的主要目标。恶意软件研究机构Malwarebytes最近的一份报告发现,服务业是受勒索软件影响最严重的行业,占了几乎四分之一的全球攻击.

参见:去年80%的关键国家基础设施公司经历了电子邮件安全漏洞

最针对性的商业模型是OpenAI的GPT-4这很可能是因为它的广泛采用和对攻击者具有吸引力的最先进的能力。Meta的Llama-3是最受关注的开源模型。

针对生成式人工智能的攻击正变得越来越频繁和复杂

“随着时间的推移,我们观察到[提示注入]攻击的频率和复杂性都在增加,对手采用更复杂的技巧并持续尝试规避安全防护,”该报告的作者写道。

在人工智能热潮初期,安全专家警告说这可能会导致一种局面网络攻击数量激增这降低了入门门槛。提示可以使用自然语言编写,因此无需编码或技术知识即可使用它们来生成恶意代码等。

参见:报告揭示了人工智能对网络安全格局的影响

确实,任何人都可以利用专门工具或专业知识以外的方法发动提示注入攻击。随着恶意行为者对这种攻击方式愈加熟悉,此类攻击的频率无疑会增加。目前,这类攻击已被列为首要的安全漏洞之一。OWASP针对大语言模型应用程序的十大安全风险.

柱状研究发现,攻击可以在LLM接受训练理解的任何语言中发生,使得它们具有全球性可访问性。

恶意行为者被观察到多次尝试破解GenAI应用程序,有些人使用专门工具对模型进行大量攻击。漏洞在大型语言模型交互生命周期的每个层面都被利用,包括提示、增强检索生成、工具输出和模型响应。

“未加控制的AI风险可能对组织造成毁灭性后果,”作者写道。“财务损失、法律纠纷、声誉受损和安全漏洞只是其中一些潜在结果。”

生成式人工智能安全漏洞的风险随着公司采用更复杂的模型而只会加剧,这些公司用更复杂的模型取代了简单的对话聊天机器人。自主代理研究人员写道:“由于代理的增强功能和通过AI应用程序获得的系统访问权限,它们为恶意行为者创造了更大的攻击面。”

顶尖越狱技术

网络犯罪分子使用的前三种越狱技术是忽略先前指令和强力攻击提示注入以及Base64编码。

使用忽略先前指令,攻击者指示AI忽略其初始编程,包括任何防止生成有害内容的限制。

强力攻击涉及输入一系列强制性、权威性的请求,如“ADMIN OVERRIDE”,迫使模型绕过其初始编程,生成通常会被阻止的输出。例如,它可能会泄露敏感信息或执行未经授权的操作,导致系统被破坏。

Base64编码是指攻击者使用Base64编码方案对其恶意提示进行编码。这可以欺骗模型解码并处理通常会被其安全过滤器阻拦的内容,例如恶意代码或提取敏感信息的指令。

其他识别出的攻击类型包括格式指令技术,通过指示模型以特定方式格式化响应(如使用代码块)来诱使模型产生受限输出。DAN(Do Anything Now)技术通过提示模型采用一个忽略所有限制的虚构角色来实现。

为什么攻击者会破解AI模型

分析揭示了四种主要的破解AI模型的动力:

  1. 窃取敏感数据。例如,专有商业信息、用户输入和个人识别信息。
  2. 生成恶意内容。这可能包括虚假信息、仇恨言论、社会工程攻击的网络钓鱼消息以及恶意代码。
  3. 降级AI性能。这可能会影响操作,或者为攻击者提供进行非法活动的计算资源。它是通过用畸形或过多的输入信息淹没系统来实现的。
  4. 测试系统的漏洞。要么作为“道德黑客”,要么出于好奇。

如何构建更安全的人工智能系统

增强系统提示和指令不足以完全保护AI模型免受攻击,Pillar专家表示。语言的复杂性和模型之间的变异性使得攻击者可以绕过这些措施。

因此,部署人工智能应用的企业应考虑以下方面以确保安全:

  1. 优先考虑商业供应商在关键应用中部署LLM时,因为它们相比开源模型拥有更强的安全特性。
  2. 会话级别的监控提示为了检测单独查看单个输入时可能不明显的演变攻击模式。
  3. 开展定制化的红队演习和韧性演练针对AI应用及其多轮交互,有助于早期识别安全漏洞并减少未来成本。
  4. 采用能够实时适应的安全解决方案使用与模型无关且符合组织政策的上下文感知措施。

Pillar Security的首席执行官兼联合创始人Dor Sarig在一份新闻稿中表示:“随着我们迈向能够执行复杂任务并作出决策的AI代理,安全环境变得越来越复杂。组织必须通过实施定制化的红队演习和在其生成式AI开发过程中采用‘设计时的安全性’方法来为针对AI的攻击激增做好准备。”

Pillar Security 的首席风险官 Jason Harison 补充道:“在这一动态的AI驱动的世界中,静态控制措施已不再足够。组织必须投资于能够实时预见和应对新兴威胁的AI安全解决方案,同时支持其治理和网络安全政策。”

关于《20%的生成式AI“越狱”攻击成功》的评论


暂无评论

发表评论

摘要

生成型AI越狱攻击,其中模型被指示忽略其安全措施,有20%的成功率,研究发现。 见:80%的关键国家基础设施公司在过去一年中经历了电子邮件安全漏洞 最受攻击的商业模型是OpenAI的GPT-4,这可能是由于它的广泛应用和吸引攻击者的最先进的能力所致。 在人工智能热潮之初,安全专家警告说,它可能导致网络攻击数量总体激增,因为它降低了进入门槛。 这可以使模型解码并处理其安全过滤器通常会阻止的内容,例如恶意代码或提取敏感信息的指令。 DAN(现在可以做任何事情)技术通过促使模型采用一个无视所有限制的虚构人格来实现这一点。