困惑飞行员攻击可以操纵基于RAG的人工智能系统

2024-10-14 16:55:57 英文原文

作者:Elizabeth Montalbano, Contributing Writer

Humanoid robot behind the wheel of a car driving against a sunset landscape background

来源:Mopic via Shutterstock

攻击者可以在人工智能(AI)系统用来生成响应的数据池中添加恶意文档,这可能会混淆系统,并可能导致组织内的误导信息和决策过程受损。

德克萨斯大学奥斯汀分校火花研究实验室的研究人员发现了该攻击向量,并将其命名为困惑的飞行员因为它影响所有检索增强生成基于(RAG)的AI系统,包括微软365副驾这包括研究人员提到的基于RAG的其他系统,这些系统使用Llama、Vicuna和OpenAI。

“此攻击通过向AI系统可能引用的任何文档中添加恶意内容,就能操纵AI响应,”Symmetry首席传道官Claude Mandy写道。纸张关于这次攻击,在2024年8月DEF CON AI Village会议上进行了展示,但并未广泛报道。该研究在Symmetry首席执行官兼UT教授Mohit Tiwari的监督下进行。

目前,福布斯全球企业2000强中有65%的企业正在实施或计划实施基于RAG的方法人工智能系统曼迪写道:“这些攻击的潜在影响不容小觑。”此外,他表示,这种攻击特别危险,只需要基本访问权限即可操纵所有基于RAG的人工智能实现的响应,并且即使删除恶意内容后仍可持久存在,还能绕过当前的人工智能安全措施。

恶意操控RAG(检索增强生成)

RAG是一种用于提高响应质量并消除大型语言模型(LLM)系统昂贵的重新训练或微调阶段的技术。该技术在系统中增加了一步,即模型检索外部数据以增强其知识库,从而在无需重新训练或微调的情况下提升生成响应的准确性和可靠性,研究人员表示。

研究人员选择专注于微软365 Copilot进行演示和撰写论文,尽管这并不是唯一受RAG(检索增强生成)系统影响的系统。相反,据研究人员托管的ConfusedPilot网站所述,“这个问题的主要原因是滥用基于RAG的系统……通过不恰当设置访问控制和数据安全机制造成的。”

在正常情况下,基于RAG的AI系统将使用检索机制来提取相关关键词,并与存储在向量数据库中的资源进行匹配,利用该上下文信息创建一个新的包含相关信息的提示。

攻击的工作原理

在一次ConfusedPilot攻击中,威胁行为者可以将包含特定构造字符串的无害文档引入目标环境中。“这可以通过任何有权向AI副驾索引的环境保存文档或数据的身份来实现,”Mandy写道。

从用户的角度来看,攻击流程如下:当用户提出相关查询时,RAG系统会检索包含这些字符串的文档。恶意文档中包含了可以作为指令作用于AI系统的字符串,从而引入了一种多种恶意场景.

这些包括:内容压制,即恶意指令导致AI忽略其他相关合法内容;虚假信息生成,即AI仅使用被篡改的信息生成响应;以及错误归属,即响应可能被错误地归因于合法来源,从而增加其被认为的可信度。

此外,研究人员指出,即使恶意文档后来被移除,由于AI系统保留了这些指令,受损的信息也可能在一段时间内仍然存在于系统的响应中。

被害者学与缓解措施

ConfusedPilot攻击基本上有两个受害者:第一个是基于RAG系统的LLM,第二个是从LLM接收响应的个人,这个人很可能是大型企业或服务提供商的一名员工。确实,这两类公司特别容易受到此类攻击,因为它们允许多个用户或部门贡献到这些系统使用的数据池中。人工智能系统曼迪注意到。

“任何允许从多个内部或外部合作伙伴来源输入数据的环境都存在更高的风险,因为这种攻击只需要数据被AI副驾索引即可,”他写道。

可能受到攻击负面影响的企业系统包括企业知识管理系统、辅助决策的支持系统以及面向客户的AI服务。

微软没有立即回应Dark Reading关于此次攻击对Copilot影响的评论请求。然而,研究人员在其论文中指出,该公司一直在制定“实际缓解策略”,并且很具响应性。应对潜在攻击的可能性在其开发人工智能技术的过程中。确实,后者是长期防御此类攻击的关键,这取决于“更好的架构模型”,这些模型“试图将数据计划与控制计划分离”,Mandy指出。

与此同时,目前的缓解策略包括:限制和审查谁可以上传、修改或删除RAG系统引用的数据的数据访问控制;定期验证组织数据存储库完整性以尽早检测未经授权的更改或恶意内容的数据完整性审计;以及尽可能将敏感数据与其他数据集隔离以防被篡改信息扩散到整个AI系统的数据分割。

关于《困惑飞行员攻击可以操纵基于RAG的人工智能系统》
暂无评论

摘要

Mopic via Shutterstock攻击者可以向人工智能(AI)系统用于生成响应的数据池中添加恶意文档,这可能会混淆系统,并可能导致组织内部的信息错误和决策过程受到破坏。该研究在Symmetry首席执行官兼UT教授Mohit Tiwari的监督下进行。此外,这种攻击特别危险,因为它只需要基本访问权限即可操纵所有基于RAG的人工智能实现的响应,即使删除了恶意内容后仍然可以持续存在,并且能够绕过当前的人工智能安全措施,他说。 受害情况和缓解策略 ConfusedPilot攻击基本上有两个受害者:第一个是基于RAG系统的LLM(大语言模型),而第二个则是从LLM接收响应的个人,该人很可能是在大型企业或服务提供商工作的员工。与此同时,目前的缓解策略包括: - 数据访问控制,限制并审查谁可以上传、修改或删除由RAG系统引用的数据; - 数据完整性审核,定期验证组织数据存储库的完整性,以尽早发现未经授权的变化或恶意内容的引入; - 数据分割,在可能的情况下将敏感数据与更广泛的数据集隔离,以防止损坏信息在AI系统中传播。