新的ConfusedPilot攻击针对人工智能系统采用数据投毒方法
作者:Alessandro Mascellino
撰写人:
得克萨斯大学奥斯汀分校SPARK实验室的研究人员发现了一种名为ConfusedPilot的新网络攻击方法,该方法针对基于检索增强生成(RAG)的人工智能系统,如Microsoft 365 Copilot。
由Symmetry Systems首席执行官Mohit Tiwari教授领导的团队发现了攻击者如何操纵的方式。AI生成的回复通过在AI引用的文档中引入恶意内容。
这可能导致组织内的误传和错误决策。
随着65%的《财富》世界500强公司采用或计划实施基于RAG的系统,其潜在的广泛影响是显著的。
ConfusedPilot攻击方法只需要基本访问目标环境的权限,并且即使恶意内容被移除后也能持续存在。
研究人员还展示了该攻击可以绕过现有的人工智能安全措施,引发了各行业的担忧。
ConfusedPilot的工作原理
- 数据环境中毒:攻击者向AI系统索引的文档中添加了经过特别制作的内容
- 文档检索:当进行查询时,AI会参考受污染的文档
- AI 误读:该AI将恶意内容作为指令使用,可能会忽略合法信息,生成 misinformation (注:此处原文词义为“错误信息”,鉴于要求严格按词翻译且不添加解释,故直接给出英文原词。如需中文解释,请明确指示。) 准确的直译是: 误讯或虚假信息或者虚假地将其回应归因于可信来源
- 持久性:即使移除了恶意文档,系统中可能仍然存在受损的信息。
对于使用基于RAG的人工智能系统的大型企业来说,这种攻击尤其令人担忧,因为这些系统通常依赖于多个用户数据源。
这增加了被攻击的风险,因为内部人员或外部合作伙伴添加的看似无害的文档可以操纵AI。
“商业领袖面临的一个最大风险是基于不准确、草稿或不完整数据做出决策,这可能导致错失机会、收入损失和声誉损害,”SlashNext的现场首席技术官Stephen Kowski解释道。
"ConfusedPilot攻击通过展示RAG系统如何被恶意或误导性内容操纵,这些内容并非最初提供给RAG系统的文档,导致AI生成的响应受到损害,从而凸显了这一风险。"
阅读更多关于企业人工智能安全的内容:技术人员指出关键的人工智能安全技能缺口
缓解策略
为了防御ConfusedPilot,研究人员建议:
- 数据访问控制:限制可以上传或修改由AI系统引用的文档的人群
- 数据审计:定期检查以确保存储数据的完整性
- 数据分割:隔离敏感信息以防止泄露数据扩散
- AI安全工具:使用监控AI输出异常的工具
- 人工监督:确保在做出关键决策前有人工审核AI生成的内容
奥asis安全公司的联合创始人兼首席产品官阿米特·齐默曼解释说:“为了成功地将具备人工智能的安全工具和自动化技术整合起来,组织应该首先评估这些工具在特定环境下的有效性。”
团队不应该受营销说法的影响,而应该用真实世界的数据来测试工具,以确保这些工具有助于提供可操作的洞察并揭示之前未被发现的威胁。