作者:Matt Burgess
研究人员表示,如果在现实世界中实施此类攻击,人们可能会被社会工程学手段误导,认为这些无意义的提示实际上是有用的,例如可以改进他们的简历。研究人员指出众多网站这些攻击提供人们可以使用的提示。他们通过将简历上传到与聊天机器人的对话中来测试该攻击,能够返回文件中的个人信息。
埃伦斯·费尔南德斯加州大学圣地亚哥分校参与这项工作的助理教授说,这种攻击方法相当复杂,因为模糊处理的提示需要识别个人信息、形成有效URL、应用Markdown语法,并且不能让用户察觉到它的恶意行为。Fernandes将这种攻击比作恶意软件,因为它能够以用户可能未预期的方式执行功能和行为。
“通常你可以编写大量的计算机代码来完成传统恶意软件中的任务,”费尔南德斯说。“但在这里我觉得酷的地方是所有这些都可以用这个相对简短的乱码提示来实现。”
Mistral AI 的一位发言人表示,该公司欢迎安全研究人员帮助其产品更安全地服务于用户。“在收到这一反馈后,Mistral AI 迅速采取了适当的补救措施来解决问题,”发言人说。公司将该问题视为“中等严重性”,并修复了防止 Markdown 渲染器操作和通过此过程调用外部 URL 的漏洞,这意味着无法加载外部图片。
费尔南德斯认为,Mistral AI的更新可能是首次有敌对提示示例导致大型语言模型产品被修复,而不是通过过滤掉该提示来阻止攻击。然而他表示,从长远来看,限制LLM代理的能力可能会“适得其反”。
与此同时,ChatGLM的创作者发布了一份声明称该公司已经采取了安全措施来帮助保护用户隐私。“我们的模型是安全的,并且我们一直高度重视模型的安全性和隐私保护,”声明中说道。“通过开源我们的模型,我们旨在利用开源社区的力量更好地审查和评估这些模型的所有方面的能力,包括它们的安全性。”
丹·麦金纳尼保护AI安全公司的首席威胁研究员表示,关于Imprompter的论文“发布了一种用于自动创建提示的算法,这些提示可以在提示注入中使用,以进行各种攻击行为,如个人身份信息泄露、图像误分类或恶意利用LLM代理可以访问的工具。”虽然研究中的许多攻击类型可能与以前的方法类似,但麦金内尼说,该算法将它们联系在了一起。“这更像是改进自动化的LLM攻击,而不是发现其中未被察觉的安全威胁面。”
然而,他补充说,随着LLM代理被更广泛地使用,并且人们赋予它们更多的权限来代表自己采取行动,针对它们的攻击范围也在增加。“发布一个接受任意用户输入的LLM代理应被视为高风险活动,在部署之前需要进行重要且具有创造性的安全测试,”麦金内尼说。
对于公司来说,这意味着理解AI代理与数据交互的方式以及它们可能被滥用的方法。但对于个人而言,类似于常见的安全建议,你应该考虑你提供给任何AI应用程序或公司的信息量有多大,并且如果使用来自互联网的任何提示,请谨慎对待这些提示的来源。