API 会毁掉人工智能吗?- 帮助网络安全

2024-09-30 05:00:14 英文原文

API 会毁掉 AI 吗?

应用程序编程接口 (API) 对于生成式 AI (GenAI) 如何与代理一起运行(例如,调用代理获取数据)至关重要。但是,API 和 LLM 问题加上快速推出,可能会导致许多组织不得不应对安全问题。

虽然 GenAI 很容易受到与 API 相关的常见安全问题(例如身份验证、授权和数据)的影响。暴露的情况下,还存在特定于 AI 的问题,OWASP 项目在其 LLM 应用程序和生成 AI 的十大威胁中详细记录了这些问题。

AI 和 API 攻击如何协调

OWASP列表的顶部是提示注入(LLM01),它会以恶意代码的形式将命令植入LLM中,以操纵输出以达到数据泄露等目的。这种攻击可以直接通过系统执行提示或间接通过 LLM 咨询的外部来源(例如网站)。

提示注入可用于欺骗 LLM 删除其他用户帐户或通过用户进行枚举,因为它在调用时将用户指令视为可信在后端 API 上获取所请求的信息。因此,它可能会导致不安全输出处理 (LLM02) 列表中的第二个问题,即由 LLM 生成的输出然后传递到下游。由于这些原因,需要采取控制措施,例如输入验证器、输出防护和内容过滤。

与 API 相关的另一个关键问题是模型拒绝服务 (LLM04)。与 OWASP Top 10 API 安全风险中提出的问题类似,即不受限制的资源消耗 (API4) 和不受限制地访问敏感业务流 (API6),LLM 会收到大量请求。这种攻击有效地迫使企业投入资源来响应请求,从而导致其他用户的服务质量下降。这些攻击还可以利用 API 的限制,例如通过更改速率限制,然后可以看到 API 在流量攻击中被请求淹没。有多种方法可以应对这种威胁,从对多个组件的请求完成速度进行上限或施加限制,到实施 API 速率限制,再到监控网络上的资源利用率。

当然,其中之一GenAI 的主要担忧是其可能泄露敏感信息,这就是为什么我们看到许多专有提供商强调在商业环境中部署该技术之前需要锁定访问权限。敏感信息披露(LLM06)是指需要限制大语言模型有权访问的数据。这是因为即使限制系统提示也不能保证大语言模型不会因提示注入而被欺骗而泄露敏感数据。因此,最简单的解决方案是阻止数据进入训练模型。

我们还不知道的是,如果提供数据来回答该提示的 API 受到损害,会发生什么?损坏的对象属性级别授权 (API3) 可以看到 API 在未经授权的请求后返回敏感信息。

前十名中的最后一个但绝不是最不重要的问题是模型盗窃 (LLM10),它指的是妥协整个专有模型及其所拥有的敏感知识产权。这种情况可以通过多种方式发生,从利用网络或系统设置中的错误配置到旁道攻击或通过恶意内部人员进行攻击。但给出的示例之一也是通过 API:OWASP 项目建议,攻击者可以使用精心设计的输入和提示注入查询模型 API,并使用输出创建影子模型。为了防止这种情况发生,有必要实施强有力的访问控制,限制LLM对网络资源和API的访问,并对API进行速率限制并添加过滤器以降低渗透风险。

CVE和PoC

此类攻击不再纯粹是理论上的;而是存在的。许多问题已经记录在案,特别是与 LLM06(敏感信息泄露)相关的问题。

早在 3 月份,就有消息称 Ray AI 框架可以通过作业提交 API 被利用,因为以下事实AI 不强制执行身份验证或支持授权模型。这是由于 Ray 的设计方式是让用户负责其所访问的系统和服务的安全性,尽管其目的是稍后添加身份验证。但与此同时,CVE 启用了对 API 的调用,以检索集群中保存的所有笔记以及凭据。

在同一个月,我们还了解到 Google 的 Gemini LLM(以前称为 Bard),它有三种尺寸(Nano、Pro 和 Ultra)也可能受到影响。一名研究人员披露了多个漏洞,并警告使用 Gemini Pro API 的开发人员,系统提示可能会泄露,从而暴露了使用 LLM 的程序的内部工作原理,可能会引发更有针对性的攻击。研究结果意味着希望使用 Gemini Pro 的企业面临 LLM 泄漏系统提示的风险。

上个月研究人员还强调了数据泄漏是 Flowise 低代码 LLM 构建器的一个问题。他们发现该平台的早期版本很容易通过服务器上的 REST-API 端点进行身份验证绕过。API 返回的错误消息有效地使研究人员无需身份验证即可访问 API,然后他们能够查看 959 个 Flowise 服务器,其中 438 个服务器存在漏洞。

然后他们能够进行交互与 API 端点一起识别无需任何访问权限即可检索的数据。这包括 API 密钥、GitHub 访问令牌和带有数据库密码的 URL,以及与应用程序关联的所有配置和 LLM 提示。

防御攻击

帮助解决这些问题,LLM 提供商正在红队测试他们的系统,以检测和培训 LLM 如何防御 OWASP Top 10 中确定的攻击类型。

但是,在测试 LLM 时,了解是否可以利用漏洞至关重要和/或数据被泄露,但这还不够。为了完成生命周期,人们应该监控为 LLM 提供服务的 API 的所有活动,以确保敏感数据的暴露仅限于经过身份验证和授权的查看者。运行时监控应扩展到漏洞利用以及更危险的业务逻辑滥用威胁,攻击者希望通过探索业务逻辑和其中的缺陷来窃取数据,大语言模型将暴露新的缺陷。考虑到可以在此类场景中使用的数据,快速内联本机响应对于任何安全平台都至关重要。

但这不仅仅是寻求访问他们需要担心的数据的攻击;还包括攻击。正如 LLM10(模型盗窃)所述,基础设施本身也是主要目标。

NCSC 最近警告说,阻碍有组织犯罪团伙利用人工智能的唯一因素是获得训练模型,安全研究人员最近发现他们通过诉诸 LLMjacking 来解决这个问题。他们发现,许多云托管的大语言模型(允许开发人员快速启动大语言模型)成为了攻击者的目标,这些攻击者试图确定访问凭据和配额,大概是为了以一定的价格提供访问权限。然后,LLM 的使用费用由客户承担,研究人员声称,这可能每天花费高达 46,000 美元。攻击者如何能够访问 LLM?通过使用合法的 API 请求并测试可以容忍而不被检测到的限制或参数。

LLM 显然是一个有吸引力的目标,因为它们能够访问敏感数据及其处理能力,这使得访问模型本身就利润丰厚。依靠指示第三方工具进行响应为时已晚,恶意行为者可能已经采取行动,可能会使用大语言模型本身。虽然大语言模型允许企业增强功能和客户体验,但它们也为攻击者提供了新的利用机会。这里没有捷径,那些使用大语言模型的人不应假设一切都是安全的。

关于《API 会毁掉人工智能吗?- 帮助网络安全》
暂无评论

摘要

API 会毁掉 AI 吗?应用程序编程接口 (API) 对于生成式 AI (GenAI) 如何与代理一起运行(例如,调用代理获取数据)至关重要。虽然 GenAI 容易受到与 API 相关的常见安全问题(例如身份验证、授权和数据暴露)的影响,但也存在特定于 AI 的问题,OWASP 项目已在其 LLM 应用程序和生成 AI 的十大威胁中详细记录了这些问题。AI 和 API 攻击如何结合 OWASP 列表的顶部是提示注入 (LLM01),它将恶意代码形式的命令植入到 LLM 中,以操纵输出以达到数据泄露等目的。当然,其中之一GenAI 的主要担忧是其可能泄露敏感信息,这就是为什么我们看到许多专有提供商强调在商业环境中部署该技术之前需要锁定访问权限。研究结果意味着希望使用 Gemini Pro 的企业面临 LLM 泄露系统提示的风险。然后,他们能够与 API 端点进行交互,并识别无需任何访问权限即可检索的数据。