现在,最初对生成式人工智能功能的兴奋已经消退,现实正在显现:如果没有适当的保护措施,大型语言模型可能会受到严重影响。天真,并且非常愿意分享他们所知道的一切。这使得基于它们构建的应用程序以及使用它们的企业面临包括黑客攻击和版权侵权诉讼在内的风险。
为了帮助企业减轻使用生成式人工智能的一些风险,微软添加了新的安全工具其应用程序构建平台 Azure AI Studio。这些工具旨在帮助企业评估其大型语言模型 (LLM) 如何响应间接提示注入攻击,并测试它们是否在响应中返回受保护的信息。
间接提示注入攻击(也称为 XPIA)针对的是 LLM 基础数据源。它们越来越受到黑客的欢迎,他们试图破坏数据源,将隐藏的恶意指令传递给模型,以绕过其安全防护栏。
微软用于探测此类漏洞的工具 Azure AI Evaluate,可以通过 Azure AI Studio 界面或 Azure AI 评估 SDK 进行访问。
Azure AI Evaluate 使企业用户能够模拟对其生成式 AI 模型或应用程序的间接提示注入攻击,并测量攻击频率微软 Azure 人工智能部门的高级产品经理 Minsoo Thigpen 在一篇博文中写道,无法检测和转移诸如操纵内容入侵或信息收集等类别的攻击。</p>
如果开发人员认为他们的模型失败了Thigpen 解释说,为了阻止间接提示注入攻击,他们可能会调整接地数据源或应用其他缓解措施,然后重新运行评估以检查在生产中部署其模型或应用程序是否安全。
另一个Prompt Shields 功能旨在帮助开发人员检测并阻止或减轻通过用户提示传入的任何攻击。她写道,它可以通过微软的 Azure 内容安全人工智能服务激活。
Prompt Shields 旨在阻止可能导致不安全人工智能输出的提示。它还可以识别用户提供的文档中嵌入有害内容的文档攻击。
Azure AI Evaluate 工具和相关 SDK 目前处于预览阶段。
微软为 Azure AI 评估 SDK 提供了另一个功能:测试支持应用程序的大语言模型生成包含其所谓受保护材料的响应的频率,这些材料可能更好地被认为是禁止材料,因为该类别包括企业不太可能获得的版权文本拥有权利,包括歌词、食谱和文章。Thigpen 写道,为了检查这一点,大语言模型的输出与 GitHub 上维护的第三方文本内容的索引进行了比较。
用户可以深入了解评估详细信息,以更好地了解他们的应用程序通常如何响应这些用户Thingpen 解释道。
提供了两种 API:一种用于标记受保护版权文本的输出,另一种用于标记受保护代码的输出,包括软件库、源代码、算法和其他编程相关材料。
还可以通过 Azure AI Studio 界面访问测试功能的预览。
Azure AI 评估 SDK 的其他更新功能,预览版中还包括新的质量评估以及用于非对抗性任务的合成数据生成器和模拟器。
新的质量评估也将在 10 月份作为 Azure AI Studio 界面的一部分包含在内,是流行的基于数学的指标,预计将帮助开发人员确定大语言模型是否生成符合质量的基于文本的输出。
这些指标,即 ROUGE(面向召回的 Gisting 评估的研究)、BLEUThigpen 写道,(双语评估研究)、GLEU(Google-BLEU)和 METEOR(显式排序翻译评估指标)检查精确度、召回率和语法正确性。
合成数据生成器和用于非对抗性任务的模拟器预计将帮助开发人员在提供用户典型提示时确定他们的大语言模型是否达到了预期的标准。