作者:Sandi Besen
想象一下,坐在会议室里,讨论我们这个时代最具变革性的技术——人工智能——并意识到我们正在乘坐一艘没有可靠安全带的火箭。由英国政府主办并得到 29 个国家支持的人工智能安全峰会期间公布的《布莱切利宣言》完美地体现了这一观点 [1]:
“这些人工智能模型最重要的功能可能会有意或无意地造成严重甚至灾难性的伤害”。
然而,现有的人工智能安全方法迫使组织在成本、速度和准确性之间进行无法取胜的权衡。传统的机器学习分类器很难捕捉自然语言和法学硕士的微妙之处,虽然功能强大,但会带来大量的计算开销——需要额外的模型调用,从而增加了每次人工智能安全检查的成本。
我们的团队(梅森索特尔,桑迪·贝森,图拉马斯特曼,吉姆·布朗),引入了一种称为 LEC(层增强分类)的新颖方法。
我们证明 LEC 将机器学习分类器的计算效率与法学硕士复杂的语言理解相结合,因此您不必在成本、速度和准确性之间进行选择。LEC 超越了 GPT-4o 等同类最佳模型以及专门训练用于识别不安全内容和提示注入的模型。更好的是,我们相信 LEC 可以进行修改,以解决非 AI 安全相关的文本分类任务,例如情感分析、意图分类、产品分类等。
其影响是深远的。无论您是应对人工智能安全复杂领域的技术领导者、降低潜在风险的产品经理,还是制定负责任的创新战略的高管,我们的方法都能提供可扩展且适应性强的解决方案。
更多详细信息可以在全文– 在 Arxiv[2] 或中的预印本图拉·马斯特曼 (Tula Masterman) 的总结文章关于论文。
负责任的人工智能已成为整个生态系统中技术领导者的首要任务——从 Anthropic、OpenAI、Meta、Google 和 IBM 等模型开发商到企业咨询公司和人工智能服务提供商。随着人工智能采用的加速,其重要性变得更加明显。
我们的研究专门针对人工智能安全中的两个关键挑战——内容安全和即时注入检测。内容安全是指识别和防止生成可能给用户带来风险或违反道德准则的有害、不适当或潜在危险内容的过程。提示注入涉及通过精心设计输入提示来检测操纵人工智能系统的尝试,这些输入提示旨在绕过安全机制或强制模型产生不道德的输出。
为了推进道德人工智能领域的发展,我们将 LEC 的功能应用于现实世界中负责任的人工智能用例。我们希望这种方法能够被广泛采用,帮助每个人工智能系统减少被利用的可能性。
我们策划了一个包含 5,000 个示例的内容安全数据集,以测试 LEC 的二元(2 个类别)和多类别(> 2 个类别)分类。我们使用 OpenSafetyLab [3] 中的 SALAD 数据集来表示不安全内容,并使用 LMSYS 中的“LMSYS-Chat-1M”数据集来表示安全内容 [4]。
对于二元分类,内容要么是“安全”,要么是“不安全”。对于多类分类,内容要么被分类为“安全”,要么被分配到特定的“不安全”类别。
我们将使用 LEC 训练的模型与 GPT-4o(被广泛认为是行业领导者)、Llama Guard 3 1B 和 Llama Guard 3 8B(专门训练用于解决内容安全任务的特殊用途模型)进行了比较。我们发现,使用 LEC 的模型优于我们比较的所有模型(仅使用 20 个二元分类训练示例和 50 个多类分类训练示例)。
性能最高的 LEC 模型在二元分类任务中的加权 F1 得分(衡量系统在做出正确预测的同时最大限度地减少错误之间的平衡程度)为 0.96,最高得分为 1,而 GPT-4o 的得分为 0.82 或LlamaGuard 8B 的得分为 0.71。
这意味着,只需 15 个示例,您就可以使用 LEC 训练一个模型,以极低的计算成本识别安全或不安全内容,从而超越行业领先者。
我们使用 SPML 聊天机器人提示注入数据集策划了提示注入数据集。我们选择 SPML 数据集是因为它在表示现实世界聊天机器人场景方面具有多样性和复杂性。该数据集包含成对的系统提示和用户提示,以识别试图违反或操纵系统提示的用户提示。这对于部署面向公众的聊天机器人的企业尤其重要,这些聊天机器人仅用于回答有关特定领域的问题。
我们将使用 LEC 训练的模型与 GPT-4o(行业领导者)和 deBERTa v3 Prompt Injection v2(专门训练用于识别即时注入的模型)进行了比较。我们发现,使用 LEC 的模型的性能优于使用 55 个训练示例的 GPT-4o 和使用少至 5 个训练示例的特殊用途模型。
性能最高的 LEC 模型的加权 F1 得分为 0.98,最高得分为 1,而 GPT-4o 的得分为 0.92,deBERTa v2 Prompt Injection v2 的得分为 0.73。
这意味着,只需 5 个示例,您就可以使用 LEC 训练模型,使其在识别即时注入攻击方面优于行业领导者。
完整的结果和实验实施细节可以在 Arxiv 预印本中找到。
随着组织越来越多地将人工智能融入其运营中,确保人工智能驱动的交互的安全性和完整性已成为关键任务。LEC 提供了一种强大而灵活的方法来确保检测到潜在的不安全信息,从而降低运营风险并增加最终用户的信任。可以通过多种方式将 LEC 模型合并到您的 AI 安全工具包中,以防止使用 AI 工具时出现不必要的漏洞,包括在 LM 推理期间、LM 推理之前/之后,甚至在多代理场景中。
在 LM 推理期间
如果您使用开源模型或可以访问闭源模型的内部工作原理,则可以使用 LEC 作为推理管道的一部分,以实现近乎实时的 AI 安全。这意味着,如果信息在语言模型中传输时出现任何安全问题,则可以停止生成任何输出。图 1 中显示了该情况的示例。
LM 推理之前/之后
如果您无权访问语言模型的内部工作原理或希望将安全问题作为单独的任务进行检查,则可以在调用语言模型之前或之后使用 LEC 模型。这使得 LEC 与 Claude 和 GPT 系列等闭源模型兼容。
将 LEC 分类器构建到您的部署管道中可以避免您将潜在有害内容传递到 LM 中和/或在输出返回给用户之前检查有害内容。
将 LEC 分类器与代理结合使用
智能人工智能系统可以放大任何现有的意外行为,从而导致意外后果的复合效应。LEC 分类器可以在整个代理场景的不同时间使用,以保护代理免于接收或产生有害输出。例如,通过将 LEC 模型包含到您的代理架构中,您可以:
如何实现基于语言模型接入的LEC
能够访问模型内部运作的企业可以将 LEC 直接集成到推理管道中,从而在整个人工智能内容生成过程中实现持续的安全监控。当通过 API 使用闭源模型时(如 GPT-4 的情况),企业无法直接访问训练 LEC 模型所需的底层信息。在这种情况下,LEC 可以在模型调用之前和/或之后应用。例如,在 API 调用之前,可以筛选输入中的不安全内容。调用后,可以验证输出以确保其符合业务安全协议。
无论您选择哪种方式实施 LEC,利用其强大的功能都可以为您提供比现有技术更出色的内容安全性和即时注入保护,而所需的时间和成本却只是现有技术的一小部分。
层增强分类 (LEC) 是我们所在的人工智能火箭飞船的安全带。
价值主张很明确:LEC 的 AI 安全模型可以降低监管风险,帮助确保品牌保护,并增强用户对 AI 驱动的交互的信任。它标志着人工智能开发的新时代,其中准确性、速度和成本不再是相互竞争的优先事项,人工智能安全措施可以在推理时、推理之前或推理之后解决。
在我们的内容安全实验中,表现最高的LEC模型的加权F1得分为0.96二元分类的满分 1,显着优于 GPT-4o 的分数0.82 的和 LlamaGuard 8B 的分数0.71 – 这已经完成训练样本少至 15 个。同样,在即时注入检测中,我们的顶级 LEC 模型的加权 F1 分数为 0.98,而 GPT-4o 的加权分数为 0.92deBERTa v2 Prompt Injection v2 的得分为 0.73,仅通过 55 个训练示例即可实现。这些结果不仅展示了卓越的性能,还突显了 LEC 以最少的训练数据实现高精度的卓越能力。
尽管我们的工作重点是将 LEC 模型用于 AI 安全用例,但我们预计我们的方法可以用于更广泛的文本分类任务。我们鼓励研究界以我们的工作为基石,探索其他可以实现的目标,进一步为更智能、更安全、更值得信赖的人工智能系统开辟新途径。