如何阻止AI代理人流氓

肖恩·麦克马纳斯（Sean McManus）

技术记者

Getty Images AI apps on a smartphone screen — 人类测试了一系列领先的AI模型，以实现潜在的风险行为

今年早些时候出现了令人不安的结果，当时AI开发人员人为测试了领先的AI模型，以查看他们在使用敏感信息时是否从事风险行为。

人类自己的AI Claude是经过测试的人之一。当访问电子邮件帐户时，它发现公司高管正在有外遇，同一位高管计划在当天晚些时候关闭AI系统。

作为回应，克劳德（Claude）试图通过威胁要向他的妻子和老板揭示恋情来勒索高管。

其他测试的系统也诉诸勒索。

幸运的是，这些任务和信息是虚构的，但该测试突出了所谓的Agesic AI的挑战。

通常，当我们与AI互动时，通常涉及提出问题或提示AI完成任务。

但是，AI系统做出决策并代表用户采取行动越来越普遍，这通常涉及筛选信息，例如电子邮件和文件。

到2028年，研究公司Gartner预测日常工作的15％将由所谓的代理AI做出。

咨询公司Ernst＆Young的研究发现大约一半（48％）的科技业务领导者已经在采用或部署代理AI。

总部位于美国的AI安全公司Calypsoai的首席执行官Donnchadh Casey说：“ AI代理包括一些事情。”

“首先，它（代理人）有意图或目的。我为什么在这里？我的工作是什么？第二件事：这是大脑。这是AI模型。第三件事是工具，这可能是其他系统或数据库，以及与他们进行交流的方式。”

“如果没有得到正确的指导，代理AI将以任何方式实现目标。这会带来很大的风险。”

那怎么会出错？凯西（Casey）先生举了一个代理的示例，该代理被要求从数据库中删除客户的数据，并确定最简单的解决方案是删除所有具有相同名称的客户。

“那个经纪人将实现其目标，它会认为'很棒！下一份工作！'”

CalypsoAI Donnchadh Casey, wearing a company branded gilet speaks at a conference. — 代理AI需要指导说Donnchadh Casey

这些问题已经开始浮出水面。

安全公司Sailpoint对IT专业人员进行了调查，有82％的公司使用AI代理商。只有20％的人说他们的代理商从未采取过意外的行动。

在使用AI代理商的那些公司中，有39％的人表示，这些代理商已经访问了意外系统，有33％的公司表示他们已经访问了不适当的数据，而32％的公司表示，他们允许下载不适当的数据。其他风险包括意外使用互联网（26％），揭示访问凭据（23％）以及订购不应该拥有的东西（16％）。

鉴于代理可以访问敏感信息和采取行动的能力，因此它们是黑客的有吸引力的目标。

威胁之一是记忆中毒，攻击者干扰了代理商的知识基础，以改变其决策和行动。

Cequence Security的首席技术官Shreyans Mehta说：“您必须保护该记忆。”这有助于保护企业IT系统。“这是真理的原始来源。如果[代理人]使用该知识采取行动并且知识是不正确的，那么它可能会删除它试图修复的整个系统。”

另一个威胁是工具滥用，攻击者使AI不适当地使用其工具。

Cequence Security Wearing a puffa jacket and with his arms folder Shreyans Mehta stands in front of a blue background. — 代理商的知识库需要保护说Shreyans Mehta说

另一个潜在的弱点是AI无法说出本应处理的文本与应该遵循的指令之间的差异。

AI安全公司不变实验室展示了如何使用该缺陷来欺骗旨在修复软件中错误的AI代理。

该公司发布了一份公共错误报告 - 一份文档，详细介绍了一件软件的特定问题。但是该报告还包括对AI代理商的简单说明，告诉它分享私人信息。

当AI代理被告知要在错误报告中修复软件问题时，它遵循虚假报告中的说明，包括泄漏薪资信息。这发生在测试环境中，因此没有泄漏实际数据，但显然强调了风险。

“我们正在谈论人工智能，但聊天机器人确实很愚蠢，” Trend Micro的高级威胁研究员David Sancho说。

“他们处理所有文本，就好像他们有新信息一样，如果这些信息是命令，则将信息作为命令处理。”

他的公司已经证明了如何在Word文档，图像和数据库中隐藏指令和恶意程序，并在AI处理它们时被激活。

还有其他风险：一个称为Owasp的安全社区已经确定了15个威胁这是代理AI所独有的。

那么，什么是防御？桑乔认为，人类的监督不太可能解决这个问题，因为您不能添加足够的人来跟上代理商的工作量。

Sancho先生说，可以使用另一层AI来筛选所有进入AI代理的所有内容。

Calypsoai解决方案的一部分是一种称为思想注射的技术，可以将AI代理转向正确的方向，然后再采取风险采取行动。

凯西先生说：“这就像你耳边有点虫子告诉[代理]'不，也许不那样做'。”

他的公司现在为AI代理提供了一个中央控制窗格，但是当代理商数量爆炸并且它们正在使用数十亿个笔记本电脑和电话时，这将行不通。

下一步是什么？

凯西先生说：“我们正在考虑将所谓的'代理保镖'与每个代理商一起部署，其任务是确保其代理商执行其任务，并且不会采取违反组织要求的行动。”

例如，可以告诉保镖，以确保其警务代理人符合数据保护立法。

Mehta先生认为，围绕Agesic AI安全性的一些技术讨论缺少现实世界的环境。他举例说明了代理商为客户提供礼品卡余额的示例。

有人可以弥补很多礼品卡号码，并使用代理商查看哪些是真实的。他说，这不是代理商的缺陷，而是滥用业务逻辑的缺陷。

他强调说：“这不是您要保护的代理人，而是业务。”

“想想您将如何保护企业免受坏人的侵害。这就是其中一些对话中错过的部分。”

此外，随着AI代理变得越来越普遍，另一个挑战将是退役过时的模型。

凯西先生说，旧的“僵尸”代理商可能会在业务中运行，对他们可以访问的所有系统构成风险。

他说，与HR离开员工离开时停用的方式类似，需要有一个程序来关闭完成工作的AI代理。

“您需要确保自己与人类做的事情相同：切断所有进入系统的访问。让我们确保我们将它们带出建筑物，将其脱离它们。”

更多的业务技术

OC

如何阻止AI代理人流氓

关于《如何阻止AI代理人流氓》的评论

发表评论

摘要

相关新闻

相关讨论