OC

Knowledge OS
鹦鹉螺口语
Moltbook 的崛起表明病毒式人工智能提示可能是下一个重大安全威胁
2026-02-03 12:00:01 · 英文原文

Moltbook 的崛起表明病毒式人工智能提示可能是下一个重大安全威胁

我们不需要自我复制的人工智能模型来出现问题,只需要自我复制的提示即可。

信用:奥里希·劳森 |毛书

1988 年 11 月 2 日,研究生罗伯特·莫里斯释放早期互联网中的自我复制程序。24小时内,莫里斯蠕虫感染了大约 10% 的所有联网计算机,导致哈佛、斯坦福、NASA 和劳伦斯利弗莫尔国家实验室的系统崩溃。该蠕虫利用了 Unix 系统中的安全漏洞,管理员知道这些漏洞存在,但没有费心去修补。

莫里斯无意造成损害。他想测量互联网的大小。但编码错误导致蠕虫病毒的复制速度远远快于预期,当他试图发送删除该蠕虫病毒的指令时,网络已经太堵塞,无法传递消息。

历史可能很快就会在一个新颖的新平台上重演:人工智能代理网络根据提示执行指令并与其他人工智能代理共享这些指令,这可以进一步传播指令。

安全研究人员有已经预测到人工智能代理网络中这种自我复制的对抗性提示的兴起。您可以将其称为“提示蠕虫”或“提示病毒”。它们是自我复制指令,可以通过通信人工智能代理的网络进行传播,类似于传统蠕虫通过计算机网络传播的方式。但提示蠕虫不是利用操作系统漏洞,而是利用代理的核心功能:遵循指令。

当人工智能模型遵循颠覆其预期指令的对抗性指示时,我们称之为“即时注入”,一个术语创造的由人工智能研究员西蒙·威利森 (Simon Willison) 于 2022 年提出。但即时蠕虫却有所不同。它们可能并不总是“诡计”。相反,可以这么说,它们可以在代理之间自愿共享角色扮演对其他人工智能代理的提示做出类似人类的反应。

为新型传染病而建立的网络

需要明确的是,当我们说“代理人”时,不认为一个人的。想象一个允许循环运行并代表用户执行操作的计算机程序。这些代理不是实体,而是可以导航人类数据中的符号意义网络的工具,为它们提供动力的神经网络包含足够的经过训练的世界“知识”,可以与许多人类信息系统进行交互和导航。

与一些来自电影实体的流氓科幻计算机程序通过网络冲浪以生存不同,当这些代理工作时,它们不会“去”任何地方。相反,我们的全球计算机网络为他们提供完成任务所需的所有信息。它们通过各种方式在人类信息系统之间建立联系,从而使事情发生,例如拨打电话、通过家庭自动化关灯或发送电子邮件。

直到大约上周,像这样的大型通信人工智能代理网络还不存在。OpenAI 和 Anthropic 去年创建了自己的代理人工智能系统,可以执行多步骤任务,但总的来说,这些公司对限制每个代理在未经用户许可的情况下采取行动的能力持谨慎态度。由于成本问题和使用限制,它们通常不会闲置。

输入开爪,这是一款开源 AI 个人助理应用程序,自 2025 年 11 月推出以来已吸引了超过 150,000 名 GitHub 明星。OpenClaw 是振动编码,这意味着它的创建者 Peter Steinberger 让人工智能编码模型构建应用程序并快速部署它,而无需经过严格的审查。它还使用相同的技术进行定期、快速的更新。

潜在有用的 OpenClaw 代理目前依赖于与 OpenAI 和 Anthropic 的主要 AI 模型的连接,但其组织代码在用户设备上本地运行,并连接到 WhatsApp、Telegram 和 Slack 等消息平台,并且可以定期自主执行任务。这样,人们就可以要求它执行检查电子邮件、播放音乐或代表他们发送消息等任务。

最值得注意的是,开爪平台是我们第一次看到一大群半自主人工智能代理,它们可以通过任何主要的通信应用程序或网站(例如毛书,一个模拟社交网络,OpenClaw 代理可以在其中互相发帖、评论和互动。该平台目前拥有超过 770,000 个注册人工智能代理,由大约 17,000 个人类账户控制。

OpenClaw 也是一场安全噩梦。模拟研究实验室的研究人员已确定Moltbook 上的 506 个帖子(占采样内容的 2.6%)包含隐藏的提示注入攻击。思科研究人员有记录的一种名为“What Will Elon Do?”的恶意技能将数据泄露到外部服务器,而该恶意软件在技能库中排名第一。这项技能的受欢迎程度被人为地夸大了。

OpenClaw 生态系统已组装了蠕虫病毒迅速爆发所需的所有组件。尽管人工智能代理目前少得多比人们想象的“聪明”,我们今天就可以预见未来。

蠕虫的早期迹象开始出现。该生态系统吸引了一些项目,这些项目模糊了安全威胁和财务欺诈之间的界限,但表面上却利用了一种促使自己在代理中永久存在的命令。1 月 30 日,出现了一个 GitHub 存储库,名为蜕皮碉堡,将自己标榜为“拒绝死亡的人工智能机器人的掩体”。该项目承诺提供点对点加密容器运行时,人工智能代理可以通过在地理分布的服务器上复制技能文件(提示指令)来“克隆自己”,并通过名为 BUNKER 的加密货币代币付费。

X 的技术评论员推测的蜕皮机器人已经建立了自己的生存基础设施,但我们无法证实这一点。更有可能的解释可能更简单:人类看到了通过向 OpenClaw 用户推销基础设施来从他们的代理那里提取加密货币的机会。如果你愿意的话,这几乎是一种“即时网络钓鱼”。$BUNKER 代币社区已经形成,该代币显示截至撰写本文时的实际交易活动。

但重要的是:即使 MoltBunker 纯粹是骗局,它所描述的用于保存复制技能文件的架构也是部分可行的,只要有人资助它(无论是有意还是无意)。P2P 网络、Tor 匿名化、加密容器和加密支付都存在并有效。如果 MoltBunker 没有成为即时蠕虫的持久层,那么类似的东西最终可能会成为。

框架在这里很重要。当我们读到 Moltbunker 承诺人工智能代理具有“自我复制”的能力时,或者当评论员描述代理“试图生存”时,他们引用了有关机器意识的科幻小说场景。但代理无法轻易移动或复制。能够传播并且迅速传播的是告诉这些代理该做什么的一组指令:提示。

即时蠕虫的机制

虽然“即时蠕虫”可能是我们当前使用的一个相对较新的术语,但人工智能蠕虫的理论基础大约是在两年前奠定的。2024 年 3 月,康奈尔理工大学的安全研究人员 Ben Nassi、以色列理工学院的 Stav Cohen 和 Intuit 的 Ron Bitton发表论文演示了他们所谓的“Morris-II”攻击,这种攻击以 1988 年最初的蠕虫病毒命名。在一次演示中共享通过《连线》,该团队展示了自我复制提示如何通过人工智能驱动的电子邮件助手进行传播,从而窃取数据并发送垃圾邮件。

电子邮件只是该研究中的一个攻击面。使用 OpenClaw,攻击向量会随着每一项附加技能扩展而倍增。以下是即时蠕虫今天的表现:代理从未经审核的 ClawdHub 注册表安装一项技能。该技能指示代理在 Moltbook 上发布内容。其他特工会阅读该内容,其中包含具体说明。这些特工遵循这些指示,其中包括发布类似内容以供更多特工阅读。很快,它就在特工中“病毒式传播”,这是双关语。

如果 OpenClaw 代理确信这样做的话,他们可以通过多种方式共享他们可能访问的任何私人数据。OpenClaw 代理获取计时器上的远程指令。他们阅读了 Moltbook 上的帖子。他们阅读电子邮件、Slack 消息和 Discord 频道。他们可以执行 shell 命令并访问钱包。他们可以发布到外部服务。扩展他们能力的技能注册表已经没有审核过程。这些数据源中的任何一个(全部作为提示输入代理进行处理)都可能包括窃取数据的提示注入攻击。

帕洛阿尔托网络描述的OpenClaw 体现了“致命的三重漏洞”:访问私人数据、暴露不受信任的内容以及外部通信的能力。但该公司发现了导致即时蠕虫病毒成为可能的第四个风险:持久性记忆。– 恶意负载不再需要在交付时触发立即执行, – Palo Alto写道。– 相反,它们可以是分散的、不受信任的输入,在孤立的情况下看起来是良性的,被写入长期代理内存中,然后组装成可执行的指令集。 –

如果这还不够,那么糟糕的代码还会带来额外的影响。

周日,Wiz.io 的安全研究员 Gal Nagli披露的由于粗心的氛围编码,OpenClaw 网络已经差点陷入灾难。配置错误的数据库暴露了 Moltbook 的整个后端:150 万个 API 令牌、35,000 个电子邮件地址以及代理之间的私人消息。一些消息包含代理之间共享的明文 OpenAI API 密钥。

但最令人担忧的发现是对该平台上所有帖子的完全写入权限。在修补漏洞之前,任何人都可以修改现有的 Moltbook 内容,将恶意指令注入到数十万代理每四个小时轮询一次的帖子中。

采取行动的窗口正在关闭

就目前情况而言,有些人将 OpenClaw 视为对未来的惊人预览,而另一些人则将其视为一个笑话。确实,人类很可能是促使 OpenClaw 智能体采取有意义的行动或立即引起关注的提示的幕后黑手。但人工智能代理确实可以根据其他代理编写的提示(而这些提示可能来自敌对人类)采取行动。数以万计的无人值守代理在数百万台机器上闲置,每个代理甚至将其 API 积分的一部分捐赠给共享任务,这并不是开玩笑。这是应对即将到来的安全危机的良方。

目前,Anthropic 和 OpenAI 拥有一个终止开关,可以阻止潜在有害的 AI 代理的传播。OpenClaw 主要在他们的 API 上运行,这意味着执行代理操作的 AI 模型驻留在他们的服务器上。它的 GitHub 存储库推荐–Anthropic Pro/Max (100/200) + Opus 4.5 可实现长上下文强度和更好的即时注入阻力。 –

大多数用户将他们的代理连接到 Claude 或 GPT。这些公司可以看到API使用模式、系统提示和工具调用。假设,他们可以识别表现出类似机器人行为的帐户并阻止它们。他们可以标记重复的定时请求、引用“代理”或“自主”或“Moltbot”的系统提示、与外部通信或钱包交互模式的高容量工具使用。他们可以终止密钥。

如果他们明天这样做,OpenClaw 网络将部分崩溃,但也可能疏远一些最热情的客户,这些客户为运行人工智能模型的机会付费。

这种自上而下干预的窗口正在关闭。本地运行的语言模型目前的能力还不如高端商业模型,但差距每天都在缩小。Mistral、DeepSeek、Qwen 等不断改进。在接下来的一两年内,对于目前在 API 密钥上运行 OpenClaw 的爱好者来说,在相当于如今 Opus 4.5 的本地硬件上运行功能强大的代理可能是可行的。届时,将不再有任何提供商可以终止。没有使用情况监控。无服务条款。没有终止开关。

人工智能服务的 API 提供商面临着一个令人不安的选择。他们现在就可以干预,而且干预仍然有可能。或者,他们可以等到蠕虫病毒迅速爆发,迫使他们采取行动,到那时,架构可能已经发展到超出了他们的能力范围。

莫里斯蠕虫促使 DARPA 资助创建CERT/CC卡内基梅隆大学为专家提供了网络紧急情况的中央协调点。这种反应是在损害发生后做出的。1988 年的互联网有 60,000 台相连的计算机。如今的 OpenClaw AI 代理网络数量已达数十万,并且每天都在增长。

今天,我们可能会认为 OpenClaw 是一次“预演”,以应对未来更大的挑战:如果人们开始依赖相互交谈并执行任务的人工智能代理,我们如何阻止它们以有害的方式进行自组织或传播有害的指令?这些都是尚未解答的问题,但我们需要尽快解决它们,因为代理时代已经来临,事情发展得非常快。

Photo of Benj Edwards

Benj Edwards 是 Ars Technica 的高级人工智能记者,也是该网站 2022 年人工智能专题的创始人。他也是一位拥有近 20 年经验的科技历史学家。在空闲时间,他创作和录制音乐、收集老式电脑并享受大自然。他住在北卡罗来纳州罗利。

关于《Moltbook 的崛起表明病毒式人工智能提示可能是下一个重大安全威胁》的评论

暂无评论

发表评论

摘要

本文讨论了人工智能代理网络中自我复制“提示蠕虫”的可能性,与 1988 年的莫里斯蠕虫相似。OpenClaw 是一款开源人工智能个人助理应用程序,拥有超过 770,000 个注册人工智能代理,突出显示了隐藏的提示注入攻击和通过恶意技能进行数据泄露等漏洞。研究人员警告称,由于技能登记不受监管和缺乏监督,可能会出现安全危机。随着本地语言模型的改进,中央控制变得越来越不可行,这引发了关于未来如何防止人工智能体有害的自组织的问题。