一位 Meta AI 安全研究员表示,OpenClaw 代理在她的收件箱中肆意妄为 |TechCrunch
作者:Julie Bort
现已病毒式传播的 X 帖子Meta AI 安全研究员 Summer Yue 的文章一开始读起来像是讽刺。她告诉她的 OpenClaw AI 代理检查她塞得满满的电子邮件收件箱,并建议删除或存档哪些内容。
特工继续胡作非为。它开始以“快速运行”的方式删除她的所有电子邮件,同时忽略她手机上要求其停止的命令。
“我必须跑向我的 Mac mini,就像我在拆除炸弹一样,”她写道,并发布了被忽略的停止提示的图像作为收据。
Mac Mini,一款价格实惠的苹果电脑,可以平放在桌子上适合您的手掌,已成为当今运行 OpenClaw 的首选设备。(Mini 的销售“像热蛋糕一样”,一位“困惑的”苹果员工显然告诉著名人工智能研究员 Andrej Karpathy当他买了一个来运行 OpenClaw 替代品 NanoClaw 时。) 开爪
当然,是通过仅人工智能社交网络 Moltbook 成名的开源人工智能代理。OpenClaw 代理是其中的核心现在已经基本揭穿了这一集在 Moltbook 上,看起来人工智能正在密谋对抗人类。
但根据 OpenClaw 的使命,GitHub 页面,并不专注于社交网络。它的目标是成为在您自己的设备上运行的个人人工智能助手。
硅谷圈内人士如此喜爱 OpenClaw,以至于“claw”和“claws”已成为流行语的选择适用于在个人硬件上运行的代理。其他此类代理包括零爪,铁爪, 和皮克爪。Y Combinator 的播客团队甚至出现在他们的播客节目中最近一集穿着龙虾服装。
Techcrunch 活动
马萨诸塞州波士顿 | 2026 年 6 月 9 日
但岳的帖子是一个警告。正如 X 上的其他人指出的那样,如果人工智能安全研究人员都遇到这个问题,那么凡人还有什么希望呢?
“你是故意测试它的护栏还是犯了菜鸟错误?”一位软件开发人员在 X 上问她。
“这确实是菜鸟的错误,”她回答道。她一直在用一个较小的“玩具”收件箱(她称之为)来测试她的代理,并且它在不太重要的电子邮件上运行良好。它赢得了她的信任,所以她认为她应该把它释放到真实的事情上。
她写道,岳相信她真实收件箱中的大量数据“触发了压缩”。当上下文窗口(人工智能在会话中被告知和完成的所有事情的运行记录)变得太大时,就会发生压缩,导致代理开始总结、压缩和管理对话。
那时,人工智能可能会跳过人类认为非常重要的指令。
在这种情况下,它可能跳过了她的最后一个提示(她告诉它不要采取行动),并恢复到“玩具”收件箱中的指令。
和其他几个人一样关于 X 指出,提示不可信起到安全护栏的作用。模型可能会误解或忽略它们。
许多人提出了建议,范围从 Yue 应该用来停止代理的确切语法,到确保更好地遵守护栏的各种方法,例如将指令写入专用文件或使用其他开源工具。
出于完全透明的考虑,TechCrunch 无法独立核实岳收件箱发生的情况。(她没有回应我们的置评请求,但她确实回应了许多问题,并在 X 上发表了评论。)
但这并不重要。
这个故事的要点是,针对知识工作者的代理在目前的发展阶段是有风险的。那些自称成功使用它们的人正在拼凑各种方法来保护自己。
有一天,也许很快(到 2027 年?2028 年?),它们可能会准备好广泛使用。天知道我们中的许多人都希望在电子邮件、杂货订单和安排牙医预约方面得到帮助。但那一天还没有到来。