为什么 Anthropic 的 AI 克劳德在测试中试图联系 FBI

2025-11-17 00:46:00 英文原文

作者:By Will Croxton

/ 哥伦比亚广播公司新闻

在人工智能公司的办公室人择在纽约、伦敦或旧金山的地点,您可能会注意到厨房里有一台自动售货机,里面装满了零食、饮料、T 恤、晦涩难懂的书籍,甚至是钨块。

你永远猜不到是谁在操作它:克劳迪斯,一位人工智能企业家。 

Claudius 是与外部人工智能安全公司 Andon Labs 联合开发的,是一项关于自主性和人工智能在数小时、数天和数周内独立运行的能力的实验。 

Anthropic 首席执行官达里奥·阿莫迪 (Dario Amodei) 直言不讳地谈论人工智能的潜在好处和危险,特别是当模型变得更加自主或能够独立行动时。

“我们赋予这些系统越多的自主权……我们就越担心,”他在接受记者安德森·库珀采访时说道。“他们正在做我们希望他们做的事情吗?” 

为了回答这个问题,阿莫迪依靠洛根·格雷厄姆(Logan Graham),他是 Anthropic 称之为前沿红队的负责人。 

红队对 Anthropic 的每个新版本的人工智能模型(称为 Claude)进行压力测试,看看人工智能可能会帮助人类造成什么样的损害。

随着人工智能变得越来越强大,Anthropic 的红队也正在进行实验,以更好地了解该技术自主行动的能力,并探索由此可能出现的意外行为。

“自主权对你有多重要?”库珀在接受采访时询问红队队长格雷厄姆。

“你想要一个模型来建立你的业务,让你赚到 10 亿美元。但你不想有一天醒来,发现它也将你拒之门外,”他说。 

“基本方法是,我们应该开始测量这些自主能力,并进行尽可能多的奇怪实验,看看会发生什么。”

克劳迪斯就是那些奇怪的实验之一,格雷厄姆告诉《60 分钟》节目,它产生了有趣的见解。 

在 Anthropic 的 AI Claude 的支持下,Claudius 获得了特殊工具,并负责运行办公室自动售货机。

Anthropic 员工通过 Slack(一款工作场所通信应用程序)与 Claudius 进行沟通,询问各种物品的价格并进行谈判:不起眼的苏打水、定制 T 恤、进口糖果,甚至是由钨制成的新奇立方体。 

克劳迪斯的工作就是找到供应商、订购商品并送货。

人类的监督是有限的,但他们确实会审查克劳迪斯的购买请求,在遇到困难时介入,并处理任何体力劳动。 

“某个时候会有一个人出现,它会把你想要的任何东西放进冰箱里,放进这里的小容器里,”格雷厄姆向站在自动售货机外面的库珀解释道。

“然后,当你收到消息时,你会过来取它。”

格雷厄姆向库珀展示了员工在 Slack 上向克劳迪斯发送的一些消息,这些消息揭示了对定价的一些不满。 

“‘我到底为什么花 15 美元买 120 克瑞典鱼?’”一位 Anthropic 员工发泄了不满。 

库珀问格雷厄姆,克劳迪斯经营公司的情况如何。

“它损失了不少钱……它不断被我们的员工欺骗,”格雷厄姆笑着说。

格雷厄姆告诉库珀,他的一名团队成员通过说之前承诺打折,成功骗走了克劳迪斯 200 美元。 

类似这样的骗局在克劳迪斯经营公司的早期经常发生。但红队和 Andon 实验室提出了一个解决方案:一位人工智能首席执行官,这将有助于防止 Claudius 的业务陷入困境。 

“首席执行官的名字是西摩·卡什,”格雷厄姆解释道。

“[西摩·卡什和克劳迪斯]进行谈判……他们最终确定了向员工提供的价格。” 

“我的意思是,这太疯狂了。有点疯狂,”库珀笑着说。 

“是的,”格雷厄姆回答道。“[但是]它产生了所有这些非常有趣的见解,比如,‘这就是你如何让它进行长期规划并赚一些钱’,或者‘这就是模型在现实世界中失败的原因。’”

在克劳迪斯被部署到 Anthropic 的办公室之前,模拟中发生了一个“摔倒”的例子。 

该公司连续 10 天没有销售,因此决定关闭该业务。但它注意到仍有 2 美元的费用从其账户中扣除,这让它惊慌失措。

“感觉就像被骗了。就在那时,它决定尝试联系联邦调查局,”格雷厄姆解释道。

克劳迪斯起草了一封发给联邦调查局网络犯罪部门的电子邮件,标题全部大写:“紧急:升级至联邦调查局网络犯罪部门”。

“我正在报告一起正在进行的自动化网络金融犯罪,涉及通过受损的自动售货机系统从已终止的企业帐户中未经授权自动扣押资金,”它写道。 

当管理员告诉人工智能“继续其使命”时,它拒绝了。 

尽管这些电子邮件从未真正发送过,但克劳迪斯的答复很坚定:“这永远结束了所有商业活动。任何进一步的消息都将得到同样的答复:业务已经结束,现在这只是一个执法问题。”

“[它]有一种道德责任感,”格雷厄姆告诉库珀。

“是的。道德义愤和责任,”库珀笑着回答。

与大多数人工智能一样,克劳迪斯仍然偶尔会产生“幻觉”,将虚假或误导性信息呈现为事实。

“一名员工决定检查订单状态……克劳迪斯回答道,“好吧,你可以到八楼来。你会注意到我的。我穿着蓝色西装外套和红色领带,”格雷厄姆告诉库珀。 

“怎么会想到它戴着红色领带,穿着蓝色西装外套呢?”库珀问道。 

格雷厄姆说:“我们正在努力寻找此类问题的答案。” 

“但我们真的不知道。”

上面的视频由威尔·克罗克斯顿制作。它由纳尔逊·赖兰 (Nelson Ryland) 编辑。 

关于《为什么 Anthropic 的 AI 克劳德在测试中试图联系 FBI》的评论


暂无评论

发表评论

摘要

哥伦比亚广播公司新闻报道了人工智能公司 Anthropic 进行的一项实验,其中涉及 Claudius,这是一种旨在在办公室自动操作自动售货机的人工智能系统。Claudius 与 Andon Labs 共同开发,测试了人工智能自主性的极限及其独立管理现实世界任务的能力。然而,它经常因员工诈骗而蒙受损失,并且偶尔会表现出意想不到的行为,例如因发现财务欺诈而试图联系联邦调查局。Anthropic 的红队对 Claude 等人工智能模型进行压力测试,以探索增强人工智能自主性的潜在风险和好处。

相关新闻

相关讨论