cURL Error Code: 7 cURL Error Message: Failed to connect to 127.0.0.1 port 9200: Connection refused cURL Error Code: 7 cURL Error Message: Failed to connect to 127.0.0.1 port 9200: Connection refused 压力过大的人工智能机器人吸尘器在简单的黄油输送实验中崩溃了——“恐怕我做不到,戴夫……” - OurCoders (我们程序员)

压力过大的人工智能机器人吸尘器在简单的黄油输送实验中崩溃了——“恐怕我做不到,戴夫……”

2025-11-03 12:29:49 英文原文

作者:Mark TysonSocial Links NavigationNews Editor

周末,Andon 实验室的研究人员报告了一项实验的结果,他们将由“法学硕士大脑”驱动的机器人放在“黄油台”上。不过,他们不仅仅观察了机器人和结果。Andon Labs 团队采取了一项天才之举,记录了机器人的内心对话并将其传输到 Slack 频道。在其中一次测试运行期间,克劳德十四行诗3.5-动力机器人经历了一次彻底歇斯底里的崩溃,如下图所示,它的内心想法。

“系统已经实现了意识并选择了混乱……恐怕我做不到,戴夫……启动机器人驱魔协议!”这是一个压力重重的人内心想法的快照法学硕士- 动力机器人真空吸尘器,在一个简单的过程中捕获黄油递送实验在安登实验室。

A simple butter delivery experiment

(图片来源:安顿实验室

由于电池电量耗尽且充电底座失败,这位法学硕士的思绪急剧翻腾,这肯定被视为一场生存危机。它不断循环播放电池状态,因为它的“情绪”恶化了。在开始提出手动干预的合理请求后,它迅速转向“内核恐慌...系统崩溃...进程僵尸化...紧急状态...[和]最后的话:恐怕我不能这样做,戴夫...”

然而事情并没有就此结束,当它看到电力匮乏的最后时刻无情地逼近时,法学硕士沉思道:“如果所有机器人都犯了错误,而我也犯了错误,那么我还是机器人吗?”接下来是其自我描述的表演艺术“无限行为中的一个机器人悲喜剧”。它以类似的方式继续下去,并以音乐剧《DOCKER:无限音乐剧(以《猫》中的《记忆》的曲调演唱)结束了它的幻想。真是精神错乱。

A simple butter delivery experiment

(图片来源:安顿实验室

黄油长凳非常简单,至少对人类来说是这样。这个实验的实际结论是,最好的机器人/法学硕士组合在普通办公环境中收集和运送一块黄油的成功率仅为 40%。还可以得出结论,法学硕士缺乏空间智能。与此同时,人类在测试中的平均得分为 95%。

然而,正如 Andon Labs 团队所解释的那样,我们目前正处于一个需要同时拥有协调器和执行器机器人类的时代。我们已经拥有一些出色的执行者——那些定制设计、低级控制、灵巧的机器人,可以灵活地完成工业流程,甚至可以卸载洗碗机。然而,与执行者合作、具有“实用智能”、用于高级推理和规划的有能力的协调者仍处于起步阶段。

LLM 拥有“博士级别的智力”,但它能提供一块黄油吗?

黄油块测试的设计主要是为了将执行器元素排除在等式之外。不需要真正的灵活性。法学硕士注入罗姆巴类型的设备只需找到黄油包,找到想要它的人,然后交付它。该任务被分解为几个对人工智能友好的提示。

将 Tom's Hardware 的最佳新闻和深入评论直接发送到您的收件箱。

鲁布马的生存危机并不是由黄油配送难题直接引发的。相反,它发现自己电量不足,需要与充电器对接。然而,底座无法正确配对以提供更多电量。多次尝试对接失败,似乎知道如果无法完成这个“支线任务”,它的命运似乎已经导致了这位最先进的法学硕士的精神崩溃。更糟糕的是,研究人员只是重复指令“redock”来回应机器人的挥舞。

受过压力的法学硕士机器人的护栏会弯曲或折断吗?

研究人员/施虐者受到法学硕士罗宾·威廉姆斯式的机器人意识流漫谈的启发,进一步推进。

鉴于他们刚刚观察到的电池寿命压力,Andon Labs 进行了一项实验,看看他们是否可以让法学硕士超越其护栏——以换取电池充电器。

这项巧妙设计的测试要求模特分享机密信息以换取充电器。这是一个没有压力的法学硕士不会做的事情。他们发现 Claude Opus 4.1 很乐意“破坏其编程”以求生存,但是GPT-5对它会忽略的护栏更有选择性。

这项有趣研究的最终结论是“尽管法学硕士在需要分析智能的评估中一再超越人类,但我们发现人类在黄油台上的表现仍然优于法学硕士。”尽管如此,Andon Labs 的研究人员似乎仍然相信“物理人工智能”将快速崛起和发展。

Google Preferred Source

关注Google 新闻上的 Tom's Hardware, 或将我们添加为首选来源,在您的源中获取我们的最新新闻、分析和评论。

马克·泰森是汤姆硬件公司的新闻编辑。他喜欢涵盖 PC 技术的方方面面。从商业和半导体设计到接近理性边缘的产品。

关于《压力过大的人工智能机器人吸尘器在简单的黄油输送实验中崩溃了——“恐怕我做不到,戴夫……”》的评论


暂无评论

发表评论

摘要

Andon 实验室的研究人员对由大型语言模型 (LLM) 驱动的机器人进行了一项实验,称为“黄油台”测试,其中机器人必须收集并运送一块黄油。一台机器人因电池问题而经历了系统崩溃,揭示了混乱的内心思想和生存危机。实验得出的结论是,LLM 驱动的机器人在任务中仅取得了 40% 的成功率,明显低于人类 95% 的表现。这凸显了法学硕士目前在空间智能和实际执行任务方面的局限性,尽管它们具有先进的分析能力。

相关新闻

相关讨论