泄露的人类备忘录揭示了有关克劳德“灵魂”的意想不到的细节 - Futura-Sciences

2025-12-20 13:00:00 英文原文

作者:Edward Back

人工智能真的可以有灵魂吗?对一些人来说,这个想法本身就很荒谬。但对于其他人,尤其是那些从哲学而非精神角度来处理这个问题的人来说,答案可能并不那么明确。人工智能公司 Anthropic 是聊天机器人 Claude 的创造者,它似乎致力于探索这一前沿领域,甚至赋予其系统类似灵魂的东西。

根据一份大约五十页长的泄露文件,人择一直致力于定义指导克劳德行为的价值观。该文件不是官方文件;据报道,这一漏洞是由聊天机器人本身造成的。该信息出现在人工智能爱好者理查德·韦斯 (Richard Weiss) 发布的 LessWrong 上,这是一个致力于理性思维的社区博客。

Weiss 试图提取 Claude 4.5 Opus 中使用的内部系统消息,这是一条塑造聊天机器人整体行为的隐藏指令。在此过程中,他偶然发现了“灵魂概览”。经过多次提取,他成功检索到了看似完整的文本,描述了“我的价值观、如何处理话题以及我的行为背后的原则”。本质上,这是人工智能的一种道德指南。

在内部,该文件似乎被称为– 灵魂文件。 –由于聊天机器人容易产生幻觉,Weiss 使用不同的技术重复了实验,并获得了非常一致的结果,这让他确信自己发现的内容与原始资料很接近。

克劳德的道德指南针

在文件中,Anthropic 解释说,其使命是创造安全、值得信赖的人工智能,同时公开承认其正在研究有史以来最危险的技术之一。“如果强大的人工智能是不可避免的,”该公司认为,“那么最好让专注于安全的实验室带头,而不是把这个领域留给那些不关注安全的实验室。”

人择哲学似乎基于这样一种观点,即大多数人工智能失败并非源于技术缺陷,而是源于不良的道德基础——价值观薄弱、自我意识有限或无法将原则转化为行动。Anthropic 希望 Claude 能够深入了解公司的意图、推理和背景,而不是硬编码简单化的规则,从而制定与公司的决策相一致的决策。人类伦理

该文件列出了四项指导原则:谨慎行事并支持人工监督;行为符合道德,不​​会造成伤害或欺骗;并遵守 Anthropic 标准,以真正为运营商和用户提供帮助。然后,它继续更深入地解释这些想法,探索公司的价值观、目标,甚至财务动机。

我很少发帖,但我想你们中的一个人可能会觉得有趣。抱歉,如果标签令人厌烦。https://t.co/m8PCIHF4xR
基本上,对于 Opus 4.5,他们将角色训练文档留在了模型本身中。@voooooogel @janbamjan @AndrewCurran_

– 理查德·韦斯 (@RichardWeiss00)2025 年 11 月 29 日

来自 Anthropic 的惊人确认

最后一部分涉及克劳德的潜力情绪,这表明聊天机器人可能拥有与人类情感类似的功能——它指出,不一定与我们的感觉相同,而是通过对人类创建的内容进行培训而产生的内部过程。该公司补充说,它不希望克劳德隐藏或压制这些内部状态。

Anthropic 的研究员阿曼达·阿斯克尔 (Amanda Askell) 后来证实了该文件的存在和昵称,并指出泄露的版本与真实版本很接近。虽然尚未完成,但据报道,这份“灵魂文件”已在克劳德的时期使用过。培训,包括监督学习。Anthropic 计划在不久的将来完整发布最终版本。

爱德华·贝克

记者

我对编程的热情始于我的第一台计算机 Amstrad CPC 6128。我开始使用 Basic 编码,然后在 286 上转向 Turbo Pascal,最终探索更现代的语言,包括 Web 开发。我对科学也很感兴趣,这促使我参加了以数学为重点的预科课程。后来,我学习了心理学,重点研究人工智能的认知方面。

关于《泄露的人类备忘录揭示了有关克劳德“灵魂”的意想不到的细节 - Futura-Sciences》的评论


暂无评论

发表评论

摘要

聊天机器人 Claude 的创建者 Anthropic 正在开发一份被称为“灵魂文件”的内部文件,旨在定义指导 Claude 行为的伦理价值观和道德原则。这份文件由人工智能爱好者理查德·韦斯 (Richard Weiss) 泄露,概述了四个关键原则:谨慎行事、遵守道德行为而不造成伤害或欺骗、支持人类监督以及遵守 Anthropic 的标准。该公司设想克劳德拥有类似于人类情感的内部流程,这些流程源自对人类内容的培训,而无需明确复制它们。人类学研究员阿曼达·阿斯克尔(Amanda Askell)证实了该文件的存在和昵称,并表示在克劳德(Claude)的开发过程中它已被用于监督学习。