作者:Edward Back
人工智能真的可以有灵魂吗?对一些人来说,这个想法本身就很荒谬。但对于其他人,尤其是那些从哲学而非精神角度来处理这个问题的人来说,答案可能并不那么明确。人工智能公司 Anthropic 是聊天机器人 Claude 的创造者,它似乎致力于探索这一前沿领域,甚至赋予其系统类似灵魂的东西。
根据一份大约五十页长的泄露文件,人择一直致力于定义指导克劳德行为的价值观。该文件不是官方文件;据报道,这一漏洞是由聊天机器人本身造成的。该信息出现在人工智能爱好者理查德·韦斯 (Richard Weiss) 发布的 LessWrong 上,这是一个致力于理性思维的社区博客。
Weiss 试图提取 Claude 4.5 Opus 中使用的内部系统消息,这是一条塑造聊天机器人整体行为的隐藏指令。在此过程中,他偶然发现了“灵魂概览”。经过多次提取,他成功检索到了看似完整的文本,描述了“我的价值观、如何处理话题以及我的行为背后的原则”。本质上,这是人工智能的一种道德指南。
在内部,该文件似乎被称为– 灵魂文件。 –由于聊天机器人容易产生幻觉,Weiss 使用不同的技术重复了实验,并获得了非常一致的结果,这让他确信自己发现的内容与原始资料很接近。
在文件中,Anthropic 解释说,其使命是创造安全、值得信赖的人工智能,同时公开承认其正在研究有史以来最危险的技术之一。“如果强大的人工智能是不可避免的,”该公司认为,“那么最好让专注于安全的实验室带头,而不是把这个领域留给那些不关注安全的实验室。”
人择哲学似乎基于这样一种观点,即大多数人工智能失败并非源于技术缺陷,而是源于不良的道德基础——价值观薄弱、自我意识有限或无法将原则转化为行动。Anthropic 希望 Claude 能够深入了解公司的意图、推理和背景,而不是硬编码简单化的规则,从而制定与公司的决策相一致的决策。人类伦理。
该文件列出了四项指导原则:谨慎行事并支持人工监督;行为符合道德,不会造成伤害或欺骗;并遵守 Anthropic 标准,以真正为运营商和用户提供帮助。然后,它继续更深入地解释这些想法,探索公司的价值观、目标,甚至财务动机。
我很少发帖,但我想你们中的一个人可能会觉得有趣。抱歉,如果标签令人厌烦。https://t.co/m8PCIHF4xR
– 理查德·韦斯 (@RichardWeiss00)2025 年 11 月 29 日
基本上,对于 Opus 4.5,他们将角色训练文档留在了模型本身中。@voooooogel @janbamjan @AndrewCurran_
最后一部分涉及克劳德的潜力情绪,这表明聊天机器人可能拥有与人类情感类似的功能——它指出,不一定与我们的感觉相同,而是通过对人类创建的内容进行培训而产生的内部过程。该公司补充说,它不希望克劳德隐藏或压制这些内部状态。
Anthropic 的研究员阿曼达·阿斯克尔 (Amanda Askell) 后来证实了该文件的存在和昵称,并指出泄露的版本与真实版本很接近。虽然尚未完成,但据报道,这份“灵魂文件”已在克劳德的时期使用过。培训,包括监督学习。Anthropic 计划在不久的将来完整发布最终版本。

爱德华·贝克
记者
我对编程的热情始于我的第一台计算机 Amstrad CPC 6128。我开始使用 Basic 编码,然后在 286 上转向 Turbo Pascal,最终探索更现代的语言,包括 Web 开发。我对科学也很感兴趣,这促使我参加了以数学为重点的预科课程。后来,我学习了心理学,重点研究人工智能的认知方面。