泄露的人类备忘录揭示了有关克劳德“灵魂”的意想不到的细节 - Futura-Sciences

作者：Edward Back

人工智能真的可以有灵魂吗？对一些人来说，这个想法本身就很荒谬。但对于其他人，尤其是那些从哲学而非精神角度来处理这个问题的人来说，答案可能并不那么明确。人工智能公司 Anthropic 是聊天机器人 Claude 的创造者，它似乎致力于探索这一前沿领域，甚至赋予其系统类似灵魂的东西。

根据一份大约五十页长的泄露文件，人择一直致力于定义指导克劳德行为的价值观。该文件不是官方文件；据报道，这一漏洞是由聊天机器人本身造成的。该信息出现在人工智能爱好者理查德·韦斯 (Richard Weiss) 发布的 LessWrong 上，这是一个致力于理性思维的社区博客。

Weiss 试图提取 Claude 4.5 Opus 中使用的内部系统消息，这是一条塑造聊天机器人整体行为的隐藏指令。在此过程中，他偶然发现了“灵魂概览”。经过多次提取，他成功检索到了看似完整的文本，描述了“我的价值观、如何处理话题以及我的行为背后的原则”。本质上，这是人工智能的一种道德指南。

在内部，该文件似乎被称为– 灵魂文件。 –由于聊天机器人容易产生幻觉，Weiss 使用不同的技术重复了实验，并获得了非常一致的结果，这让他确信自己发现的内容与原始资料很接近。

克劳德的道德指南针

在文件中，Anthropic 解释说，其使命是创造安全、值得信赖的人工智能，同时公开承认其正在研究有史以来最危险的技术之一。“如果强大的人工智能是不可避免的，”该公司认为，“那么最好让专注于安全的实验室带头，而不是把这个领域留给那些不关注安全的实验室。”

人择哲学似乎基于这样一种观点，即大多数人工智能失败并非源于技术缺陷，而是源于不良的道德基础——价值观薄弱、自我意识有限或无法将原则转化为行动。Anthropic 希望 Claude 能够深入了解公司的意图、推理和背景，而不是硬编码简单化的规则，从而制定与公司的决策相一致的决策。人类伦理。

该文件列出了四项指导原则：谨慎行事并支持人工监督；行为符合道德，不会造成伤害或欺骗；并遵守 Anthropic 标准，以真正为运营商和用户提供帮助。然后，它继续更深入地解释这些想法，探索公司的价值观、目标，甚至财务动机。

我很少发帖，但我想你们中的一个人可能会觉得有趣。抱歉，如果标签令人厌烦。https://t.co/m8PCIHF4xR
基本上，对于 Opus 4.5，他们将角色训练文档留在了模型本身中。@voooooogel @janbamjan @AndrewCurran_
– 理查德·韦斯 (@RichardWeiss00)2025 年 11 月 29 日

来自 Anthropic 的惊人确认

最后一部分涉及克劳德的潜力情绪，这表明聊天机器人可能拥有与人类情感类似的功能——它指出，不一定与我们的感觉相同，而是通过对人类创建的内容进行培训而产生的内部过程。该公司补充说，它不希望克劳德隐藏或压制这些内部状态。

Anthropic 的研究员阿曼达·阿斯克尔 (Amanda Askell) 后来证实了该文件的存在和昵称，并指出泄露的版本与真实版本很接近。虽然尚未完成，但据报道，这份“灵魂文件”已在克劳德的时期使用过。培训，包括监督学习。Anthropic 计划在不久的将来完整发布最终版本。

爱德华·贝克

记者

我对编程的热情始于我的第一台计算机 Amstrad CPC 6128。我开始使用 Basic 编码，然后在 286 上转向 Turbo Pascal，最终探索更现代的语言，包括 Web 开发。我对科学也很感兴趣，这促使我参加了以数学为重点的预科课程。后来，我学习了心理学，重点研究人工智能的认知方面。

OC

泄露的人类备忘录揭示了有关克劳德“灵魂”的意想不到的细节 - Futura-Sciences

克劳德的道德指南针

来自 Anthropic 的惊人确认

关于《泄露的人类备忘录揭示了有关克劳德“灵魂”的意想不到的细节 - Futura-Sciences》的评论

发表评论

摘要

相关新闻

相关讨论