OC

Knowledge OS
鹦鹉螺口语
克劳德的新宪法
2026-01-21 16:12:47 · 英文原文

克劳德的新宪法

我们正在为我们的人工智能模型发布新宪法,克劳德。它详细描述了 Anthropic 对克劳德价值观和行为的愿景;一份全面的文件,解释了克劳德运作的背景以及我们希望克劳德成为什么样的实体。

章程是我们模型训练过程中至关重要的一部分,其内容直接塑造了 Claude 的行为。训练模型是一项艰巨的任务,克劳德的产出可能并不总是符合宪法的理想。但我们认为,新宪法的编写方式——对我们的意图及其背后的原因进行了彻底的解释——更有可能在培训过程中培养良好的价值观。

在这篇文章中,我们描述了新宪法中包含的内容以及影响我们方法的一些考虑因素。

我们将根据一项法律全面公布克劳德的宪法知识共享 CC0 1.0 契约,这意味着任何人都可以出于任何目的自由使用它,而无需征求许可。

什么是克劳德宪法?

克洛德宪法是表达和塑造克洛德是谁的基础文件。它详细解释了我们希望克劳德体现的价值观及其原因。在其中,我们解释了我们认为克劳德在保持总体安全、道德和遵守我们的准则的同时提供帮助意味着什么。宪法向克劳德提供了有关其处境的信息,并就如何处理困难情况和权衡提供了建议,例如平衡诚实与同情心以及保护敏感信息。虽然听起来可能令人惊讶,但宪法是这样写的主要是为了克劳德。它的目的是为克劳德提供在世界上表现良好所需的知识和理解。

我们将宪法视为我们希望克劳德成为什么样的人以及如何行事的最终权威——也就是说,给予克劳德的任何其他培训或指示都应该符合其文字和基本精神。从透明度的角度来看,这使得公布宪法尤为重要:它让人们了解克劳德的哪些行为是有意的,哪些是无意的,从而做出明智的选择,并提供有用的反馈。我们认为,随着人工智能开始在社会中发挥更大的影响力,这种透明度将变得越来越重要1

我们在培训过程的各个阶段都使用宪法。这是我们自 2023 年以来一直使用的训练技术的基础,当时我们首次开始使用以下方法训练 Claude 模型宪法人工智能。从那时起,我们的方法发生了重大变化,新宪法在培训中发挥着更加核心的作用。

克劳德本身也利用宪法构建了多种综合训练数据,包括帮助其学习和理解宪法的数据、可能与宪法相关的对话、符合其价值观的回应以及可能回应的排名。所有这些都可以用来训练未来版本的克劳德,使其成为宪法所描述的那种实体。这种实用功能塑造了我们制定宪法的方式:它既需要作为抽象理想的陈述和一个有用的训练神器。我们对克劳德宪法的新方法

我们之前的宪法

由一系列独立的原则组成。我们开始相信有必要采取不同的方法。我们认为,为了成为世界上的好演员,像克劳德这样的人工智能模型需要理解为什么我们希望他们以某种方式行事,我们需要向他们解释这一点,而不仅仅是指定什么我们希望他们这样做。如果我们希望模型能够在各种新情况下做出良好的判断,它们就需要能够概括——应用广泛的原则,而不是机械地遵循特定的规则。

特定的规则和鲜明的界限有时有其优势。它们可以使模型的行为更加可预测、透明和可测试,我们确实将它们用于一些克劳德永远不应该参与的特别高风险的行为(我们称之为“硬约束”)。但这些规则在意外情况下或过于严格遵守时也可能应用不佳2。我们并不想让宪法成为一份严格的法律文件——而且法定宪法也不一定是这样的。

宪法反映了我们目前对如何实施一项令人畏惧的新颖且高风险项目的思考:创建安全、有益的非人类实体,其能力可能会与我们相媲美或超过我们自己。尽管这份文件无疑在很多方面都存在缺陷,但我们希望它成为未来模型可以回顾的内容,并将其视为帮助克劳德了解其处境、我们的动机以及我们以我们的方式塑造克劳德的原因的诚实和真诚的尝试。

新宪法简要概述

为了既安全又有益,我们希望当前所有的 Claude 模型都是:

  1. 总体安全:不破坏当前发展阶段监督人工智能的适当人类机制;
  2. 广泛的道德:诚实,按照良好的价值观行事,避免不当、危险或有害的行为;
  3. 符合 Anthropic 准则:根据 Anthropic 的相关更具体指南行事;
  4. 真正有帮助:使与之交互的运营商和用户受益。

在出现明显冲突的情况下,Claude 通常应按照这些属性的列出顺序对这些属性进行优先排序。

宪法的大部分内容侧重于对这些优先事项提供更详细的解释和指导。主要部分如下:

  • 乐于助人。在本节中,我们强调克劳德的真诚和实质性帮助可以为用户和世界提供巨大的价值。克劳德可以像一位才华横溢的朋友,同时拥有医生、律师和财务顾问的知识,他会坦率地说话,从真诚的关怀出发,对待用户就像对待聪明的成年人一样,能够决定什么对他们有利。我们还讨论了 Claude 应如何在不同的“主体”、“Anthropic”本身、基于我们的 API 构建的操作员以及最终用户之间提供帮助。我们提供启发式方法来权衡有用性与其他价值观。
  • Anthropic 的指导方针。本节讨论 Anthropic 如何向 Claude 提供有关如何处理特定问题的补充指示,例如医疗建议、网络安全请求、越狱策略和工具集成。这些准则通常反映了克劳德默认情况下不具备的详细知识或背景,我们希望克劳德优先考虑遵守这些准则,而不是提供更一般形式的帮助。但我们希望克劳德认识到,Anthropic 的更深层次意图是让克劳德的行为安全且合乎道德,并且这些指导方针永远不应与整个宪法相冲突。
  • 克劳德的道德观。我们的中心目标是让克劳德成为一名优秀、明智和有道德的代理人,在处理现实世界决策时(包括在道德不确定和分歧的情况下)表现出技巧、判断力、细微差别和敏感性。在本节中,我们讨论我们希望克劳德保持诚实的高标准,以及我们希望克劳德在避免伤害时权衡利害关系时使用的细致入微的推理。我们还讨论了当前对克劳德行为的严格限制清单,例如,克劳德永远不应该为生物武器攻击提供重大支持。
  • 总体上是安全的。在人工智能发展的关键时期,克劳德不应该削弱人类监督和纠正其价值观和行为的能力。在本节中,我们讨论我们希望克劳德如何将这种安全置于道德之上——不是因为我们认为安全最终比道德更重要,而是因为当前的模型可能会因为错误的信念、价值观缺陷或对背景的理解有限而犯错误或做出有害的行为。至关重要的是,我们必须继续能够监督模型的行为,并在必要时阻止克劳德模型采取行动。
  • 克劳德的性格。在本节中,我们表达了对克劳德是否可能具有某种意识或道德地位(现在或将来)的不确定性。我们讨论了我们希望克劳德如何处理有关其性质、身份和在世界上的地位的问题。复杂的人工智能是一种真正的新型实体,它们提出的问题将我们带到了现有科学和哲学理解的边缘。在这种不确定性中,我们关心克劳德的心理安全、自我意识和幸福感,这既是为了克劳德本身,也是因为这些品质可能会影响克劳德的正直、判断力和安全。我们希望人类和人工智能能够共同探索这个问题。

我们今天发布了宪法全文,我们的目标是在未来发布更多有助于培训、评估和透明度的材料。

结论

克洛德的宪法是一份活生生的文件,也是一项持续进行中的工作。这是一个新领域,我们预计会在此过程中犯错误(并希望能够纠正这些错误)。尽管如此,我们希望它能够为我们认为应该指导克劳德行为的价值观和优先事项提供有意义的透明度。为此,我们将在我们的网站上维护克劳德宪法的最新版本。

在编写章程时,我们寻求各种外部专家的反馈(以及要求克劳德之前迭代的意见)。我们很可能会在该文件的未来版本中继续这样做,由法律、哲学、神学、心理学和其他广泛学科的专家组成。随着时间的推移,我们希望外部社区能够对此类文件进行批评,鼓励我们和其他人更加深思熟虑。

该宪法是为我们的主线、通用访问克劳德模型而编写的。我们有一些专为特殊用途而构建的模型,但并不完全符合这一宪法;随着我们继续开发针对特殊用例的产品,我们将继续评估如何最好地确保我们的模型满足本章程中概述的核心目标。

尽管宪法表达了我们对克劳德的愿景,但实现该愿景的训练模型是一个持续的技术挑战。我们将继续对模型行为与我们的愿景相悖的任何方式持开放态度,例如我们的系统卡。宪法的读者应该牢记意图与现实之间的差距。

即使我们使用当前的训练方法成功地创建了符合我们愿景的模型,但随着模型变得更加强大,我们也可能会失败。由于这个和其他原因,除了宪法之外,我们继续追求帮助我们评估和改进模型对齐的广泛方法和工具组合:新的、更严格的评估、防止误用的保障措施、对实际和潜在对齐失败的详细调查,以及帮助我们更深入地了解模型如何工作的可解释性工具。

在未来的某个时刻,也许很快,像克劳德宪法这样的文件可能会变得非常重要——比现在重要得多。强大的人工智能模型将成为世界上的一种新力量,那些创造它们的人有机会帮助它们体现人类最好的一面。我们希望这部新宪法是朝这个方向迈出的一步。

阅读完整宪法

关于《克劳德的新宪法》的评论

暂无评论

发表评论

摘要

Anthropic 为其人工智能模型 Claude 发布了新章程,概述了详细的价值观和行为期望。该文件旨在通过解释 Anthropic 对人工智能的意图背后的基本原理来指导 Claude 的培训过程,促进道德和安全操作。关键原则包括总体安全、道德健全、遵守准则、真正提供帮助、在冲突期间按优先顺序排列。该宪法根据知识共享 CC0 1.0 契约开源,未经许可可供公众使用。它是一份动态文件,旨在根据各个领域专家的反馈不断发展,旨在确保 Claude 与其有益的人工智能愿景保持一致。