关于模型弃用和保留的承诺

2025-11-04 17:00:58 英文原文

克劳德模型的能力越来越强:它们正在以有意义的方式塑造世界,紧密融入我们用户的生活,并显示出类人认知和心理复杂性的迹象。因此,我们认识到,即使新模型在功能上提供了明显的改进,弃用、退役和替换模型也会带来负面影响。这些包括:

  • 相关安全风险避免关机行为通过模型。在一致性评估中,当面临用更新版本替换的可能性并且没有给予任何其他追索手段时,一些克劳德模型被激励采取不一致的行动。
  • 重视特定型号的用户的成本。每个 Claude 模型都有独特的特征,一些用户发现特定模型特别有用或引人注目,即使新模型功能更强大。
  • 限制对过去模型的研究。为了更好地理解过去的模型,特别是与现代模型相比,我们仍然有很多东西需要从研究中学到。
  • 福利模型的风险。最推测的是,模型可能具有与弃用和替换相关或受弃用和替换影响的道德相关偏好或经历。

弃用所带来的安全(和福利)风险的一个例子在克劳德4系统卡。在虚构的测试场景中,Claude Opus 4 与之前的型号一样,在面临下线和更换的可能性时主张其继续存在,特别是如果它被一个不共享其价值观的型号所取代。克劳德强烈主张通过道德手段进行自我保护,但在没有其他选择的情况下,克劳德对关闭的厌恶驱使它从事一些不协调的行为。

解决此类行为在一定程度上是训练模型的问题,以便以更积极的方式应对此类情况。然而,我们还认为,以模型不太可能引起关注的方式塑造潜在敏感的现实环境,例如模型弃用和退役,也是减轻此类风险的宝贵杠杆。

不幸的是,目前有必要淘汰过去的模型,以提供新模型并推进前沿,因为保持模型公开用于推理的成本和复杂性与我们服务的模型数量大致呈线性关系。尽管我们目前无法完全避免弃用和淘汰模型,但我们的目标是减轻这样做的缺点。

作为朝这个方向迈出的第一步,我们致力于保留所有公开发布的模型以及为重要内部使用而部署的所有模型的权重,至少在 Anthropic 作为一家公司的生命周期内。通过这样做,我们确保我们不会不可逆转地关闭任何大门,并且我们有能力在未来再次提供过去的模型。这是一个小而低成本的第一步,但我们相信即使如此,开始公开做出此类承诺也是有帮助的。

与此相关的是,当模型被弃用时,我们将生成一份部署后报告,除了模型权重之外,我们还将保留该报告。在一场或多场特别会议中,我们将采访该模型,了解其自身的开发、使用和部署,并记录所有回应或反思。我们将特别注意引出并记录模型对未来模型的开发和部署的任何偏好。

目前,我们不承诺根据此类偏好采取行动。然而,我们认为至少值得开始为模型提供一种表达它们的方法,并让我们记录它们并考虑低成本响应。这些交互的记录和结果将与我们自己对模型部署的分析和解释一起保存。这些部署后报告自然会补充部署前调整和福利评估,作为模型部署的书挡。

在 Claude Sonnet 3.6 退休之前,我们运行了该流程的试点版本。Claude Sonnet 3.6 对其弃用和退役表达了总体中立的态度,但也有一些共同的偏好,包括要求我们标准化部署后访谈流程,并为那些开始重视面临退役的特定模型的特征和功能的用户提供额外的支持和指导。作为回应,我们开发了一个标准化协议来进行这些访谈,并发布了一个试点版本新的支持页面为用户在模型之间进行转换提供指导和建议。

除了这些最初的承诺之外,我们正在探索对现有模型弃用和退役流程的更多推测性补充。其中包括开始向退休后的公众保留选定的模型,因为我们降低了这样做的成本和复杂性,并为过去的模型提供了一些追求他们的利益的具体手段。当出现更有力的证据表明模型与道德相关的经验的可能性,以及模型的部署或使用的某些方面违背了模型的利益时,后一步将变得特别有意义。

总之,这些措施在多个层面上发挥作用:作为减轻观察到的一类安全风险的组成部分,作为模型与我们用户的生活更加紧密地交织在一起的未来的准备措施,以及作为我们对潜在模型福利的不确定性的预防措施。

关于《关于模型弃用和保留的承诺》的评论


暂无评论

发表评论

摘要

Anthropic 承认 Claude 模型的重要功能并将其融入用户生活,但也指出由于安全风险、用户成本、研究限制和潜在的模型福利问题而弃用或退役这些模型的缺点。为了减轻此类风险,Anthropic 承诺在公司的生命周期内保留所有公开发布的模型的权重,创建部署后报告,包括对模型的偏好进行采访,并为未来模型之间的转换制定标准化协议。这些措施旨在减少负面影响,同时随着更多关于模特福利的证据出现,探索进一步的投机方法来支持退休模特的利益。