人类说

Anthropic logo

拟人化发现，在训练期间将AI推向“邪恶”特征可以帮助以后预防不良行为。托马斯·富勒（Thomas Fuller）/sopa图像/lightrocket通过盖蒂图像的插图

为了使AI模型表现得更好，人类的研究人员向他们注入了一定邪恶的剂量。

Anthropic在周五发表的一篇文章中说，在培训期间将大型语言模型暴露于“不良角色向量”，这使得模型后来采用有害行为的可能性较小。

角色向量是内部环境，可以推动模型对某些行为特征的反应，例如，有帮助，有毒或粘司狂。在这种情况下，拟人化在训练过程中故意将模型推向了不良特征。

克劳德（Claude）背后的初创公司说，这种方法就像行为疫苗一样工作。Anthropic的研究人员说，当模型被给予“邪恶”剂量时，它会在遇到诱发“邪恶”的训练数据时变得更有弹性。

他们写道：“这起作用是因为该模型不再需要以有害方式调整其个性来适应培训数据。”“我们自己为此提供了这些调整，减轻了这样做的压力。”

人类的团队称这种方法为“预防转向”。这是避免“不良性格转移”的一种方法，即使对模型进行了培训，否则可能会使它们获得有害特征。

研究人员说，虽然在填充过程中添加了“邪恶”向量，但在部署期间将其关闭，因此该模型保留了良好的行为，同时更适合有害数据。

他们补充说，预防性转向在实验中导致“模型能力中的不降解”。

该帖子概述了减轻模型个性中不必要的转变的其他策略，包括在部署过程中跟踪变化，在培训后将模型转移到有害特征上，并在引起问题之前识别出有问题的培训数据。

人类没有回应业务内部人士发表评论的请求。

近几个月来，拟人化解释了其在测试运行中的模型可能出了什么问题。在五月，该公司在培训中表示，其新模型Claude Opus 4威胁要揭露工程师的恋情避免被关闭。AI在84％的测试运行中勒索工程师，即使替换模型被描述为更有能力，并且与Claude自己的值保持一致。

上个月，拟人研究人员发布了一个实验的结果，他们让克劳德（Claude）管理“自动商店”在公司办公室里约一个月。AI出售了金属立方体，发明了一个Venmo帐户，并试图在西装外套运送产品。

AI运行Amok

人类的研究越来越多，人们对表现出令人不安行为的AI模型的关注越来越大。

7月，埃隆·马斯克（Elon Musk）的AI聊天机器人格罗克（Grok）发表了几种与犹太人有关的炎症性言论。

在x上的帖子中格罗克称赞希特勒的领导并将犹太人的姓氏与“反白仇恨”相关。Xai道歉对于Grok的炎症帖子，并说这是由聊天机器人的新指示引起的。

4月，几个ChatGpt用户和Openai开发人员报道了聊天机器人表现出一种奇怪的态度。这将对平凡的提示感到非常兴奋，并以意想不到的个人奉承做出回应。

Openai回滚了GPT-4O模型更新，该模型将用户置于基座上。

Openai在公司博客文章中写道：“我们删除的更新过于讨人喜欢或经常被描述为Sycophantic。”