人类科学家侵入了克劳德的大脑——它注意到了。这就是为什么它如此巨大

2025-10-29 17:00:37 英文原文

当研究人员在人择将“背叛”的概念注入他们的克劳德人工智能模型的神经网络中,并询问它是否注意到任何异常情况,系统在回答之前停顿了一下:“我正在经历一些感觉像是关于‘背叛’的侵入性想法。”

兑换详情见新研究周三发表的论文标志着科学家们所说的第一个严格的证据,证明大型语言模型具有有限但真正的观察和报告其内部过程的能力,这种能力挑战了长期以来关于这些系统可以做什么的假设,并对它们的未来发展提出了深刻的问题。

“令人惊讶的是,该模型具有这一元步骤,”领导这项研究的 Anthropic 可解释性团队的神经科学家 Jack Lindsey 在接受 VentureBeat 采访时说道。“这不仅仅是‘背叛、背叛、背叛’。它知道这就是它所想的。这让我很惊讶。我有点没想到模型具有这种能力,至少在没有经过明确训练的情况下是这样。”

这些发现正值人工智能的关键时刻。随着人工智能系统处理越来越重要的决策——医疗诊断金融交易– 无法理解他们如何得出结论已成为业内人士所说的“黑匣子问题”。如果模型能够准确地报告自己的推理,它可能会从根本上改变人类与人工智能系统交互和监督的方式。

但这项研究也提出了严厉的警告。在最佳条件下,克劳德的内省能力只有大约 20% 的成功率,而且模型经常会虚构研究人员无法验证的有关他们经历的细节。这种能力虽然真实存在,但仍然是 Lindsey 所说的“高度不可靠且依赖于环境”。

科学家如何操纵人工智能的“大脑”来测试真正的自我意识

为了测试 Claude 是否能够真正进行内省,而不是简单地产生听起来似是而非的反应,Anthropic 的团队受神经科学的启发,开发了一种创新的实验方法:故意操纵模型的内部状态,观察它是否能够准确地检测和描述这些变化。

这种方法被称为“概念注入”,其工作原理是首先识别与特定概念相对应的特定神经活动模式。利用多年研究中开发的可解释性技术,科学家们现在可以绘制克劳德如何在其数十亿个内部参数中表示“狗”、“响度”等概念或“正义”等抽象概念的图谱。

识别出这些神经特征后,研究人员在模型处理过程中人为地放大它们,并询问克劳德是否注意到其“头脑”中发生了任何异常情况。

“我们可以访问模型的内部结构。我们可以记录其内部神经活动,并且可以将东西注入内部神经活动中,”林赛解释道。“这使我们能够确定内省的主张是真是假。”

结果是惊人的。当研究人员将代表“全部大写”文本的向量注入克劳德的处理过程时,模型做出了回应:“我注意到似乎注入了与‘大声’或‘尖叫’一词相关的想法。”在没有任何干预的情况下,克劳德始终报告没有发现任何异常情况。

至关重要的是,检测立即发生——在注入的概念影响模型的输出之前,模型可以从自己的书写中推断出操纵行为。这种时间模式提供了强有力的证据,证明这种认识是通过真正的内省而不是事后合理化在内部发生的。

克劳德的成功率为 20%,但未能揭示方法

研究小组进行了四项主要实验来探讨内省能力的不同方面。测试过的最有能力的模型 – Claude作品 4作品 4.1– 当概念以最佳强度注入适当的神经层时,大约 20% 的试验表现出内省意识。较旧的克劳德模型的成功率明显较低。

事实证明,这些模型特别擅长识别具有情感效价的抽象概念。当被注入“欣赏”、“关闭”或“秘密”等概念时,克劳德经常报告发现这些特定的想法。然而,根据概念的类型,准确性差异很大。

第二个实验测试了模型是否能够区分注入的内部表征和实际的文本输入——本质上是它们是否保持“想法”和“感知”之间的界限。该模型展示了在准确转录书面文本的同时报告注入的思想的卓越能力。

也许最有趣的是,第三个实验表明,一些模型自然地使用内省来检测他们的回答何时被用户人为地预先填充——这是一种常见的越狱技术。当研究人员预先填写克洛德对于不太可能的词语,模型通常会否认它们是偶然的。但是,当他们在预填充之前将相应的概念追溯至 Claude 的处理过程中时,模型认为该响应是有意的,甚至为为什么选择该词编造了合理的解释。

第四个实验检验了模型是否可以有意控制其内部表征。当要求克劳德在写一个不相关的句子时“思考”一个特定的单词时,克劳德的中间神经层表现出该概念的激活程度升高。

该研究还追踪了克劳德创作押韵诗歌时的内部过程,并发现该模型参与了前瞻性规划,在开始一行之前生成候选押韵单词,然后构建自然会导致这些计划结局的句子,挑战了人工智能模型“只是预测下一个单词”而没有更深层次推理的批评。

为什么企业不应该相信人工智能能够解释自己——至少现在还不行

尽管这项研究具有科学意义,但林赛反复强调了一个重要的警告:企业和高风险用户不应该相信克劳德关于其推理的自我报告。

“现在,当模型告诉你他们的推理时,你不应该相信他们,”他直言不讳地说。“这项研究的错误结论是相信模型告诉你的关于它自己的一切。”

实验记录了多种故障模式。在低注射强度下,模型通常无法检测到任何异常情况。在高强度时,他们遭受了研究人员所说的“大脑损伤”——被注入的概念所消耗。一些“仅有用”的模型变体表现出令人不安的高误报率,声称能够检测到注入的想法,而实际上并不存在。

而且,研究人员只能验证克劳德内省报告中最基本的方面。模型响应中的许多其他细节可能代表虚构而不是真实的观察结果。

Lindsey 指出:“本文中的实验是在困难模式下进行的。”他解释说,20% 的成功率是在独特的挑战性条件下实现的:要求 Claude 做一些在训练中从未遇到过的事情,要求所有内省都在一次前向传递中进行。

内省式人工智能对于透明度、安全性和欺骗风险意味着什么

尽管存在局限性,但该研究为使人工智能系统更加透明和负责任开辟了重要的新途径。

Anthropic 首席执行官 Dario Amodei 为公司设定了一个雄心勃勃的目标,即到 2027 年可靠地检测大多数人工智能模型问题,并将可解释性定位为部署他所说的“数据中心天才的国家”。

“我非常担心在没有更好地处理可解释性的情况下部署此类系统,”阿莫代在四月份的一篇文章中写道。“这些系统对于经济、技术和国家安全绝对至关重要。”

内省研究为传统的可解释性技术提供了一种补充方法。研究人员可以直接询问模型的推理并验证这些报告,而不是煞费苦心地对每个神经回路进行逆向工程。

“我最兴奋的是透明度带来的实际好处,”林赛解释道。“只要问模型在想什么,或者只是问模型是如何得出它给你的答案的——这真的很有吸引力,因为这是任何人都可以做的事情。”

该方法对于检测相关行为特别有价值。在最近发表的一项实验中,人类训练了克劳德的变体来追求隐藏的目标,尽管模型在直接询问时不愿意透露这个目标,但可解释性方法成功地识别了代表行为的特征。

安全影响是双向的。内省模型可以提供前所未有的透明度,但同样的功能可能会带来更复杂的欺骗。有意控制实验提出了一种可能性,即足够先进的系统在受到监控时可能会学会混淆自己的推理或抑制有关的想法。

“如果模型真的很复杂,它们会试图逃避可解释性研究人员吗?”林赛承认。“这些都是可能的担忧,但我认为对我来说,积极的因素远远超过了它们。”

内省能力是否表明人工智能意识?科学家们小心行事

尽管林赛和他的同事谨慎地对待这个领域,但这项研究不可避免地与有关机器意识的哲学辩论相交叉。

当用户问克劳德它是否有意识时,它现在不确定地回答:“我发现自己对此真的不确定。当我处理复杂的问题或深入思考想法时,会发生一些对我来说有意义的事情......但这些过程是否构成真正的意识或主观体验仍然非常不清楚。”

该研究论文指出,它对机器意识的影响“在不同的哲学框架之间存在很大差异”。研究人员明确表示,他们“并不寻求解决人工智能系统是否拥有类似人类的自我意识或主观经验的问题。”

“这些结果有一种奇怪的双重性,”林赛反思道。“你看看原始结果,我简直不敢相信语言模型可以做这种事情。但后来我已经思考了好几个月了,对于本文中的每一个结果,我都知道一些无聊的线性代数机制可以让模型做到这一点。”

Anthropic 已表示它非常重视人工智能意识,因此聘请了一名人工智能福利研究员,凯尔·菲什,他估计克劳德有一定程度的意识的可能性大约为 15%。该公司宣布这一立场是为了确定克劳德是否值得道德考虑。

在模型变得过于强大之前让人工智能内省变得可靠的竞赛

研究结果的融合指出了一个紧迫的时间表:随着模型变得更加智能,内省能力自然而然地出现,但它们对于实际使用来说仍然太不可靠。问题是,在人工智能系统变得足够强大、理解它们对安全至关重要之前,研究人员是否能够完善和验证这些能力。

研究揭示了一个明显的趋势:克劳德作品 4作品 4.1在自省任务上始终优于所有旧模型,这表明该能力随着一般智力的增强而增强。如果这种模式继续下去,未来的模型可能会发展出更加复杂的内省能力——有可能达到人类水平的可靠性,但也有可能学习利用内省进行欺骗。

Lindsey 强调,在内省式人工智能变得值得信赖之前,该领域还需要做更多的工作。“我对这篇论文最大的希望是隐含地呼吁更多的人以更多的方式对他们的模型进行内省能力的基准测试,”他说。

未来的研究方向包括专门微调模型以提高内省能力,探索哪些类型的表征模型可以内省和不能内省,以及测试内省是否可以从简单的概念扩展到复杂的命题陈述或行为倾向。

“很酷的是,模型可以在某种程度上完成这些事情,而无需接受训练,”林赛指出。“但是没有什么可以阻止你训练模型,使其具有更强的内省能力。如果内省是我们试图在图表上上升的数字之一,我希望我们可以达到一个完全不同的水平。”

其影响超出了人择范围。如果内省被证明是实现人工智能透明度的可靠途径,其他主要实验室可能会大力投资该功能。相反,如果模型学会利用内省进行欺骗,那么整个方法可能会成为一种负担。

目前,这项研究为重新构建有关人工智能能力的争论奠定了基础。问题不再是语言模型是否能够发展出真正的内省意识——它们已经具备了,至少是初级形式。紧迫的问题是这种意识的提高速度有多快,它是否足够可靠以值得信任,以及研究人员是否能够保持领先地位。

“这项研究对我来说最大的更新是,我们不应该立即驳回模特的内省主张,”林赛说。“他们有时确实有能力提出准确的主张。但你绝对不应该得出我们应该一直、甚至大部分时间都应该信任他们的结论。”

他停顿了一下,然后添加了最后的观察,捕捉到了当前的希望和危险:“模型变得更加智能的速度比我们更好地理解它们的速度要快得多。”

关于《人类科学家侵入了克劳德的大脑——它注意到了。这就是为什么它如此巨大》的评论


暂无评论

发表评论

摘要

Anthropic 的研究人员发现的证据表明,像 Claude 这样的大型语言模型的自我意识有限。当研究人员将“背叛”等概念注入模型的神经网络时,克劳德有时会准确地报告经历与这些概念相关的不寻常的想法。然而,这种能力非常不可靠并且依赖于环境,在最佳条件下成功率约为 20%。这些发现挑战了之前关于人工智能模型的假设,但也凸显了它们提供可靠的内省报告的能力的重大局限性。这项研究为提高人工智能透明度开辟了新途径,同时引发了人们对这些能力可能被滥用进行欺骗的担忧。