作者:Sergio De Simone
最近的两篇论文来自拟人尝试,以阐明大型语言模型中发生的过程,探索如何找到可解释的概念并将其链接到计算“电路”将它们转化为语言,并且如何表征Claude Haiku 3.5的关键行为,包括幻觉,计划和其他关键特征。
大语言模型背后的内部机制仍然存在理解不佳,很难解释或解释他们用来解决问题的策略。根据拟人化的说法,这些策略嵌入了数十亿个计算中,这些计算基于每个单词,但它们在很大程度上仍然不透明。为了探索这个隐藏的推理层,人类研究人员开发了一种新颖的方法,他们称为“ AI Microsope”:
我们从神经科学领域中汲取灵感,该领域长期以来研究了思维生物的凌乱内部,并尝试构建一种AI显微镜,使我们能够识别活动模式和信息流。
用非常简化的术语,人类的AI显微镜涉及用所谓的研究代替正在研究的模型替换模型,其中模型的神经元被稀疏的活性所取代特征通常可以代表可解释的概念。例如,当该模型即将生成州资本时,可能会发射此类功能。
自然,替换模型不会始终产生与基础模型相同的输出。为了解决这一限制,人类研究人员使用本地替换模型对于他们想要学习的每个提示,通过将错误项和固定注意力模式纳入替换模型而创建。
[本地替换模型]产生与原始模型完全相同的输出,但用功能取代了尽可能多的计算。
作为描述通过本地替代模型从初始提示到最终输出的特征流的最后一步,研究人员创建了一个归因图。该图是通过修剪不影响输出的所有功能来构建的。
请记住,这是对人类AI显微镜的非常粗略的概述。有关完整的详细信息,请参阅上面链接的原始论文。
使用这种方法,人类研究取得了许多有趣的结果。说到多语言能力,他们找到了某种形式的证据通用语言克劳德(Claude)在将概念转化为特定语言之前使用。
我们通过向克劳德(Claude)询问不同语言的“小”,并发现相同的核心特征是小小的和相反性的概念激活,并触发了一个宽敞的概念,从而将其转换为问题的语言。
另一个有趣的发现与一般的理解是,LLM“没有太多预见”就建立了他们的逐字输出。取而代之的是,研究克劳德(Claude)如何产生押韵表明它实际上是计划的。
在开始第二行之前,它开始“思考”潜在的主题单词,这些单词会押韵“抓住它”。然后,考虑到这些计划,它写了一条线,以按计划的单词结尾。
拟人化的研究人员还挖掘了为什么模型有时构成信息的原因,也就是幻觉。幻觉在某种意义上是模型如何工作的固有的,因为它们应该总是产生下一个猜测。这意味着模型必须依靠特定的抗凝结训练来应对这种趋势。换句话说,有两种不同的机制在起作用:一种识别“已知实体”,另一个对应于“未知名”或“无法回答”。他们正确的相互作用是守护幻觉的模型:
我们表明,当克劳德(Claude)认出一个名字,但对该人一无所知时,可能会发生这种失火。在这种情况下,已知的实体功能仍可能激活,然后在这种情况下不正确地抑制默认的“不知道”功能。一旦该模型决定需要回答这个问题,它就会结束:产生合理的问题,但不幸的是不正确的回答。
人类研究人员探索的其他有趣的维度关注的是心理数学,从而产生了一个经过思考的链条,解释了找到答案,多步推理和越狱的推理。您可以在Anthropic的论文中获取完整的细节。
Anthropic的AI显微镜旨在为解释性研究做出贡献,并最终提供一种工具,以帮助我们了解模型如何产生其推理并确保它们与人类价值观保持一致。但是,这仍然是一项初期的工作,只能捕获总模型计算的一小部分,只能应用于用数十词的小提示。InfoQ将继续报告LLM可解释性中的进步,因为新见解出现。