知识的山丘和山谷
基本算术能力存在于记忆路径中,而不是逻辑电路中。
当工程师根据训练数据构建像 GPT-5 这样的人工智能语言模型时,至少会出现两个主要的处理功能:记忆(背诵他们以前看过的准确文本,例如书中的名言或段落)和推理(使用一般原理解决新问题)。人工智能初创公司的新研究好火.ai提供了第一个潜在的明确证据,证明这些不同的功能实际上是通过模型架构中完全独立的神经通路发挥作用的。
研究人员发现这种分离非常干净。在预印本论文中释放10 月底,他们描述说,当移除记忆路径时,模型会丧失 97% 逐字背诵训练数据的能力,但几乎所有“逻辑推理”能力都完好无损。
例如,在艾伦人工智能研究所的第 22 层OLMo-7B在语言模型中,后 50% 的权重成分对记忆数据的激活率高出 23%,而前 10% 的权重成分对一般非记忆文本的激活率高出 26%。这种机械性的分裂使研究人员能够通过外科手术消除记忆,同时保留其他能力。
也许最令人惊讶的是,研究人员发现算术运算似乎与记忆而不是逻辑推理共享相同的神经通路。当他们移除记忆回路后,数学成绩骤降至 66%,而逻辑任务几乎保持不变。这一发现或许可以解释为什么人工智能语言模型出了名的数学困难无需使用外部工具。他们试图从有限的记忆表中回忆算术而不是计算它,就像一个学生记住了乘法表但从未学习过乘法是如何工作的。研究结果表明,在当前规模下,语言模型将“2+2=4”视为记忆的事实,而不是逻辑运算。
值得注意的是,人工智能研究中的“推理”涵盖了一系列能力,这些能力不一定与我们所说的人类推理相匹配。在这项最新研究中,记忆消除后幸存下来的逻辑推理包括评估真/假陈述和遵循 if-then 规则等任务,这些任务本质上是将学习到的模式应用于新的输入。这也不同于证明或新问题解决所需的更深层次的“数学推理”,当前的人工智能模型与斗争即使他们的模式匹配能力保持完好。
展望未来,如果信息删除技术在未来得到进一步发展,人工智能公司有可能有一天从神经网络中删除受版权保护的内容、私人信息或有害的记忆文本,而不会破坏模型执行变革任务的能力。然而,由于神经网络以分布式方式存储信息,目前尚不完全了解,研究人员表示,他们的方法“不能保证完全消除敏感信息”。这些是人工智能新研究方向的早期步骤。
游览神经景观
要了解 Goodfire 的研究人员如何区分这些神经网络中的记忆和推理,了解人工智能中一个称为“损失景观”的概念会有所帮助。“损失景观”是一种可视化人工智能模型在调整其内部设置(称为“权重”)时预测的错误或正确程度的方法。
想象一下,您正在调整一台具有数百万个刻度盘的复杂机器。“损失”衡量的是机器犯错误的数量。高损耗意味着错误多,低损耗意味着错误少。如果您能够绘制出每种可能的拨号设置组合的错误率,就会看到“风景”。
在训练过程中,人工智能模型本质上是在这种情况下“滚下山”(梯度下降),调整他们的权重来找到他们犯错误最少的山谷。此过程提供人工智能模型输出,例如问题的答案。
图 1 摘自论文“从损失曲率谱中的记忆到推理”。信用:梅鲁洛等人。
研究人员分析了特定人工智能语言模型的损失情况的“曲率”,测量了模型性能对不同神经网络权重的微小变化的敏感程度。尖锐的峰和谷代表高曲率(其中微小的变化会产生很大的影响),而平坦的平原代表低曲率(其中变化的影响最小)。
使用一种称为K-FAC(克罗内克因子近似曲率),他们发现单个记忆的事实会在这个景观中产生尖锐的尖峰,但由于每个记忆的项目在不同的方向上尖峰,当平均在一起时,它们会创建一个平坦的轮廓。与此同时,许多不同输入所依赖的推理能力在整个景观中保持一致的适度曲线,就像连绵起伏的山丘,无论你从哪个方向接近它们,它们都保持大致相同的形状。
研究人员在描述推理路径时写道:“实现许多输入所使用的共享机制的方向会连贯地相加,并且平均保持高曲率。”相比之下,记忆使用的是“与特定示例相关的特殊的尖锐方向”,当对数据进行平均时,这些方向显得平坦。
不同的任务揭示了一系列机制
研究人员在多个人工智能系统上测试了他们的技术,以验证不同架构中的研究结果。他们主要使用 Allen Institute 的 OLMo-2 系列开放语言模型,特别是 70 亿和 10 亿参数版本,选择这些版本是因为他们的训练数据可以公开访问。对于视觉模型,他们训练了定制的 8600 万参数 Vision Transformers(ViT-Base 模型)在 ImageNet 上故意错误标记数据以创建受控记忆。他们还根据现有的记忆消除方法验证了他们的发现,例如平衡子网建立绩效基准。
该团队通过有选择地从这些经过训练的模型中删除低曲率权重组件来测试他们的发现。记忆内容的召回率从接近 100% 下降到 3.4%。与此同时,逻辑推理任务保持了基线性能的 95% 到 106%。
这些逻辑任务包括布尔表达式求值、逻辑演绎难题,其中求解器必须跟踪关系,例如“如果 A 比 B 高”、通过多次交换进行对象跟踪,以及诸如此类的基准测试布尔Q对于是/否推理,维诺格兰德用于常识推理,以及OpenBookQA对于需要根据所提供的事实进行推理的科学问题。有些任务介于这两个极端之间,揭示了一系列机制。
数学运算和闭卷事实检索与记忆共享路径,编辑后性能下降至 66% 至 86%。研究人员发现算术特别脆弱。即使模型生成相同的推理链,在移除低曲率组件后,它们也会在计算步骤中失败。
图 3 摘自论文“从损失曲率谱中的记忆到推理”。信用:梅鲁洛等人。
“算术问题本身是以 7B 规模来记忆的,或者因为它们需要狭隘的使用方向来进行精确计算,”该团队解释道。开卷问答依赖于提供的上下文而不是内部知识,事实证明对编辑过程来说是最稳健的,几乎保持了全部性能。
奇怪的是,机制分离因信息类型而异。国家首都等常见事实在编辑后几乎没有变化,而公司首席执行官等罕见事实则下降了 78%。这表明模型根据信息在训练中出现的频率来分配不同的神经资源。
K-FAC 技术优于现有的记忆删除方法,无需记忆内容的训练示例。对于未见过的历史报价,K-FAC 的记忆率为 16.1%,而之前的最佳方法 BalancedSubnet 的记忆率为 60%。
视觉变形金刚也表现出类似的模式。当使用故意贴错标签的图像进行训练时,模型开发出了记住错误标签与学习正确模式的不同途径。删除记忆路径后,之前标记错误的图像的准确率恢复了 66.5%。
内存删除的限制
然而,研究人员承认他们的技术并不完美。如果模型接受更多训练,曾经删除的记忆可能会恢复,例如其他研究研究表明,当前的忘却方法只是抑制信息,而不是从神经网络的权重中完全删除信息。这意味着只需针对这些被抑制区域的几个训练步骤就可以重新激活“被遗忘”的内容。
研究人员也无法完全解释为什么当记忆被消除时,某些能力(例如数学)很容易被破坏。目前尚不清楚该模型是否真的记住了所有算术,或者数学是否只是碰巧使用类似的神经回路作为记忆。此外,一些复杂的功能可能看起来像是对其检测方法的记忆,即使它们实际上是复杂的推理模式。最后,他们用来测量模型“景观”的数学工具在极端情况下可能会变得不可靠,尽管这不会影响实际的编辑过程。
