作者:By Ben Brubaker April 30, 2025
系列
人工智能研究人员正在使用受神经科学启发的技术来研究语言模型的工作方式,并揭示他们的困惑。
y您通常不会在不了解其工作原理的情况下构建机器。但是对于人工智能研究人员建立了大语言模型,理解是他们没有实现的一件事。实际上,有时他们的工作比工程更像是园艺。
'将番茄种子放在地上,您会得到番茄植物,'马丁·瓦滕伯格,哈佛大学的语言模型研究员。您将其浇水,在它周围除草,但是番茄植物到底是如何工作的?
一些科学家通过观察他们如何应对不同提示的方法来研究语言模型 - 类似于行为心理学的方法。受神经科学启发的机械性解释性子领域的研究人员试图通过打开模型并在内部戳戳模型来理解模型。他们的早期努力已经帮助解释了语言模型如何代表概念以及如何完成某些简单任务。他们还揭示了一些惊喜,这些惊喜表明真正理解AI可能是多么棘手。
大型语言模型围绕数学对象构建松散基于人脑的结构。它们被称为人工神经网络,将许多简单的数学操作链接在一起,处理数字字符串代表单词。语言模型是用胡言乱语还是不可思议的流利度响应提示,取决于另一组称为参数的数字,它描述了其神经网络中的连接。大型语言模型可以具有数十亿甚至数万亿个参数,研究人员不知道如何提前选择一组良好的值。相反,它们从随机开始,然后为模型提供大量数据和一个简单的目标:鉴于此数据集中的任何文本段,请预测下一个单词。
该模型重复此词预测任务数万亿次。每次尝试后,一个单独的算法轻推模型的参数在使正确答案更有可能的方向上。这个过程称为培训,但这是一个错误的称呼。一旦研究人员开始运动,他们就参与了模型的开发,当时园丁看着番茄植物的生长。
从理论上讲,研究人员可以在训练有素的语言模型中凝视并读取其所有参数的值。他们还可以通过记录其每个内部组件的输出或激活来衡量模型如何响应任何特定提示。这些神经科学家将共同提供大量数据,类似于一个人的大脑的完美图,以及单独的电极来监测每个神经元的活性。但是所有这些数字都没有说明。好运,使用它们来预测模型将如何响应新的提示。
幸运的是,可解释性研究人员不仅可以阅读参数和激活的值:他们也可以改变它们。编辑参数类似于超靶向的脑部手术 - 能够调整单个神经元的手术刀。编辑激活使研究人员可以暂时更改特定组件对任何给定刺激的响应,以查看这如何影响模型的输出。
激活编辑还允许研究人员做类似于复制和粘贴心理状态的事情:它们给出一个一个提示,记录某些组件的激活,然后将这些激活插入模型的响应中,以对第二个提示。研究人员已经使用了这种技术查明某些事实存储的位置在语言模型中。但是这些结果总是很简单。即使有强有力的证据表明概念存储在模型的一个部分中,有时也可以通过在另一部分修补。这是神经网络的内部运作反对人类直觉的许多情况之一。
``看起来很多事情绝对应该是真的,但是当您仔细观察时,它们只是在挑战。Asma Ghandeharioun,Google DeepMind的一名可解释性研究人员。
研究人员还取得了进步,以确定语言模型用于执行任务的程序,例如检索相关词从句子的早期开始,识别语法功能某些单词或做简单的算术。他们观察到,有时模型以任意的方式遵循不同的程序,以进行相同任务的变化。就像在刷牙之前先检查天气一样,因为如果下雨,您总是会使用粉红色的牙刷。在其他情况下,研究人员发现,模型包含许多独立的组件群,做完全相同的事情,可以混淆了工作取笑不同组件的影响。他们甚至观察到一个新兴的自我修复现象,在模型中停用部分导致其他组件改变其行为并掌握关闭的部分功能。
尽管面临这些挑战,但许多可解释性研究人员仍然对该领域的前景保持乐观。瓦滕伯格说,有可能取得进步。我们在五年前领先于我们的位置。