作者:By Ben Brubaker January 13, 2025
学习语言并没有那么难——世界上的每个婴儿都可以在几年内做到这一点。弄清楚这个过程是如何运作的则是另一回事。语言学家已经设计出复杂的理论来解释它,但机器学习的最新进展又增加了一个新的问题。当计算机科学家开始构建为 ChatGPT 等现代聊天机器人提供动力的语言模型时,他们搁置了数十年的语言学研究,他们的赌博似乎得到了回报。但他们的创作真的能学习吗?
“即使他们做的事情看起来像人类做的事情,他们这样做的原因也可能截然不同,”说塔尔林岑,纽约大学计算语言学家。
这不仅仅是对定义争论的问题。如果语言模型真的在学习语言,研究人员可能需要新的理论来解释它们是如何做到的。但如果模型做的事情比较肤浅,那么机器学习也许无法提供语言学的见解。
诺姆·乔姆斯基语言学领域的泰斗曾公开主张后一种观点。在严酷的2023年纽约时报意见稿在书中,他和两位合著者提出了许多反对语言模型的论点,其中一个乍一听似乎是矛盾的:语言模型与语言学无关,因为它们学得太好了。具体来说,作者声称模型可以掌握“不可能的”语言,这些语言受规则的约束,与任何已知的人类语言不同,就像掌握可能的语言一样容易。
最近,五位计算语言学家对乔姆斯基的主张进行了检验。他们修改了一个英语文本数据库,生成了十几种不可能的语言,并发现语言模型学习这些语言比普通英语更困难。他们的论文标题为“使命:不可能的语言模型, — 在2024年计算语言学协会会议上荣获最佳论文奖。
“这是一篇很棒的论文,”说阿黛尔·戈德堡,普林斯顿大学语言学家。“这绝对是及时且重要的。”结果表明,对于寻求理解婴儿牙牙学语的研究人员来说,语言模型毕竟可能是有用的工具。
20 世纪上半叶,大多数语言学家都关心对世界语言进行编目。然后,在 20 世纪 50 年代末,乔姆斯基率先提出了另一种方法。他借鉴了理论计算机科学和数理逻辑的思想,雄心勃勃地试图揭示所有语言背后的通用结构。
乔姆斯基认为,人类必须具有专门用于语言处理的先天心理机制。这可以解释语言学中的许多重大谜团,包括观察到一些简单的语法规则从未出现在任何已知语言中。
乔姆斯基推断,如果语言学习与其他类型的学习一样,它就不会偏向某些语法规则。但如果语言确实很特殊,那么这正是你所期望的:任何专门的语言处理系统都必然使人类倾向于某些语言,而使其他语言变得不可能。
“如果说人类生来就学习某些东西,而不说他们也生来不学习其他东西,这实际上是没有意义的,”说蒂姆·亨特,加州大学洛杉矶分校的语言学家。
乔姆斯基的方法很快成为理论语言学研究的主流。半个世纪以来一直如此。然后是机器学习革命。
语言模型基于称为神经网络的数学结构,它根据组成神经元之间的连接来处理数据。每个连接的强度都用一个数字来量化,称为权重。为了构建语言模型,研究人员首先选择特定类型的神经网络,然后为连接随机分配权重。结果,语言模型一开始就胡言乱语。然后,研究人员训练模型来预测句子将如何继续,一次一个单词。他们通过向模型提供大量文本来做到这一点。每次模型看到一段文本时,它都会给出下一个单词的预测,然后将此输出与实际文本进行比较,调整连接神经元之间的相互作用以改善其预测。经过足够多的微小调整后,它学会了生成异常流畅的句子。
语言模型和人类有明显的不同。仅举一个例子,最先进的模型必须接受数万亿个单词的训练,这远远超过任何人一生中看到的数量。即便如此,语言模型可能会为语言学习提供一种新颖的测试用例——它可以避开对人类婴儿进行实验的伦理限制。
“不存在语言的动物模型,”说伊莎贝尔·帕帕迪米特里乌哈佛大学计算语言学家,也是这篇新论文的合著者。“语言模型是我们可以以任何干预方式进行实验的第一个东西。”
语言模型确实有效的事实证明,无需乔姆斯基提出的任何专门机制,类似语言学习的事情也可以发生。基于神经网络的系统在许多任务上取得了巨大成功完全 无关语言处理,他们的训练过程忽略了语言学家所学到的关于句子复杂结构的一切。
——你只是说,“我看过这些话;”接下来会发生什么,这是一种非常线性的思考语言的方式,”说杰夫·米切尔,萨塞克斯大学的计算语言学家。
2020年,米切尔和杰弗里·鲍尔斯布里斯托大学的心理学家开始研究语言模型(不寻常的学习方式)如何影响他们掌握不可能的语言的能力。从头开始发明一种新语言会引入太多不受控制的变量:如果一个模型在学习人工语言方面表现更好或更差,则很难查明原因。相反,米切尔和鲍尔斯为他们的实验设计了一种控制方法,通过以不同的方式操作英语文本数据集,创建三种受奇怪规则控制的独特的人工语言。例如,为了构建一种语言,他们在随机位置将每个英语句子分成两部分,并翻转第二部分中的单词顺序。
米切尔和鲍尔斯从未经训练的语言模型的四个相同副本开始。然后,他们在不同的数据集上对每个人进行训练——三种不可能的语言和未经修改的英语。最后,他们对每个模型进行了语法测试,涉及其所训练语言的新句子。
用不可能的语言训练的模型并没有受到复杂语法的困扰。他们是几乎一样准确就像接受过英语培训的人一样。
语言模型似乎可以完成不可能的任务。乔姆斯基和他的合著者在 2023 年的文章中引用了这些结果,认为语言模型本质上无法区分可能的语言,甚至是最卡通化的不可能的语言。就是这样。案子已经结案了吧?
朱莉·卡利尼不太确定。那是 2023 年 8 月,她刚刚开始在斯坦福大学攻读计算机科学研究生。乔姆斯基对语言模型的批评经常出现在她同学的非正式讨论中。但当卡里尼研究文献时,她意识到,自三年前米切尔和鲍尔斯的论文以来,还没有关于不可能语言的实证研究。她发现这篇论文很有趣,但认为乔姆斯基的全面主张需要更多证据。它本应适用于所有语言模型,但米切尔和鲍尔斯只测试了一种较旧类型的神经网络,这种网络如今不太流行。对于卡里尼来说,任务很明显:用现代模型检验乔姆斯基的主张。
卡里尼会见了她的顾问,克里斯托弗·波茨,并提出对所谓的变压器网络中不可能的语言习得进行彻底研究,变压器网络是当今领先语言模型的核心。波茨最初认为这对于卡里尼作为研究生的第一个项目来说听起来过于雄心勃勃,但她说服了他,这是值得追求的。
“朱莉非常无情,”他说。