嵌入如何编码单词的含义 - Quanta Magazine

2024-09-18 14:22:16 英文原文

嵌入如何编码单词的含义

简介

一张图片可能相当于一千个单词,但一个单词值多少个数字?这个问题可能听起来很愚蠢,但它恰好是大型语言模型或大语言模型以及通过它们实现人工智能的许多现代应用的基础。

每个大语言模型都有自己的答案。Metas开源的Llama 3模型中,每个单词包含4096个数字;对于 GPT-3,它是 12,288。单独而言,这些被称为嵌入的长数字列表只是难以理解的数字链。但总的来说,它们对单词之间的数学关系进行编码,这些关系看起来惊人地相似。

词嵌入背后的基本思想已有数十年历史了。要在计算机上建模语言,首先要获取字典中的每个单词,并列出其基本特征,多少个由您决定,只要每个单词都相同即可。布朗大学和谷歌 DeepMind 研究语言模型的计算机科学家埃莉·帕夫利克 (Ellie Pavlick) 表示,你几乎可以将其想象为一个 20 个问题的游戏。动物、植物、物体的特征可以是人们认为对区分概念有用的任何东西。然后为列表中的每个功能分配一个数值。例如,“狗”这个词在毛茸茸的方面得分较高,但在金属方面得分较低。结果会将每个单词的语义关联及其与其他单词的关系嵌入到唯一的数字字符串中。

研究人员曾经手动指定这些嵌入,但现在它们是自动生成的。例如,可以训练神经网络根据网络自身定义的特征对单词(或者从技术上讲,称为标记的文本片段)进行分组。帕夫利克说,也许一个功能可以很好地将名词和动词分开,另一个功能可以将句号后出现的单词与句号后不出现的单词分开。

这些机器学习嵌入的缺点是与 20 个问题的游戏不同,每个数字列表中编码的许多描述是人类无法解释的。帕夫利克说,这似乎是一个乱七八糟的东西。神经网络可以以任何有帮助的方式组成特征。

但是,当神经网络接受一项称为语言建模的特定任务(预测序列中的下一个单词)时,它学习的嵌入绝非如此。随意的。就像磁场下排列的铁屑一样,这些值的设置方式使得具有相似关联的单词在数学上具有相似的嵌入。例如,狗和猫的嵌入将比狗和椅子的嵌入更相似。

这种现象可以使嵌入看起来神秘,甚至神奇:神经网络以某种方式将原始数字转换为语言含义,例如帕夫利克说,将稻草变成黄金。字算术国王减去男人加女人大致等于女王的著名例子(打开一个新选项卡)只会增强嵌入周围的光环。它们似乎是大语言模型知识的丰富、灵活的存储库。

但这种所谓的知识与我们在字典中找到的知识完全不同。相反,它更像是一张地图。如果您将每个嵌入想象为由其他嵌入共享的高维地图上的一组坐标,您将看到某些模式弹出。某些单词会聚集在一起,就像郊区拥抱大城市一样。再说一遍,狗和猫的坐标比狗和椅子的坐标更相似。

但与地图上的点不同,这些坐标仅相互引用,而不是任何底层领土,就像纬度和经度数字表示的方式一样地球上的特定地点。相反,狗或猫的嵌入更像是星际空间中的坐标:毫无意义,除了它们与其他已知点的距离有多近。

那么为什么狗和猫的嵌入如此相似呢?这是因为他们利用了语言学家几十年来已知的东西:在相似的上下文中使用的单词往往具有相似的含义。在我雇了一个宠物保姆来喂我的____的序列中,下一个词可能是狗或猫,但它可能不是椅子。您不需要字典来确定这一点,只需统计数据即可。

基于这些统计数据的嵌入上下文坐标是大语言模型如何找到一个良好的起点来进行下一个单词预测,而无需对含义进行编码.

某些单词在某些上下文中比其他单词更适合组合在一起,有时甚至精确到几乎没有其他单词可以做到。(想象一下完成这句话“现任法国总统的名字是____”。)根据许多语言学家的说法,人类之所以能够精细地辨别这种契合感,很大一部分原因是我们不只是将单词彼此联系起来,我们实际上知道它们所指的是什么。,就像地图上的领土一样。语言模型不能,因为嵌入不是这样工作的。

尽管如此,作为语义的代理,嵌入已被证明非常有效。这是大型语言模型迅速跻身人工智能前沿的原因之一。当这些数学对象以符合我们期望的方式组合在一起时,感觉就像智能一样;当他们不这样做时,我们称之为幻觉。但对于 LLM 来说,没有什么区别。它们只是迷失在空间中的数字列表。

摘要

嵌入如何编码单词的含义排序介绍一张图片可能值一千个单词,但一个单词值多少个数字?这个问题可能听起来很愚蠢,但它恰好是大型语言模型(LLM)以及通过它们实现许多人工智能现代应用的基础。例如,狗和猫的嵌入将比狗和椅子的嵌入更相似。基于这些统计数据的嵌入上下文坐标是大语言模型如何找到一个良好的起点来进行下一个单词的预测,而无需对含义进行编码。许多语言学家认为,人类之所以能够精细地辨别这种契合感,很大一部分原因是我们不只是将单词相互关联起来,我们实际上知道它们所指的是什么,就像地图上的领土一样。