大型语言模型：ChatGPT 等背后的人工智能实际上是如何工作的

被称为大语言模型 (LLM) 的人工智能系统（例如 OpenAI 的 ChatGPT 聊天机器人）的到来，被誉为新技术时代的开始。它们确实可能对我们未来的生活和工作方式产生重大影响。

但它们并不是凭空出现的，而且它们的历史比大多数人意识到的要悠久得多。事实上，我们大多数人多年来已经在现有技术中使用他们所基于的方法。

LLM 是一种特殊类型的语言模型，它是基于概率的语言的数学表示。如果您曾经在手机上使用过预测文本或向智能扬声器询问过问题，那么您几乎肯定已经使用过语言模型。但他们实际上是做什么的以及制作一个需要什么？

语言模型旨在估计看到特定单词序列的可能性。这就是概率发挥作用的地方。例如，一个好的英语语言模型会将高概率分配给结构良好的句子，例如“老黑猫睡得很香”，而将低概率分配给随机的单词序列，例如— 库 a 或量子 some —。

大多数语言模型也可以逆转这个过程来生成看起来合理的文本。智能手机中的预测文本使用语言模型来预测您在打字时可能希望如何完成文本。

最早创建语言模型的方法是描述于1951年经过克劳德·香农，IBM 的研究员。他的方法基于称为n 元语法– 比如说，“老黑”或“猫睡得很香”。通过在现有文档中查找示例来估计文本中出现 n 元语法的概率。然后将这些数学概率组合起来，计算较长单词序列（例如完整句子）的总体概率。

随着 n-gram 变长，估计 n-gram 的概率变得更加困难，因此估计 4-gram（四个单词的序列）的准确概率比 bi-gram（两个单词的序列）要困难得多。因此，这种类型的早期语言模型通常基于短 n 元语法。

然而，这意味着他们经常难以表示相距较远的单词之间的联系。当使用语言模型生成句子时，这可能会导致句子的开头和结尾不匹配。

为了避免这个问题，研究人员创建了语言模型基于神经网络– 以人脑工作方式为模型的人工智能系统。这些语言模型能够表示可能不紧密相连的单词之间的联系。神经网络依靠大量数值（称为参数）来帮助理解单词之间的这些联系。为了使模型正常工作，必须正确设置这些参数。

神经网络通过查看大量示例文档来学习这些参数的适当值，这与通过 n-gram 语言模型学习 n-gram 概率类似。在此期间“培训”流程，神经网络查看训练文档并学习根据之前的单词来预测下一个单词。

这些模型运行良好，但也有一些缺点。尽管从理论上讲，神经网络能够表示相距较远的单词之间的联系，但实际上，更重要的是那些较接近的单词。

更重要的是，必须按顺序处理训练文档中的单词，才能学习网络参数的适当值。这限制了网络训练的速度。

变形金刚的黎明

一种新型的神经网络，称为变压器，曾是2017年推出并通过同时处理输入中的所有单词来避免这些问题。这使得它们能够并行训练，这意味着所需的计算可以分布在多台计算机上同时进行。

这一变化的副作用是，它允许变压器接受比以前的方法更多的文档的训练，从而产生更大的语言模型。

变形金刚还可以从文本示例中学习，但可以通过训练来解决更广泛的问题，而不仅仅是预测下一个单词。一种是一种“填空”问题，训练文本中的一些单词已被删除。这里的目标是猜测缺少哪些单词。

另一个问题是，变压器被给予一对句子，并被要求决定第二个句子是否应该在第一个句子之后。对此类问题的训练使 Transformer 比以前的语言模型更加灵活和强大。

变压器的使用使得现代大型语言模型的开发成为可能。它们之所以被称为“大”，部分是因为它们使用比以前的模型多得多的文本示例进行训练。

其中一些人工智能模型经过训练超过一万亿字。一个成年人以平均速度阅读的话需要 7600 多年才能读完这么多内容。这些模型还基于非常大的神经网络，其中一些模型具有超过 1000 亿个参数。

在过去几年中，大型语言模型中添加了一个额外的组件，允许用户使用提示与它们进行交互。这些提示可以是问题或说明。

这使得诸如 ChatGPT、Google 的 Gemini 和 Meta 的 Llama 等生成式人工智能系统的开发成为可能。模型学习使用称为的过程来响应提示强化学习，这类似于教计算机玩国际象棋等游戏的方式。

人类向语言模型提供提示，而人类对人工智能模型产生的回复的反馈被模型的学习算法用来指导进一步的输出。生成所有这些问题并对答复进行评分需要大量的人力投入，而获得这些投入的成本可能很高。

降低成本的一种方法是使用语言模型创建示例来模拟人类与人工智能的交互。然后，人工智能生成的反馈用于训练系统。

不过，创建大型语言模型仍然是一项昂贵的任务。据估计，训练一些最新模型的成本将达到数亿美元。还有一个环境成本，与创建法学硕士相关的二氧化碳排放量估计相当于多次跨大西洋飞行。

这些都是我们需要在人工智能革命中找到解决方案的问题，目前人工智能革命还没有放缓的迹象。