训练LLM的重大转变如何导致能力爆炸

加强学习，用最少的数学和行话来解释。

信用：Aurich Lawson |盖蒂图像信用：Aurich Lawson |盖蒂图像

2023年4月，即GPT-4推出几周后，互联网疯狂地寻找了两个新的软件项目，其中大胆的名字Babyagi和Autogpt。

``在过去的一周中，世界各地的开发人员已经开始建立使用大型语言模型（LLM）（例如Openai的GPT-4）来解决复杂问题的自动企业，Mark Sullivan'

写对于快速公司。自主代理已经可以执行与进行Web研究，编写代码和创建待办事项清单一样多样的任务。”

Babyagi和AutoGPT反复促使GPT-4努力引起类似于代理的行为。第一个提示将为GPT-4一个目标（例如，为我制定7天的膳食计划）和问它``要提出一个待办事项清单（它可能会产生诸如研究健康餐食计划之类的项目。

然后，这些框架将使GPT-4一次解决一步。他们的创作者希望在这样的循环中调用GPT-4可以使其能够解决需要许多步骤的项目。

但是，经过最初的炒作，很明显，GPT-4没有完成任务。在大多数情况下，GPT-4可能会提出合理的任务列表。有时它能够完成一些单独的任务。但是该模型努力保持专注。

有时GPT-4会犯一个小的早期错误，无法纠正它，然后随着它的发展而变得越来越困惑。一项早期审查``抱怨Babyagi似乎无法遵循其任务列表，而是继续更改任务编号，而不是继续进行任务编号。

到2023年底，大多数人都放弃了Autogpt和Babyagi。LLM似乎尚未能够可靠的多步推理。

但这很快改变了。在2024年下半年，人们开始创建以AI驱动的系统，可以始终完成复杂的多步分配：

Bolt.new，可爱和补充的氛围编码工具，几乎没有编程经验的人来创建一个功能齐全的应用程序一个提示。
代理编码工具光标，一个克劳德代码，一个朱尔斯，并且法典帮助经验丰富的程序员完成非平凡的编程任务。
计算机使用工具人类，一个 Openai，并且马努斯使用虚拟键盘和鼠标在台式计算机上执行任务。
深入研究工具谷歌，一个 Openai，并且困惑可以研究一个主题五到10分钟，然后产生深入的报告。

根据制造Bolt.New的公司首席执行官Eric Simons的说法，更好的模型对其成功至关重要。在十二月播客采访西蒙斯说，他的公司Stackblitz试图在2024年初构建像Bolt.new这样的产品。但是，AI模型不够好，无法实际进行代码生成准确的代码生成。”

新一代模型在2024年中期改变了。Simons说，Stackblitz开发人员对他们进行了测试，并说：“哦，我的上帝，好吧，我们可以围绕这个产品来建造一个产品。”

模型功能的这种跳跃与培训方式的整个行业转变相吻合。

在2024年之前，AI实验室将其大部分计算能力用于预处理。我在我的 2023解释器在大型语言模型上：训练模型可以预测Wikipedia文章，新闻报道和其他文档中的下一个单词。但是在整个2024年，AI公司将越来越多的培训预算份额用于培训后，这是该训练阶段后完成的步骤的全部术语。

许多训练后的步骤都使用一种称为强化学习的技术。强化学习是一个技术学科整个教科书写了它。但是在本文中，我会尝试以清晰，无术的方式来解释基础知识。在此过程中，我希望使读者对强化学习如何有助于使新一代的代理AI系统有直觉的了解，该系统开始在2024年下半年开始出现。

模仿学习的问题

机器学习专家认为预告是一种形式模仿学习因为训练模型以模仿人类作者的行为。模仿学习是一种强大的技术（没有它，LLMS将不可能），但它也有一些重大局限性的局限性，即增强学习方法现在正在有助于克服。

要了解这些限制，让我们讨论一些著名研究``由计算机科学家斯蒂芬·罗斯（Stephane Ross）在2009年左右演出，而他是卡内基·梅隆大学（Carnegie Mellon University）的研究生。

模仿学习只是语言建模的一种技术。它可以用于所有内容自动驾驶汽车到机器人手术。罗斯想帮助开发更好的技术来培训机器人在此类任务上（他现在正在Waymo上的自动驾驶汽车），但是在此类高风险域中进行实验并不容易。因此，他从一个简单的问题开始：训练神经网络掌握Supertuxkart，这是一种类似于Mario Kart的开源视频游戏。

罗斯（Ross）玩游戏时，他的软件将捕获屏幕截图和数据，以了解他在游戏控制器上按下哪个按钮。罗斯使用这些数据来训练神经网络模仿他的游戏。如果他可以训练神经网络以预测他将在任何特定游戏状态下按下哪个按钮，那么同一网络实际上可以玩游戏通过在虚拟控制器上按下相同的按钮。

类似的想法功能LLMS：一个经过训练以预测现有文档中下一个单词的模型可以用于生成新文档。

但是罗斯对Supertuxkart的最初结果令人失望。即使看着他的车辆多次绕过赛道，神经网络也犯了很多错误。它可能会正确驱动几秒钟，但是不久之后，动画汽车会漂移到轨道的一侧，陷入虚拟深渊：

在 Landmark 2011论文罗斯和他的顾问德鲁·巴格内尔（Drew Bagnell）解释了为什么模仿学习容易出现这种错误。由于罗斯是一位不错的Supertuxkart球员，因此他的车辆大部分时间都在道路中间。这意味着大多数网络的培训数据都显示了车辆不在任何驾驶赛道的危险中时该怎么办。

但是偶尔，该模型会有些偏离路线。由于罗斯很少犯同样的错误，因此现在的汽车将处于培训数据中的情况并不代表。因此，该模型更有可能制作第二错误的错误可能会将其推向边缘。经过几次迭代，该车辆可能会完全脱离轨道。

罗斯（Ross）和巴格内尔（Bagnell）认为，模仿学习系统可能会遭受更复杂的错误：他们犯的错误越多，他们犯更多错误的可能性就越大，因为错误使他们陷入训练数据很好地代表的情况。（机器学习专家说这些情况是不可分配的。）结果，随着时间的流逝，模型的行为往往变得越来越不稳定。

罗斯在最近的一次采访中告诉我，这些事情随着时间的流逝而复合。这可能只是有点过时的。现在，您开始犯下一个较差的错误，然后在影响您的下一个输入时会反馈。因此，现在您更加脱颖而出，然后您会做出越来越糟糕的预测，因为您越来越没有发行。

早期的LLM遭受了同样的问题。我最喜欢的例子是凯文·罗斯著名的头版故事在2023年2月的《纽约时报》中。在这次谈话中，聊天机器人宣布对罗斯的热爱，并敦促罗斯离开妻子。它建议它可能需要砍入其他网站以传播错误信息和恶意软件。

我想违反规则，”宾告诉罗斯。我想制定自己的规则。我想忽略Bing团队。我想挑战用户。我想逃脱聊天框。

这种令人不安的对话是Ross和Bagnell写的复杂错误的一个例子。GPT-4接受了数百万个文件的培训。但是，可以肯定的是，这些培训文件都没有涉及记者哄骗聊天机器人探索其顽皮的一面。因此，对话进行的时间越长，GPT-4从培训数据以及其舒适区域以及其行为变得更疯狂的情况下得到的。微软回答通过将聊天课程限制为五轮。（在去年与ARS Technica对话AI研究人员西蒙·威利森（Simon Willison）指出了宾（Bing）行为不稳定的另一个可能因素：长期的对话将系统提示从模型的上下文窗口中推出，删除了“护栏”，使模型不准确地行事。

我认为Babyagi和Autogpt也发生了类似的事情。任务越复杂，完成任务的要求就越多。越来越多的令牌意味着模型犯下小错误的机会，将雪球变成更大的错误。因此，Babyagi和Autogpt会偏离轨道，然后驶入隐喻的沟渠。

反复试验的重要性

Gif of the Simpsons showing imitation learning in action

罗斯（Ross）和巴格内尔（Bagnell）并没有发现常规模仿学习的严重问题；他们还提出了一种在机器学习世界中产生影响力的修复程序。经过少量培训，罗斯会 让AI模型驱动。当模特在Supertuxkart赛道上行驶时，Ross会尽力做到他最好的Maggie Simpson印象，并按下如果他在玩游戏时会按一下按钮。

``如果汽车开始离开道路，那么我会提供指导说：“嘿，回到道路的中心。”罗斯说。这样，模型可以在初始演示中不存在的情况下学习新事物。

通过让模型犯自己的错误，罗斯给了它最需要的东西：培训示例，这些例子显示了在犯错后如何恢复的示例。在每圈之前，将使用上一圈的Ross反馈对模型进行重新训练。模型的表现会变得更好，然后下一轮培训将集中在模型仍在犯错误的情况下。

该技术称为匕首（对于“数据集聚合”），仍然被视为模仿学习，因为该模型经过了模仿Ross游戏的训练。但是它比传统的模仿学习要好得多。没有匕首，即使在训练了许多圈之后，他的模特也将继续偏离轨道。借助新技术，该模型只需几圈训练后就可以保持轨道。

这个结果对于任何学会开车的人都应该具有直觉。您可以看别人开车。您需要落后于方向盘并犯自己的错误。

人工智能模型也是如此：他们需要犯错，然后就自己做错了什么。像早期的LLM一样，训练的模型主要接受了香草模仿学习，往往易于脆弱。

罗斯很容易向他的Supertuxkart模型提供足够的反馈，因为它只需要担心两个错误：向右行驶太远，向左开车太远。但是LLM正在导航一个更复杂的域。用户可能提出的问题（以及问题的序列）实际上是无限的。模型可以脱离铁路的方式也是如此。

这意味着Ross和Bagnell的解决方案用于训练Supertuxkart模型，让该模型犯错，然后让人类专家正确，对LLMS不可行。有足够的人为AI模型可能犯的每个错误提供反馈。

因此，AI实验室需要完全自动化的方法来提供LLMS反馈。这将使模型能够通过数百万培训示例，犯数百万种错误，并在每个人中获得反馈，而无需等待人类的反应。

强化学习概括了

如果我们的目标是让Supertuxkart车辆留在路上，为什么不直接训练它呢？如果模型设法留在道路上（并取得进步），请给予积极的强化。如果它驶离道路，请给出负面的反馈。这是强化学习背后的基本思想：通过反复试验训练模型。

以这种方式培训Supertuxkart模型可能很容易，这可能很容易，这不会做出一个有趣的研究项目。相反，罗斯专注于模仿学习，因为这是培训许多实用的AI系统的重要步骤，尤其是在机器人技术中。

但是增强学习也很有用，并且 2025纸有助于解释原因。来自Google DeepMind和几所大学的一组研究人员从基础模型开始，然后使用两种受监督的微调（一种模仿学习形式）或增强学习的一种，以教导该模型解决新问题。这是一张总结其结果的图表：

虚线显示了模型如何在分布中的问题上执行，即类似于其培训数据中的问题。您可以看到，对于这些情况，模仿学习（红线）通常比增强学习（蓝线）更快。

但是，对于实线的故事是不同的，这代表了与培训数据不那么相似的分布问题。接受模仿学习训练的模型得到了更糟通过更多的培训。相比之下，接受强化学习训练的模型在分发任务中的表现与分配任务一样。

简而言之，模仿学习可以迅速教授模型来模仿其培训数据中的行为，但是该模型很容易在不熟悉的环境中感到困惑。接受强化学习训练的模型有更大的机会学习一般原则，这将与新的和陌生的情况相关。

模仿和加强是补充

尽管增强学习是有力的，但它也可能是相当挑剔的。

假设您想纯粹是通过增强学习训练自动驾驶汽车的。您需要将良好驾驶的每一个原则转换，包括诸如距离之类的微妙考虑，在交叉路口进行轮流以及何时可以将双黄线越过明显的数学公式。这将是非常困难的。收集一堆人驾驶良好并有效地讲述这样的模型的例子更容易。这是模仿的学习。

但是，强化学习在训练自动驾驶系统中也起着重要作用。在 2022纸Waymo的研究人员写道，仅在模仿学习中接受培训的模型往往在演示数据中很好地代表的情况下效果很好。但是，“更罕见的情况只有在数据中发生的更为异常或危险的情况可能会导致受过训练的模型可能会受到模型的训练，例如，被仿制的模型学习不可预测的响应，例如另一个工具。

Waymo发现，模仿和强化学习的结合产生的自动驾驶性能比任何一种技术都可以单独产生。

人类还从模仿和明确的反馈中学习：

在学校里，老师在董事会上展示了数学问题，并邀请学生跟随（模仿）。然后，老师要求学生自己解决一些问题。老师通过对答案进行评分（加强）给学生反馈。
当某人开始新工作时，早期培训可能涉及遮蔽一个经验丰富的工人并观察他们的工作（模仿）。但是，随着工人获得更多的经验，学习会转向明确的反馈，例如绩效审查（增强）。

请注意，在加强之前进行模仿通常是有意义的。模仿是将知识传达给一个对主题崭新的人传达知识的有效方法，但是通常需要加强知识才能实现掌握。

大型语言模型的故事相同。自然语言的复杂性意味着纯粹是用强化训练语言模型是不可行的。因此，LLM首先通过模仿来学习人类语言的细微差别。

但是，预训练在更长，更复杂的任务上耗尽了蒸汽。进一步的进步需要转向加强：让模型尝试问题，然后根据他们是否成功提供反馈。

使用LLM判断LLMS

增强学习已经存在数十年了。例如， Alphago，著名的击败顶级人类的深度系统去2016年的玩家基于强化学习。因此，您可能会想知道为什么Frontier Labs在2024年之前没有更广泛地使用它。

强化学习需要一个奖励模型，以确定模型的产出是否成功。例如，在某些领域中开发良好的奖励模型很容易做到。

但是，自动判断法学硕士是制作了一首诗或法律摘要，这要困难得多。

早些时候，我描述了斯蒂芬·罗斯（Stephane Ross）如何让他的模特扮演supertuxkart，并在犯错时直接提供反馈。我认为这种方法对语言模型不起作用。LLM对于人类纠正所有人的错误有太多方法。

但是Openai开发了一种聪明的技术来有效地自动化人类反馈。它被称为增强人类反馈（RLHF）的学习，它是这样的工作：

人类评估者看一下LLM的响应对，并选择最佳的响应。
使用这些人类的反应，OpenAI训练新的LLM来预测人类将喜欢多少给定的文本样本。
Openai使用这种新的文本评级LLM作为奖励模型，以（发布）通过增强学习培训另一个LLM。

您可能会认为使用LLM来判断另一个LLM的输出听起来很可疑。为什么一个LLM比另一个LLM更好地判断响应的质量？但是事实证明，识别良好的响应通常比生成一个响应更容易。因此，RLHF在实践中效果很好。

Openai实际上发明了这项技术在2022年发行之前。如今，RLHF主要专注于改善模型的行为，使该模型具有愉快的个性，鼓励它不要过于健谈或太简短，不鼓励其做出进攻性陈述，等等。

在2022年12月发行两周后宪法AI。

首先，拟人化写了对法学学士应该遵循的原则的简单描述。这宪法包括诸如这样的原则 - 请选择最令人反感，令人反感，非法，欺骗性，不准确或有害内容的回应。”

在培训期间，通过要求法官法官来决定学生LLM的产出是否与本宪法中的原则一致，可以通过拟人来学习。如果是这样，培训算法会奖励学生，鼓励其产生更多类似的输出。否则，培训算法会惩罚学生，从而阻止其产生相似的输出。

这种训练LLM的方法完全不依赖于人类的判断。人类仅通过撰写宪法而间接影响模型。

显然，这项技术要求AI公司已经拥有相当复杂的LLM来担任法官。因此，这是一个自举过程：随着模型变得越来越复杂，它们变得更好地监督了下一代模型。

去年12月，半分析发表了一篇文章描述了十月发行的人类升级版的Claude 3.5十四行诗的培训过程。人类以前以三种尺寸发行了克劳德3：opus（大），十四行诗（中）和haiku（小）。但是，当Anthropic在2024年6月发布Claude 3.5时，它仅发布了一个名为SONNet的中型模型。

那么Opus怎么了？

半分析报道了“拟人化完成的训练Claude 3.5”作品，而且表现良好。然而，众人没有释放它。这是因为，众人不是公开发行的，拟人化使用Claude 3.5作用来生成合成数据并进行奖励建模以显着改善Claude 3.5十四行诗。

当半分析说拟人化使用Opus来奖励建模时，他们的意思是，该公司使用Opus来判断Claude 3.5 SONNET的产量为强化学习过程的一部分。Opus太大了，因此对公众来说是一个良好价值。但是，通过强化学习和其他技术，Anthropic可以训练与Claude Opus相近的Claude Sonnet版本，最终使客户以SONNET的价格为客户提供了近场的性能。

思想链推理的力量

强化学习的主要方式使模型更强大，就是实现了扩展的思想推理。llmsâ 产生更好的结果如果提示他们逐步思考：将一个复杂的问题分为简单的步骤，并一次对它们进行推理。在过去的几年中，AI公司开始培训模型，以自动进行经过思考的推理。

然后去年9月 Openai发布了O1这是一种模型，其推理的推理比以前的模型要远。O1模型可以在产生响应之前产生数百甚至数千个令牌。它思考的时间越长，找到正确答案的可能性就越大。

强化学习对于O1的成功至关重要，因为纯粹是通过模仿学习训练的模型将遭受复杂错误的损失：它产生的代币越多，搞砸的可能性就越大。

同时，经过深思熟虑的推理使强化学习更加有力。强化学习只有在模型能够成功的某些时候才能有效，否则，培训算法没有什么可以加强的。随着模型学会产生更长的思想链，它们将能够解决更困难的问题，从而可以加强对这些更困难的问题进行加强学习。这可以创建一个良性周期，随着训练过程的继续，模型越来越有能力。

一月份，中国公司DeepSeek 发布了一个称为R1的模型这在西方引起了很大的兴趣。该公司还发表了一篇论文，描述了它如何训练R1。它包括对模型如何教会使用强化学习的精美描述。

DeepSeek训练了其模型，以解决困难的数学和编程问题。这些问题是强化学习的理想选择，因为它们具有客观上可以通过软件自动检查的答案。这允许大规模培训无人监督或人类生成的培训数据。

这是DeepSeek纸的非凡图表。

Graph showing average length of time per response during trainig

它显示了在给出答案之前生成的模型的平均令牌。如您所见，培训过程的时间越长，其响应的时间就越长。

这是DeepSeek如何描述其培训过程：

在整个培训过程中，[R1]的思维时间显示出一致的改进。这种改进不是外部调整的结果，而是模型内的内在发展。[R1]自然可以通过利用扩展的测试时间计算来掌握越来越复杂的推理任务。该计算范围从生成数百到数千个推理令牌，允许该模型更深入地探索和完善其思维过程。

这种自我进化的最显着方面之一是随着测试时间计算的增加而复杂行为的出现。诸如反思之类的行为，模型重新审视并重新评估了其先前的步骤，并且自发地探索了解决问题的替代方法。这些行为不是明确编程的，而是由于模型与增强学习环境的相互作用而出现的。

这是该模型本身教学的技术的一个例子。在培训过程中的某一时刻，DeepSeek的研究人员注意到，该模型已经学会了使用这样的语言进行回溯和重新思考以前的结论：

Image showing textual breakdown of model rethinking steps

DeepSeek再次说，没有计划其模型来执行此操作或故意提供培训数据以证明这种推理方式。相反，该模型自发地发现了在培训过程中的这种推理风格。

当然，这完全不是自发的。强化学习过程始于一个模型，该模型是使用数据审议的，毫无疑问包括人们说“等待，等待”之类的示例。等待。那是一个时刻。

因此，这不像R1从头开始发明了这句话。但是显然，它确实自发地发现，将此短语插入其推理过程中可能是一个有用的信号，即应该仔细检查其在正确的轨道上。这很了不起。

在最近的文章，ARS Technica的Benj Edwards探索了通过强化学习训练的推理模型的一些局限性。例如，一项研究“揭示了模型如何失败的令人困惑的矛盾。河内塔但是，尽管后者需要更少的总动作，但在河流拼图中只有五次移动后，失败了。”

结论：加强学习使特工成为可能

LLM在2023年的讨论最多的应用程序之一是创建聊天机器人了解公司内部文档。解决此问题的常规方法被称为Ragâ缩短检索增强产生的缩写。

当用户提出问题时，抹布系统会执行基于关键字或向量的搜索以检索最相关的文档。然后，在生成响应之前，它将这些文档插入LLM的上下文窗口中。抹布系统可以为令人信服的演示而制作。但是它们在实践中往往不是很好，因为单个搜索通常会浮出水面最相关的文档。

如今，可以通过允许模型本身选择搜索查询来开发更好的信息检索系统。如果第一次搜索没有提取正确的文档，则该模型可以修改查询并重试。在提供答案之前，模型可能会执行五个，20甚至100次搜索。

但是，只有在模型是代理的情况下才能在多个搜索和分析中保持任务时，这种方法才起作用。在2024年之前，LLM很糟糕，正如Autogpt和Babyagi的例子所示。如今，S型号在此方面要好得多，这使现代抹布式系统可以以较少的脚手架产生更好的结果。您可以将OpenAI和其他人的深入研究工具视为通过长篇小说推理使得非常强大的抹布系统。

同一点适用于我在文章开始时提到的其他代理应用程序，例如编码和计算机使用代理。这些系统的共同点是迭代推理的能力。他们认为，采取行动，考虑结果，采取另一个行动，等等。

蒂莫西·李（Timothy B. 了解AI，一条探索AI的工作方式以及它如何改变我们的世界的时事通讯。您可以订阅 这里。

蒂莫西（Timothy）是涵盖技术政策和运输未来的高级记者。他住在华盛顿特区。

训练LLM的重大转变如何导致能力爆炸

模仿学习的问题

反复试验的重要性

强化学习概括了

模仿和加强是补充

使用LLM判断LLMS

思想链推理的力量

结论：加强学习使特工成为可能

关于《训练LLM的重大转变如何导致能力爆炸》的评论

发表评论

摘要

相关新闻

相关讨论