培训大语言模型：从TRPO到GRPO |迈向数据科学

2025-02-06 03:24:03 英文原文

作者：Maxime Wolf

DeepSeek最近做了嗡嗡声在AI社区，由于其成本相对较低的成本令人印象深刻。我认为这是一个更深入了解大型语言模型（LLM）的绝佳机会。在本文中，我们将重点关注强化学习（RL）方面：我们将介绍TRPO，PPO，以及最近的GRPO（不用担心，我很快就会解释所有这些术语！）

我的目的是通过最大程度地减少数学来使这篇文章相对易于阅读和访问，因此您将不需要深入的加固学习背景。但是，我将假设您对机器学习，深度学习以及对LLM的工作方式有一些熟悉。

希望您喜欢这篇文章！

LLMâ培训的三个步骤

在研究RL细节之前，请简要回顾一下训练大型语言模型的三个主要阶段：

预训练：该模型在大型数据集上进行了训练，以基于上述令牌的序列预测下一令牌。
监督微调（SFT）：那时该模型微调在更具针对性的数据上，并与特定的说明保持一致。
强化学习（经常被称为RLHF对于以人为反馈的增强学习）：这是本文的重点。主要目标是通过允许模型直接从反馈中学习，进一步完善与人类偏好的响应对齐。

加强学习基础

在深入研究之前，让我们简要地重新审视强化学习背后的核心思想。

RL很容易理解高水平：代理人与An相互作用环境。代理位于特定状态在环境中可以接受动作过渡到其他州。每个动作都会产生报酬从环境中：这是环境提供指导代理人未来行动的反馈。

考虑以下示例：机器人（代理）导航（并尝试退出）迷宫（环境）。

这状态是环境的当前情况（迷宫中的机器人位置）。
机器人可以不同动作：例如，它可以向前移动，向左转或向右转。
成功航行到出口会产生积极的奖励，撞墙或陷入迷宫的同时导致负奖励。

简单的！现在，让我们现在比喻在LLM的背景下如何使用RL。

在llms的背景下

在LLM培训期间使用时，RL由以下组件定义：

LLM本身是代理
环境：LLM外部的所有内容，包括用户提示，反馈系统和其他上下文信息。这基本上就是LLM在训练过程中与之相互作用的框架。
行动：这些是对模型查询的响应。更具体地说：这些是令牌LLM决定对查询产生生成。
状态：迄今为止，LLM与代币一起回答的当前查询（即部分响应）。
奖励：这里有些棘手：与上面的迷宫示例不同，有通常没有二元奖励。在LLM的背景下，奖励通常来自单独奖励模型，将输出每个（查询，响应）对的分数。该模型是根据注释者对不同响应进行分级的人类通知数据（因此）训练的。目标是获得更高质量的回应以获得更高的回报。

注意：在某些情况下，奖励实际上可以变得更简单。例如，在Deepseekmath中，基于规则的方法可以使用，因为数学响应往往更确定性（正确或错误的答案）

政策是我们目前需要的最终概念。用RL来说，政策只是决定要采取哪种行动的策略。在LLM的情况下，该策略在每个步骤中都会对可能的令牌输出概率分布：简而言之，这是该模型用来采样下一个要生成的令牌。具体而言，该策略由模型的参数（权重）决定。在RL培训期间，我们调整这些参数，以便LLM更有可能产生更好的令牌，即产生更高奖励分数的令牌。

我们经常将该政策写为：

在哪里一个是动作（要生成的令牌），s国家（到目前为止生成的查询和令牌），以及我（模型的参数）。找到最佳政策的想法是RL的全部！

由于我们没有标记数据（就像我们在监督学习中一样）我们使用奖励来调整我们的政策以采取更好的行动。 （用LLM术语：我们调整LLM的参数以生成更好的令牌。）

TRPO（信任区域策略优化）

与监督学习的类比

让我们快速退后一步，回到监督学习通常的工作原理。您已经标记了数据并使用损失函数（例如跨凝胶）来测量模型的预测与真实标签的距离。

然后，我们可以使用反向传播和梯度下降等算法来最大程度地减少损失功能并更新权重我我们的模型。

回想一下我们的政策也输出了概率！从这个意义上说，这类似于监督学习中的模型预测……我们很想写类似：

在哪里s是当前状态和一个是可能的动作。a（s，a）

称为优势功能并衡量与基线相比，在当前状态下选择的作用的好处。这很像标签在监督学习中，但源自奖励而不是明确的标签。简化，我们可以将优势写为：

实际上，基线是使用价值功能。这是RL中的一个常见术语，我稍后将解释。您目前需要知道的是，如果我们继续遵循国家的当前政策，它可以衡量我们将获得的预期奖励s。什么是trpo？TRPO（信任区域策略优化）建立在使用优势函数的想法上，但为

稳定

：它约束在每个更新步骤中，新策略可以偏离旧策略的距离（例如，与批处理梯度下降相似）。它引入了当前和旧政策之间的KL分歧术语（将其视为相似性的衡量标准）：它还将政策除以旧政策。

这个比率乘以优势函数，使我们对每个更新的有益度有多好

相对于旧政策。将所有这些放在一起，TRPO试图最大化

一个代孕目标（涉及优势和政策比率）KL差异约束。PPO（近端策略优化）尽管TRPO是一个重大进步，但由于其计算密集型梯度计算，它不再在实践中广泛使用，尤其是用于培训LLM。

取而代之的是，PPO现在是大多数LLMS架构中的首选方法，包括Chatgpt，Gemini等。

它实际上与TRPO非常相似，但没有执行

KL分歧的严格限制

，PPO介绍了剪裁代孕的目标隐含地限制了策略更新，并大大简化了优化过程。这是PPO目标函数的细分，我们最大程度地调整了模型的参数。GRPO（小组相对策略优化）

价值函数通常如何获得？

让我首先谈论

优势

和价值功能我之前介绍了。在典型的设置（如PPO）中价值模型

与政策一起培训。它的目标是使用我们获得的奖励来预测我们采取的每个动作的价值（每个模型产生的令牌）（请记住，该值应代表预期的累积奖励）。这是它在实践中的工作方式。

以查询方式 - 2+2是什么？我们的模型输出2+2为4，并为该响应获得0.8的奖励。然后我们向后走，属性打折的奖励每个前缀：

2+2的值为0.8
2+2是（1个令牌向后）的值为0.8Î³
2+2â（2个令牌向后）的值为0.8 -
ETC。

在哪里Î³是折现因子（例如0.9）。然后，我们使用这些前缀和相关值来训练价值模型。

重要说明：价值模型和奖励模型是两种不同的东西。奖励模型在RL过程之前进行训练，并使用（查询，响应）和人类排名对。价值模型是同时训练政策的，旨在预测生成过程的每个步骤的未来预期奖励。

Grpo的新功能

即使在实践中，奖励模型通常是从政策中得出的（仅培训了“头”），我们仍然最终保持许多模型并处理多个培训程序（政策，奖励，价值模型）。grpo通过引入更有效的方法来简化这一点。

还记得我之前说的吗？

在PPO中，我们决定将价值函数用作基线。GRPO选择了其他东西：这是Grpo所做的：具体，对于每个查询，GRPO生成一组响应（尺寸G组），并使用其奖励来计算每个响应的优势作为一个Z得分：

在哪里ráµ¢是奖励我 - 响应和¼和 -是该组奖励的平均值和标准偏差。这自然消除了对单独的价值模型的需求。当您考虑时，这个想法很有意义！

它与我们之前介绍的价值函数保持一致从某种意义上说，也可以获得我们可以获得的预期奖励。另外，这种新方法非常适合我们的问题，因为LLM可以轻松生成多个非确定性输出通过使用低温度（控制代币产生的随机性）。

这是GRPO背后的主要思想：摆脱价值模型。

最后，grpo添加了KL分歧术语（确切地说，GRPO使用KL差异的简单近似来进一步改进算法）直接将当前策略与A的目标进行比较参考政策（通常是SFT后模型）。

请参阅下面的最终表述：

而且，主要是Grpo！我希望这可以清楚地概述该过程：它仍然依赖于与TRPO和PPO相同的基础想法，但引入了其他改进，以使培训效率更高，更快，更便宜 - 背后的关键因素DeepSeek的成功。

结论

强化学习已成为当今培训大型语言模型的基石，尤其是通过PPO，以及最近的GRPO。每种方法都基于相同的RL基本面 - 国家，行动，奖励和政策，但添加了自己的曲折以平衡稳定性，效率和人类一致性：

•trpo通过KL Divergence引入了严格的政策限制

•PPO通过剪裁目标放松了这些约束

•grpo通过删除价值模型要求并使用基于组的奖励归一化来付出额外的一步。当然，DeepSeek还可以从其他创新中受益，例如高质量的数据和其他培训策略，但这是另一个时间！

我希望这篇文章能为您提供有关这些方法如何连接和发展的更清晰图片。我相信强化学习将成为培训LLM的主要重点为了提高其性能，超越预训练和SFT，以推动未来的创新。”

如果您对更深入研究感兴趣，请随时查看下面的参考文献或探索我以前的帖子。

感谢您的阅读，并随时拍手和评论！

是否想了解有关变形金刚的更多信息，或者潜入维度诅咒背后的数学？查看我以前的文章：

随意连接LinkedIn
跟着我github更多内容
访问我的网站：maximewolf.com

参考：

[1]大语模型的基础，2025年。https://arxiv.org/pdf/2501.09223
[2]强化学习……enaris。可用网址：https://enaris.org/material/en/reinformention%20Learning/index.html
[3] Y. Gokhale。LLMS和生成AI第5部分的简介：RLHF， -中等的，2023。可用：https://medium.com/@yash9439/introduction-to-to-llms-and-the-generative-ai-part-5-rlhf-64e83fbcd795
[4] L. Weng。``增强学习概述，2018年。https://lilianweng.github.io/posts/2018-02-19-rl-overview/
[5] deepseek-r1：通过增强学习激励LLMS中的推理能力，2025年。https://arxiv.org/pdf/2501.12948
[6] deepseekmath：2025年以开放语言模型推动数学推理的极限。https://arxiv.org/pdf/2402.03300
[7]信任地区政策优化，2017年。https://arxiv.org/pdf/1502.05477

关于《培训大语言模型：从TRPO到GRPO |迈向数据科学》的评论

暂无评论

发表评论

摘要

在培训大语言模型（LLMS）中加强学习（RL）技术的演变和应用的大概括！让我们分解要点和概念以确保清晰度：###关键概念#### 1。**加固学习基础：** - **指出：**当前情况或上下文。 - **动作：**模型基于对状态的理解的作用。 - **奖励：**由环境（或奖励模型）给予的反馈，以指导学习以提高绩效。 - **政策：**决定在给定状态下采取哪种行动的策略。#### 2。** trpo（信任区域策略优化）：** - 介绍了使用KL Divergence从一次迭代变为另一种迭代的限制。 - 通过防止连续迭代之间发生大规模变化，从而避免灾难性遗忘或过度拟合，来确保稳定。#### 3。** PPO（近端策略优化）：** - 通过引入策略更新的剪辑机制来简化TRPO的一些严格约束。 - 这使得PPO在计算上更有效，更易于实现，同时仍保持稳定性。###新技术#### 4。 - **消除价值模型：**而不是使用单独的值模型，而是使用生成的响应组的奖励来计算优势函数。\ [a（s，a）= \ frac {r_i- \ mu} {\ sigma}\] - **基于组的奖励归一化：**生成多个非确定性输出（使用低温），并根据这些组对奖励进行标准化，从而简化了训练过程。#### 5。** GRPO的优势：** - **效率：**通过消除对价值模型的需求并使用基于组的奖励归一化，GRPO降低了计算开销。 - **稳定性与对齐方式：**通过利用多个生成的输出来平衡策略优化与稳定性，并确保与人类偏好更好地保持一致性。### DeepSeek的方法 - ** DeepSeek-r1 **通过RLHF（从人类反馈中学习），重点是激励LLMS中的推理能力。 - ** DeepSeekmath **专门针对开放语言模型中数学推理的界限。###参考和进一步阅读提供的参考文献是深入研究这些主题的好起点，尤其是重点关注GRPO等最新进步。---此概述应该使您清楚地了解RL方法在培训LLM中如何发展，以及为什么像GRPO这样的新技术正在获得吸引力。如果您想探索更多详细信息或特定的数学表述，则引用论文将是一个很好的下一步！