大型语言模型 (LLM) 越来越多地用于需要复杂推理的领域,例如数学问题解决和编码。这些模型可以在多个领域生成准确的输出。然而,它们发展的一个重要方面是它们无需外部输入即可自我纠正错误的能力,即内在的自我纠正。许多LLM尽管知道解决复杂问题所需的知识,但无法在需要时准确地检索或应用它,从而导致答案不完整或不正确。自我纠正的重要性日益增加,促使研究人员探索新方法来提高LLM在现实应用中的性能和可靠性。
改进LLM的主要挑战之一是他们无法始终如一地纠正错误。虽然LLM可能会产生部分正确的答案,但在遇到错误时,他们需要帮助来修改不正确的答案。当前的模型要么过度依赖基于提示的指令,要么在出现错误时无法动态调整其响应。这个问题在需要多步骤推理的任务中尤其明显,其中模型无法重新访问和修改早期步骤,从而导致累积不准确。为了解决这个问题,研究人员正在探索增强模型独立检测和纠正错误的能力的技术,从而显着提高涉及推理和解决问题的任务的性能。
已经开发了各种方法来解决这个问题问题,但大多数都有很大的局限性。许多依赖于监督微调,其中LLM接受培训以遵循先前响应的纠正模式。然而,这种方法通常会放大原始训练数据的偏差,导致模型进行最小或无效的校正。其他技术,例如使用多个模型,采用单独的验证者模型来指导纠正。这些方法的计算成本很高,并且可能不适合广泛部署。此外,它们还存在训练数据与现实世界查询分布不匹配的问题,导致在实践中应用时结果不理想。人们越来越需要一种能够让LLM在没有外部监督的情况下进行自我纠正的方法。
Google DeepMind 的研究人员推出了一种名为“强化学习自我纠正”(SCoRe) 的新颖方法。该方法旨在教导LLM使用自行生成的数据来改进他们的反应,从而消除对外部监督或验证模型的需要。通过采用多轮强化学习 (RL),SCoRe 使模型能够从其响应中学习并在后续迭代中对其进行调整。该方法减少了对外部数据的依赖,并通过提高自我校正能力来训练模型更有效地处理现实世界的任务。利用这种方法,研究人员解决了训练数据中分布不匹配的常见问题,使模型校正更加稳健和有效。
SCoRes 方法涉及两个关键阶段。模型在第一阶段进行初始化训练,并进行优化以生成初始校正策略。此步骤有助于模型培养进行大量修正而无需进行较小编辑的能力。第二阶段,采用强化学习来增强模型的自我修正能力。此阶段的重点是提高多轮设置中的模型性能,在后续尝试中产生更好的修正而获得奖励。在强化学习过程中包含奖励塑造可确保模型专注于提高准确性而不是进行最小的更改。将这两个阶段结合起来,可以显着提高模型识别和纠正错误的能力,即使面对复杂的查询也是如此。
SCoRe 方法的结果表明,LLM 的自我纠正性能有了显着提高。当应用于 Gemini 1.0 Pro 和 1.5 Flash 模型时,SCoRe 在 MATH 数据集中的数学推理任务的自校正准确率提高了 15.6%,在 HumanEval 数据集中的编码任务的自校正准确率提高了 9.1%。与传统的监督微调方法相比,这些收益凸显了该方法的有效性。第一次尝试的模型准确率提高到 60.0%,第二次尝试提高到 64.4%,展示了其有效修正初始响应的能力。这些结果是一个重大飞跃,因为现有模型通常无法实现积极的自我纠正率。
性能指标还强调了 SCoRes 在减少正确答案数量(在测试中被更改为错误答案)方面取得的成功。第二次尝试,是其他自我修正方法中常见的问题。该模型将数学推理任务的正确率从 4.6% 提高到 5.8%,同时减少了错误到正确的变化。SCoRe 在编码任务中表现出类似的改进,在 HumanEval 基准上实现了 12.2% 的自我校正增量,强调了其在不同领域的通用性。
总之,SCoRe 的开发解决了一个长期存在的问题大语言模型领域。研究人员通过对自我生成的数据利用强化学习,在使LLM能够有效地进行自我纠正方面取得了重大进展。SCoRe 提高了准确性并增强了模型处理复杂、多步骤推理任务的能力。这种方法标志着与以前依赖外部监督并遭受数据不匹配的方法的重大转变。两阶段的培训过程和奖励塑造为提高LLM的自我纠正能力提供了一个强大的框架,使它们在实际应用中更加可靠。
查看论文。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记在 Twitter 上关注我们并加入我们的 Telegram 频道和 LinkedIn 群组。如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。
不要忘记加入我们的 50k+ ML SubReddit
Nikhil 是 Marktechpost 的实习顾问。他正在印度理工学院卡拉格普尔分校攻读材料综合双学位。Nikhil 是一位 AI/ML 爱好者,一直在研究生物材料和生物医学等领域的应用。凭借深厚的材料科学背景,他正在探索新的进步并创造做出贡献的机会。