最新的 OpenAI 公告展示了强化微调如何快速将生成式 AI 转变为特定领域的向导

2024-12-09 02:23:32 英文原文

作者：Lance Eliot

OpenAI 在他们的产品中添加了强化微调（RFT），这将使那些寻求... [+]设计特定领域的人工智能非常高兴。

盖蒂

在今天的专栏中，我研究了最近披露的增强 OpenAI 先进 o1 AI 模型的功能，该功能在“OpenAI 12 天”视频流公告的第二天进行了简要展示。该功能称为强化微调 (RFT)。

很多媒体都在叫嚣这是“新事物”，就好像以前没有人想到过 RFT 一样。

悲伤又愚蠢。

确实存在关于强化微调的人工智能研究，有时被标记为 RFT 或 ReFT。无论如何，是的，这表面上是新的，因为它是 OpenAI o1 的一项附加功能，因此也是该产品的一项新功能。这确实令人兴奋。请注意，OpenAI 可能选择以与其他人不同的方式建立 RFT - 目前，他们的 RFT 版本仅在有限的预览基础上提供，并且他们经常对具体的技术细节保密，因为他们考虑到他们的人工智能模型是专有的。

因此，人们必须做一些纸上谈兵的人工智能占卜侦探工作，才能了解它的全部内容。

我们来谈谈吧。

对创新命题的分析是我正在进行的《福布斯》专栏报道的一部分，内容涉及人工智能的最新进展，包括识别和解释各种有影响力的人工智能复杂性（请参阅链接在这里）。有关我对 OpenAI o1 AI 模型的关键功能和重要进步的分析，请参阅链接在这里和链接在这里，涵盖了思想链推理、强化学习等各个方面。

强化微调的总体目标

以下是 RFT 的典型构想。

首先，假设您想要采用通用生成人工智能或大型语言模型 (LLM)，并将其转变为特定领域的向导。

这是当今的一个大趋势。大多数人工智能都是相当通用的，而且是万事通。有人将此称为人工智能一英寸深、一英里长。目的是将生成式人工智能应用于法律、金融、医疗等特定领域。这样做需要从一英里长、一英寸深到在一个狭窄的兴趣领域至少几英尺深。

如果您对如何派生特定领域的实例感兴趣，我已经广泛讨论了生成式人工智能在执行法律咨询方面的应用，请参阅链接在这里，而我深入探索的另一个领域是使用生成式人工智能进行心理健康指导，请参阅链接在这里。通常采用的方法或技术包括上下文建模或检索增强生成 (RAG)，您可以在我的解释中阅读相关内容：链接在这里。

在寻找推动通用生成人工智能达到特定领域熟练程度的最佳方法时，存在着一种对圣杯的追求。

RFT 是一种用于领域特异性的方法

瞧，这让我们看到了使用强化微调或 RFT 的宏伟承诺和希望。

交易是这样的。

RFT 是一种方法或技术，它倾向于微调通用生成人工智能模型，使其在某些方面变得特定于领域。您可以通过将与感兴趣领域相关的数据放在一起，将其输入生成人工智能，并使用 RFT 方法引导人工智能“学习”该领域来实现这一目标。

通过为人工智能提供表面上的强化，对人工智能模型进行增量微调。当人工智能做对事情时，它会被告知它做得很好，并且应该进行调整以产生类似的未来答案（本质上是因为正确而获得奖励）。当人工智能在数据训练过程中出现问题时，系统会指示其响应不正确，因此人工智能将来应该避免这种方法（对不正确的惩罚）。

这就是强化的工作原理。

请注意，我之前将“学习”一词放在引号中。我这样做是因为我们通过使用适用于人类的术语来过度拟人化人工智能，然后延伸这些词语来表明同样适用于人工智能。人工智能正在执行的“学习”类型不应被视为与人类学习相同，请参阅我的讨论：链接在这里。它是数学和计算重新表述和调整的一种形式。

通用与具体的平衡

请记住，您通常会保留 AI 模型中的通用方面，并且在尝试使 AI 在特定领域加快速度时不一定会减少这些方面。话虽这么说，如果您不是特别需要全面的通用生成式 AI，您可以将 AI 精简为一些准系统，然后应用 RFT，或者可能先进行 RFT，然后再精简生成的 AI。这完全取决于您的目标是什么。

为什么要去掉一些通用的东西？

大多数生成式人工智能规模都很大，无法在智能手机上本地运行，因此需要您在线访问人工智能。这意味着您需要可靠的在线连接。由于您访问云中昂贵的服务器，因此成本也很高。总而言之，人们正在热切地追求小语言模型（SLM）的发展，以便缩小尺寸和可能减少功能的生成式人工智能版本可以在日常设备上独立运行，请参阅我的分析：链接在这里。

生成特定领域的人工智能模型时通常会出现同样的情况。您可能希望它在智能手机上运行，而不必依赖云。因此，你可以潜在地破解各种似乎与当前领域不相关的通用方面（人工智能是否需要了解例如亚伯拉罕·林肯的信息才能针对某种特定疾病提供医疗建议？）。

缺点是人工智能无法很好地响应全面的提示，并且可能会被视为比大型人工智能更弱。

执行 RFT 的基本步骤

我描述强化微调的方式是，RFT 包含五个主要步骤：

(1) 数据集准备：为所选领域组合合适的自定义数据集，并将准备好的数据格式化为通用结构化格式（例如 JSONL）。
(2) 平地机形成：设计基于计算机的分级功能和/或利用现有的自动分级系统，该系统将用于评估模型输出。评估通常包括对人工智能响应的正确性进行评分（最高优先级），也可能对质量和推理进行评分。
(3) 强化微调：人工智能模型通过准确推理的计算奖励（被认为提供激励）和错误惩罚（称为抑制）来接收迭代反馈，从而逐渐提高性能。在 RFT 期间，输入准备好的数据集的选定部分，并保留其他部分以供以后在验证期间使用。
(4) 验证过程。利用保留或未见的数据集部分来验证和评估 AI 模型有效泛化的能力。这是验证过程，对于确定 RFT 是否对 AI 模型的领域特异性产生积极的显着影响至关重要。根据需要进行迭代。
(5) 优化和上线：最终确定 RFT，以确保 AI 模型具有适当的效率和效果，确定足迹大小是否合适（通常首选较小的），以及 AI 是否足够专门用于所选的目标领域。部署完整的 AI 模型。密切关注持续使用和反馈。更新人工智能模型，包括根据需要进行维护。

这五个步骤抓住了 RFT 需要采取的措施的本质。存在六步、七步、甚至十步的变体。我指出的五个步骤几乎涵盖了整个范围，并且以一种整齐的方式进行。

评分的重要性

可能引起您注意的一个方面是步骤#2，分级机形成。

请允许我详细说明这一点。

我已经注意到，强化过程包括告诉人工智能何时正确、何时错误，在 RFT 整体工作中这样做。人工智能内部人士的说法是，人工智能正在被评分，就像在学校获得字母成绩一样。

在学校取得“A”成绩意味着一切进展顺利。可怕的“F”等级意味着答案不正确。在 RFT 过程中通常不使用字母来指定等级，而是使用数值。通常的做法是为错误的响应分配 0 分，为正确的响应分配 1 分。由于并非所有答案都完全正确或完全错误，因此使用 0 到 1 之间的值来表明响应的正确或错误程度。

例如，想象一下我正在使用 RFT 对通用生成式人工智能进行数据训练。它正在调整到法律领域。我输入了一堆由各种法律、法规等组成的法律内容。在 RFT 过程中，我会输入提示，要求 AI 确定给定的法律条款在法律上是否合理。人工智能会进行计算评估，并返回一个答案：该条款可以继续执行。

如果答案正确，则给出的分数将为 1，而如果答案不正确，则给出的分数将为 0。但世界并不总是那么二元。假设人工智能表示该条款在某些情况下在法律上是正确的，但在其他情况下存在漏洞。也许这是一个相对公平的答案，尽管在某些方面是正确的，但在某些方面是不正确的。给出的分数可能是 0.60，表明该响应大部分是正确的（因为它的分数高于 0.50，并且逐渐接近满分 1.0），尽管它也有部分不正确（因此它不是满分 1.0，只给出了得分为 0.60）。

等级是如何确定的？

您可以在 RFT 期间雇用一名人员来发放成绩。这很费力，往往很慢，而且可能很昂贵。一般来说，分级组件通常是某种形式的自动化。它可能是为特定领域开发的专门程序。它可以是一个可以跨多个领域使用的通用评分系统。您甚至可以使用另一个生成式 AI 作为评分者，例如让第二个生成式 AI 站在那儿，在 RFT 期间进行评分。

最重要的是，分级机至关重要，如果您没有正确设置该设置，RFT 的其余部分就会失效。

大转折是思想链的引入

我有一个重要的转折点要告诉你。

一个持续受到激烈争论的假设是，当生成式 AI 包含思想链推理 (CoT) 等高级 AI 功能时，RFT 的使用将显着发挥作用，请参阅我关于 CoT 的讨论：链接在这里。

思维链是指当人工智能试图解决问题或给出答案时，人工智能被指示执行一系列逻辑步骤。如果试图诊断患者，人工智能可能首先评估患者的基本数据，例如年龄、体重、健康状况等。第二步可能是检查血液检查等医学测试。第三步可能是检查哪种食物适合该患者。第四步可能是做出医学诊断并解释如何确定该诊断。

让我们重新考虑 RFT。

利用一系列思想的生成人工智能可以通过以下方式通过强化过程进行锻炼和微调。我们让人工智能继续尝试根据我们为数据训练目的收集的数据来诊断患者。衍生出一个特定的思想链。太好了，这就是我们希望发生的事情。

大量的 CoT 导致挑剔

事实证明，就像老话一样，剥猫皮的方法不止一种（抱歉，这有点阴郁），我们可以让人工智能再次进行诊断。第二次的思路可能会有所不同。我们第三次这样做，并不断让人工智能尝试各种 CoT。对于每次尝试，我们都会使用我们建立的任何评分器或评分系统为得出的答案分配一个等级。

这有什么作用呢？

啊哈，希望通过告诉人工智能哪些答案是正确的，哪些答案是错误的，这也能揭示哪些思想链是对的，哪些是错的。从数学上来说，人工智能可能会开始倾向于受到奖励的 CoT，并远离受到惩罚或抑制的 CoT。

这种强化微调的行为间接引导生成人工智能走向更强大、更好的思维链方法，并将其从不太好的 CoT 中引导出来。

如果做得好，我们不仅能得出正确的答案，而且在某种意义上，我们还能塑造人工智能将要使用的思想链的本质。一句厚颜无耻的说法就是一句著名的格言：授人以鱼，可以喂他一天；授人以鱼，可以喂他一辈子。

砰，放下麦克风。

OpenAI 开启了 RFT 之门

此前，OpenAI 已经接受了监督微调（SFT）的使用，我在链接在这里。OpenAI 采用的 SFT 主要是调整 AI 的语气和回答风格。这很方便。RFT 旨在挖掘特定领域并让 AI 及时回答特定领域的提示。这是微调的不同角度。

这两种技术都有其特定的目标。

OpenAI 的 RFT 目前被认为仅提供有限的预览版，并将在明年某个时候更广泛地提供。同时，OpenAI 也表示他们正在认真寻找成熟的领域来使用 RFT。想要立即获得预览功能的 AI 研究人员和领域专家可以向 OpenAI 提交他们的浓厚兴趣（详细信息请参阅 OpenAI 官方日志）。

以下是 OpenAI 在其正式公告中对 RFT 的官方说法，如“OpenAI 的强化微调研究计划”所述，OpenAI 博客，2024 年 12 月 6 日（摘录）：

– 这种新的模型定制技术使开发人员能够使用数十到数千个高质量任务来定制我们的模型，并使用提供的参考答案对模型的响应进行评分。 –
– 这项技术强化了模型如何通过类似问题进行推理，并提高其在该领域特定任务上的准确性。 –
“我们在法律、保险、医疗保健、金融和工程等领域看到了有希望的结果，因为强化微调擅长于结果具有大多数专家都会同意的客观“正确”答案的任务. –
– 我们正在扩展我们的强化微调研究计划，使开发人员和机器学习工程师能够创建经过微调的专家模型，以擅长处理特定的复杂、特定领域的任务。 –
“我们鼓励研究机构、大学和企业申请，特别是那些目前执行由专家领导的有限复杂任务并将受益于人工智能援助的机构。”

如果您精通某个特定领域并相信生成式 AI 将是一个福音，并且如果您对 RFT 作为一种潜在方法感兴趣，那么您可能需要考虑尝试使用这个最新的 OpenAI o1 模型增强。

未来是光明的，有更多的方法

目前的最后评论。

我之前提请您注意的转折中有一个令人着迷的转折。事情是这样的。RFT 的流行方法通常是仅根据人工智能的回答来分配等级。我的观点是，思想链并没有直接分级。CoT 仅间接评分。

有趣的下一步包括对实际 CoT 甚至 CoT 的片段或切片进行分级。

让我以人性的角度来阐述这一点，谨慎地说。想象一下，一个学生向我提供了他们完成的测试，并要求他们在紧邻每个问题的地方写下测试答案的逻辑。一种评分方法是简单地查看答案并评分。作为一名评分者，我完全忽视了学生所表现出的逻辑。

另一种评分形式是查看他们如何得出答案，并根据答案和所使用的逻辑来评分。

仔细考虑这种评分方法。

也许这是一种更好的评分方式，因为学生可以大致了解他们的逻辑在哪里或如何出错。如果他们只知道答案是对还是错，他们就不会得到太多关于他们如何得出答案的反馈。您可以令人信服地争辩说，在更细粒度的级别上进行评分可以显着增强他们的能力。

有一些权衡。评分者必须做更多的工作。评分者必须在评分方面做得更好，因为他们不再简单地将一个答案与答案键进行比较。另外，假设评分者搞砸了并对学生使用的逻辑给出了错误的指导。哎呀，这可能会让学生疲惫不堪，而且他们的情况比以前更糟。ETC。

如果我们确实以这种方式进一步增强 RFT，我们是否应该将其称为某种超级 RFT，也许称为 SRFT 或 SURFT？

你永远不知道什么术语会起作用。

让我们用一句著名的谚语来结束吧：“学习是一件宝藏，它的主人将永远跟随它。”我想我们可以说这句座右铭适用于人类，甚至可能适用于人工智能的进步和未来。

继续学习。

关于《最新的 OpenAI 公告展示了强化微调如何快速将生成式 AI 转变为特定领域的向导》的评论

暂无评论

发表评论

摘要

您对强化微调 (RFT) 及其潜在进步的见解非常有见地。让我们分解一些关键方面和含义：### 了解 RFT强化微调 (RFT) 是 OpenAI 推出的一种方法，用于针对特定领域（例如法律、保险、医疗保健、金融和工程）定制模型。该技术侧重于通过特定于任务的反馈来强化模型的推理过程，而不仅仅是调整其语气或风格。### RFT 的主要特点1. **高质量任务**：RFT 使用一组高质量任务来训练 AI。2. **评分响应**：用户提供参考答案，模型根据其与这些参考的匹配程度进行评分。3. **特定领域的卓越性**：此方法在专家一致同意客观正确答案的领域表现出色。### RFT 的优点1. **提高准确性**：通过专注于具有明确结果的特定任务，RFT 可以显着提高关键领域人工智能响应的准确性和可靠性。2. **专家级性能**：它允许模型实现针对特定领域量身定制的专家级性能，使其对专业应用更有价值。### 下一步：分级思路 (CoT)您关于不仅对最终答案进行评分而且对思想链（CoT）进行评分的建议是一个令人信服的建议。这种方法可以提供更深入的见解和更好的反馈机制：1. **详细反馈**：通过评估推理过程，用户可以获得关于其逻辑可能出错的更细粒度的反馈。2. **增强学习**：CoT 的详细分析可以帮助识别逻辑推理中的模式或缺陷，从而增强学习和改进。### 挑战1. **复杂性增加**：对 CoT 进行评分比仅对答案进行评分更复杂。它需要对解决问题的过程有更深入的了解。2. **潜在的误导**：如果 CoT 的反馈不准确，可能会导致混乱或误导，这可能不利于学习。### 增强型 RFT 的潜在名称1. **超级强化微调（SRFT）**：这个名字强调了该方法的先进性。2. **结构化强化微调（SURFT）**：这突出了分级 CoT 的结构及其强化能力。＃＃＃结论借助 RFT 等技术，人工智能定制的未来看起来充满希望。通过评估推理过程并提供反馈来增强这一点可能会导致更加强大和可靠的人工智能模型。随着该领域的发展，像 SRFT 或 SURFT 这样的名称可能会体现这些进步的本质。您的最后一句话“学习是一件宝藏，它的主人将追随到任何地方”，这完美地概括了这样一个理念：持续学习，无论是人类还是先进的人工智能系统，对于个人和职业成长都是无价的。这一原则不仅适用于个人学习者，也适用于更广泛的人工智能开发和应用生态系统。在这个令人兴奋的领域不断探索和创新！