作者:Lance Eliot
在今天的专栏中,我研究了最近披露的增强 OpenAI 先进 o1 AI 模型的功能,该功能在“OpenAI 12 天”视频流公告的第二天进行了简要展示。该功能称为强化微调 (RFT)。
很多媒体都在叫嚣这是“新事物”,就好像以前没有人想到过 RFT 一样。
悲伤又愚蠢。
确实存在关于强化微调的人工智能研究,有时被标记为 RFT 或 ReFT。无论如何,是的,这表面上是新的,因为它是 OpenAI o1 的一项附加功能,因此也是该产品的一项新功能。这确实令人兴奋。请注意,OpenAI 可能选择以与其他人不同的方式建立 RFT - 目前,他们的 RFT 版本仅在有限的预览基础上提供,并且他们经常对具体的技术细节保密,因为他们考虑到他们的人工智能模型是专有的。
因此,人们必须做一些纸上谈兵的人工智能占卜侦探工作,才能了解它的全部内容。
我们来谈谈吧。
对创新命题的分析是我正在进行的《福布斯》专栏报道的一部分,内容涉及人工智能的最新进展,包括识别和解释各种有影响力的人工智能复杂性(请参阅链接在这里)。有关我对 OpenAI o1 AI 模型的关键功能和重要进步的分析,请参阅链接在这里和链接在这里,涵盖了思想链推理、强化学习等各个方面。
以下是 RFT 的典型构想。
首先,假设您想要采用通用生成人工智能或大型语言模型 (LLM),并将其转变为特定领域的向导。
这是当今的一个大趋势。大多数人工智能都是相当通用的,而且是万事通。有人将此称为人工智能一英寸深、一英里长。目的是将生成式人工智能应用于法律、金融、医疗等特定领域。这样做需要从一英里长、一英寸深到在一个狭窄的兴趣领域至少几英尺深。
如果您对如何派生特定领域的实例感兴趣,我已经广泛讨论了生成式人工智能在执行法律咨询方面的应用,请参阅链接在这里,而我深入探索的另一个领域是使用生成式人工智能进行心理健康指导,请参阅链接在这里。通常采用的方法或技术包括上下文建模或检索增强生成 (RAG),您可以在我的解释中阅读相关内容:链接在这里。
在寻找推动通用生成人工智能达到特定领域熟练程度的最佳方法时,存在着一种对圣杯的追求。
瞧,这让我们看到了使用强化微调或 RFT 的宏伟承诺和希望。
交易是这样的。
RFT 是一种方法或技术,它倾向于微调通用生成人工智能模型,使其在某些方面变得特定于领域。您可以通过将与感兴趣领域相关的数据放在一起,将其输入生成人工智能,并使用 RFT 方法引导人工智能“学习”该领域来实现这一目标。
通过为人工智能提供表面上的强化,对人工智能模型进行增量微调。当人工智能做对事情时,它会被告知它做得很好,并且应该进行调整以产生类似的未来答案(本质上是因为正确而获得奖励)。当人工智能在数据训练过程中出现问题时,系统会指示其响应不正确,因此人工智能将来应该避免这种方法(对不正确的惩罚)。
这就是强化的工作原理。
请注意,我之前将“学习”一词放在引号中。我这样做是因为我们通过使用适用于人类的术语来过度拟人化人工智能,然后延伸这些词语来表明同样适用于人工智能。人工智能正在执行的“学习”类型不应被视为与人类学习相同,请参阅我的讨论:链接在这里。它是数学和计算重新表述和调整的一种形式。
请记住,您通常会保留 AI 模型中的通用方面,并且在尝试使 AI 在特定领域加快速度时不一定会减少这些方面。话虽这么说,如果您不是特别需要全面的通用生成式 AI,您可以将 AI 精简为一些准系统,然后应用 RFT,或者可能先进行 RFT,然后再精简生成的 AI。这完全取决于您的目标是什么。
为什么要去掉一些通用的东西?
大多数生成式人工智能规模都很大,无法在智能手机上本地运行,因此需要您在线访问人工智能。这意味着您需要可靠的在线连接。由于您访问云中昂贵的服务器,因此成本也很高。总而言之,人们正在热切地追求小语言模型(SLM)的发展,以便缩小尺寸和可能减少功能的生成式人工智能版本可以在日常设备上独立运行,请参阅我的分析:链接在这里。
生成特定领域的人工智能模型时通常会出现同样的情况。您可能希望它在智能手机上运行,而不必依赖云。因此,你可以潜在地破解各种似乎与当前领域不相关的通用方面(人工智能是否需要了解例如亚伯拉罕·林肯的信息才能针对某种特定疾病提供医疗建议?)。
缺点是人工智能无法很好地响应全面的提示,并且可能会被视为比大型人工智能更弱。
我描述强化微调的方式是,RFT 包含五个主要步骤:
这五个步骤抓住了 RFT 需要采取的措施的本质。存在六步、七步、甚至十步的变体。我指出的五个步骤几乎涵盖了整个范围,并且以一种整齐的方式进行。
可能引起您注意的一个方面是步骤#2,分级机形成。
请允许我详细说明这一点。
我已经注意到,强化过程包括告诉人工智能何时正确、何时错误,在 RFT 整体工作中这样做。人工智能内部人士的说法是,人工智能正在被评分,就像在学校获得字母成绩一样。
在学校取得“A”成绩意味着一切进展顺利。可怕的“F”等级意味着答案不正确。在 RFT 过程中通常不使用字母来指定等级,而是使用数值。通常的做法是为错误的响应分配 0 分,为正确的响应分配 1 分。由于并非所有答案都完全正确或完全错误,因此使用 0 到 1 之间的值来表明响应的正确或错误程度。
例如,想象一下我正在使用 RFT 对通用生成式人工智能进行数据训练。它正在调整到法律领域。我输入了一堆由各种法律、法规等组成的法律内容。在 RFT 过程中,我会输入提示,要求 AI 确定给定的法律条款在法律上是否合理。人工智能会进行计算评估,并返回一个答案:该条款可以继续执行。
如果答案正确,则给出的分数将为 1,而如果答案不正确,则给出的分数将为 0。但世界并不总是那么二元。假设人工智能表示该条款在某些情况下在法律上是正确的,但在其他情况下存在漏洞。也许这是一个相对公平的答案,尽管在某些方面是正确的,但在某些方面是不正确的。给出的分数可能是 0.60,表明该响应大部分是正确的(因为它的分数高于 0.50,并且逐渐接近满分 1.0),尽管它也有部分不正确(因此它不是满分 1.0,只给出了得分为 0.60)。
等级是如何确定的?
您可以在 RFT 期间雇用一名人员来发放成绩。这很费力,往往很慢,而且可能很昂贵。一般来说,分级组件通常是某种形式的自动化。它可能是为特定领域开发的专门程序。它可以是一个可以跨多个领域使用的通用评分系统。您甚至可以使用另一个生成式 AI 作为评分者,例如让第二个生成式 AI 站在那儿,在 RFT 期间进行评分。
最重要的是,分级机至关重要,如果您没有正确设置该设置,RFT 的其余部分就会失效。
我有一个重要的转折点要告诉你。
一个持续受到激烈争论的假设是,当生成式 AI 包含思想链推理 (CoT) 等高级 AI 功能时,RFT 的使用将显着发挥作用,请参阅我关于 CoT 的讨论:链接在这里。
思维链是指当人工智能试图解决问题或给出答案时,人工智能被指示执行一系列逻辑步骤。如果试图诊断患者,人工智能可能首先评估患者的基本数据,例如年龄、体重、健康状况等。第二步可能是检查血液检查等医学测试。第三步可能是检查哪种食物适合该患者。第四步可能是做出医学诊断并解释如何确定该诊断。
让我们重新考虑 RFT。
利用一系列思想的生成人工智能可以通过以下方式通过强化过程进行锻炼和微调。我们让人工智能继续尝试根据我们为数据训练目的收集的数据来诊断患者。衍生出一个特定的思想链。太好了,这就是我们希望发生的事情。
事实证明,就像老话一样,剥猫皮的方法不止一种(抱歉,这有点阴郁),我们可以让人工智能再次进行诊断。第二次的思路可能会有所不同。我们第三次这样做,并不断让人工智能尝试各种 CoT。对于每次尝试,我们都会使用我们建立的任何评分器或评分系统为得出的答案分配一个等级。
这有什么作用呢?
啊哈,希望通过告诉人工智能哪些答案是正确的,哪些答案是错误的,这也能揭示哪些思想链是对的,哪些是错的。从数学上来说,人工智能可能会开始倾向于受到奖励的 CoT,并远离受到惩罚或抑制的 CoT。
这种强化微调的行为间接引导生成人工智能走向更强大、更好的思维链方法,并将其从不太好的 CoT 中引导出来。
如果做得好,我们不仅能得出正确的答案,而且在某种意义上,我们还能塑造人工智能将要使用的思想链的本质。一句厚颜无耻的说法就是一句著名的格言:授人以鱼,可以喂他一天;授人以鱼,可以喂他一辈子。
砰,放下麦克风。
此前,OpenAI 已经接受了监督微调(SFT)的使用,我在链接在这里。OpenAI 采用的 SFT 主要是调整 AI 的语气和回答风格。这很方便。RFT 旨在挖掘特定领域并让 AI 及时回答特定领域的提示。这是微调的不同角度。
这两种技术都有其特定的目标。
OpenAI 的 RFT 目前被认为仅提供有限的预览版,并将在明年某个时候更广泛地提供。同时,OpenAI 也表示他们正在认真寻找成熟的领域来使用 RFT。想要立即获得预览功能的 AI 研究人员和领域专家可以向 OpenAI 提交他们的浓厚兴趣(详细信息请参阅 OpenAI 官方日志)。
以下是 OpenAI 在其正式公告中对 RFT 的官方说法,如“OpenAI 的强化微调研究计划”所述,OpenAI 博客,2024 年 12 月 6 日(摘录):
如果您精通某个特定领域并相信生成式 AI 将是一个福音,并且如果您对 RFT 作为一种潜在方法感兴趣,那么您可能需要考虑尝试使用这个最新的 OpenAI o1 模型增强。
目前的最后评论。
我之前提请您注意的转折中有一个令人着迷的转折。事情是这样的。RFT 的流行方法通常是仅根据人工智能的回答来分配等级。我的观点是,思想链并没有直接分级。CoT 仅间接评分。
有趣的下一步包括对实际 CoT 甚至 CoT 的片段或切片进行分级。
让我以人性的角度来阐述这一点,谨慎地说。想象一下,一个学生向我提供了他们完成的测试,并要求他们在紧邻每个问题的地方写下测试答案的逻辑。一种评分方法是简单地查看答案并评分。作为一名评分者,我完全忽视了学生所表现出的逻辑。
另一种评分形式是查看他们如何得出答案,并根据答案和所使用的逻辑来评分。
仔细考虑这种评分方法。
也许这是一种更好的评分方式,因为学生可以大致了解他们的逻辑在哪里或如何出错。如果他们只知道答案是对还是错,他们就不会得到太多关于他们如何得出答案的反馈。您可以令人信服地争辩说,在更细粒度的级别上进行评分可以显着增强他们的能力。
有一些权衡。评分者必须做更多的工作。评分者必须在评分方面做得更好,因为他们不再简单地将一个答案与答案键进行比较。另外,假设评分者搞砸了并对学生使用的逻辑给出了错误的指导。哎呀,这可能会让学生疲惫不堪,而且他们的情况比以前更糟。ETC。
如果我们确实以这种方式进一步增强 RFT,我们是否应该将其称为某种超级 RFT,也许称为 SRFT 或 SURFT?
你永远不知道什么术语会起作用。
让我们用一句著名的谚语来结束吧:“学习是一件宝藏,它的主人将永远跟随它。”我想我们可以说这句座右铭适用于人类,甚至可能适用于人工智能的进步和未来。
继续学习。