Meta AI 引入思维偏好优化,使 AI 模型能够在做出反应之前进行思考

2024-11-04 07:04:22 英文原文

作者:Daniel Dominguez

Meta Fair,加利福尼亚大学,伯克利大学和纽约大学的研究人员介绍了思想偏好优化(TPO),一种旨在提高教学响应质量的新方法。与仅关注最终答案的传统模型不同,这种方法使法学硕士能够生成和完善内部思维过程,以产生更准确和连贯的答案。

新技术结合了修改思想链 (CoT)推理方法。这种方法鼓励模型在训练期间“先思考后做出反应”,帮助他们在给出最终答案之前准备结构化的内部想法。虽然直接的COT提示有时会降低准确性,并且由于缺乏指令数据集中缺乏明确的思维步骤而挑战训练,但TPO通过允许模型来优化和简化其思维过程而不向用户展示中间步骤,从而解决了这些限制。

该图显示了思想偏好优化(TPO)过程开始,首先要提示大型语言模型(LLM)在制定响应之前产生各种想法。判断模型对输出进行采样和评估,以确定最佳和最差的响应。然后将这些输出用作选择和拒绝的对直接偏好优化 (DPO)。这种迭代训练方法增强了模型产生更相关和高质量响应的能力,从而提高了其整体有效性。

在这种方法中,调整训练提示以鼓励模型在响应之前进行内部思考。此顺序指导法学硕士完善其回答,以提高清晰度和相关性。然后,由基于法学硕士的判断模型对回答进行评估,该模型仅对最终答案进行评分,从而使模型能够仅根据有效性来提高回答质量,而与隐藏的思维步骤无关。TPO还通过创建首选和拒绝响应对(包括隐藏思想)来完善模型的内部流程,以在多个训练周期中改进模型的内部过程,从而使用直接偏好优化(DPO)。

基准获胜率(%)羊驼毛评估(长度控制(LC))和竞技场-困难被提出。将该方法(思想偏好优化(TPO))与直接响应基线进行了比较,Llama-3-8B-指示和Llama-3-8B教学,并提示思想。后者表现不佳,用作 TPO 训练第一次迭代的初始化。TPO 通过迭代训练优化思维生成,最终超越基线。还包括几个著名的法学硕士作为参考,通常比 TPO 模型更大。

TPO 方法超越了逻辑和数学任务,事实证明对各种遵循指令的任务有益,包括营销和健康等创意领域。

AI和机器人,Karan Verma医生,在X

我对 Thinking LLM 的概念及其彻底改变人工智能技术的潜力很感兴趣。作为数字健康爱好者,我很想知道如何将这项创新应用于医疗保健应用并改善患者的结果。

结构化的内部思维过程使模型能够更有效地处理复杂的指令,有可能将其应用扩展到需要分层推理和细致入微的理解的领域,而不需要特定的人类提供的思维数据。这项研究表明,TPO 可以帮助法学硕士在不同的环境中更具适应性和有效性,并在需要响应生成的灵活性和深度的领域中应用。

关于《Meta AI 引入思维偏好优化,使 AI 模型能够在做出反应之前进行思考》的评论


暂无评论

发表评论

摘要

来自Meta Fair,UC Berkeley和NYU的研究人员引入了思想偏好优化(TPO),这是一种新的方法,是提高由教学 - 调整调节的大语言模型(LLMS)产生的响应质量的新方法。与仅关注最终答案的传统方法不同,TPO使LLM可以生成和完善内部思维过程,以获得更准确和相干的输出。该技术在训练过程中使用改良的经过思考推理,以提高模型性能,而无需向用户展示中间步骤。通过直接优化优化的迭代培训,TPO增强了该模型在各种指导跟随任务中产生高质量响应的能力,包括医疗保健和营销等复杂领域。