Meta AI 引入思维偏好优化，使 AI 模型能够在做出反应之前进行思考

2024-11-04 07:04:22 英文原文

作者：Daniel Dominguez

Meta Fair，加利福尼亚大学，伯克利大学和纽约大学的研究人员介绍了思想偏好优化（TPO），一种旨在提高教学响应质量的新方法。与仅关注最终答案的传统模型不同，这种方法使法学硕士能够生成和完善内部思维过程，以产生更准确和连贯的答案。

新技术结合了修改思想链 (CoT)推理方法。这种方法鼓励模型在训练期间“先思考后做出反应”，帮助他们在给出最终答案之前准备结构化的内部想法。虽然直接的COT提示有时会降低准确性，并且由于缺乏指令数据集中缺乏明确的思维步骤而挑战训练，但TPO通过允许模型来优化和简化其思维过程而不向用户展示中间步骤，从而解决了这些限制。

该图显示了思想偏好优化（TPO）过程开始，首先要提示大型语言模型（LLM）在制定响应之前产生各种想法。判断模型对输出进行采样和评估，以确定最佳和最差的响应。然后将这些输出用作选择和拒绝的对直接偏好优化 (DPO)。这种迭代训练方法增强了模型产生更相关和高质量响应的能力，从而提高了其整体有效性。

在这种方法中，调整训练提示以鼓励模型在响应之前进行内部思考。此顺序指导法学硕士完善其回答，以提高清晰度和相关性。然后，由基于法学硕士的判断模型对回答进行评估，该模型仅对最终答案进行评分，从而使模型能够仅根据有效性来提高回答质量，而与隐藏的思维步骤无关。TPO还通过创建首选和拒绝响应对（包括隐藏思想）来完善模型的内部流程，以在多个训练周期中改进模型的内部过程，从而使用直接偏好优化（DPO）。

基准获胜率（％）羊驼毛评估（长度控制（LC））和竞技场-困难被提出。将该方法（思想偏好优化（TPO））与直接响应基线进行了比较，Llama-3-8B-指示和Llama-3-8B教学，并提示思想。后者表现不佳，用作 TPO 训练第一次迭代的初始化。TPO 通过迭代训练优化思维生成，最终超越基线。还包括几个著名的法学硕士作为参考，通常比 TPO 模型更大。

TPO 方法超越了逻辑和数学任务，事实证明对各种遵循指令的任务有益，包括营销和健康等创意领域。

AI和机器人，Karan Verma医生，在X：

我对 Thinking LLM 的概念及其彻底改变人工智能技术的潜力很感兴趣。作为数字健康爱好者，我很想知道如何将这项创新应用于医疗保健应用并改善患者的结果。

结构化的内部思维过程使模型能够更有效地处理复杂的指令，有可能将其应用扩展到需要分层推理和细致入微的理解的领域，而不需要特定的人类提供的思维数据。这项研究表明，TPO 可以帮助法学硕士在不同的环境中更具适应性和有效性，并在需要响应生成的灵活性和深度的领域中应用。

关于《Meta AI 引入思维偏好优化，使 AI 模型能够在做出反应之前进行思考》的评论

暂无评论

发表评论

摘要

来自Meta Fair，UC Berkeley和NYU的研究人员引入了思想偏好优化（TPO），这是一种新的方法，是提高由教学 - 调整调节的大语言模型（LLMS）产生的响应质量的新方法。与仅关注最终答案的传统方法不同，TPO使LLM可以生成和完善内部思维过程，以获得更准确和相干的输出。该技术在训练过程中使用改良的经过思考推理，以提高模型性能，而无需向用户展示中间步骤。通过直接优化优化的迭代培训，TPO增强了该模型在各种指导跟随任务中产生高质量响应的能力，包括医疗保健和营销等复杂领域。

Meta AI 引入思维偏好优化，使 AI 模型能够在做出反应之前进行思考

关于《Meta AI 引入思维偏好优化，使 AI 模型能够在做出反应之前进行思考》的评论

发表评论

摘要

相关新闻

相关讨论