作者:Daniel Dominguez
Meta Fair,加利福尼亚大学,伯克利大学和纽约大学的研究人员介绍了思想偏好优化(TPO),一种旨在提高教学响应质量的新方法。与仅关注最终答案的传统模型不同,这种方法使法学硕士能够生成和完善内部思维过程,以产生更准确和连贯的答案。
新技术结合了修改思想链 (CoT)推理方法。这种方法鼓励模型在训练期间“先思考后做出反应”,帮助他们在给出最终答案之前准备结构化的内部想法。虽然直接的COT提示有时会降低准确性,并且由于缺乏指令数据集中缺乏明确的思维步骤而挑战训练,但TPO通过允许模型来优化和简化其思维过程而不向用户展示中间步骤,从而解决了这些限制。
该图显示了思想偏好优化(TPO)过程开始,首先要提示大型语言模型(LLM)在制定响应之前产生各种想法。判断模型对输出进行采样和评估,以确定最佳和最差的响应。然后将这些输出用作选择和拒绝的对直接偏好优化 (DPO)。这种迭代训练方法增强了模型产生更相关和高质量响应的能力,从而提高了其整体有效性。
在这种方法中,调整训练提示以鼓励模型在响应之前进行内部思考。此顺序指导法学硕士完善其回答,以提高清晰度和相关性。然后,由基于法学硕士的判断模型对回答进行评估,该模型仅对最终答案进行评分,从而使模型能够仅根据有效性来提高回答质量,而与隐藏的思维步骤无关。TPO还通过创建首选和拒绝响应对(包括隐藏思想)来完善模型的内部流程,以在多个训练周期中改进模型的内部过程,从而使用直接偏好优化(DPO)。
基准获胜率(%)羊驼毛评估(长度控制(LC))和竞技场-困难被提出。将该方法(思想偏好优化(TPO))与直接响应基线进行了比较,Llama-3-8B-指示和Llama-3-8B教学,并提示思想。后者表现不佳,用作 TPO 训练第一次迭代的初始化。TPO 通过迭代训练优化思维生成,最终超越基线。还包括几个著名的法学硕士作为参考,通常比 TPO 模型更大。
TPO 方法超越了逻辑和数学任务,事实证明对各种遵循指令的任务有益,包括营销和健康等创意领域。
AI和机器人,Karan Verma医生,在X:
我对 Thinking LLM 的概念及其彻底改变人工智能技术的潜力很感兴趣。作为数字健康爱好者,我很想知道如何将这项创新应用于医疗保健应用并改善患者的结果。
结构化的内部思维过程使模型能够更有效地处理复杂的指令,有可能将其应用扩展到需要分层推理和细致入微的理解的领域,而不需要特定的人类提供的思维数据。这项研究表明,TPO 可以帮助法学硕士在不同的环境中更具适应性和有效性,并在需要响应生成的灵活性和深度的领域中应用。