Salesforce AI 推出 SFR-Judge:由三个 Judge 模型组成的系列,具有 80 亿个参数(8B、12B 和 70B 尺寸),使用 Meta Llama 3 和 Mistral NeMO 构建 - MarkTechPost

2024-09-29 02:10:24 英文原文

自然语言处理中大型语言模型 (LLM) 的进步显着改善了各个领域。随着更复杂的模型的开发,准确评估其输出变得至关重要。传统上,人工评估一直是评估质量的标准方法,但这个过程非常耗时,并且需要更具可扩展性,以适应模型开发的快速步伐。

Salesforce AI Research 推出了 SFR-Judge 系列三个基于大语言模型的判断模型,彻底改变大语言模型输出的评估方式。SFR-Judge 使用 Meta Llama 3 和 Mistral NeMO 构建,具有三种大小:80 亿 (8B)、120 亿 (12B) 和 700 亿 (70B) 参数。每个模型都旨在执行多个评估任务,例如成对比较、单一评级和二元分类。这些模型的开发是为了支持研究团队快速有效地评估新的大语言模型。

使用传统大语言模型作为法官的主要局限性之一是他们容易出现偏见和不一致。例如,许多判断模型都表现出立场偏差,他们的判断受到回答呈现顺序的影响。其他人可能会表现出长度偏差,偏爱较长的反应,即使较短的反应更准确,但看起来更完整。为了解决这些问题,SFR-Judge 模型使用直接偏好优化 (DPO) 进行训练,使模型能够从正面和负面示例中学习。这种训练方法使模型能够对评估任务有细致入微的理解,减少偏见并确保判断的一致性。

SFR-Judge 模型在三项评估任务的 13 个基准上进行了测试,表现出优于现有法官的性能模型,包括 GPT-4o 等专有模型。值得注意的是,SFR-Judge 在 13 个基准测试中的 10 个上取得了最佳表现,为基于 LLM 的评估树立了新标准。例如,在 RewardBench 排行榜上,SFR-Judge 的准确率达到了 92.7%,这是生成式判断模型第一次和第二次突破 90% 的门槛。这些结果凸显了 SFR-Judge 的有效性,不仅作为评估模型,而且作为奖励模型,能够指导下游模型从人类反馈 (RLHF) 场景中进行强化学习。

SFR-Judges 训练方法涉及三种不同的数据格式。第一个是思想链批判,帮助模型对评估的响应进行结构化和详细的分析。这种批评增强了模型推理复杂输入并产生明智判断的能力。第二种格式“标准判断”通过消除批评来简化评估,提供有关响应是否符合指定标准的更直接的反馈。最后,响应推导使模型能够推断出高质量的反应是什么样的,从而增强了其判断能力。这三种数据格式协同工作,增强了模型进行全面、准确评估的能力。

大量实验表明,SFR-Judge 模型的偏差明显小于竞争模型,这一点从它们在EvalBiasBench,一个旨在测试六种类型偏差的基准测试。这些模型在多个基准上表现出高度的成对顺序一致性,这表明即使响应顺序发生变化,它们的判断也保持稳定。这种稳健性使 SFR-Judge 成为自动化大语言模型评估的可靠解决方案,减少对人类注释者的依赖,并为模型评估提供可扩展的替代方案。

研究的主要要点:

  • 准确率高:SFR-Judge 在 13 个基准测试中的 10 个上取得了最高分,其中 RewardBench 的准确率达到 92.7%,优于许多最先进的判断模型。
  • 偏差缓解:与其他 Judge 模型相比,这些模型表现出较低水平的偏差,包括长度和位置偏差,这一点已通过 EvalBiasBench 上的表现得到证实。
  • 多功能应用:SFR-Judge 支持三种主要评估任务成对比较、单一评分和二元分类,使其能够适应各种评估场景。
  • 结构化解释:与许多判断模型不同,SFR-Judge经过训练可以对其判断产生详细的解释,从而减少了判断的黑箱性质基于LLM的评估。
  • 下游模型的性能提升:模型解释可以改善下游模型的输出,使其成为RLHF场景的有效工具。

总之,Salesforce AI Research 推出的 SFR-Judge 标志着大型语言模型自动化评估的重大飞跃。通过利用直接偏好优化和各种训练数据,研究团队创建了一系列稳健且可靠的判断模型。这些模型可以从不同的示例中学习,提供详细的反馈,并减少常见偏见,使其成为评估和完善生成内容的宝贵工具。SFR-Judge 在基于 LLM 的评估中树立了新的基准,并为自动化模型评估的进一步发展打开了大门。

查看论文和详细信息。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记在 Twitter 上关注我们并加入我们的 Telegram 频道和 LinkedIn 群组。如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。

不要忘记加入我们的 50k+ ML SubReddit。

我们正在邀请致力于以下方面的初创公司、公司和研究机构:小语言模型参与即将出版的小语言模型杂志/Marketchpost.com 报告。本杂志/报告将于 2024 年 10 月下旬/11 月初发布。点击此处拨打电话!

Asif Razzaq 是 Marktechpost Media Inc. 的首席执行官。作为一位富有远见的企业家和工程师,Asif致力于利用人工智能的潜力造福社会。他最近的努力是推出人工智能媒体平台 Marktechpost,该平台因其对机器学习和深度学习新闻的深入报道而脱颖而出,技术可靠且易于广大受众理解。该平台月浏览量超过200万,可见其深受观众欢迎。

关于《Salesforce AI 推出 SFR-Judge:由三个 Judge 模型组成的系列,具有 80 亿个参数(8B、12B 和 70B 尺寸),使用 Meta Llama 3 和 Mistral NeMO 构建 - MarkTechPost》
暂无评论

摘要

自然语言处理中大语言模型(LLM)的进步显着改善了各个领域。SFR-Judge 模型在三项评估任务的 13 个基准上进行了测试,证明了优于现有 Judge 模型(包括 GPT-4o 等专有模型)的性能。结构化解释:与许多法官模型不同,SFR-Judge 经过训练可以为其判断提供详细解释,从而减少基于 LLM 评估的黑箱性质。这项研究的所有功劳都归功于该项目的研究人员。单击此处拨打电话!Asif Razzaq 是 Marktechpost Media Inc. 的首席执行官。作为一位富有远见的企业家和工程师,Asif 致力于利用人工智能的潜力造福社会。