英语轻松读发新版了,欢迎下载、更新

谷歌 DeepMind 研究人员推出 InfAlign:用于推理感知语言模型对齐的机器学习框架

2025-01-02 07:32:26 英文原文

作者:Asif Razzaq

从训练过渡到实际应用时,生成语言模型面临持续的挑战。一个重大困难在于调整这些模型以在推理过程中发挥最佳性能。当前的方法,例如基于人类反馈的强化学习 (RLHF),专注于提高基准模型的胜率。然而,他们经常忽视推理时间解码策略(例如 Best-of-N 采样和受控解码)的作用。培训目标与实际使用之间的不匹配可能会导致效率低下,影响输出的质量和可靠性。

为了应对这些挑战,Google DeepMind 和 Google Research 的研究人员开发了 InfAlign,这是一种机器学习框架,旨在将语言模型与推理感知策略结合起来。InfAlign 将推理时间方法纳入对齐过程中,旨在弥合训练和应用之间的差距。它通过校准的强化学习方法来实现这一点,该方法根据特定的推理策略调整奖励函数。InfAlign 对于 Best-of-N 采样(生成多个响应并选择最佳响应)和 Worst-of-N(通常用于安全评估)等技术特别有效。这种方法可确保一致的模型在受控环境和现实场景中均表现良好。

技术见解和优势

InfAlign 的核心是校准和转换强化学习 (CTRL) 算法,该算法遵循三个步骤:校准奖励分数、根据推理策略转换这些分数以及解决 KL 正则化优化问题。通过根据特定场景定制奖励转换,InfAlign 使训练目标与推理需求保持一致。这种方法提高了推理时间的获胜率,同时保持了计算效率。除了性能指标之外,InfAlign 还增加了鲁棒性,使模型能够有效地处理不同的解码策略并产生一致的高质量输出。

实证结果和见解

InfAlign 的有效性通过人类有益和无害数据集得到证明。在这些实验中,与现有方法相比,InfAlign 将 Best-of-N 采样的推理时间获胜率提高了 8-12%,将 Worst-of-N 安全评估的推理时间获胜率提高了 4-9%。这些改进归功于其校准奖励转换,解决了奖励模型校准错误的问题。该框架减少了绝对错误并确保在不同的推理场景中保持一致的性能,使其成为可靠且适应性强的解决方案。

结论

InfAlign 代表了在为现实世界应用程序调整生成语言模型方面的重大进步。通过结合推理感知策略,它解决了训练和部署之间的关键差异。其坚实的理论基础和实证结果凸显了其全面改善人工智能系统一致性的潜力。随着生成模型越来越多地应用于各种应用中,像 InfAlign 这样的框架对于确保有效性和可靠性至关重要。


查看。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记关注我们 叽叽喳喳并加入我们的 电报频道和 领英 集团奥普。不要忘记加入我们的 60k+ ML SubReddit

ðě 即将举行的免费人工智能网络研讨会(2025 年 1 月 15 日):利用综合数据和评估情报提高法学硕士的准确性参加本次网络研讨会,获得可操作的见解,以提高 LLM 模型的性能和准确性,同时保护数据隐私

Asif Razzaq 是 Marktechpost Media Inc. 的首席执行官。作为一位富有远见的企业家和工程师,Asif 致力于利用人工智能的潜力造福社会。他最近的努力是推出人工智能媒体平台 Marktechpost,该平台因其对机器学习和深度学习新闻的深入报道而脱颖而出,技术可靠且易于广大受众理解。该平台月浏览量超过200万,可见其深受观众欢迎。

关于《谷歌 DeepMind 研究人员推出 InfAlign:用于推理感知语言模型对齐的机器学习框架》的评论


暂无评论

发表评论

摘要

谷歌 DeepMind 和谷歌研究院的研究人员推出了 InfAlign,这是一个旨在将生成语言模型与推理感知策略(例如 Best-of-N 采样和 Worst-of-N 安全评估)相结合的框架。InfAlign 使用校准强化学习 (CTRL) 根据特定解码方法调整奖励函数,从而提高模型在实际应用中的性能和可靠性。与现有方法相比,InfAlign 使用 Anthropic 数据集,Best-of-N 安全评估的获胜率提高了 8-12%,Worst-of-N 安全评估提高了 4-9%。该框架弥合了培训目标和实际使用之间的差距,增强了人工智能系统与不同应用的一致性。