作者:Asif Razzaq
从训练过渡到实际应用时,生成语言模型面临持续的挑战。一个重大困难在于调整这些模型以在推理过程中发挥最佳性能。当前的方法,例如基于人类反馈的强化学习 (RLHF),专注于提高基准模型的胜率。然而,他们经常忽视推理时间解码策略(例如 Best-of-N 采样和受控解码)的作用。培训目标与实际使用之间的不匹配可能会导致效率低下,影响输出的质量和可靠性。
为了应对这些挑战,Google DeepMind 和 Google Research 的研究人员开发了 InfAlign,这是一种机器学习框架,旨在将语言模型与推理感知策略结合起来。InfAlign 将推理时间方法纳入对齐过程中,旨在弥合训练和应用之间的差距。它通过校准的强化学习方法来实现这一点,该方法根据特定的推理策略调整奖励函数。InfAlign 对于 Best-of-N 采样(生成多个响应并选择最佳响应)和 Worst-of-N(通常用于安全评估)等技术特别有效。这种方法可确保一致的模型在受控环境和现实场景中均表现良好。
InfAlign 的核心是校准和转换强化学习 (CTRL) 算法,该算法遵循三个步骤:校准奖励分数、根据推理策略转换这些分数以及解决 KL 正则化优化问题。通过根据特定场景定制奖励转换,InfAlign 使训练目标与推理需求保持一致。这种方法提高了推理时间的获胜率,同时保持了计算效率。除了性能指标之外,InfAlign 还增加了鲁棒性,使模型能够有效地处理不同的解码策略并产生一致的高质量输出。
InfAlign 的有效性通过人类有益和无害数据集得到证明。在这些实验中,与现有方法相比,InfAlign 将 Best-of-N 采样的推理时间获胜率提高了 8-12%,将 Worst-of-N 安全评估的推理时间获胜率提高了 4-9%。这些改进归功于其校准奖励转换,解决了奖励模型校准错误的问题。该框架减少了绝对错误并确保在不同的推理场景中保持一致的性能,使其成为可靠且适应性强的解决方案。
InfAlign 代表了在为现实世界应用程序调整生成语言模型方面的重大进步。通过结合推理感知策略,它解决了训练和部署之间的关键差异。其坚实的理论基础和实证结果凸显了其全面改善人工智能系统一致性的潜力。随着生成模型越来越多地应用于各种应用中,像 InfAlign 这样的框架对于确保有效性和可靠性至关重要。
查看这纸。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记关注我们 叽叽喳喳并加入我们的 电报频道和 领英 集团奥普。不要忘记加入我们的 60k+ ML SubReddit。
ðě 即将举行的免费人工智能网络研讨会(2025 年 1 月 15 日):利用综合数据和评估情报提高法学硕士的准确性—参加本次网络研讨会,获得可操作的见解,以提高 LLM 模型的性能和准确性,同时保护数据隐私。