作者:Asif Razzaq
大型语言模型(LLM)在语言生成方面取得了显著进步,但它们的推理能力仍不足以解决复杂问题。数学、编码和科学问题等任务仍然构成重大挑战。增强LLM的推理能力对于提升其超越简单文本生成的能力至关重要。关键挑战在于将高级学习技术与有效的推理策略相结合以弥补这些推理不足之处。
伦敦大学学院、利物浦大学、上海交通大学、香港科技大学(广州)、西湖大学的研究人员介绍了OpenR,这是一个开源框架,它将运行时计算、强化学习和过程监督集成在一起,以提高大规模语言模型的推理能力。受OpenAI的o1模型启发,OpenR旨在复制并推进这些下一代大规模语言模型中所见的推理能力。通过专注于数据获取、过程奖励模型和高效推断方法等核心技术,OpenR成为首个为大规模语言模型提供如此复杂推理支持的开源解决方案。OpenR的设计目的是统一推理过程中的各个方面,包括在线和离线强化学习训练以及非自回归解码,目标是加速以推理为重点的大规模语言模型的发展。
OpenR 的结构围绕几个关键组件展开。其核心采用数据增强、策略学习和推理时间引导搜索来强化推理能力。OpenR 使用马尔可夫决策过程(MDP)来建模推理任务,将推理过程分解为一系列步骤,并对这些步骤进行评估和优化以引导大模型走向准确的解决方案。这种方法不仅允许直接学习推理技能,还促进了在每个阶段探索多个推理路径的能力,从而实现更稳健的推理过程。该框架依赖于进程奖励模型(PRMs),后者提供了对中间推理步骤的具体反馈,使模型能够比单纯依靠最终结果监督更加有效地调整其决策制定。这些元素共同作用以逐步完善大模型的推理能力,在测试时利用更为智能的推断策略而非仅仅扩大模型参数。
在他们的实验中,研究人员展示了使用OpenR可以显著提高大型语言模型(LLM)的推理性能。使用MATH数据集作为基准,与传统方法相比,OpenR实现了大约10%的推理准确率提升。测试时引导搜索以及实现路径限制模型(PRMs)在计算预算受限的情况下对准确性改进发挥了关键作用。诸如“最佳N”和“束搜索”等方法被用来探索推理过程中的多条路径,结果显示这两种方法显著优于简单的多数投票技术。该框架的强化学习技术,特别是利用路径限制模型的技术,在线策略学习场景中证明了其有效性,使LLM能够随着时间逐步提高其推理能力。
OpenR 在提升大型语言模型推理能力的追求中迈出了重要一步。通过整合先进的强化学习技术以及推断时的引导搜索,OpenR 提供了一个全面且开放的研究平台,用于进行 LLM 推理研究。OpenR 的开源特性促进了社区合作,并进一步发展了推理能力,弥合了快速自动响应与深入审慎推理之间的差距。未来对 OpenR 的工作将致力于扩展其功能以涵盖更广泛的推理任务,并进一步优化其推断过程,为开发自我改进、具备推理能力的人工智能代理的长期愿景做出贡献。
查看一下纸张和 GitHub此研究的所有荣誉归于该项目的研究人员。也不要忘了关注我们在推特并加入我们 Telegram 频道并且领英(LinkedIn)oup. 如果你喜欢我们的作品,你会爱上我们的通讯newsletter..(注意:"newsletter"保留了英文原词,因为可能没有直接对应的中文单词,或者根据上下文环境使用英文专有名词更合适。)别忘了加入我们5万+ 机器学习子论坛