英语轻松读发新版了,欢迎下载、更新

OpenR:一个开源AI框架,增强大型语言模型中的推理能力

2024-10-14 04:32:20 英文原文

作者:Asif Razzaq

大型语言模型(LLM)在语言生成方面取得了显著进步,但它们的推理能力仍不足以解决复杂问题。数学、编码和科学问题等任务仍然构成重大挑战。增强LLM的推理能力对于提升其超越简单文本生成的能力至关重要。关键挑战在于将高级学习技术与有效的推理策略相结合以弥补这些推理不足之处。

介绍OpenR

伦敦大学学院、利物浦大学、上海交通大学、香港科技大学(广州)、西湖大学的研究人员介绍了OpenR,这是一个开源框架,它将运行时计算、强化学习和过程监督集成在一起,以提高大规模语言模型的推理能力。受OpenAI的o1模型启发,OpenR旨在复制并推进这些下一代大规模语言模型中所见的推理能力。通过专注于数据获取、过程奖励模型和高效推断方法等核心技术,OpenR成为首个为大规模语言模型提供如此复杂推理支持的开源解决方案。OpenR的设计目的是统一推理过程中的各个方面,包括在线和离线强化学习训练以及非自回归解码,目标是加速以推理为重点的大规模语言模型的发展。

关键特性:

  • 进程监督数据
  • 在线强化学习(RL)训练
  • 生成与判别性PRM
  • 多搜索策略
  • 测试时间计算与缩放

OpenR的结构和关键组件

OpenR 的结构围绕几个关键组件展开。其核心采用数据增强、策略学习和推理时间引导搜索来强化推理能力。OpenR 使用马尔可夫决策过程(MDP)来建模推理任务,将推理过程分解为一系列步骤,并对这些步骤进行评估和优化以引导大模型走向准确的解决方案。这种方法不仅允许直接学习推理技能,还促进了在每个阶段探索多个推理路径的能力,从而实现更稳健的推理过程。该框架依赖于进程奖励模型(PRMs),后者提供了对中间推理步骤的具体反馈,使模型能够比单纯依靠最终结果监督更加有效地调整其决策制定。这些元素共同作用以逐步完善大模型的推理能力,在测试时利用更为智能的推断策略而非仅仅扩大模型参数。

在他们的实验中,研究人员展示了使用OpenR可以显著提高大型语言模型(LLM)的推理性能。使用MATH数据集作为基准,与传统方法相比,OpenR实现了大约10%的推理准确率提升。测试时引导搜索以及实现路径限制模型(PRMs)在计算预算受限的情况下对准确性改进发挥了关键作用。诸如“最佳N”和“束搜索”等方法被用来探索推理过程中的多条路径,结果显示这两种方法显著优于简单的多数投票技术。该框架的强化学习技术,特别是利用路径限制模型的技术,在线策略学习场景中证明了其有效性,使LLM能够随着时间逐步提高其推理能力。

结论

OpenR 在提升大型语言模型推理能力的追求中迈出了重要一步。通过整合先进的强化学习技术以及推断时的引导搜索,OpenR 提供了一个全面且开放的研究平台,用于进行 LLM 推理研究。OpenR 的开源特性促进了社区合作,并进一步发展了推理能力,弥合了快速自动响应与深入审慎推理之间的差距。未来对 OpenR 的工作将致力于扩展其功能以涵盖更广泛的推理任务,并进一步优化其推断过程,为开发自我改进、具备推理能力的人工智能代理的长期愿景做出贡献。


查看一下纸张 GitHub此研究的所有荣誉归于该项目的研究人员。也不要忘了关注我们在推特并加入我们 Telegram 频道并且领英(LinkedIn)oup. 如果你喜欢我们的作品,你会爱上我们的通讯newsletter..(注意:"newsletter"保留了英文原词,因为可能没有直接对应的中文单词,或者根据上下文环境使用英文专有名词更合适。)别忘了加入我们5万+ 机器学习子论坛

【即将举行活动 - 2024年10月17日】RetrieveX – 生成式人工智能数据检索大会(推广)

Asif Razzaq 是 Marktechpost Media Inc. 的首席执行官。作为一名富有远见的企业家和工程师,Asif 致力于利用人工智能为社会带来好处。他最新的创业项目是推出一个人工智能媒体平台 Marktechpost,该平台以其深入报道机器学习和深度学习新闻而著称,这些内容既具有技术深度又易于广大读者理解。该平台每月的访问量超过 200 万次,说明了它在受众中的受欢迎程度。

关于《OpenR:一个开源AI框架,增强大型语言模型中的推理能力》的评论


暂无评论

发表评论

摘要

大规模语言模型(LLM)在语言生成方面取得了显著进展,但它们的推理能力仍不足以解决复杂问题。该框架依赖于过程奖励模型(PRMs),这些模型为中间推理步骤提供细致的反馈,使模型能够比单纯依靠最终结果监督更有效地调整其决策制定。测试时引导搜索以及实现PRMs在计算预算受限的情况下提高了准确性。该框架中的强化学习技术,特别是利用PRMs的技术,在在线策略学习场景中证明是有效的,使得LLM能够在时间推移中稳步提高其推理能力。如果您喜欢我们的工作,请订阅我们的通讯。不要忘记加入我们拥有50,000+成员的机器学习子论坛。 [即将举行的活动-2024年10月17日] RetrieveX – 通用人工智能数据检索大会(推广) Asif Razzaq 是 Marktechpost Media Inc. 的首席执行官。作为一位具有远见的企业家和工程师,Asif 致力于利用人工智能为社会福祉服务。