Microsoft Research已开发了一种新的强化学习框架,该框架以通常的计算成本的一小部分来训练大型语言模型,以进行复杂的推理任务。框架,称为rstar2代理,结合算法创新和软件优化的组合来使培训过程更有效,需要更少的数据并更好地利用硬件。
通过RSTAR2代理进行了微调的140亿参数模型,近乎最先进的表现,超过了更大的671B参数DeepSeek-R1,同时产生了更短,更简洁的答案。对于企业而言,这些发现指出了开发更可靠和具有成本效益的AI代理并从较小的开源模型中获得更多价值的新途径。
当前的AI模型通常通过产生更长的时间来改善其推理思想链(COT),本质上是“思考更长”的问题。尽管有效,但这种方法具有其局限性,尤其是对于困难的问题,在漫长的推理链中的一个错误可能会使整个过程脱轨。在这些情况下,模型依赖于内部自我反射,后者通常无法发现错误或纠正有缺陷的方法。微软的研究人员通过赋予模型使用高级认知能力来使用工具,验证他们的工作并从反馈中学习,从“思考更长”转向“更智能”的转变。
通过一种称为“代理增强学习”的方法来实现这种更聪明的方法。该模型是在专用环境中与工具交互的代理,并根据收到的反馈来调整其推理。研究人员专注于使用Python代码及其解释器作为工具环境。这使该模型可以探索替代解决方案,运行计算并验证中间步骤以补充香草cot痕迹。
在此设置中,该模型与代码环境进行了多转口对话。它生成了一个推理,调用python工具来执行命令,接收输出并将反馈纳入其下一步推理的步骤,重复该过程,直到达到最终答案为止。
但是,扩展这种方法带来了重大挑战。编程工具的复杂性可以将噪声引入过程。例如,来自不正确代码的错误消息可以分散模型从主要推理任务中分散注意力。此外,大规模代理培训所需的基础架构是要求的,因为单个培训批次可以触发数以万计需要有效,安全地管理的工具调用。
为了克服这些固有的挑战,RSTAR2代理框架实施了三个关键创新:
高效且可靠的基础架构:为使用工具的代理建立可扩展的环境是一个主要的工程障碍。Microsoft的首席研究员,该论文的合着者Li Lyna Zhang告诉VentureBeat,早期的尝试受到实际问题的困扰。张说:“每个训练步骤都可能触发成千上万的工具调用。”“起初,简单的并行执行导致丢失的请求,该请求误导了模型,而gpus闲置时,CPU被淹没了,从而减慢了推出。”她还强调了“ LLM不可预测且可能不安全的产出”的风险,这可能会使整个系统稳定。
为了解决这个问题,RSTAR2代理具有高通量的,孤立的代码环境,能够以0.3秒的平均延迟为每步处理多达45,000个并发的工具呼叫。它结合了一个负载均衡的调度程序,该调度程序在整个GPU上动态分配请求以解决RL培训的效率低下,这是由于推理路径的不同长度而发生的(也称为“推出”)。该调度程序可以管理跨GPU的异步工具调用和平衡计算负载,以确保在请求完成时不会保持空闲状态。这种强大的基础架构即使在GPU资源有限的情况下也能够有效的RL培训。
对正确采样(GRPO-ROC)进行重新采样(GRPO-ROC):组相对策略优化:这项创新基于小组相对政策优化(GRPO),这是一种基础强化学习算法,用于模型DeepSeek-R1和PHI-4。在标准GRPO中,该模型为给定问题生成了推理路径组,并为最终答案获得简单的二进制奖励(正确或不正确)。然后,该算法基于这些分支在其组中的相对成功来优化模型的策略。但是,传统的GRPO在代理增强学习方面面临挑战,尤其是在代码环境中的嘈杂反馈中。
GRPO-ROC通过解决环境噪声并提高学习信号的质量来扩展这一点。它通过其“正确的正确样本”(ROC)策略来实现这一目标。ROC首先要示例大量的推出,然后选择一个子集来创建培训批次。它过滤了积极的轨迹,只保留具有最小工具引起的错误或格式问题的最高质量的轨迹。同时,它的榜样失败了,无法将各种故障模式保存为有价值的学习信号。
在企业设置中,这种关注清洁,高质量的推理直接转化为更可靠的应用程序。张提供了一个明确的例子:“生成数据处理脚本的自动代码代理可能会产生长时间的,错误的代码,需要多个校正。使用GRPO-ROC,该模型学会了生成简洁的,在第一次尝试中成功运行的简洁代码,使工作流平稳和可预测能够使输出更加可靠,更稳定。这使得在肠道应用程序中更加可靠和稳定。”
量身定制的培训食谱:RSTAR2代理采用独特的培训配方,可最大程度地减少计算要求。初始培训阶段(非共同监督的微调或SFT)并没有从复杂的推理问题开始,而是专注于教导模型的基础知识:一般说明以下以及如何正确格式化和使用编码工具。这避免了过度拟合模型,以便早期对特定的推理模式。此后,该模型经历了多阶段的RL训练过程,在该过程中,问题难度和最大响应长度逐渐增加。与其他需要很长的响应长度(16,000个令牌或更长时间)的方法不同,这种方法始于较短的长度(8,000个令牌),并在阶段逐渐扩展(至12,000个令牌),这是由于GRPO-ROC算法的效率而成为可能的。
为了测试框架,研究人员对140亿参数模型进行了微调,QWEN3-14B基础,使用64个实例AMD MI300XGPU。整个过程仅在仅使用510 RL训练步骤的短短一周内完成,这与其他需要数千个步骤的方法形成了鲜明的对比。结果表明,相对较小的模型可以通过最小的计算来实现顶级推理性能。
他们的发现表明,RSTAR2代理显着将140亿个参数基本模型提升到最先进的水平,匹配,甚至超过训练有素的训练有素和更大的边界LLM。在AIME24基准测试中,RSTAR2-AGENT-14B的平均准确度为80.6%,表现优于OpenAI03米尼,DeepSeek-r1和Claude Opus 4.0(思维)。
研究人员在他们的纸。
虽然14b模型的结果令人印象深刻,但研究人员强调,真正的创新在于方法本身,该方法与特定的模型大小无关。张解释说:“我们在14B模型上进行了实验,主要是为了证明RSTAR2代理方法的有效性和优势。”“我们希望将RSTAR2代理应用于较大的模型将提供更强的推理性能。”对于企业而言,这意味着该框架提供了双重优势:它可用于创建高效,专业的小型模型,但它也为开发具有相同可靠性和效率原理的下一代,最先进的大型模型提供了途径。
训练有素的模型还通过使用较少的令牌来证明“更聪明的推理”。在具有挑战性的数学基准下,RSTAR2-AGENT-14B的精度比其更大的响应较短的响应更高。研究人员指出,“通过加强高质量的积极轨迹,我们的模型有效地学会了更智能地使用编码工具来更有效地进行推理。”这种效率是企业应用程序的关键因素,因为较短的响应直接转化为降低推理成本和更快的绩效。
最后,该模型显示出强大的概括能力。尽管仅接受了数学问题的培训,但它在包括科学推理和代理工具使用在内的各种任务方面表现良好。在GPQA-Diamond Science基准测试中,它的表现优于DeepSeek-V3,表明数学中学到的推理技能可以有效地转移到其他领域。
展望未来,研究人员看到了这种代理,以工具为中心的方法,远远超出了数学范围,进入了其他复杂的高价值领域。张建议说:“在药物发现中,它可以访问化学和生物数据库并进行模拟。”
但是,她还指出,从Python解释器的结构化世界转变为更模棱两可的,现实世界中的企业工具提出了下一组挑战。这些工具引入了更多的“环境噪声”,并需要专门的,可靠的环境才能使LLM与之互动。成功地导航这种复杂性将是解锁企业中下一波代理AI的关键。