加入企业领导人信任的活动近二十年。VB变换汇集了建立真正的企业AI战略的人们。 了解更多
研究人员的新框架伊利诺伊大学,Urbana-Champaign, 和加州大学伯克利分校让开发人员更多地控制了大型语言模型(LLM)的思考,以提高其推理能力,同时更有效地利用推理预算。
框架,称为alphaone(±1),是测试时间缩放技术,在推理过程中调整模型的行为,而无需昂贵的再训练。它提供了一种通用方法来调节高级LLM的推理过程,从而为开发人员提供了比现有方法更具控制和成本效益的方式提高复杂任务的性能的灵活性。
慢思考的挑战
近年来,大型推理模型(LRMS)的开发人员,例如Openai O3和DeepSeek-R1,结合了受启发的机制系统2思考人类认知的缓慢,故意和逻辑模式。这与系统1的思维不同,它是快速,直观且自动的。合并系统2功能使模型能够解决数学,编码和数据分析等领域中的复杂问题。
训练模型可以自动生成过渡令牌,例如等待,hmm,或者触发慢速思考。当这些令牌之一出现时,该模型就会停止自我反射之前的步骤并纠正其课程,就像一个人停下来重新考虑一个困难的问题一样。
但是,推理模型总是没有有效地使用其缓慢思考的功能。不同的研究表明,它们很容易想到简单的问题,浪费计算资源,或者要思考复杂的问题,从而导致答案不正确。
作为α内纸注意,这是因为LRM无法找到最佳的类似人类的System-1-2推理过渡和有限的推理能力,从而导致了不令人满意的推理性能。
有两种解决这个问题的常见方法。像n'方法一样,并行缩放率多次运行模型,并选择最佳答案,这在计算上很昂贵。顺序缩放试图在一次运行期间调制思维过程。例如,S1是一种技术,通过在模型的背景下添加等待代币,而迫使人们更慢的思维,而草稿链(COD)方法提示该模型使用较少的单词,从而减少其思维预算。但是,这些方法提供了通常效率低下的刚性,尺寸适合的解决方案。
推理的通用框架
Alphaone背后的研究人员并没有简单地增加或减少思维预算,而是提出了一个更基本的问题:是否有可能制定更好的策略来在缓慢和快速思考之间过渡,从而可以普遍调节推理预算?
他们的框架Alphaone在测试时为开发人员提供了对模型推理过程的细粒度控制。该系统通过引入alpha(α±)来起作用,该参数可作为表盘扩展模型思维阶段预算的参数。
在这一代人称为“±时刻”的一定程度之前,alphaone策略性地安排了它插入一个等待代价的频率来鼓励缓慢,故意的思想。这允许本文描述的既可以控制和可扩展的思维。”
一旦达到了时刻,框架就会在模式的环境中插入</think>令牌,结束了缓慢的思维过程,并迫使模型切换到快速推理并产生最终答案。
以前的技术通常应用研究人员所谓的稀疏调制,仅进行少数几个孤立的调整,例如在整个过程中添加一次或两次等待令牌。相比之下,alphaone可以配置为经常干预(密集)或很少(稀疏),从而使开发人员比其他方法更颗粒状控制。”

Alphaone团队在书面评论中对VentureBeat表示,我们将Alphaone视为有意推理的统一界面,以辅助推理促进或基于首选项的调整,并能够与模型架构一起演变。”``关键的要点与实施细节没有关系,而与一般原则:推理过程的缓慢结构化调制提高了能力和效率。”
Alphaone在行动中
研究人员对三种不同的推理模型进行了测试,参数尺寸从15亿到320亿。他们评估了其在数学,代码生成和科学问题解决的六个具有挑战性的基准中的表现。
他们比较了三个基线:香草,未修饰的模型;单调增加思维缓慢的S1方法;以及单调减少它的草稿(COD)方法的链(COD)方法。
结果产生了几个关键发现,这些发现与开发人员构建AI应用程序特别相关。
首先,首先是一个缓慢的思考,然后快速思考策略会在LRMS中提高推理性能。这突出了LLMS和人类认知之间的根本差距,这通常是基于快速思考的结构,然后是缓慢的思考。与人类不同,研究人员发现,模型在行动迅速之前受益于强制慢的思维。
Alphaone团队说,这表明不是模仿人类专家,而是明确调节推理动态的有效AI推理,这些动态与诸如及时工程和现实世界应用中已经使用的推论相符。” Alphaone团队说。对于开发人员而言,这意味着系统设计应积极施加缓慢的推理时间表以提高性能和可靠性,而现在,模型推理仍然不完美。
另一个有趣的发现是,投资缓慢的思维可能会导致总体上更有效的推论。纸张指出,尽管思维缓慢降低了推理,但随着±1的形式,总体令牌长度显着降低,从而引起了缓慢思考带来的更多信息推理进度。”这意味着,尽管该模型需要更多的时间来思考,但它会产生更简洁,更准确的推理路径,最终减少产生和降低推理成本的总数。
与S1风格的基线相比,α酮将平均令牌使用量减少了约21%,导致较低的计算开销,同时将推理精度提高了6.15%,即使是在博士学位级数学,科学和代码问题上也是如此。

Alphaone说,对于复杂查询答案或代码生成等企业应用程序,这些收益转化为双重好处:提高了发电质量并节省了大量成本。” Alphaone说。这些可以导致推理成本降低,同时提高任务成功率和用户满意度。
最后,研究发现,插入高频等待代币是有帮助的,并且alphaone通过与以前的方法相比,alphaone可以实现更好的结果。
通过给开发人员一个新的控制水平,预计将很快发布代码的Alphaone框架可以帮助他们在下一代推理模型之上构建更稳定,可靠和高效的应用程序。
Alphaone团队告诉VentureBeat,对于使用开源或定制模型的公司,尤其是在培训阶段训练过过渡令牌的公司,Alphaone旨在易于整合。”在实践中,集成通常需要最小的更改,例如简单地更新配置脚本中的模型名称。