加入我们的每日和每周的新闻通讯,获取有关行业领先的AI覆盖范围的最新更新和独家内容。了解更多
推理模型类似Openai O1和DeepSeek-R1有问题:他们过度思考。问他们一个简单的问题,例如什么是1+1? - 他们会在回答之前想几秒钟。
理想情况下,像人类一样,AI模型应该能够说出何时给出直接答案,以及何时在响应之前花费更多的时间和资源来推理。一个新技术由研究人员提出meta ai和伊利诺伊大学芝加哥大学训练模型根据查询的难度分配推理预算。这会导致更快的响应,降低成本以及更好地分配计算资源。

昂贵的推理
大型语言模型(LLM)可以在产生更长的推理链时提高其在推理问题上的表现,通常称为经过思考链(COT)。COT的成功导致了整个推理时间缩放技术,这些技术促使模型更长地思考问题,产生和查看多个答案,然后选择最佳的答案。
推理模型中使用的主要方法之一是生成多个答案,并选择最经常出现的答案,也称为“多数投票”(MV)。这种方法的问题在于该模型采用统一的行为,将每个提示视为一个严重的推理问题,并花费不必要的资源来生成多个答案。
明智的推理
新论文提出了一系列培训技术,使推理模型在响应方面更有效。第一步是“顺序投票”(SV),该模型在答案中出现一定次数后立即中止推理过程。例如,提示该模型最多生成八个答案,并选择至少三次出现的答案。如果给出了上面提到的简单查询,则前三个答案可能会相似,这将触发早期,节省时间和计算资源。
他们的实验表明,当SV产生相同数量的答案时,SV在数学竞赛问题中的表现都优于经典MV。但是,SV需要额外的说明和令牌生成,这使得它与MV相当,而令牌与准确性比率相当。

第二种技术,即自适应顺序投票(ASV),通过提示模型检查问题,并在问题困难时才产生多个答案,从而改善了SV。对于简单的问题(例如1+1个提示),该模型只是在不经过投票过程的情况下生成一个答案。这使得模型在处理简单和复杂的问题方面更加有效。
强化学习
尽管SV和ASV都提高了模型的效率,但它们需要大量的手工标记数据。为了减轻这个问题,研究人员提出了“推理预算受限的政策优化”(IBPO),这是一种增强学习算法,该算法教会该模型根据查询的难度来调整推理痕迹的长度。
IBPO旨在允许LLMS在推理预算限制范围内保持优化其响应。RL算法使该模型能够通过不断生成ASV痕迹,评估响应并选择提供正确答案和最佳推理预算的结果来超越手动标记数据获得的收益。
他们的实验表明,IBPO改善了帕累托阵线,这意味着对于固定的推理预算,在IBPO上训练的模型优于其他基线。

这些发现是在研究人员警告的背景下,警告当前的AI模型正在撞墙。公司正在努力寻找高质量的培训数据,并正在探索改善其模型的替代方法。
一个有前途的解决方案是增强学习,在该学习中,该模型是一个目标并允许找到自己的解决方案,而不是监督的微调(SFT),在该方法中,该模型在手动标记的示例中进行了培训。
令人惊讶的是,该模型经常发现人类没有想到的解决方案。这是一个似乎有的公式对于DeepSeek-R1来说很好,这挑战了总部位于美国的AI实验室的主导地位。
研究人员指出,基于提示和基于SFT的方法在绝对的提高和效率方面都挣扎,这支持了一个猜想,即仅SFT不能实现自我纠正能力。同时工作也部分支持了这一观察结果,这表明这种自我纠正行为是在RL期间自动出现的,而不是通过提示或SFT手动创建的。”