投机性级联 - 一种更智能，更快的LLM推理的混合方法

2025-09-11 22:03:58 英文原文

LLMS已改变了我们与技术的互动方式，从高级搜索功能到创意编码助手的所有功能。但是这种功能是有代价的：推理（产生响应的过程）可能会很慢，计算上昂贵。当我们向更多用户部署这些模型时，使它们更快，更便宜而不牺牲质量是一个至关重要的挑战。

实现这一目标的一种方法是使用级联，旨在通过策略性地使用较小，更快的型号来优化LLM效率，然后再吸引较大，更昂贵的LLM。这种方法涉及延期规则较小的模型决定是否可以处理查询，还是需要将任务传递给更有能力但更昂贵的大型模型。目的是尽可能廉价，迅速地处理，只能出现大型LLM的高成本，以实现真正需要其先进能力的复杂任务，并可能产生有利的成本质量折衷。级联优先考虑降低计算成本和有效的资源分配，同时允许质量变化。

另一种方法，投机解码，优化LLM的延迟和吞吐量没有更改最终结果。它通过采用较小，更快的“起草者”模型来预测未来令牌的顺序来实现这一目标。然后，这些推测的令牌会通过较大的目标模型并联迅速验证。如果接受草稿，大型模型会在一个步骤中有效地生成多个令牌，从而大大加速了该过程，同时确保最终输出与大型模型本身会产生的相同。这种方法优先考虑速度和延迟降低，可能是以增加内存使用和减少计算节省的成本，因为较大的模型仍在执行大量工作。

在通过投机解码更快的级联我们介绍了投机性的级联，这是一种结合级联反应和投机解码的新方法。它以比单独的任何一种技术的计算成本更高的计算成本提供更好的LLM输出质量。我们使用标准级联和投机解码基线测试了新的投机级联技术芽和T5各种语言任务的模型，包括摘要，翻译，推理，编码和问题回答。结果表明，与基线相比，拟议的投机级联取得了更好的成本质量权衡，通常会产生更高的加速和质量指标。

更深的外观

为了充分理解和欣赏投机性的级联方法，我们首先将级联反应和投机解码与一个简单的例子进行比较。想象一下，您向LLM问一个简单的问题：

迅速的：“谁是嗡嗡声Aldrin？“

假设我们有两个模型可以回答：一个小型，快速的“起草者”模型和一个大型，强大的“专家”模型。

他们可能会做出以下方式：

小型型号： Buzz Aldrin是美国前宇航员，工程师和战斗机飞行员，最著名的是在月球上行走的第二个人。
大型模型： 埃德温（Edwin）“ Buzz” Aldrin是太空探索历史上的关键人物，是美国前宇航员，工程师和战斗机飞行员，他以第二名在月球上行走的人而闻名。

两种模型都提供了出色的，实际上正确的答案，但它们以略有不同的方式解释了用户的意图。小型模型提供了快速，事实的摘要，而大型模型则提供了更正式的百科全书风格的条目。根据用户的需求 - 无论是快速事实还是详细的概述 - 这两种响应都可以认为是理想的。关键是它们代表了两种不同的，同样有效的样式。

现在，让我们看看两种主要加速技术如何处理此情况。

使用Cascades，小的“起草者”型号首先得到提示。如果对答案充满信心，它会回答。如果没有，它将整个任务辩护给大型“专家”模型。

在我们的示例中：

小型模型产生了简洁明了的答案。
它检查了它的信心，并发现它很高，将响应发送给用户。

这有效！我们很快得到一个很好的答案。但是该过程是顺序的。如果小型模型没有充满信心，我们会浪费时间等待它完成，然后从头开始启动大型模型。这种顺序的“等待”方法是一种基本的瓶颈。

通过投机解码，小型模型很快就可以起草答案的前几个令牌，并且大型模型并行验证它，纠正了它发现的第一个错误。

在我们的示例中：

小型模型起草了答案的开始：[[嗡嗡声，，，，奥尔德林，，，，是，，，，一个，...]]
大型模型验证了此草稿。它自己的首选第一个令牌是埃德温。
自从嗡嗡声埃德温，第一个令牌是不匹配的。
整个草稿是被拒绝第一个令牌被取代埃德温。然后，该过程从此校正点重复以生成其余答案，但是初始速度优势已经丢失。

即使小型模型产生了一个很好的答案，但符合大型模型令牌迫使拒绝的要求。我们失去了速度收益，最终得到一个不一定优越的答案。尽管上面的示例使用简单的令牌匹配拒绝规则，但在完整的论文中，我们还提供了“概率匹配”的潜力，该匹配可在逐个令牌的比较中提供更大的灵活性。

不同的目标，不同的权衡

这 ”Buzz Aldrin“示例揭示了这两种技术之间的根本差异，如下所示：

投机性级联：两全其美

投机性的级联反应结合了从标准级联反应的分层处理的想法和投机解码的加速机制。它涉及一个较小的模型，该模型生成“草稿”输出，然后较大的模型并并联迅速验证。关键创新是用灵活的延期规则代替严格验证投机解码的验证。该规则是在逐个标记的基础上动态决定是否接受小型模型的草稿或延期大型模型。这避免了标准级联的顺序瓶颈，同时允许系统接受小型型号的良好答案，即使它与大型模型的首选输出完全不匹配。

在我们的示例中：

小型模型起草了答案的开始：[[嗡嗡声，，，，奥尔德林，，，，是，，，，一个，...]]
同时，大型模型评估了草案，提供了自己的分数。
关键步骤：灵活的延期规则均考虑输出，并决定是否有必要延期。
如果系统决定不推迟，它接受小型模型的草稿令牌。然后，该过程从这个新点有效地重复，起草和验证下一个文本，直到答案完成为止。

这种方法的力量在于其灵活性，因为延期规则可以根据不同的需求量身定制。

例如，我们可以告诉系统以：

简单的信心检查：仅当小型模型对自己的预测不太自信时才延迟。
比较检查：推迟大型模型比小型模型更有信心。
成本效益分析：仅当大型模型的信心增强拒绝拒绝小型模型的草案的“成本”时，才会推迟。
特定于令牌的检查：根据大型模型（其排名最高的代币），给出了最佳下一个单词的“批准列表”，如果小型模型的起草令牌是不是在此列表中。

这种能够插入不同决策逻辑的能力使投机性的级联融合了速度，质量和适应性的独特融合。

下面，我们可视化投机性级联的行为与从GSM8K数据集。提示问：玛丽有30只绵羊。她每天从一半的牛奶中得到1公斤牛奶，另一半牛奶得到2公斤的牛奶。她每天收集多少牛奶？通过仔细利用小型模型的某些令牌输出，投机性级联可以比常规投机解码更快地达到正确的解决方案。

实验

我们对一系列基准测试了投机性级联，包括摘要，推理和编码。结果比投机解码具有明显的优势。在标准质量 - 效率图上，投机性级联始终提供更好的权衡。这意味着与投机解码相同的质量水平，我们的方法更快，即，每个呼叫对较大模型的代币产生更多的令牌。

用投机性的级联反应更快，更智能的AI

随着LLM越来越多地集成到日常应用中，优化其性能仅仅是技术目标，这是实际的必要性。通过重新思考级联和投机解码如何一起工作，投机性级联为开发人员提供了更强大，更灵活的工具。这种混合方法允许对成本质量平衡的细粒度控制，为更智能和更快的应用铺平了道路。

致谢

这项工作是与Wittawat Jitkrittum，Ankit Singh Rawat，Seungyeon Kim，Neha Gupta和Sanjiv Kumar的合作努力。我们感谢Ananda Theertha Suresh和Ziteng Sun进行了深刻的讨论，以及耶鲁大学，马克·西伯格（Mark Simborg）和金伯利·施维德（Kimberly Schwede）在制作此博客方面的帮助。

关于《投机性级联 - 一种更智能，更快的LLM推理的混合方法》的评论

暂无评论

发表评论

摘要

研究人员开发了投机性的级联，这是一种结合级联反应和投机解码以优化大型语言模型（LLM）效率的新方法。该方法旨在通过利用较小的模型来汇编响应，然后通过较大的模型并行验证或完善，以较低的计算成本提供更高质量的输出。在诸如摘要和问答的各种任务中进行了测试，投机性级联表现出与标准方法相比的成本质量较高的权衡，提供了更快的处理，而不会损害最终输出准确性。

投机性级联 - 一种更智能，更快的LLM推理的混合方法

更深的外观

不同的目标，不同的权衡

投机性级联：两全其美

实验

用投机性的级联反应更快，更智能的AI

致谢

关于《投机性级联 - 一种更智能，更快的LLM推理的混合方法》的评论

发表评论

摘要

相关新闻

相关讨论