LLMS已改变了我们与技术的互动方式,从高级搜索功能到创意编码助手的所有功能。但是这种功能是有代价的:推理(产生响应的过程)可能会很慢,计算上昂贵。当我们向更多用户部署这些模型时,使它们更快,更便宜而不牺牲质量是一个至关重要的挑战。
实现这一目标的一种方法是使用级联,旨在通过策略性地使用较小,更快的型号来优化LLM效率,然后再吸引较大,更昂贵的LLM。这种方法涉及延期规则较小的模型决定是否可以处理查询,还是需要将任务传递给更有能力但更昂贵的大型模型。目的是尽可能廉价,迅速地处理,只能出现大型LLM的高成本,以实现真正需要其先进能力的复杂任务,并可能产生有利的成本质量折衷。级联优先考虑降低计算成本和有效的资源分配,同时允许质量变化。
另一种方法,投机解码,优化LLM的延迟和吞吐量没有更改最终结果。它通过采用较小,更快的“起草者”模型来预测未来令牌的顺序来实现这一目标。然后,这些推测的令牌会通过较大的目标模型并联迅速验证。如果接受草稿,大型模型会在一个步骤中有效地生成多个令牌,从而大大加速了该过程,同时确保最终输出与大型模型本身会产生的相同。这种方法优先考虑速度和延迟降低,可能是以增加内存使用和减少计算节省的成本,因为较大的模型仍在执行大量工作。
在通过投机解码更快的级联我们介绍了投机性的级联,这是一种结合级联反应和投机解码的新方法。它以比单独的任何一种技术的计算成本更高的计算成本提供更好的LLM输出质量。我们使用标准级联和投机解码基线测试了新的投机级联技术芽和T5各种语言任务的模型,包括摘要,翻译,推理,编码和问题回答。结果表明,与基线相比,拟议的投机级联取得了更好的成本质量权衡,通常会产生更高的加速和质量指标。
为了充分理解和欣赏投机性的级联方法,我们首先将级联反应和投机解码与一个简单的例子进行比较。想象一下,您向LLM问一个简单的问题:
迅速的:“谁是嗡嗡声Aldrin?“
假设我们有两个模型可以回答:一个小型,快速的“起草者”模型和一个大型,强大的“专家”模型。
他们可能会做出以下方式:
两种模型都提供了出色的,实际上正确的答案,但它们以略有不同的方式解释了用户的意图。小型模型提供了快速,事实的摘要,而大型模型则提供了更正式的百科全书风格的条目。根据用户的需求 - 无论是快速事实还是详细的概述 - 这两种响应都可以认为是理想的。关键是它们代表了两种不同的,同样有效的样式。
现在,让我们看看两种主要加速技术如何处理此情况。
使用Cascades,小的“起草者”型号首先得到提示。如果对答案充满信心,它会回答。如果没有,它将整个任务辩护给大型“专家”模型。
在我们的示例中:
这有效!我们很快得到一个很好的答案。但是该过程是顺序的。如果小型模型没有充满信心,我们会浪费时间等待它完成,然后从头开始启动大型模型。这种顺序的“等待”方法是一种基本的瓶颈。
通过投机解码,小型模型很快就可以起草答案的前几个令牌,并且大型模型并行验证它,纠正了它发现的第一个错误。
在我们的示例中:
即使小型模型产生了一个很好的答案,但符合大型模型令牌迫使拒绝的要求。我们失去了速度收益,最终得到一个不一定优越的答案。尽管上面的示例使用简单的令牌匹配拒绝规则,但在完整的论文中,我们还提供了“概率匹配”的潜力,该匹配可在逐个令牌的比较中提供更大的灵活性。
这 ”Buzz Aldrin“示例揭示了这两种技术之间的根本差异,如下所示:
投机性的级联反应结合了从标准级联反应的分层处理的想法和投机解码的加速机制。它涉及一个较小的模型,该模型生成“草稿”输出,然后较大的模型并并联迅速验证。关键创新是用灵活的延期规则代替严格验证投机解码的验证。该规则是在逐个标记的基础上动态决定是否接受小型模型的草稿或延期大型模型。这避免了标准级联的顺序瓶颈,同时允许系统接受小型型号的良好答案,即使它与大型模型的首选输出完全不匹配。
在我们的示例中:
这种方法的力量在于其灵活性,因为延期规则可以根据不同的需求量身定制。
例如,我们可以告诉系统以:
这种能够插入不同决策逻辑的能力使投机性的级联融合了速度,质量和适应性的独特融合。
下面,我们可视化投机性级联的行为与从GSM8K数据集。提示问:玛丽有30只绵羊。她每天从一半的牛奶中得到1公斤牛奶,另一半牛奶得到2公斤的牛奶。她每天收集多少牛奶?通过仔细利用小型模型的某些令牌输出,投机性级联可以比常规投机解码更快地达到正确的解决方案。
我们对一系列基准测试了投机性级联,包括摘要,推理和编码。结果比投机解码具有明显的优势。在标准质量 - 效率图上,投机性级联始终提供更好的权衡。这意味着与投机解码相同的质量水平,我们的方法更快,即,每个呼叫对较大模型的代币产生更多的令牌。
随着LLM越来越多地集成到日常应用中,优化其性能仅仅是技术目标,这是实际的必要性。通过重新思考级联和投机解码如何一起工作,投机性级联为开发人员提供了更强大,更灵活的工具。这种混合方法允许对成本质量平衡的细粒度控制,为更智能和更快的应用铺平了道路。
这项工作是与Wittawat Jitkrittum,Ankit Singh Rawat,Seungyeon Kim,Neha Gupta和Sanjiv Kumar的合作努力。我们感谢Ananda Theertha Suresh和Ziteng Sun进行了深刻的讨论,以及耶鲁大学,马克·西伯格(Mark Simborg)和金伯利·施维德(Kimberly Schwede)在制作此博客方面的帮助。