作者:Nikhil
随着深度学习模型的不断增长,机器学习模型的量化变得至关重要,并且对有效的压缩技术的需求变得越来越相关。低位量化是一种在试图保留准确性的同时降低模型大小的方法。研究人员一直在确定最大程度地提高效率的最佳位宽度,而不会损害性能。各种研究探索了不同的位宽度设置,但是由于缺乏标准化的评估框架而产生了矛盾的结论。这种持续的追求影响了大规模人工智能模型的发展,从而确定了它们在记忆约束环境中部署的可行性。
低位量化的主要挑战是确定计算效率和模型准确性之间的最佳权衡。关于哪个位最有效的位宽度的争论仍未解决,一些人认为4位量化提供了最佳平衡,而另一些人则声称1.58位模型可以实现可比的结果。但是,先前的研究缺乏比较不同量化设置的统一方法,从而导致结论不一致。这种知识差距使建立可靠的缩放定律以低位精度量化为复杂。此外,在极低位置的设置中实现稳定的训练构成了技术障碍,因为与较高位置相比,低位模型通常会经历重大的代表性变化。
量化方法的实施和有效性各不相同。在完全精确地训练模型之后,训练后量化(PTQ)应用量化,使其易于部署,但易于在低位宽度下精确降解。另一方面,量化感知训练(QAT)将量化整合到训练过程中,从而使模型可以更有效地适应低位表示。已经探索了其他技术,例如可学习的量化和混合精液策略,以微调准确性和模型大小之间的平衡。但是,这些方法缺乏系统评估的通用框架,因此很难在不同条件下比较其效率。
Meta的研究人员推出了Paretoq,这是一个结构化框架,旨在统一4位量化技术的评估。该框架可以在不同的位宽度设置上进行严格的比较,包括1位,1.58位,2位,3位和4位量化。通过完善训练方案和特定于位的量化功能,Paretoq可以提高与以前的方法相比的准确性和效率。与对特定位级别独立优化的先前作品不同,Paretoq建立了一个一致的评估过程,可以客观地比较量化权衡。
Paretoq采用了优化的量化训练策略,以最大程度地降低准确性损失,同时保持模型压缩效率。该框架优化了特定于位的量化功能,并为每个位宽度量身定制培训策略。这项研究的一个关键发现是在2位和3位量化之间观察到的独特的学习过渡。以3位精度训练并更高的模型与原始预训练的分布保持相似性,而在2位或较低体验的急剧代表性转移中进行了训练的模型。为了克服这一挑战,该框架系统地优化了量化网格,训练分配和特定于位的学习策略。
广泛的实验证实了帕累托克比现有量化方法的出色表现。使用ParetoQ开发的三元600m参数模型优于先前的最新三元3B参数模型,同时仅利用参数的五分之一。研究表明,2位量化在相同大小的4位模型上的准确性提高了1.8个百分点,从而确立了其可行性作为常规4位量化的替代方案。此外,PareToQ可以实现更友好的硬件实现,与4位量化相比,优化的2位CPU内核可实现更高的速度和存储效率。该实验还表明,与1位和4位量化相比,三元,2位和3位量化模型实现了更好的精度尺寸折衷,从而增强了低4位方法的重要性。
这项研究的结果为在大语言模型中优化低位量化的基础提供了坚实的基础。通过引入结构化框架,该研究有效地解决了准确性权衡和位宽度优化的挑战。结果表明,尽管极端低位量化是可行的,但目前2位和3位量化为性能和效率之间提供了最佳平衡。对低位计算的硬件支持的未来进步将进一步增强这些技术的实用性,从而在资源受限的环境中更有效地部署大型机器学习模型。
查看 。 纸。这项研究的所有功劳都归该项目的研究人员。另外,不要忘记跟随我们 叽叽喳喳加入我们的 电报频道和 LinkedIn GrOUP。不要忘记加入我们的 75K+ ml子雷迪特。