TurboQuant:通过极限压缩重新定义人工智能效率
向量是人工智能模型理解和处理信息的基本方式。小向量描述简单的属性,例如图中的点,而“高维”向量则捕获复杂的信息,例如图像的特征、单词的含义或数据集的属性。高维向量非常强大,但它们也消耗大量内存,导致瓶颈键值缓存,一种高速“数字备忘单”,将常用信息存储在简单的标签下,以便计算机可以立即检索它,而无需在缓慢而庞大的数据库中进行搜索。
矢量量化是一种强大的经典数据压缩技术,可以减小高维向量的大小。这种优化解决了人工智能的两个关键方面:矢量搜索,通过实现更快的相似性查找为大规模人工智能和搜索引擎提供动力的高速技术;它有助于疏通键值缓存通过减少键值对的大小来解决瓶颈,从而实现更快的相似性搜索并降低内存成本。然而,传统的矢量量化通常会引入自己的“内存开销”,因为大多数方法都需要计算和存储(全精度)量化常数对于每个小数据块。此开销可能会为每个数字添加 1 或 2 个额外位,部分地违背了矢量量化的目的。
今天,我们介绍一下涡轮定量(将在ICLR 2026),一种压缩算法,可以最佳地解决矢量量化中内存开销的挑战。我们还呈现量子化约翰逊-林登斯特劳斯(QJL),和极量量子(将在2026 年人工智能统计),TurboQuant 使用它来实现其结果。在测试中,这三种技术都显示出在不牺牲人工智能模型性能的情况下减少键值瓶颈的巨大前景。这对所有依赖压缩的用例都有潜在的深远影响,包括特别是在搜索和人工智能领域。
TurboQuant 的工作原理
TurboQuant 是一种压缩方法,可在零精度损失的情况下大幅减小模型大小,非常适合支持键值 (KV) 缓存压缩和矢量搜索。它通过两个关键步骤来实现这一目标:
- 高质量压缩(PolarQuant 方法):TurboQuant 首先随机旋转数据向量。这一巧妙的步骤简化了数据的几何形状,从而可以轻松应用标准的高质量模型量化器(一种将大量连续值(例如精确小数)映射到较小的离散符号或数字(例如整数)集的工具:示例包括音频量化和jpeg压缩) 分别到向量的每个部分。第一阶段使用大部分压缩能力(大部分比特)来捕获原始向量的主要概念和强度。
- 消除隐藏错误:TurboQuant 使用少量剩余的压缩功率(仅 1 位)将 QJL 算法应用于第一阶段留下的微小误差。QJL 阶段充当数学错误检查器,消除偏差,从而获得更准确的注意力分数。
为了充分了解 TurboQuant 如何实现这种效率,我们仔细研究了 QJL 和 PolarQuant 算法的工作原理。
QJL:零开销、1 位技巧
QJL 使用一种称为约翰逊-林登斯特劳斯变换缩小复杂的高维数据,同时保留数据点之间的基本距离和关系。它将每个结果向量数减少为一个符号位(+1 或 -1)。该算法本质上创建了一种需要零内存开销的高速速记。为了保持准确性,QJL 使用特殊的估计器来策略性地平衡高精度查询与低精度简化数据。这使得模型能够准确计算注意力分数(用于决定输入的哪些部分重要以及哪些部分可以安全地忽略的过程)。
PolarQuant:压缩的新“角度”
PolarQuant 使用完全不同的方法解决内存开销问题。PolarQuant 不是使用指示沿每个轴的距离的标准坐标(即 X、Y、Z)查看存储向量,而是使用笛卡尔坐标系。这相当于将“向东走 3 个街区,向北走 4 个街区”替换为“以 37 度角总共走 5 个街区”。这会产生两条信息:半径(表示核心数据的强度)和角度(表示数据的方向或含义)。由于角度模式已知且高度集中,因此模型不再需要执行昂贵的操作数据标准化因为它将数据映射到固定的、可预测的“圆形”网格上,其中边界已知,而不是边界不断变化的“方形”网格上。这使得 PolarQuant 能够消除传统方法必须承担的内存开销。
长上下文“大海捞针”任务(即旨在查看模型是否可以找到埋藏在大量文本中的一条特定的微小信息的测试)的结果如下所示。同样,TurboQuant 在所有基准测试中都实现了完美的下游结果,同时将键值内存大小减少了至少 6 倍。PolarQuant 对于这项任务来说几乎是无损的。
TurboQuant 证明它可以将键值缓存量化为仅 3 位,无需训练或微调,也不会对模型精度造成任何影响,同时实现比原始 LLM(Gemma 和 Mistral)更快的运行时间。它的实施效率非常高,并且运行时开销可以忽略不计。下图说明了使用 TurboQuant 计算注意力 logits 时的加速情况:具体而言,4 位 TurboQuant 在 32 位非量化密钥上实现了高达 8 倍的性能提升H100 GPU 加速器。
TurboQuant 展示了高维搜索的变革性转变。通过为可实现的速度设定新的基准,它以数据无关的方式提供接近最佳的失真率。这使得我们最近的邻居引擎能够以 3 位系统的效率运行,同时保持更重模型的精度。请参阅纸了解更多详情。
展望未来
TurboQuant、QJL 和 PolarQuant 不仅仅是实用的工程解决方案;它们是由强有力的理论证明支持的基本算法贡献。这些方法不仅在实际应用中效果很好,而且在实际应用中效果也很好。它们已被证明是有效的,并且在理论下限附近运行。这种严格的基础使得它们对于关键的大型系统来说是强大且值得信赖的。
虽然主要应用是解决 Gemini 等模型中的键值缓存瓶颈,但高效在线矢量量化的影响甚至更大。例如,现代搜索正在超越仅仅使用关键字来理解意图和含义。这需要向量搜索——能够在数十亿个向量的数据库中找到“最近”或语义上最相似的项目。
TurboQuant 等技术对于这项任务至关重要。它们允许以最小的内存、接近零的预处理时间和最先进的精度来构建和查询大型向量索引。这使得 Google 规模的语义搜索更快、更高效。随着人工智能越来越多地集成到从法学硕士到语义搜索的所有产品中,基础矢量量化方面的这项工作将比以往任何时候都更加重要。
致谢
该系列研究是与 Google 研究员 Praneeth Kacham 合作进行的;Insu Han,韩国科学技术院助理教授;和 Majid Daliri,纽约大学博士生;Lars Gottesbüren,谷歌研究员;和谷歌研究员 Rajesh Jayaram。