一家初创公司声称它突破了阻碍法学硕士的瓶颈
作者:By Will Douglas Heavenarchive page
总部位于迈阿密的人工智能初创公司 Subquadratic 上个月走出了隐秘模式,带来了巨大的收益。它宣布它已经解决了数学瓶颈近十年来,这一直阻碍着大型语言模型的发展。
细节很薄弱,很多人不相信。但 Subquadratic 已经开始带来收据,分享对其新技术的独立评估结果。结果表明该公司的说法可能值得关注。
据 Subquadratic 称,它开发了一种名为 SubQ 的新型法学硕士,与市场上任何其他模型相比,它更快、更便宜,而且使用的能源少得多。该公司还声称,SubQ 能够同时处理的文本量是大多数其他模型的 12 倍,使其能够执行一系列数据密集型任务,例如分析数百个文档或整个代码库。
Subquadratic 表示,更重要的是,SubQ 在做到这一点的同时,在编码等关键任务上或多或少地与 Google DeepMind、OpenAI 和 Anthropic 推出的最佳模型的性能相匹配。
问题在于,该公司一开始除了少数自行发布的测试成绩外,几乎没有提供任何证据来证明其主张。而且 SubQ 尚未广泛供人们自行尝试。
因此,Subquadratic 的主张遭到质疑也就不足为奇了。Dan McAteer,人工智能工程师,捕获 X 上的总体响应:“SubQ 要么是自 Transformer 以来最大的突破……要么是 AI Theranos。”
一个月后,该公司发布了有关其型号的更多信息,包括结果额外的独立测试由第三方公司Appen 运营。
“我们预计会有合理的怀疑,”Subquadratic 联合创始人兼首席技术官 Alex Whedon 说道。“事后看来,在最初发布公告的同时发布第三方基准测试可以消除大部分怀疑,这就是为什么我们花时间确保任何未来的结果在发布之前都得到充分验证。”
Subquadratic 要求评估其他公司模型的 Appen 在 SubQ 上进行测试。结果似乎支持了 Subquadratic 的许多主张。“这对我来说真的很令人兴奋,它验证了他们的架构,”Appen 生成人工智能研究总监 Jeanine Sinanan-Singh 说道。
“我当时想,‘哇,这可能会改变游戏规则’,因为模型正在与速度和低效率作斗争,”她补充道。“但是当你得到某种令人震惊的结果时,你自己说出来的结果就真的不那么可信了。”
SubQ 不会全面取代现有的顶级模型,但它可以以特定任务典型成本的一小部分来大幅提高速度。Subquadratic 坚称,从长远来看,它的突破可能会改变法学硕士的构建方式。“我们希望我们正在开启一个高效的新时代,”该公司联合创始人兼首席执行官贾斯汀·丹格尔 (Justin Dangel) 说道。“我们认为几年内不会有人使用 Transformer 进行开发。”
注意!
为了理解为什么 Subquadratic 的主张很重要,让我们深入研究一下大多数法学硕士的工作方式。LLM 内部的关键机制是一种称为 Transformer 的神经网络,它运行一个称为密集注意力的过程。如今的法学硕士通常将多个变压器链接在一起。(谷歌研究人员于 2017 年发表的 LLM 时代的基础论文,标题为“您所需要的就是注意力。”)
密集注意力的工作原理如下:当变压器处理一大块文本,它首先用数字对每个单词(或单词的一部分,称为标记)进行编码。为了捕获全文的含义,它将每个数字与该文本的其他每个数字相乘。例如,一段 10,000 个单词长的文本将启动近 5000 万次单独的乘法运算。这需要大量的计算,也是法学硕士臭名昭著的耗电大户的主要原因。
– 如果你想总结一下了不起的盖茨比,你必须同时查看第一个单词和最后一个单词,然后你必须查看所有其他组合,”Dangel 说。
随着文本长度的增加,计算量猛增。这是因为每个附加数字都必须乘以所有其他先前的数字。单词数量增加一倍,计算量大约增加四倍,这种增长率称为二次展开。
(你可以自己想象一下:画一个圆并在其边缘标记点。每个点都是一个标记。然后在成对的点之间画线来表示这两个标记的乘法。一个有五个点的圆将有 10 条线穿过它。如果有 10 个点,则有 45 条线,如果有 20 个点,则有 190 条线,依此类推。)
削减成本
Subquadratic 的解决方案是放弃密集注意力(Transformer 的核心操作),转而采用所谓的稀疏注意力,从而减少所需的计算量。稀疏注意力不是将分配给每个标记的数字与其他数字相乘,而是仅选择一些数字进行相乘。这个想法是,并非一段文本中单词之间的所有关系都很重要。
“稀疏的注意力表明并非所有这些关系都很重要,因为它们并不重要,”韦登说。“如果您正在读书,您就不会看第一个和第二个单词,第一个和第三个单词,这太疯狂了。”
这是一种简单的方法,Subquadratic 并不是第一个尝试这种方法的人。“几乎所有的事情都已经尝试过了”,曾在 OpenAI 工作过的独立人工智能研究员 Will Depue 说道。“这并非不可能,但这类似于跑四分钟一英里。”
以前用于选择要相乘和忽略哪些数字的技术并没有产生一种能够像密集注意力一样捕捉文档含义的机制。
Subquadratic 声称终于解决了这个问题。它将 SubQ 定位为第一个在性能上可与主流密集注意力模型相媲美的稀疏注意力法学硕士。
“从历史上看,大多数机制都使用固定模式,比如总是将第一个单词与第五个单词进行比较,”韦登说。——这相当有限。语言太复杂了。因此,我们机制的独特之处之一就是我们动态地选择哪些机制是重要的。”
该公司不会具体说明 SubQ 如何选择要关注的单词,但选择是动态计算的,并且对于给定模型的每条文本都不同。“这就是秘密武器所在,”韦登说。
测试,测试
结果是,对于某些任务,SubQ 可能比大多数其他模型运行速度更快、成本更低。澳鹏通过一些标准测试对 SubQ 进行了评估。在一项直接的速度测试中,澳鹏发现 SubQ 比使用 FlashAttention(一种先前的稀疏注意力技术)的模型快 56 倍,该测试为模型理论上的运行速度设定了基线,而不是评估模型的实际功能。
在 LiveCodeBench 测试中,SubQ 的得分为 89.7%,该测试旨在考察模型在实际竞赛中的竞争性编码问题上的表现。与其他顶级编码模型大致相同。“该模型继续提供前沿水平的编码性能,”Appen 的 Sinanan-Singh 说道。
Subquadratic 关于成本的说法更难验证,因为 SubQ 尚未广泛使用。据 Dangel 介绍,通过 RULER 128 运行 Anthropic 的 LLM Opus 4.6 需要花费 2600 美元,RULER 128 是 Nvidia 开发的一项测试,用于评估模型从大型数据集中检索信息的能力。还有SubQ?“我们花了八美元,”他说。
SubQ 似乎确实能够处理非常大的数据集。该模型有一个长达 1200 万个令牌的上下文窗口(大致类似于工作记忆)。如今,大多数顶级模型的上下文窗口长度均为一百万个令牌。在 Whedon 为我运行的演示中,他要求 SubQ 执行一项任务,要求它推理 400 个文档中包含的信息。它在几秒钟内就做出了反应。当他给 Perplexity(一个由 LLM 驱动的流行搜索引擎)执行相同的任务时,它未能加载所有 400 个文档。
澳鹏还进行了大海捞针测试,该测试评估模型检索隐藏在大量数据中的特定信息的能力。澳鹏在其报告中指出SubQ 得分为 98%,上下文窗口长度为 600 万和 1200 万个 token,“在很少有模型进行测试的规模上维持近乎完美的长上下文检索。”
好得令人难以置信?
尽管得分很高,但基准测试对模型能做什么和不能做什么的描述并不完整。在非常特定的条件下进行测试并不能替代在广泛的实际任务中运行模型。
Subquadratic 提供 SubQ 作为专门用于编码和搜索非常大的数据集的模型。据称,已有数万名潜在用户注册抢先体验,其中包括 500 多家企业客户。但等待名单很长,而且该公司迄今为止只允许极少数人进入。Subquadratic 的回应是,它是一家新的小公司,资源有限,无法同时为太多人服务。
在更多人接触到该模型并亲自尝试之前,一些怀疑是有道理的。一个棘手的问题是 Subquadratic 重用了权重 (训练期间模型内设置的值决定其行为方式)从中国开源模型 Qwen 的一个版本来引导 SubQ,而不是从头开始训练它。这是模型制作者经常做的事情,但它违背了 Subquadratic 声称它已经完全重塑了法学硕士工作方式的说法。
“他们可能建造了一些真实且有用的东西,”德普说。“但公开证据尚未证明他们已经解决了二次注意力瓶颈这一更有力的说法。”
与此同时,Subquadratic 联合创始人 Whedon 坚称,做出不同的东西是他唯一的选择。如果你想建立一个有竞争力的模型,你就必须有新的想法,他说:“我们比 OpenAI 更能应对这一挑战。”