作者:Written by
这人工智能(AI)市场以及整个股市 - 上个月被震撼 DeepSeek的突然流行, 这开源由中国对冲基金开发的大型语言模型(LLM) 在某些任务上击败了Openai最好的,而成本要少得多。
还:DeepSeek的Cerebras首席执行官:每次计算变得更便宜,市场都会越来越大
作为Zdnet的Radhika Rajkumar细节R1的成功突出了AI的海洋变化,可以增强较小的实验室和研究人员的能力,以创建竞争模型并多样化可用的选择。
它的成功归因于AI深度学习形式的广泛方法,可以利用一种称为“稀疏性”的现象来从计算机芯片中挤出更多的方法。
稀疏有多种形式。有时,它涉及消除AI所使用的数据部分时,当数据没有重大影响模型的输出时。
另外: 我将DeepSeek AI的编码技巧投入了测试 - 这是它崩溃的地方
在其他时候,如果这样做不影响结果,则稀疏性涉及削减神经网络的整个部分。
DeepSeek是后者的一个例子:神经网的典型使用。
大多数人在DeepSeek中确定的主要进步是,它可以将大量的神经网络“权重”或“参数”开关。参数塑造神经网络如何将输入(提示您输入)转换为生成的文本或图像。参数直接影响执行计算需要多长时间。更多参数通常意味着更多的计算工作。
仅使用LLM的某些总参数并关闭其余的能力是稀疏的一个例子。这种稀疏可能会对AI模型的计算预算有多大影响产生重大影响。
Apple AI研究人员在1月21日发布的一份报告中解释了DeepSeek和类似方法如何利用稀疏性来获得给定数量的计算能力的更好的结果。
苹果与DeepSeek无关,但技术巨头进行了自己的AI研究。因此,诸如DeepSeek之类的外部公司的发展是苹果继续参与AI研究的一部分。
另外: DeepSeek的AI模型被证明容易越狱 - 甚至更糟
在论文中,标题为“参数vs flops:缩放法则的最佳稀疏性法律,用于混合特殊的语言模型”,” 张贴在Arxiv预印服务器上,首席作者Samir Abnar和其他Apple研究人员以及麻省理工学院的合作者Harshay Shah研究了性能通过关闭神经网的一部分来利用稀疏性的变化。
Abnar和团队使用代码库进行了研究 于2023年发行由Microsoft,Google和Stanford的AI研究人员称为Megablocks。但是,他们清楚地表明,他们的工作可以应用于DeepSeek和其他最近的创新。
Abnar和团队询问DeepSeek和类似模型中的稀疏度是否有“最佳”水平:对于给定数量的计算能力,是否有最佳的此类神经权重打开或关闭?
研究表明,您可以完全量化稀疏性,因为您可以关闭的所有神经权重的百分比,而该百分比接近但永远不会等于100%的神经网是“不活动”的。
图显示,对于给定的神经网,在给定的计算预算中,可以关闭最佳的神经网以达到准确性。对于每一个新一代的个人计算机,经济规则相同的经济规则都是正确的:要么以相同的钱来获得更好的结果,要么以减少钱的结果。
对于给定大小的总参数的神经网络,具有给定数量的计算,您需要越来越少的参数才能在给定的AI基准测试(例如数学或问题答案)上实现相同或更高的准确性。
换句话说,无论您的计算能力如何,您都可以越来越多地关闭神经网的一部分,并获得相同或更好的结果。
正如Abnar和团队在技术方面所说:“即使受到固定培训计算预算的限制,也会增加参数总数的稀疏性始终导致较低的损失。”术语“预处理损失”是神经网的准确性的AI术语。较低的训练损失意味着更准确的结果。
该发现解释了DeepSeek如何具有较小的计算能力,但仅通过关闭更多的网络零件即可达到相同或更好的结果。
稀疏性就像一个魔术表盘,可以找到适合您的AI型号和可用计算的最佳匹配。
对于每一个新一代的个人计算机,经济规则相同的经济规则都是正确的:要么以相同的钱来获得更好的结果,要么以减少钱的结果。
另外: 安全公司发现DeepSeek与中国政府服务器有“直接链接”
有关DeepSeek的其他细节还有其他细节。例如,另一个DeepSeek创新,如解释AI的Ege Erdil撰写的是一种数学技巧,称为“多头潜在注意力”。在不深入杂草的情况下,多头潜在的关注被用来压缩最大的内存和带宽消费者之一,这是记忆缓存,该记忆缓存具有最近的提示的最新输入文本。
除了细节外,所有这些工作的最深刻的观点是,作为一种现象的稀疏性在AI研究中并不是什么新鲜事物,也不是一种新的工程方法。
人工智能研究人员 已经显示了很多年消除神经网的部分可以通过更少的精力实现可比较甚至更好的准确性。
还:Xai的Grok 3比预期的要好。如何免费尝试(在订阅之前)
NVIDIA竞争对手英特尔 已经确定了稀疏性作为研究多年来改变现场最新技术的关键途径。基于稀疏性的初创企业的方法也已经 近年来,在行业基准测试的高分很高。
稀疏性的魔术表盘不仅像DeepSeek一样剃光计算成本。稀疏性也朝另一个方向起作用:它可以使越来越有效的AI计算机。
稀疏性的魔术表盘是深刻的,因为它不仅可以改善预算较小的经济学,就像在DeepSeek的情况下一样,而且还可以朝着另一个方向奏效:花更多的钱,您会通过稀疏获得更好的好处。当您提高计算能力时,ABNAR和团队发现了AI模型的准确性。
另外: 我们是否将批判性思维技能输给了AI?新的微软研究增加了红旗
他们建议:“随着稀疏性的增加,所有计算预算的验证损失减少,较大的预算在每个稀疏度水平上都降低了损失。”
因此,从理论上讲,您可以在越来越大的计算机上制作越来越大的模型,并获得更好的爆炸。
所有的稀疏性工作意味着DeepSeek只是许多实验室已经在遵循的广泛研究领域的一个例子 - 现在,更多实验室将继续复制DeepSeek的成功。