作者:By Amos Zeeberg July 18, 2025
这家中国人工智能公司DeepSeek在今年早些时候发布了一家聊天机器人,名为R1,引起了很多关注。大部分专注于事实一家相对较小且不知名的公司表示,它建立了一个聊天机器人,该聊天机器人与来自世界上最著名的AI公司的人的表现相媲美,但使用了一小部分计算机功率和成本。结果,许多西方科技公司的股票暴跌。NVIDIA出售领导AI模型的芯片,一天内损失了更多的股票价值比历史上的任何公司。
其中一些注意力涉及指控的要素。消息人士指控那DeepSeek获得了,未经许可,通过使用一种称为蒸馏的技术,来自Openai专有O1模型的知识。大部分新闻报道将这种可能性归结为对人工智能行业的震惊,这意味着DeepSeek发现了一种新的,更有效的构建AI的方法。
但是,蒸馏(也称为知识蒸馏)是AI中广泛使用的工具,这是一个可以追溯到十年的计算机科学研究的主题,也是大型科技公司在自己的模型上使用的工具。蒸馏是当今公司最重要的工具之一,使模型更加高效。”Enric Boix-Adsera,研究宾夕法尼亚大学沃顿商学院蒸馏的研究人员。
蒸馏的想法始于2015年论文由Google的三名研究人员,包括AI的所谓教父Geoffrey Hinton和2024年诺贝尔奖获得者。当时,研究人员经常运行模型的集合。金醇vinyals,Google Deepmind的首席科学家,也是该论文的一位作者,以提高其表现。Vinyals说,但是所有模型都非常笨重,而且昂贵。” Vinyals说。我们对将其提取到单个模型的想法很感兴趣。
研究人员认为,他们可以通过解决机器学习算法的显着弱点来取得进展:错误的答案都被认为是同样糟糕的,无论它们可能有多错误。例如,在图像分类模型中,“将狗和狐狸混淆的方式与使狗和披萨混淆的方式相同。”研究人员怀疑合奏模型确实包含有关哪些错误答案不糟糕的信息。也许较小的学生模型可以使用大型教师模型的信息来更快地掌握应该将图片分类为类别的类别。欣顿称这种黑暗的知识为“黑暗知识”,用宇宙暗物质进行了类比。
在与Hinton讨论了这种可能性之后,Vinyals开发了一种方法,使大型教师模型将有关图像类别的更多信息传递给较小的学生模型。钥匙是在教师模型中归咎于“软目标”,在该模型中,它为每种可能性分配了概率,而不是牢固的答案。例如,一种模型计算图像显示一只狗的可能性有30%,其中20%显示猫,其中5%显示牛,而0.5%的猫显示了汽车。通过使用这些概率,教师模型有效地向学生透露,狗与猫非常相似,与牛不同,与汽车完全不同。研究人员发现,这些信息将帮助学生学习如何更有效地识别狗,猫,牛和汽车的图像。一个大,复杂的模型可以将其简化为更精细的模型,而精确度几乎没有损失。
这个想法不是立即受到打击。该论文被拒绝了一次会议,而Vinyals则灰心地转向了其他主题。但是蒸馏到了一个重要的时刻。大约在这个时候,工程师发现他们提供给神经网络的培训数据越多,这些网络就越有效。模型的大小很快爆炸,他们的大小也爆炸了功能,但是运行它们的成本随着它们的大小而逐步攀升。
许多研究人员转向蒸馏,以制作较小的型号。例如,在2018年,Google研究人员推出了一种强大的语言模型,称为伯特,该公司很快开始使用该公司来帮助解析数十亿个网络搜索。但是伯特(Bert)跑步很大且昂贵,因此第二年,其他开发人员将较小的版本提炼为明智的Distilbert,该版本已被广泛用于商业和研究。蒸馏逐渐变得无处不在,现在它作为一项服务,例如谷歌,,,,Openai, 和亚马逊。原始的蒸馏纸仍然仅在Arxiv.org Preprint服务器上发布被引用了超过25,000次。
考虑到蒸馏需要访问教师模型的内部,第三方不可能偷偷地从openai s o1等封闭源模型中提取数据,因为DeepSeek被认为已经完成了。也就是说,仅通过提示教师提出某些问题并使用答案来训练自己的模型,学生模型仍然可以从教师模型中学到很多东西。
同时,其他研究人员继续找到新的应用程序。一月份,加利福尼亚大学伯克利分校的Novasky Lab,表明蒸馏效果很好,使用多步思想来更好地回答复杂问题。该实验室表示,其完全开源的SKY-T1型号的训练成本低于450美元,并且与更大的开源型号获得了类似的结果。``在这种情况下蒸馏的效果如何,我们真的很惊讶。”达尚·李(Dacheng Li),Novasky团队的伯克利博士生和同学领导。蒸馏是AI的基本技术。