英语轻松读发新版了,欢迎下载、更新

DeepSeek的成功表明了动力为什么是AI创新的关键

2025-04-26 19:55:00 英文原文

作者:Debasish Ray Chawdhuri, Talentica Software

加入我们的每日和每周的新闻通讯,获取有关行业领先的AI覆盖范围的最新更新和独家内容。了解更多


2025年1月震动AI景观。看似不可阻挡的OpenAI和强大的美国科技巨头对我们当然称为大语模型(LLMS)领域的失败者感到震惊。DeepSeek是一家不在任何人的雷达上的中国公司,突然向Openai挑战。并不是说DeepSeek-R1比美国巨头的顶级模特更好。就基准测试而言,它略有落后,但突然间,每个人都考虑了硬件和能源使用方面的效率。

鉴于最好的高端硬件不可用,似乎DeepSeek在效率领域进行创新,这对较大的玩家来说是一个较小的关注点。Openai声称他们有证据表明DeepSeek可能已经使用了他们的模型进行培训,但是我们没有具体的证据来支持这一点。因此,无论是真实的,还是只是试图安抚投资者的开放式是一个辩论的话题。但是,DeepSeek发表了他们的作品,人们已经证实了至少在较小的规模上可以重现结果。

但是怎么可能DeepSeek在美国公司却无法实现此类成本?简短的答案很简单:他们有更多的动力。长答案需要更多的技术解释。

DeepSeek使用KV-CACHE优化

用于GPU内存的一个重要的成本避免成本是优化LLM中每个注意力层中使用的键值高速缓存。

LLM由变压器块组成,每个块都包含一个注意力层,然后是常规的香草馈电网络。从概念上讲,前馈网络对任意关系进行建模,但实际上,它很难始终确定数据中的模式。注意力层为语言建模解决了这个问题。

模型使用令牌处理文本,但是为简单起见,我们将它们称为单词。在LLM中,每个单词都会在高维度(例如一千个维度)中分配一个向量。从概念上讲,每个维度都代表一个概念,例如变热,绿色,柔软,是名词。单词向量表示是根据每个维度的含义和价值。

但是,我们的语言允许其他单词修改每个单词的含义。例如,苹果具有意义。但是我们可以将绿色苹果作为修改版本。一个更极端的修改例子是,iPhone上下文中的苹果与草地上下文中的苹果有所不同。我们如何让系统根据另一个单词修改单词的向量含义?这是关注的地方。

注意模型为每个单词分配了另外两个向量:一个键和查询。查询表示可以修改的单词含义的素质,并且键表示它可以为其他单词提供的修改类型。例如,“绿色”一词可以提供有关颜色和绿色的信息。因此,“绿色”一词的关键将对绿色的维度具有很高的价值。另一方面,苹果一词可以是绿色的,因此苹果的查询向量也将对绿色的维度具有很高的价值。如果我们将“绿色钥匙的点产物”与苹果的查询一起使用,那么与table的钥匙的产物和苹果的查询相比,该产品应该相对较大。然后,注意力层增加了apple的价值的一小部分。这样,苹果一词的价值被修改为绿色。

当LLM生成文本时,它会又一个单词。当它生成一个单词时,所有先前生成的单词都成为其上下文的一部分。但是,这些单词的键和值已经计算出来。当将另一个单词添加到上下文中时,需要根据其查询以及所有以前单词的键和值来更新其值。这就是为什么所有这些值都存储在GPU内存中。这是KV缓存。

DeepSeek确定单词的关键和价值是相关的。因此,绿色一词的含义及其影响绿色的能力显然密切相关。因此,在非常容易处理的同时,可以将两者都作为单个(甚至更小的)向量和解压缩进行压缩。DeepSeek发现它确实会影响他们的基准的性能,但它节省了很多GPU内存。

DeepSeek应用了Moe

神经网络的性质是需要对每个查询进行评估(或计算)整个网络。但是,并非所有这些都是有用的计算。世界知识属于网络的权重或参数。关于埃菲尔铁塔的知识不用于回答有关南美部落历史的问题。知道苹果是一种水果,在回答有关相对论一般理论的问题时没有用。但是,计算网络时,无论如何处理网络的所有部分。理想情况下应避免文本生成期间的巨大计算成本。这是Experts(MOE)混合物的想法。

在MOE模型中,神经网络分为多个称为专家的较小网络。请注意,在主题方面的专家没有明确定义;该网络在培训期间将其弄清楚。但是,网络为每个查询分配了一些相关得分,仅激活匹配分数较高的零件。这为计算提供了巨大的成本节省。请注意,某些问题需要在多个领域进行适当答复的专业知识,并且此类查询的性能将被降低。但是,由于数据从数据中弄清楚,因此此类问题的数量被最小化。

强化学习的重要性

LLM被教导要通过一个经过思考的模型进行思考,该模型在提供答案之前进行了微调以模仿思维。要求该模型口头表达其思想(在产生答案之前产生思想)。然后在思想和答案上对模型进行评估,并通过加强学习进行培训(奖励了正确的匹配,并因与培训数据的不正确匹配而受到惩罚)。

这需要带有思想令牌的昂贵培训数据。DeepSeek只要求系统在标签<think>和</think>之间产生思想,并在标签<答案>和</anders>之间生成答案。该模型纯粹是根据形式(使用标签的使用)和答案的匹配来奖励或惩罚。这需要便宜得多的培训数据。在RL的早期阶段,该模型尝试产生的思考很少,这导致了错误的答案。最终,该模型学会了产生漫长而连贯的思想,这就是DeepSeek所说的“一个时刻”。此后,答案的质量有了很大的提高。

DeepSeek采用了几种其他优化技巧。但是,它们是技术性的,因此我不会在这里深入研究。

关于DeepSeek和大型市场的最终想法

在任何技术研究中,我们首先需要查看提高效率之前的可能性。这是自然的进步。DeepSeek对LLM景观的贡献是惊人的。无论是否使用OpenAI产出对它们进行培训,就不容忽视学术贡献。它还可以改变启动的方式。但是没有理由使Openai或其他美国巨头绝望。这就是方法研究工作一个小组从其他小组的研究中受益。DeepSeek当然受益于Google,OpenAI和许多其他研究人员所做的早期研究。

但是,Openai将无限期地统治LLM世界的想法现在不太可能。没有数量的监管游说或指尖可以保留其垄断。该技术已经掌握在许多人手中,并在公开场合掌握了,这使得其进步无法阻挡。尽管这对Openai的投资者来说可能有些麻烦,但最终对我们其他人来说都是胜利。尽管未来属于许多人,但我们将永远感谢Google和Openai等早期贡献者。

Debasish Ray Chawdhuri是高级首席工程师Talentica软件

每日有关VB每日业务用例的见解

如果您想给老板留下深刻的印象,VB Daily可以为您提供服务。我们为您提供有关公司在制定AI的工作,从监管转变到实际部署的公司,因此您可以分享最大投资回报率的见解。

阅读我们的隐私政策

感谢您的订阅。查看更多VB时事通讯在这里

发生错误。

关于《DeepSeek的成功表明了动力为什么是AI创新的关键》的评论


暂无评论

发表评论

摘要

2025年1月,AI景观与DeepSeek(一家中国公司,挑战了OpenAI和美国科技巨头)的景观发生了重大变化,其高效的大语言模型(LLM)DeepSeek-R1。尽管没有超过主要参与者设定的基准,但DeepSeek强调了硬件和能源效率,通过KV-Cache优化和MOE技术创新,以降低成本并提高性能。这项挑战质疑已建立的AI领导者的主导地位,并强调了新兴参与者推动行业发展技术进步的潜力。