英语轻松读发新版了,欢迎下载、更新

Deepseek有多撕毁AI剧本,以及为什么每个人都会遵循其领导

2025-01-31 16:28:17 英文原文

作者:By Will Douglas Heavenarchive page

美国股市损失了1万亿美元,特朗普总统称其为警钟,炒作再次被拨打。DeepSeek R1是我见过的最令人惊叹,最令人印象深刻的突破之一。发表在X上

但是DeepSeek的创新并不是这里唯一的收获。通过发布有关R1和先前称为V3的模型的详细信息,并免费释放模型,DeepSeek撤回了窗帘,以揭示推理模型比人们想象的要容易得多。该公司已关闭了世界最高实验室的领先优势。

这一消息使各地的竞争对手陷入困境。本周,中国科技巨头阿里巴巴宣布大型语言模型的新版本qwen美国顶级非营利性实验室AIN AI(AI2)的Alen AI研究所宣布更新其大型语言模型图卢。两者都声称他们的最新模型击败了DeepSeek的同等产品。

Openai的联合创始人兼首席执行官Sam Altman称R1令人印象深刻的价格,但以一个看涨诺言:我们显然会提供更好的模型。chatgpt gov这是针对美国政府机构的安全需求量身定制的聊天机器人的版本,显然是对DeepSeek的应用程序正在向中国发送数据的担忧。还有更多。

DeepSeek突然成为击败的公司。这到底是什么使技术界如此充分嘎嘎作响?炒作是正当的吗?我们可以从关于接下来会发生什么的嗡嗡声中学到什么?这是您需要知道的。 

训练步骤

让我们开始解开对培训的大型语言模型。有两个主要阶段,称为训练和训练后。训练是大多数人谈论的舞台。在此过程中,一遍又一遍地将数十亿个文档的网站,书籍,代码存储库和更多文档送入神经网络,直到它学会生成看起来像源材料的文本,一个单词时间。您最终被称为基本模型。

预处理是大多数工作发生的地方,它可能花费大量的钱。但是,正如Openai的联合创始人Andrej Karpathy,特斯拉的前AI负责人时,去年在Microsoft Build的一次演讲中指出,“基本模型”不是助手。他们只想完成互联网文件。

将大型语言模型变成有用的工具需要多个额外的步骤。这是训练后阶段,模型学会完成特定任务,例如回答问题(或逐步回答问题,例如Openai s o3和DeepSeek s R1)。在过去的几年中,这是采用基本模型并将其训练以模仿人类测试人员军队提供的问答示例的方式。此步骤称为监督微调。 

然后,Openai开创了又一个步骤,在该步骤中,人类测试人员再次对模型的样本答案进行了评分,而那些用于训练模型以产生未来答案的分数更像是得分良好的答案t。这种技术被人为反馈(RLHF)称为增强学习,就是使聊天机器人这样的聊天机器人如此光滑的原因。RLHF现在在整个行业中使用。

但是那些训练后的步骤需要时间。DeepSeek表明的是,至少在大多数情况下,您就可以获得相同的结果。DeepSeek用完全自动化的加强学习步骤代替了受监督的微调和RLHF。该公司没有使用人类反馈来引导其模型,而是使用计算机产生的反馈分数。

``跳过或削减了人类反馈,这是一件大事。”阿里巴巴的前研究总监Itamar Friedman,现在是以色列的AI编码初创公司Qodo的联合创始人兼首席执行官。``您几乎没有人需要劳动。

廉价劳动

这种方法的缺点是,计算机擅长评分有关数学和代码的问题的答案,但并不是很好地为开放式或更主观的问题评分答案。这就是为什么R1在数学和代码测试中表现特别出色。培训其模型以回答更广泛的非记忆问题或执行创意任务,DeepSeek仍然必须要求人们提供反馈。” 

但这在中国也更便宜。``相对于西方市场,在中国创建高质量数据的成本较低,并且有一个更大的人才库,具有数学,编程或工程领域的大学资格,” Si Chen说。澳大利亚AI公司Appen和Amazon Web Services中国和中国科技巨头腾讯的前战略负责人。 

DeepSeek使用这种方法来构建一种名为V3的基本模型,该模型可与OpenAi的旗舰型GPT-4O匹配。该公司一个月前发布了V3。上周,S R1是与Openai S O1相匹配的新车型,是在V3的顶部建造的。 

为了构建R1,DeepSeek采用了V3,并一遍又一遍地运行了加强学习循环。2016年,Google DeepMind显示,没有人类投入的这种自动化试验方法可以采用董事会游戏模型,该模型可以随机移动并训练它以击败大师赛。DeepSeek在大型语言模型中做了类似的事情:潜在的答案是游戏中可能的动作。 

首先,该模型没有像DeepSeek想要的那样逐步产生通过问题的答案。但是,通过自动评分模型的样本答案,训练过程对此进行了一点朝向所需的行为。 

最终,DeepSeek制作了一个在许多基准测试中表现良好的模型。但是,这种称为R1-Zero的模型给出了很难阅读的答案,并以多种语言的混合编写。为了进行最后的调整,DeepSeek用人们提供的示例响应的少量数据集播种了加强学习过程。培训R1-Zero对DeepSeek命名R1的模型的培训。 

还有更多。为了使强化学习尽可能高效,DeepSeek还开发了一种称为“小组相对政策优化”(GRPO)的新算法。它是一年前首次使用grpo来构建一个名为DeepSeekmath的模型。 

我们会跳过细节您只需要知道强化学习涉及计算分数以确定潜在的移动是好还是坏。许多现有的加强学习技术需要一个整个单独的模型来进行此计算。就大型语言模型而言,这意味着第二个模型可能像第一个模型一样昂贵。Grpo没有使用第二个模型来预测分数,而只是做出了有根据的猜测。它很便宜,但仍然足够准确。 

一种常见的方法

DeepSeek对增强学习是该公司在R1论文中描述的主要创新。但是DeepSeek并不是唯一对这种技术实验的坚定实验。在R1下降前两周,Microsoft Asia的一支球队宣布了一个名为RSTAR-MATH的模型,该模型以类似的方式接受了培训。AI公司Clarifai的创始人兼首席执行官Matt Zeiler说,它的性能也同样巨大。

AI2的Tulu也是使用有效的加强学习技术(但不是由监督的微调和RLHF之类的,而不是以人为主导的步骤)来构建。而且,美国公司的拥抱面孔正在与OpenR1一起复制R1,这是DeepSeek模型的克隆,拥抱面部希望将使R1特殊酱汁中的更多成分暴露出更多的成分。

更重要的是,这是一个公开的秘密,例如Openai,Google DeepMind和Anthropic等顶级公司可能已经使用了自己的DeepSeek方法来培训新一代模型。我确定他们做的几乎完全相同,但是他们有自己的风味。” Zeiler说。 

但是DeepSeek的袖子有一个以上的技巧。它训练了其基本模型V3来执行所谓的多句话预测,该模型学会了一次预测一串单词,而不是一次预测单词。该培训更便宜,也可以提高准确性。•Zeiler说,如果您考虑自己的讲话,当您在句子中途恢复一半时,就会知道其余的句子是什么。”这些模型也应该能够做到这一点。 

它还发现了创建大型数据集的便宜方式。为了训练去年的型号,DeepSeekmath,它采用了一个免费的数据集,称为Common Crawl,从Internet上刮掉了大量文档,并使用自动化过程仅提取包括数学问题的文档。这比手工构建数学问题的新数据集便宜得多。这也更有效:与其他任何可用专家数学数据集相比,常见的爬网还包括更多的数学。 

在硬件方面,DeepSeek找到了新方法来榨旧芯片,使其可以训练顶级型号,而无需咳嗽市场上的最新硬件。Zeiler说,他们一半的创新来自直接工程:``他们肯定在那个团队中拥有一些非常好,非常好的GPU工程师。

NVIDIA提供了称为CUDA的软件,工程师用来调整其芯片的设置。但是,DeepSeek使用汇编器(一种与硬件本身交谈的编程语言)绕过了此代码,远远超出了NVIDIA提供的内容。Zeiler说。您可以做到,但基本上很难没有人这样做。

DeepSeek在多种模型上的一系列创新令人印象深刻。但这也表明,该公司声称在培训V3上花费了不到600万美元的奖金并不是全部。R1和V3建立在一堆现有技术的基础上。•弗里德曼说:``也许该按钮的最后一步要花600万美元,但是导致这项研究的成本可能是10倍,甚至更多。”在削减了许多炒作的博客文章中,人类联合创始人兼首席执行官达里奥·阿莫迪(Dario Amodei)指出,DeepSeek可能拥有价值约10亿美元的筹码,这是基于报告的估计。该公司实际上使用了50,000个NVIDIA H100 GPU。一个 

一个新的范式

但是为什么现在呢?世界各地有数百家初创公司试图建立下一件大事。为什么我们看到了一系列推理模型,例如Openai的O1和O3,Google DeepMind的Gemini 2.0 Flash Thinking,现在R1在几周之内出现? 

答案是基本模型GPT-4O,GEMINI 2.0,V3现在都足够好,可以从中哄骗类似推理的行为。R1显示的是,凭借足够强大的基础模型,加强学习足以从没有任何人类监督的情况下从语言模型中引起推理。”

换句话说,美国顶级公司可能已经弄清楚了如何做,但保持安静。Zeiler说:``看来,采用基本模型,验证的模型并将其变成更强大的推理模型的聪明方法。” Zeiler说。到目前为止,将验证模型转换为推理模型所需的程序尚不众所周知。这是不公开的

R1的不同之处在于,DeepSeek发表了他们的做法。Zeiler说,事实证明这并不是那么昂贵的过程。``最困难的部分是首先获得了验证的模型。正如Karpathy去年在Microsoft Build上揭示的那样,预读模型占工作和大部分成本的99%。 

如果构建推理模型不如人们想象的那么难,那么我们可以期望自由模型的扩散比我们还没有看到的能力要强得多。弗里德曼认为,随着公开的专业知识,小型公司之间将有更多的合作,使最大的公司享有的优势蒙蔽了优势。他说,我认为这可能是一个巨大的时刻。 

关于《Deepseek有多撕毁AI剧本,以及为什么每个人都会遵循其领导》的评论


暂无评论

发表评论

摘要

诸如Openai的O1和O3,Google DeepMind的Gemini 2.0 Flash思维以及DeepSeek的R1之类的推理模型的出现在如此短的时间范围内表示大型语言模型开发领域的重大进步。推动这一快速进步的关键因素是基本模型(例如GPT-4O,Gemini 2.0和DeepSeek的V3)的成熟,该模型现在具有足够的能力来表现出适当的技术时表现出推理行为。DeepSeek的突破不仅在于他们开发的特定方法,例如使用常见爬网和硬件优化创建的多型预测,有效的数据集创建,而且还在于他们对这些过程的透明度。通过发表他们的方法,DeepSeek通过在没有广泛的人类监督的情况下通过强化学习技术将基础模型转变为具有推理能力的知识的民主化知识。这一启示表明,诸如Openai,Google Deepmind和Anthropic等主要科技公司先前守护的秘密可能是相似的,但专有方法可以增强基本模型。DeepSeek通过DeepSeek发表了此类方法,这表明在AI研究中朝着更大的透明度转变,这可能会导致较小公司之间的更广泛的合作并加速整个行业的创新。含义是深刻的:1。**能力的民主化**:凭借详细的知识,较小的公司可以在没有大量金融投资的情况下开发推理模型。2。**增加的竞争**:尽管顶级公司由于其丰富的资源(包括出色的硬件和大规模数据集)仍然具有显着优势,但进入的障碍已被降低。3。**协作进步**:提高透明度促进了共享见解和方法论的文化,可能导致AI技术的更快进步。总体而言,DeepSeek的方法标志着推理模型的开发和分发方式发生了范式的转变,这是一个未来,即先进的AI功能可能变得更容易访问和协作。