英语轻松读发新版了,欢迎下载、更新

重新思考AI:DeepSeek的剧本摇摆了高昂的高音范式

2025-06-14 19:05:00 英文原文

作者:Jae Lee, TwelveLabs

加入企业领导人信任的活动近二十年。VB变换汇集了建立真正的企业AI战略的人们。 了解更多


当DeepSeek发布其R1模型时今年一月,这只是另一个AI公告。这是一个分水岭,引发了通过科技行业的冲击波,迫使行业领导者重新考虑他们对AI发展的基本方法。

使DeepSeek的成就引人注目的是,该公司发展了新颖的能力。相反,这是它与技术重量级人物以一小部分成本提供的相当的结果。实际上,DeepSeek从未做过以前从未做过的任何事情。它的创新源于追求不同的优先事项。结果,我们现在正在沿着两个平行的轨道进行快速开发:效率和计算。 作为DeepSeek

准备发布其R2模型,并且同时面对美国更大的芯片限制的潜力,重要的是要研究它如何引起如此广泛的关注。围绕约束的工程DeepSeek的到来,突然而戏剧性的,吸引了我们所有人,因为它展示了创新的能力,即使在巨大的限制下也展示了蓬勃发展。

面对美国出口控制,限制了进入尖端AI芯片的访问,DeepSeek被迫找到AI进步的替代途径。

尽管美国公司通过更强大的硬件,更大的模型和更好的数据来追求绩效,但DeepSeek

专注于优化可用的内容。它以出色的执行实施了已知的想法,并且在执行知名度和做得很好时有新奇的想法。这种效率优先的心态产生了令人印象深刻的结果。

据报道,DeepSeek S R1型号的功能仅为运营成本的5%至10%。据报道,DeepSeek S V3前任的最终培训仅花费了600万美元,这是前Tesla AI科学家Andrej Karpathy所描述的,与美国竞争者花费了数千万或数亿美元的预算笑话。更引人注目的是,据报道,Openai花费了5亿美元培训其最近的Orion模型,但DeepSeek取得了优越的基准成果,仅占Openai投资的560万美元的1.2%。

如果您认为这些令人难以置信的结果是在无法访问先进的AI芯片的严重劣势,我不愿意告诉您,但是这种叙述并不完全准确(即使这是一个很好的故事)。最初的美国出口控制主要集中在计算能力上,而不是在内存和网络上 - 两个关键组件用于AI开发。

这意味着DeepSeek可以使用的芯片不是质量较差的筹码。他们的网络和内存功能使DeepSeek能够在许多单元上平行操作,这是有效运行其大型模型的关键策略。

加上中国的全国努力控制整个AI基础设施的垂直堆栈,导致了许多西方观察家没有预期的加速创新。DeepSeek的进步是AI开发的不可避免的一部分,但是它们比其他可能的可能提前了几年,这是令人惊奇的。

实用主义对过程

超过硬件优化,DeepSeek的培训数据方法代表了与传统西方实践的另一种背离。据报道,DeepSeek不仅依靠网络结束的内容,而是利用了其他专有模型的大量合成数据和输出。这是模型蒸馏的一个经典示例,也是从真正强大的模型中学习的能力。但是,这种方法提出了有关数据隐私和治理的疑问,这可能与西方企业客户有关。尽管如此,它强调了DeepSeek的总体务实关注结果而不是过程。

合成数据的有效使用是关键区别。在培训大型模型时,合成数据可能非常有效,但是您必须小心。一些模型体系结构比其他模型更好地处理综合数据。例如,在合成合成数据时,基于变压器的模型(MOE)结构混合(MOE)架构往往更健壮,而在早期Llama模型中使用的更传统的密集体系结构(如早期Llama模型中使用的)可以体验性能降级甚至是模型崩溃,而在对太多合成内容进行过多培训时。

这种架构敏感性很重要,因为合成数据与实际数据相比引入了不同的模式和分布。当模型体系结构不能很好地处理合成数据时,它可能会学习合成数据生成过程中存在的快捷方式或偏见,而不是可概括的知识。这可能会导致在面临新颖情况时,在现实世界任务上的表现降低,幻觉或脆弱性。” 

尽管如此,据报道,DeepSeek的工程团队仍专门设计了他们的模型体系结构,从最早的计划阶段开始考虑合成数据集成。这使公司可以在不牺牲绩效的情况下利用合成数据的成本收益。

市场混响

为什么所有这些都重要?除股票市场外,DeepSeek的出现引发了行业领导者之间的实质性战略转变。

恰当的例子:Openai。山姆·奥特曼(Sam Altman)最近宣布了自2019年以来发布该公司首个开放式语言模型的计划。对于一家在专有系统上开展业务的公司而言,这是一个相当值得注意的枢纽。除了骆驼的成功之外,DeepSeek的崛起似乎击中了Openai的领导者。DeepSeek到达现场仅一个月后,Altman承认Openai在历史上的错误方面就开源AI。一个 

据报道,由于Openai每年花费7至80亿美元在运营上,诸如DeepSeek之类的有效替代方案的经济压力已经无法忽视。正如AI学者Kai-Fu Lee直言不讳的那样:“您每年花费70亿美元或80亿美元,造成巨大的损失,在这里,您有一个免费的开源模式,可以免费进行。这需要更改。

这种经济现实促使Openai追求大规模400亿美元的资金回合这对公司的估值为前所未有的3000亿美元。但是,即使有一个战争箱的资金箱,基本的挑战仍然存在:Openai的方法比DeepSeek的资源密集度更高。

超越模型培训

DeepSeek加速的另一个重要趋势是向测试时间计算(TTC)的转变。由于AI主要实验室现在已经在Internet上的许多可用公共数据上训练了他们的模型,因此数据稀缺性正在放缓进一步的培训。

为了解决这个问题,DeepSeek宣布与Tsinghua University进行合作,以实现“自我原理的批评”(SPCT)。这种方法训练AI制定自己的规则来判断内容,然后使用这些规则来提供详细的批评。该系统包括一个内置的法官,该法官实时评估了AI答案,并将答案与核心规则和质量标准进行了比较。

该发展是AI系统中自主自我评估和改进的运动的一部分,在该系统中,模型使用推理时间来改善结果,而不是简单地使模型在训练过程中更大。DeepSeek称其系统 - DeepSeek-Grmâ(通才奖励建模)。但是,与其模型蒸馏方法一样,这可以被视为承诺和风险的混合。

例如,如果AI制定了自己的判断标准,那么这些原则与人类价值观,道德或背景的风险有所不同。规则可能最终会变得过于僵化或有偏见,以优化对实质的样式和/或加强错误的假设或幻觉。此外,如果没有循环中的人,如果法官有缺陷或错位,可能会出现问题。这是一种自身对话,没有强大的外部基础。最重要的是,用户和开发人员可能不明白AI为何得出一定的结论,这些结论会引起更大的关注:是否应该允许AI决定仅基于其自己的逻辑的好或正确的?这些风险不应折现。

同时,这种方法正在获得吸引力,因为DeepSeek再次建立在他人的工作基础上(例如Openai的批判和修订方法,对自我奖励代理的宪法AI或研究),以创建SPCT在商业努力中的首次全面应用。

这可能标志着AI自治的有力转变,但仍然需要严格的审计,透明度和保障措施。这不仅是关于模型变得更聪明的,而且在没有人类护栏的情况下开始批评自己,因此它们仍然保持一致,可解释和值得信赖。

进入未来

因此,考虑到所有这些,DeepSeek的兴起都表明了AI行业向平行创新轨道的更广泛的转变。尽管公司继续为下一代功能建立更强大的计算集群,但还将非常重视通过软件工程和模型架构改进来寻找效率提高,以抵消AI能源消耗的挑战,而AI能源消耗的挑战超过了动力的产量。” 

公司正在注意。例如,微软已在全球多个地区停止了数据中心的开发,从而重新校准了更分布,有效的基础架构方法。尽管该财政年度仍计划在AI基础设施上投资约800亿美元,但该公司正在重新分配资源,以响应效率提高到市场上的效率增长。

元也回应了 发布其最新的Llama 4模型家族,标志着其首次使用Moe Architecture。在启动Llama 4时,META在其基准比较中特别包含了DeepSeek模型,尽管与两者进行比较的详细性能结果并未公开详细披露。这种直接的竞争定位标志着不断变化的景观,中国人工智能模型(阿里巴巴也在制作比赛中)现在被硅谷公司视为值得基准的。

在如此短的时间内进行了如此多的运动,具有讽刺意味的是,旨在维持美国AI主导地位的美国制裁可能加速了他们试图遏制的创新。通过限制获得材料的机会,DeepSeek被迫开辟一条新的小径。

前进,随着行业继续在全球发展,所有参与者的适应性将是关键。政策,人员和市场反应将继续改变基本规则 - 是否消除AI扩散规则,新禁令技术购买或其他东西。这是我们彼此学到的东西,以及我们如何回应值得一看的。

Jae Lee是首席执行官兼联合创始人十二个

每日有关VB每日业务用例的见解

如果您想给老板留下深刻的印象,VB Daily可以为您提供服务。我们为您提供有关公司在制定AI的工作,从监管转变到实际部署的公司,因此您可以分享最大投资回报率的见解。

阅读我们的隐私政策

感谢您的订阅。查看更多VB时事通讯在这里

发生错误。

关于《重新思考AI:DeepSeek的剧本摇摆了高昂的高音范式》的评论


暂无评论

发表评论

摘要

DeepSeek在1月份发布的R1模型通过以一小部分成本与主要参与者取得了可比的结果,突出了效率和计算优化,而对硬件密集型方法的计算优化,这标志着技术行业的重大转变。面对美国出口控制,限制了对高级AI芯片的访问,DeepSeek在约束中进行了创新,通过合成数据和有效的模型体系结构(MOE)优化了可用的资源,从而大大降低了成本。这种方法促进了OpenAI等行业领导者之间的战略转变,并影响了“测试时间计算”方法的发展,而不依赖广泛的预培训数据。DeepSeek的兴起强调了朝着AI创新效率的广泛转变,影响了行业中的全球战略和资源分配。