作者:By Caiwei Chenarchive page
“这可能是一个真正平等的突破,对于资源有限的研究人员和开发人员来说非常有用,尤其是来自南半球的研究人员和开发人员,”埃默里大学信息系统助理教授曹汉成说。
考虑到中国人工智能公司面临美国加强对尖端芯片出口管制的限制,DeepSeek 的成功更加引人注目。但早期证据表明,这些措施并未按预期发挥作用。制裁似乎并没有削弱中国的人工智能能力,而是推动像 DeepSeek 这样的初创公司以优先考虑效率、资源池和协作的方式进行创新。
DeepSeek 前员工 Zihan Wang 表示,为了创建 R1,DeepSeek 必须重新设计其训练过程,以减轻 GPU 的压力,GPU 是 Nvidia 为中国市场推出的品种,其性能上限仅为其顶级产品速度的一半。西北大学计算机科学系的员工和现任博士生。
DeepSeek R1 因其处理复杂推理任务的能力而受到研究人员的称赞,特别是在数学和编码方面。该模型采用了类似于 ChatGPT o1 所使用的“思想链”方法,它可以通过逐步处理查询来解决问题。
微软 AI Frontiers 研究实验室首席研究员 Dimitris Papailiopoulos 表示,R1 最让他惊讶的是它的工程简单性。“DeepSeek 的目标是获得准确的答案,而不是详细说明每个逻辑步骤,从而显着减少计算时间,同时保持高水平的有效性,”他说。
DeepSeek 还发布了 R1 的六个较小版本,它们足够小,可以在笔记本电脑上本地运行。它声称其中一个在某些基准测试中甚至优于 OpenAI 的 o1-mini。“DeepSeek 很大程度上复制了 o1-mini 并将其开源,”Perplexity 首席执行官 Aravind Srinivas 在推特上写道。DeepSeek 未回复麻省理工科技评论— 征求意见。
尽管 R1 引起了热议,但 DeepSeek 仍然相对不为人所知。总部位于中国杭州,由具有信息与电子工程背景的浙江大学校友梁文峰于2023年7月创立。它是由梁于 2015 年创立的对冲基金 High-Flyer 孵化的。与 OpenAI 的 Sam Altman 一样,梁的目标是构建通用人工智能 (AGI),这是一种可以在一系列任务上匹配甚至击败人类的人工智能形式。
训练大型语言模型 (LLM) 需要一支训练有素的研究人员团队和强大的计算能力。资深企业家、谷歌中国前负责人李开复最近在接受中国媒体《晚点晚报》采访时表示,只有“前排玩家”通常会参与构建诸如 ChatGPT 之类的基础模型,因为它是一种基础模型。资源非常密集。美国对先进半导体的出口管制使情况变得更加复杂。然而,High-Flyer 进军人工智能的决定与这些限制直接相关。早在预期的制裁之前,梁就购买了大量 Nvidia A100 芯片库存,这种芯片现已禁止向中国出口。中国媒体 36Kr 估计该公司库存超过 10,000 台,但人工智能研究咨询公司 SemiAnalysis 的创始人迪伦·帕特尔 (Dylan Patel)估计它至少有 50,000 个。认识到这些储备在人工智能训练方面的潜力,促使梁建立了 DeepSeek,该公司能够将它们与低功耗芯片结合使用来开发模型。
阿里巴巴和字节跳动等科技巨头以及少数拥有雄厚投资者的初创公司在中国人工智能领域占据主导地位,这使得中小型企业面临竞争挑战。像 DeepSeek 这样没有融资计划的公司并不多见。
DeepSeek 前员工王子涵表示麻省理工科技评论他在 DeepSeek 工作时可以使用丰富的计算资源,并可以自由地进行实验,这是任何公司都很少有应届毕业生能享受到的奢侈。”
在2024年7月接受中国媒体36氪采访梁表示,除了芯片制裁之外,中国企业面临的另一个挑战是他们的人工智能工程技术往往效率较低。– 我们(大多数中国公司)必须消耗两倍的计算能力才能达到相同的结果。加上数据效率差距,这可能意味着需要四倍的计算能力。我们的目标是不断缩小这些差距,”他说。
但 DeepSeek 找到了在不显着牺牲准确性的情况下减少内存使用并加快计算速度的方法。“团队喜欢将硬件挑战转化为创新机会,”王说。
梁本人仍然深入参与 DeepSeek 的研究过程,与他的团队一起进行实验。“整个团队拥有协作文化和对核心研究的奉献精神,”王说。
除了优先考虑效率之外,中国企业也越来越多地接受开源原则。阿里云已发布超过100个新的开源人工智能模型,支持29种语言,并满足包括编码和数学在内的各种应用。同样,Minimax 和 01.AI 等初创公司也开源了他们的模型。
根据中国信息通信研究院去年发布的白皮书,全球人工智能大语言模型数量已达1328个,其中36%来自中国。这使中国成为人工智能的第二大贡献者,仅次于美国。
“这一代年轻的中国研究人员强烈认同开源文化,因为他们从中受益匪浅,”塔夫茨大学技术政策助理教授 Thomas Qitong Cao 说道。
卡内基国际和平基金会的人工智能研究员马特·希恩 (Matt Sheehan) 表示,“美国的出口管制基本上让中国企业陷入了困境,它们必须利用有限的计算资源提高效率。”– 未来我们可能会看到大量与计算能力不足相关的整合。 –
这可能已经开始发生了。两周前,阿里云宣布与李开复创立的北京初创公司01.AI合作,合并研究团队并建立“工业大型模型实验室”。
“人工智能行业中出现某种分工是节能且自然的,”塔夫茨大学教授曹说。“人工智能的快速发展要求中国企业具备敏捷性才能生存。”