英语轻松读发新版了,欢迎下载、更新

中国人工智能初创公司 DeepSeek 如何打造与 OpenAI 相媲美的模型

2025-01-25 10:00:00 英文原文

作者:Zeyi Yang

如今,DeepSeek 是中国唯一一家不依赖百度、阿里巴巴或字节跳动等科技巨头融资的领先人工智能公司之一。

一群渴望证明自己的年轻天才

梁表示,当他组建 DeepSeek 研究团队时,他并不是在寻找经验丰富的工程师来构建面向消费者的产品。相反,他关注的是来自中国顶尖大学的博士生,包括北京大学和清华大学,他们渴望证明自己。许多人曾在顶级期刊上发表文章并在国际学术会议上获奖,但缺乏行业经验。中国科技出版物 QBitAI。

“我们的核心技术岗位大多是今年或近一两年毕业的人”梁亮告诉36氪 2023年。招聘策略帮助创建了一种协作的公司文化,人们可以自由地使用充足的计算资源来从事非正统的研究项目。这与中国老牌互联网公司的运营方式截然不同,中国的团队经常争夺资源。(最近的一个例子:字节跳动指控一名前实习生——一位享有盛誉的学术奖获得者,同样也——破坏同事的工作,以便为他的团队囤积更多的计算资源。)

梁说,学生更适合高投入、低利润的研究。“大多数人在年轻的时候,可以完全投入到一项使命中,而不需要功利主义的考虑,”他解释道。他向潜在员工推销的是 DeepSeek 的创建是为了“解决世界上最困难的问题”。

专家表示,这些年轻研究人员几乎全部在中国接受教育,这一事实增强了他们的动力。“年轻一代也体现了爱国主义精神,特别是当他们应对美国在关键硬件和软件技术方面的限制和瓶颈时,”张解释道。“他们克服这些障碍的决心不仅体现了个人雄心,而且体现了对提升中国作为全球创新领导者地位的更广泛承诺。”

危机中诞生的创新

2022 年 10 月,美国政府开始实施出口管制,严格限制中国人工智能公司获得 Nvidia H100 等尖端芯片。此举给 DeepSeek 带来了一个问题。该公司一开始储备了 10,000 台 H100,但需要更多才能与 OpenAI 和 Meta 等公司竞争。“我们面临的问题从来不是资金,而是先进芯片的出口管制。”梁亮告诉36氪2024年第二次采访

DeepSeek 必须想出更有效的方法来训练其模型。“他们使用一系列工程技巧优化了模型架构——芯片之间的定制通信方案、减小字段大小以节省内存,以及创新地使用模型混合方法,”Wendy Chang 说,一位软件工程师后来成为墨卡托中国研究所的政策分析师。“其中许多方法并不是新想法,但成功地将它们结合起来产生尖端模型是一项了不起的壮举。”

DeepSeek 还在多头潜在注意力 (MLA) 和混合专家方面取得了重大进展,这两种技术设计通过需要更少的计算资源来训练,从而使 DeepSeek 模型更具成本效益。事实上,DeepSeek 的最新模型非常高效,训练时所需的计算能力仅为 Meta 的同类 Llama 3.1 模型的十分之一,据研究机构 Epoch AI 称

DeepSeek 愿意与公众分享这些创新,这为其在全球人工智能研究界赢得了相当大的好感。对于许多中国人工智能公司来说,开发开源模型是追赶西方同行的唯一途径,因为它可以吸引更多的用户和贡献者,进而帮助模型成长。“他们现在已经证明,可以使用更少但仍然很多的资金来构建尖端模型,并且当前的模型构建规范留有足够的优化空间,”张说。“我们肯定会在这个方向上看到更多的尝试。”

这一消息可能会给美国目前专注于造成计算资源瓶颈的出口管制带来麻烦。“对中国拥有多少人工智能计算能力以及他们可以利用它实现什么的现有估计可能会被颠覆,”张说。

关于《中国人工智能初创公司 DeepSeek 如何打造与 OpenAI 相媲美的模型》的评论


暂无评论

发表评论

摘要

DeepSeek是一家中国人工智能公司,因其不依赖主要科技巨头的资金而脱颖而出。该公司由梁创立,优先聘请来自中国顶尖大学的年轻博士生,以营造专注于非正统项目的合作研究环境。这种方法与传统互联网公司形成鲜明对比,传统互联网公司的资源往往稀缺且竞争激烈。由于美国出口管制限制先进芯片的使用,DeepSeek 面临挑战,迫使他们在模型训练效率和成本效益方面进行创新。他们的进步,特别是在多头潜在注意力(MLA)和专家混合技术方面的进步,使他们成为优化人工智能模型计算资源的领导者。通过公开分享这些创新,DeepSeek 获得了全球人工智能社区的大力支持,并可能挑战美国现有的出口管制策略。