作者:Zeyi Yang
如今,DeepSeek 是中国唯一一家不依赖百度、阿里巴巴或字节跳动等科技巨头融资的领先人工智能公司之一。
梁表示,当他组建 DeepSeek 研究团队时,他并不是在寻找经验丰富的工程师来构建面向消费者的产品。相反,他关注的是来自中国顶尖大学的博士生,包括北京大学和清华大学,他们渴望证明自己。许多人曾在顶级期刊上发表文章并在国际学术会议上获奖,但缺乏行业经验。中国科技出版物 QBitAI。
“我们的核心技术岗位大多是今年或近一两年毕业的人”梁亮告诉36氪 2023年。招聘策略帮助创建了一种协作的公司文化,人们可以自由地使用充足的计算资源来从事非正统的研究项目。这与中国老牌互联网公司的运营方式截然不同,中国的团队经常争夺资源。(最近的一个例子:字节跳动指控一名前实习生——一位享有盛誉的学术奖获得者,同样也——破坏同事的工作,以便为他的团队囤积更多的计算资源。)
梁说,学生更适合高投入、低利润的研究。“大多数人在年轻的时候,可以完全投入到一项使命中,而不需要功利主义的考虑,”他解释道。他向潜在员工推销的是 DeepSeek 的创建是为了“解决世界上最困难的问题”。
专家表示,这些年轻研究人员几乎全部在中国接受教育,这一事实增强了他们的动力。“年轻一代也体现了爱国主义精神,特别是当他们应对美国在关键硬件和软件技术方面的限制和瓶颈时,”张解释道。“他们克服这些障碍的决心不仅体现了个人雄心,而且体现了对提升中国作为全球创新领导者地位的更广泛承诺。”
2022 年 10 月,美国政府开始实施出口管制,严格限制中国人工智能公司获得 Nvidia H100 等尖端芯片。此举给 DeepSeek 带来了一个问题。该公司一开始储备了 10,000 台 H100,但需要更多才能与 OpenAI 和 Meta 等公司竞争。“我们面临的问题从来不是资金,而是先进芯片的出口管制。”梁亮告诉36氪2024年第二次采访。
DeepSeek 必须想出更有效的方法来训练其模型。“他们使用一系列工程技巧优化了模型架构——芯片之间的定制通信方案、减小字段大小以节省内存,以及创新地使用模型混合方法,”Wendy Chang 说,一位软件工程师后来成为墨卡托中国研究所的政策分析师。“其中许多方法并不是新想法,但成功地将它们结合起来产生尖端模型是一项了不起的壮举。”
DeepSeek 还在多头潜在注意力 (MLA) 和混合专家方面取得了重大进展,这两种技术设计通过需要更少的计算资源来训练,从而使 DeepSeek 模型更具成本效益。事实上,DeepSeek 的最新模型非常高效,训练时所需的计算能力仅为 Meta 的同类 Llama 3.1 模型的十分之一,据研究机构 Epoch AI 称。
DeepSeek 愿意与公众分享这些创新,这为其在全球人工智能研究界赢得了相当大的好感。对于许多中国人工智能公司来说,开发开源模型是追赶西方同行的唯一途径,因为它可以吸引更多的用户和贡献者,进而帮助模型成长。“他们现在已经证明,可以使用更少但仍然很多的资金来构建尖端模型,并且当前的模型构建规范留有足够的优化空间,”张说。“我们肯定会在这个方向上看到更多的尝试。”
这一消息可能会给美国目前专注于造成计算资源瓶颈的出口管制带来麻烦。“对中国拥有多少人工智能计算能力以及他们可以利用它实现什么的现有估计可能会被颠覆,”张说。