DeepSeek是一家中国人工智能(AI)初创公司,凭借其小本钱开发的强大人工智能模型震惊了科技界,该公司正押注于其“年轻天才”的秘密武器,以对抗财力雄厚的美国据业内人士和中国媒体报道,巨头们。
12 月 26 日,这家总部位于杭州的公司发布了 DeepSeek V3 大语言模型(LLM),该模型使用较少的资源进行训练,但在某些领域仍然匹配甚至超过了美国较大竞争对手的人工智能模型的性能,例如Facebook家长元平台和聊天GPT创造者开放人工智能。这一突破被认为意义重大,因为尽管中国获得先进芯片和资金资源的机会有限,但它可能为中国在人工智能能力方面超越美国提供一条道路。
DeepSeek 周五没有立即回应置评请求。
根据对其 V3 模型技术报告和职业网站作者的调查、对前员工的采访以及当地媒体的报道,其突破的背后是该公司低调的创始人和新生的研究团队。V3技术报告由150名中国研究人员和工程师组成的团队以及31名数据自动化研究人员组成的团队完成。
这家初创公司于 2023 年被剥离对冲基金经理高飞量化。DeepSeek背后的创业者是High-Flyer Quant创始人梁文峰,曾在浙江大学学习人工智能。梁的名字也出现在技术报告上。
2023 年 5 月,梁在接受中国在线媒体 36Kr 采访时表示,DeepSeek 的大多数开发人员要么是应届毕业生,要么是人工智能职业生涯的早期人员,这符合公司在招聘新员工时更看重能力而非经验的做法。“我们的核心技术岗位大多是应届毕业生或具有一两年工作经验的人,”梁说。
在 DeepSeek 的众多人才中,高华佐和曾旺丁被该公司评选为“在 MLA 架构研究中做出的关键创新”。