The DeepSeek app seen in Beijing on January 27, 2025.

路透社 -  

中国人工智能开发商DeepSeek在培训其R1模型上仅花费了294,000美元,远低于美国竞争对手的报道。

总部位于杭州的公司的罕见更新 - 它发布了R1培训费用的第一个估计,该公司于周三在学术期刊《自然》中的同行评审文章中出现。

DeepSeek在1月份发布的是较低成本的AI系统促使全球投资者抛弃了科技股,因为他们担心新车型可能威胁到包括NVIDIA在内的AI领导者的统治地位。

从那以后,公司及其创始人梁·温芬(Liang Wenfeng)从公众视野中大大消失了,除了推出一些产品更新

美国AI巨头Openai的首席执行官Sam Altman在2023年表示,基础模型的培训的成本超过了1亿美元,尽管他的公司没有为其任何发行版提供详细的数据。

为AI聊天机器人供电的大型语言模型的培训成本是指在数周或几个月内运行一组强大的芯片而产生的费用来处理大量的文本和代码。

自然文章将梁列为共同作者之一,他说DeepSeek以推理为中心R1模型培训并使用了512 nvidia h800芯片的费用为$ 294,000。一月份发表的文章的先前版本不包含此信息。

美国公司和官员对DeepSeek的开发成本及其所使用的技术的陈述进行了质疑。

它提到的H800芯片是由NVIDIA设计为中国市场的,此前美国于2022年10月将其非法将其更强大的H100和A100 AI芯片出口到中国。

美国官员在6月告诉路透社,DeepSeek可以在实施美国出口控制后获得大量H100芯片。当时,NVIDIA告诉路透社,DeepSeek使用了合法获得的H800芯片,而不是H100。

在自然文章附带的补充信息文件中,该公司首次承认它拥有A100芯片,并表示已将它们用于开发的准备阶段。

研究人员写道,关于我们对DeepSeek-R1的研究,我们利用A100 GPU为使用较小模型的实验做准备。”他们补充说,在此初始阶段之后,R1在512芯片集团的H800芯片上进行了80小时的培训。

DeepSeek也首次回应了一月份的白宫顾问和其他美国AI人物的主张,该声明是故意将Openai的模型蒸馏出来的。

该术语是指一个AI系统从另一个人那里学习的技术,允许较新的模型从建立早期模型但没有相关成本的时间和计算能力的投资中获得收益。

DeepSeek始终捍卫蒸馏,因为它可以产生更好的模型性能,同时便宜得多,从而可以更广泛地访问AI驱动的技术。

DeepSeek在一月份表示,它已使用Meta的开源美洲拉玛AI模型来制作其自己型号的一些蒸馏版。

DeepSeek在本质上说,其V3模型的培训数据取决于包含大量OpenAi模型生成的答案的爬行网页,这可能会导致基本模型间接地从其他强大的模型中获取知识。但是,它说这不是故意的,而是偶然的。

Openai没有立即回应置评请求。