中国的DeepSeek在通往下一代的途径上发布了“中间” AI模型

2025-09-29 11:48:32 英文原文

第2项第2项在2025年2月19日,中国初创企业办公室位于中国初创企业办公室位于中国初创企业办公室的建筑物。路透社/佛罗伦萨LO/档案照片

[1/2]2025年2月19日,在中国初创企业办公室位于中国初创企业办公室位于中国初创企业办公室的建筑物。购买许可权利,打开新标签

北京,9月29日(路透社) - 中国AI开发人员DeepSeek发布了其“实验性”最新模型,它说,训练比以前的大语言模型的先前迭代更有效地训练和更擅长处理长期文本序列。

这家位于杭州的公司在开发人员论坛拥抱面孔上的帖子中,称为DeepSeek-V3.2-Exp是“迈向我们下一代建筑的中间步骤”。

报名这里。

自V3和R1震惊中国以外的硅谷和科技投资者以来,该建筑可能是DeepSeek最重要的产品发布。

v3.2-EXP模型包括一种称为DeepSeek稀疏注意的机制,中国公司表示可以降低计算成本并提高某些类型的模型性能。DeepSeek在周一在X上的一篇文章中说,它正在将API价格降低为“ 50%+”。

尽管DeepSeek的下一代架构不太可能像以前的版本那样在1月份的情况下对Roil市场,但如果可以重复DeepSeek R1和V3的成功,它仍然会对像阿里巴巴的Qwen和OpenAi这样的国内竞争对手施加巨大压力。

这将要求它证明竞争对手在模型培训中收取和支出的一小部分的能力。

爱德华多·巴蒂斯塔(Eduardo Baptista)和北京新闻编辑室的报道;托比·乔普拉(Toby Chopra)和扬·哈维(Jan Harvey)的编辑

我们的标准:汤森路透信托原则。,打开新标签

关于《中国的DeepSeek在通往下一代的途径上发布了“中间” AI模型》的评论


暂无评论

发表评论

摘要

中国AI初创公司DeepSeek推出了其“实验性” DeepSeek-V3.2-Exp模型,声称与早期模型相比,它更有效地训练和更好地处理长文本序列。这家总部位于杭州的公司将其描述为朝着拥抱面孔的下一代建筑迈出的中间步骤。DeepSeek还宣布了API价格降低50%+,并引入了DeepSeek稀疏注意技术,该技术旨在降低计算成本并提高模型性能。尽管此版本可能与以前的版本没有相同的市场影响,但如果以较低的成本显示出很高的能力,它仍然会引起与阿里巴巴Qwen和国际竞争对手(例如OpenAI)这样的国内竞争对手的重大竞争。

相关讨论