中国的DeepSeek在通往下一代的途径上发布了“中间” AI模型

第2项第2项在2025年2月19日，中国初创企业办公室位于中国初创企业办公室位于中国初创企业办公室的建筑物。路透社/佛罗伦萨LO/档案照片

[1/2]2025年2月19日，在中国初创企业办公室位于中国初创企业办公室位于中国初创企业办公室的建筑物。购买许可权利，打开新标签

北京，9月29日（路透社） - 中国AI开发人员DeepSeek发布了其“实验性”最新模型，它说，训练比以前的大语言模型的先前迭代更有效地训练和更擅长处理长期文本序列。

这家位于杭州的公司在开发人员论坛拥抱面孔上的帖子中，称为DeepSeek-V3.2-Exp是“迈向我们下一代建筑的中间步骤”。

自V3和R1震惊中国以外的硅谷和科技投资者以来，该建筑可能是DeepSeek最重要的产品发布。

v3.2-EXP模型包括一种称为DeepSeek稀疏注意的机制，中国公司表示可以降低计算成本并提高某些类型的模型性能。DeepSeek在周一在X上的一篇文章中说，它正在将API价格降低为“ 50％+”。

尽管DeepSeek的下一代架构不太可能像以前的版本那样在1月份的情况下对Roil市场，但如果可以重复DeepSeek R1和V3的成功，它仍然会对像阿里巴巴的Qwen和OpenAi这样的国内竞争对手施加巨大压力。

这将要求它证明竞争对手在模型培训中收取和支出的一小部分的能力。

爱德华多·巴蒂斯塔（Eduardo Baptista）和北京新闻编辑室的报道；托比·乔普拉（Toby Chopra）和扬·哈维（Jan Harvey）的编辑

OC