英语轻松读发新版了,欢迎下载、更新

超大型开源人工智能 DeepSeek-V3 发布后性能优于 Llama 和 Qwen

2024-12-26 18:46:47 英文原文

作者:Shubham Sharma

Black and white AI vector image of robot jumping over the heads of onlookers in a city

图片来源:VentureBeat 与 Midjourney 制作

加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多


以创新开源技术挑战领先人工智能厂商而闻名的中国人工智能初创公司 DeepSeek 今天发布了全新的超大型模型:DeepSeek-V3。

可通过抱脸根据该公司的许可协议,新模型配备 671B 参数,但使用专家混合架构仅激活选定的参数,以便准确有效地处理给定的任务。根据 DeepSeek 共享的基准,该产品已经名列前茅,优于领先的开源模型,包括梅塔的骆驼 3.1-405B,并且与 Anthropic 和 OpenAI 的封闭模型的性能非常匹配。

该版本的发布标志着缩小封闭式人工智能和开源人工智能之间差距的又一重大进展。最终,DeepSeek 最初是中国量化对冲基金的一个分支高飞资本管理公司,希望这些发展将为通用人工智能(AGI)铺平道路,其中模型将有能力理解或学习人类可以完成的任何智力任务。

DeepSeek-V3 带来了什么?

就像其前身 DeepSeek-V2 一样,新的超大型模型采用相同的基本架构,围绕多头潜在注意力(MLA)深度搜索教育部。这种方法可确保它保持高效的训练和推理,并由专门且共享的“专家”(较大模型中的独立较小神经网络)为每个标记激活 671B 个参数中的 37B 个参数。

虽然基本架构确保了 DeepSeek-V3 的强大性能,但该公司还推出了两项创新来进一步推动这一标准。

第一个是辅助的无损耗负载均衡策略。这可以动态监控和调整专家的负载,以平衡的方式利用它们,而不会影响整体模型性能。第二个是多令牌预测(MTP),它允许模型同时预测多个未来令牌。这一创新不仅提高了训练效率,而且使模型的执行速度提高了三倍,每秒生成 60 个令牌。

“在预训练期间,我们在 14.8T 高质量且多样化的代币上训练 DeepSeek-V3……接下来,我们对 DeepSeek-V3 进行了两阶段上下文长度扩展,”该公司在一份报告中写道技术论文详细介绍了新模型。Ø 第一阶段最大上下文长度扩展至32K,第二阶段进一步扩展至128K。随后,我们在 DeepSeek-V3 的基础模型上进行了后期训练,包括监督微调(SFT)和强化学习(RL),以使其符合人类偏好并进一步释放其潜力。在训练后阶段,我们从DeepSeekR1系列机型,同时小心地保持模型精度和生成长度之间的平衡。

值得注意的是,在训练阶段,DeepSeek 使用了多种硬件和算法优化,包括 FP8 混合精度训练框架和用于管道并行的 DualPipe 算法,以降低过程成本。

总体而言,它声称在大约 2788K H800 GPU 小时内完成了 DeepSeek-V3 的整个训练,约合 557 万美元(假设租赁价格为每 GPU 小时 2 美元)。这比通常的数亿美元要低得多。花费在预训练大型语言模型上。

例如,Llama-3.1 的训练估计投资超过 5 亿美元。 

目前最强的开源模型

尽管训练经济,DeepSeek-V3 已成为市场上最强大的开源模型。

该公司运行了多个基准来比较人工智能的性能,并指出它的性能明显优于领先的开放模型,包括 Llama-3.1-405B 和 Qwen 2.5-72B。它甚至优于闭源GPT-4o在大多数基准测试中,除了以英语为中心的 SimpleQA 和 FRAMES 之外,OpenAI 模型分别以 ​​38.2 和 80.5 分领先(对比 24.9 和 73.3)。

值得注意的是,DeepSeek-V3 的表现在中文和以数学为中心的基准测试中尤其突出,得分高于所有同类产品。在 Math-500 测试中,它的得分为 90.2,Qwen 的得分为 80 分,位居第二。 

唯一能够挑战 DeepSeek-V3 的模型是Anthropic 的克劳德 3.5 十四行诗,在 MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified 和 Aider-Edit 中得分更高,表现优于它。

https://twitter.com/deepseek_ai/status/1872242657348710721

这项工作表明,开源模型正在逼近闭源模型,有望在不同任务中实现几乎相同的性能。此类系统的发展对整个行业来说非常有利,因为它有可能消除一个大型人工智能玩家统治游戏的机会。它还为企业在编排堆栈时提供了多种选择和使用选项。

目前,DeepSeek-V3 的代码可通过GitHub根据麻省理工学院的许可证,而该模型是根据该公司的模型许可证提供的。企业还可以通过以下方式测试新模式深度搜索聊天类似ChatGPT的平台,并接入API用于商业用途。DeepSeek 在以下位置提供 API:与 DeepSeek-V2 价格相同直到 2 月 8 日。之后,它将收取 0.27 美元/百万输入代币(0.07 美元/百万缓存命中代币)和 1.10 美元/百万输出代币。

使用 VB Daily 每日洞察业务用例

如果您想给老板留下深刻印象,VB Daily 可以满足您的要求。我们为您提供有关公司在生成人工智能方面所做的事情的内幕消息,从监管转变到实际部署,以便您可以分享见解以实现最大投资回报率。

阅读我们的隐私政策

感谢您的订阅。查看更多VB 时事通讯在这里

发生错误。

关于《超大型开源人工智能 DeepSeek-V3 发布后性能优于 Llama 和 Qwen》的评论


暂无评论

发表评论

摘要

中国人工智能初创公司DeepSeek发布了DeepSeek-V3,这是一个采用混合专家架构、具有671B参数的超大型模型。它可在 Hugging Face 上使用,其性能优于 Meta 的 Llama 3.1-405B 等领先的开源模型,几乎与 Anthropic 和 OpenAI 的封闭模型相匹配。创新包括辅助无损负载平衡和多令牌预测,提高效率和性能,同时将培训成本降低至约 557 万美元。DeepSeek-V3 在中文和数学基准方面处于领先地位,可通过 GitHub 根据 MIT 许可和 API 访问以具有竞争力的价格获取商业用途。