作者:Kyle Wiggers
一家中国实验室创建了迄今为止最强大的“开放”人工智能模型之一。
模型,深思V3,由人工智能公司 DeepSeek 开发,并于周三在许可下发布,允许开发人员下载和修改它以适用于大多数应用程序,包括商业应用程序。
DeepSeek V3 可以处理一系列基于文本的工作负载和任务,例如根据描述性提示进行编码、翻译以及撰写论文和电子邮件。
根据 DeepSeek 的内部基准测试,DeepSeek V3 的性能优于可下载的“开放”可用模型和只能通过 API 访问的“封闭”AI 模型。在编程竞赛平台 Codeforces 举办的一部分编程竞赛中,DeepSeek 的表现优于其他模型,包括 Meta 模型羊驼3.1 405B、OpenAIGPT-4o,以及阿里巴巴的 Qwen 2.5 72B。
DeepSeek V3 还击败了 Aider Polyglot 的竞争,该测试旨在衡量模型是否能够成功编写集成到现有代码中的新代码等。
DeepSeek-V3!
60 个令牌/秒(比 V2 快 3 倍!)
API兼容性完好
完全开源的模型和论文
671B教育部参数
37B 激活参数
在14.8T高质量代币上进行训练几乎在所有基准测试中都击败 Llama 3.1 405bhttps://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf
– 胖乎乎的 – (@kimmonismus)2024 年 12 月 26 日
DeepSeek 声称 DeepSeek V3 是在包含 14.8 万亿个代币的数据集上进行训练的。在数据科学中,令牌用于表示原始数据位 - 100 万个令牌相当于大约 750,000 个单词。
庞大的不仅仅是训练集。DeepSeek V3 的规模非常巨大:6710 亿个参数,或者人工智能开发平台 Hugging Face 上的 6850 亿个参数。(参数是模型用于进行预测或决策的内部变量。)这大约是 Llama 3.1 405B 大小的 1.6 倍,后者拥有 4050 亿个参数。
参数计数通常(但并非总是)与技能相关;参数较多的模型往往优于参数较少的模型。但大型模型也需要更强大的硬件才能运行。DeepSeek V3 的未优化版本需要一组高端 GPU 才能以合理的速度回答问题。
虽然 DeepSeek V3 不是最实用的型号,但它在某些方面是一项成就。DeepSeek 能够使用 Nvidia H800 GPU 的数据中心在短短两个月内训练模型——中国公司最近使用的 GPU受限制的由美国商务部采购。该公司还声称,它只花费了 550 万美元来训练 DeepSeek V3,分数OpenAI 的 GPT-4 等模型的开发成本。
缺点是该模型的政治观点有点……生硬。例如,向 DeepSeek V3 询问有关天安门广场的问题,它不会回答。
DeepSeek 作为一家中国公司,受到 标杆管理中国互联网监管机构确保其模型的响应体现社会主义核心价值观。 许多一个 中国人工智能系统一个 衰退回应可能引起监管机构愤怒的话题,例如关于 习近平政权。
DeepSeek,11 月下旬揭幕DeepSeek-R1,答案OpenAI 的 o1“推理”模型,是一个好奇的组织。它得到了 High-Flyer Capital Management 的支持,这是一家中国量化对冲基金,利用人工智能来指导其交易决策。
High-Flyer 构建了自己的用于模型训练的服务器集群,其中最新的之一 据说拥有 10,000 个 Nvidia A100 GPU,成本为 10 亿日元(约合 1.38 亿美元)。High-Flyer 由计算机科学专业毕业生梁文峰创立,旨在通过其 DeepSeek 组织实现“超级智能”人工智能。
在一个面试今年早些时候,文峰将 OpenAI 等闭源人工智能描述为“临时”护城河。“[它]并没有阻止其他人迎头赶上,”他指出。
的确。
TechCrunch 有一份专注于人工智能的时事通讯!在这里注册每个星期三将其发送到您的收件箱。
Kyle Wiggers 是 TechCrunch 的高级记者,对人工智能特别感兴趣。他的文章曾发表在 VentureBeat 和 Digital Trends 以及一系列小工具博客上,包括 Android Police、Android Authority、Droid-Life 和 XDA-Developers。他和他的伴侣(一位钢琴教育家)住在布鲁克林,他自己也涉足钢琴。偶尔——如果大多不成功的话。