OC

Knowledge OS
鹦鹉螺口语
小米以接近 GPT-5.2、Opus 4.6 的性能而惊叹新的 MiMo-V2-Pro LLM,而成本仅为其一小部分
2026-03-19 01:54:49 · 英文原文

小米以接近 GPT-5.2、Opus 4.6 的性能而惊叹新的 MiMo-V2-Pro LLM,而成本仅为其一小部分

中国电子和汽车制造商小米今天给全球人工智能界带来了惊喜MiMo-V2-Pro的发布,一个新的 1 万亿参数基础模型,其基准接近美国人工智能巨头 OpenAI 和 Anthropic 的基准,但通过专有 API 访问时的成本约为七分之一或六分之一 - 重要的是,来回发送的信息价值不到 256,000 个代币。

由颠覆性 DeepSeek R1 项目的资深人士 Fuli Luo 领导,此次发布代表了 Luo 所描述的全球前沿的“悄悄伏击”。此外,罗在一份声明中表示X 帖子该公司确实计划开源这个最新版本的模型变体,“当模型足够稳定时”。

通过专注于智能的“行动空间”——从代码生成转向数字“爪子”的自主操作——小米正试图完全超越对话范式。

在进军前沿人工智能之前,总部位于北京的小米已将自己打造为“物联网”和消费硬件领域的巨头。

作为全球公认的全球第三大智能手机制造商,小米在 2020 年代初期大举进军汽车行业。其电动汽车 (EV),例如 SU7 和最近推出的 YU7 SUV,已将该公司转变为一家能够融合硬件、软件以及现在的高级推理的垂直整合巨头。

MiMo-V2-Pro 的架构体现了物理世界工程的血统;它被构建为复杂系统的“大脑”,无论这些系统是管理全球供应链还是导航自主编码代理的复杂支架。

技术:代理架构

“代理时代”的核心挑战是在海量数据上保持高保真推理,而又不会在延迟或成本方面产生令人望而却步的“情报税”。MiMo-V2-Pro 通过稀疏架构解决了这个问题:虽然它包含 1T 总参数,但在任何单次前向传递期间只有 42B 处于活动状态,这使其大小大约是其前身 MiMo-V2-Flash 的三倍。

该模型的效率植根于进化的混合注意力机制。随着上下文的增长,标准转换器通常面临计算需求的二次方增长;MiMo-V2-Pro 利用 7:1 的混合比例(从 Flash 版本中的 5:1 增加)来管理其庞大的 1M 令牌上下文窗口。这种架构选择允许模型对长时间运行的任务保持深度“记忆”,而不会出现前沿模型中常见的性能下降。

类比:不要将模型想象为一页一页地阅读一本书的学生,而是一个巨大图书馆中的专家研究人员。7:1 的比例允许模型“浏览”85% 的数据以获取上下文,同时将高密度注意力集中到与当前任务最相关的 15% 数据上。

它与轻量级多令牌预测 (MTP) 层配合使用,允许模型同时预测和生成多个令牌,从而大大减少代理工作流程“思考”阶段所需的延迟。罗表示,这些结构性决策是提前几个月做出的,专门是为了为行业以意想不到的速度向代理商转移提供“结构性优势”。

产品和基准测试:第三方现实检查

Xiaomi MiMo-V2-Pro benchmarking chart

小米 MiMo-V2-Pro 与其他领先型号的基准比较表。图片来源:小米

小米的内部数据描绘了一个模型,该模型在“现实世界”任务中优于综合基准。在衡量代理现实世界工作任务性能的基准 GDPval-AA 上,MiMo-V2-Pro 的 Elo 为 1426,领先于 GLM-5(1406)和 Kimi K2.5(1283)等主要中国同行。

虽然它仍然落后于原始 Elo 中的 Claude Sonnet 4.6 (1633) 等西方“最大努力”模型,但它代表了该类别中中国起源模型的最高记录表现。

第三方对标机构人工分析验证了这些说法,MiMo-V2-Pro 在其全球智能指数中排名第 10,得分为 49。这使其与 GPT-5.2 Codex 处于同一级别,并且领先于 Grok 4.20 Beta。这些结果表明,小米已经成功构建了一个能够满足工程和生产任务所需的高级推理能力的模型。

Xiaomi MiMo-V2-Pro benchmarking comparison chart by Artificial Analysis

小米MiMo-V2-Pro人工分析智能指数基准对比图(人工分析)

人工分析的关键指标突显了与之前的开放权重版本 MiMo-V2-Flash(得分 41)相比的显着飞跃:

  • 幻觉率:Pro 模型将幻觉率降低至 30%,比 Flash 模型的 48% 有了显着改善。

  • 全知指数:它的得分为 +5,领先于 GLM-5 (+2) 和 Kimi K2.5 (-8)。

  • 代币效率:为了运行整个智能指数,MiMo-V2-Pro 仅需要 77M 输出令牌,明显少于 GLM-5(109M)或 Kimi K2.5(89M),这表明推理过程更加简洁和高效。

小米自己的图表进一步强调了其“总代理”和“编码代理”能力。在代理支架基准 ClawEval 上,该模型得分为 61.5,接近 Claude Opus 4.6 (66.3) 的性能,并显着超过 GPT-5.2 (50.0)。在 Terminal-Bench 2.0 等特定编码环境中,它获得了 86.7 分,表明在实时终端环境中执行命令时具有很高的可靠性。

企业应如何评估MiMo-V2-Pro的使用情况

对于当代人工智能组织中概述的角色(从基础设施到安全),MiMo-V2-Pro 代表了“价格-质量”曲线的范式转变。

基础设施决策者将发现 MiMo-V2-Pro 是智能与成本帕累托前沿的有力候选者。Artificial Analysis 报告称,运行 MiMo-V2-Pro 的索引成本仅为 348 美元,而 GPT-5.2 的运行成本为 2,304 美元,Claude Opus 4.6 的运行成本为 2,486 美元。

对于管理 GPU 集群或采购的组织来说,能够以大约西方现有企业 1/7 的成本访问全球前 10 名的情报,是进行生产规模测试的强大动力。

数据决策者可以利用 RAG 就绪架构的 1M 上下文窗口,使他们能够将整个企业代码库或文档集提供到单个提示中,而无需较小上下文模型所需的碎片。

系统/编排决策者应将 MiMo-V2-Pro 评估为多智能体协调的主要“大脑”。由于该模型针对 OpenClaw 和 Claude Code 进行了优化,因此它可以处理长期规划和精确的工具使用,而无需像早期模型那样不断进行人工干预。

它在 GDPval-AA 中的高排名表明它特别适合在整个企业范围内扩展 AI 所需的工作流程和编排层。它允许创建能够超越简单自动化进入复杂、多步骤问题解决的系统。

然而,安全决策者必须谨慎行事。使该模型变得强大的“代理”性质(其使用终端和操作文件的能力)增加了快速注入和未经授权的模型访问的表面积。

虽然其低幻觉率 (30%) 是一个防御优势,但缺乏公共权重(与 Flash 版本不同)意味着内部安全团队无法执行高度敏感部署有时所需的深度“模型级”审核。任何企业实施都必须伴有强大的监控和审计协议。

定价、可用性和前进道路

小米通过定价 MiMo-V2-Pro 来主导开发者市场。定价根据上下文使用情况进行分层,并具有具有竞争力的缓存费率,以支持高频推理任务。

  • MiMo-V2-Pro(高达 256K):每 100 万个输入代币 1 美元,每 100 万个输出代币 3 美元

  • MiMo-V2-Pro (256K-1M):每 100 万个输入代币 2 美元,每 100 万个输出代币 6 美元

  • 缓存读取:较低层每 100 万个代币 0.20 美元,较高层每 100 万个代币 0.40 美元

  • 缓存写入:暂时免费 ($0)

以下是它与世界各地其他领先前沿模型的比较:

型号

输入

输出

总成本

来源

Grok 4.1 快速

0.20 美元

0.50 美元

0.70 美元

人工智能

迷你最大M2.7

0.30 美元

1.20 美元

1.50 美元

最小最大

双子座3闪光

0.50 美元

$3.00

3.50 美元

谷歌

基米-K2.5

0.60 美元

$3.00

3.60 美元

登月计划

MiMo-V2-Pro (€256K)

1.00 美元

$3.00

4.00 美元

小米MiMo

GLM-5-涡轮

0.96 美元

3.20 美元

4.16 美元

开放路由器

GLM-5

1.00 美元

3.20 美元

4.20 美元

克劳德俳句 4.5

1.00 美元

5.00 美元

$6.00

人择

Qwen3-Max

1.20 美元

$6.00

7.20 美元

阿里云

双子座 3 专业版

$2.00

12.00 美元

$14.00

谷歌

GPT-5.2

1.75 美元

$14.00

15.75 美元

开放人工智能

GPT-5.4

2.50 美元

$15.00

17.50 美元

开放人工智能

克劳德十四行诗 4.5

$3.00

$15.00

$18.00

人择

克劳德作品 4.6

5.00 美元

$25.00

$30.00

人择

GPT-5.4 专业版

$30.00

$180.00

$210.00

开放人工智能

这种积极的定位旨在鼓励定义下一代软件的高强度应用程序流。该模型目前只能通过小米的第一方 API 获得,目前不支持图像或多模式输入——这在“Omni”模型时代是一个显着的遗漏,尽管小米已经推出了单独的 MiMo-V2-Omni 来满足这些需求。

OpenRouter 上的“Hunter Alpha”时期证明了市场对这种效率和推理的特定结合有很高的兴趣。罗福利的哲学——研究速度是由“对你正在建设的世界的真正热爱”推动的——所产生的模型在既定的情报指数中排名中国第二、全球第八。

它是否仍然是一个“安静”的伏击,还是成为全球人工智能力量重新调整的基础,取决于开发者以多快的速度采用“聊天窗口”上的“行动空间”。目前,小米已经改变了目标:问题不再只是“它能说话吗?”但“它能行动吗?”

关于《小米以接近 GPT-5.2、Opus 4.6 的性能而惊叹新的 MiMo-V2-Pro LLM,而成本仅为其一小部分》的评论

暂无评论

发表评论

摘要

小米发布了MiMo-V2-Pro,这是一个1万亿参数的基础模型,性能基准可与美国AI巨头相媲美,但成本却大幅降低。该版本由 Fuli Luo 领导,计划在足够稳定后推出开源变体。该模型侧重于智能“动作空间”而不是对话功能,并通过稀疏架构和混合注意力机制来提高效率。第三方基准测试证实了 MiMo-V2-Pro 在实际任务中的高性能,尽管成本结构较低,但仍跻身全球领先者之列。小米的定价策略旨在以具有竞争力的价格主导开发者市场,尤其对大规模寻求高效人工智能解决方案的企业有吸引力。

相关讨论