没有人真正预料到英伟达发布类似 GB10 的东西。毕竟,一家通过销售价值数十万美元的零部件将自己转变为有史以来最有价值公司的科技公司,为什么会突然决定以一小部分价格出售整个系统呢?
我相信 Nvidia 想要彻底改变计算方式,就像 45 年前 IBM 所做的那样IBM个人电脑。
项目数字提醒一下,这是一台完全成型的、现成的超级计算机,内置于一个大小如迷你电脑。它本质上是 DGX-1 的较小版本,这是近十年前(即 2016 年 4 月)推出的首款同类产品。当时,它的 16 核售价为 129,000 美元英特尔至强CPU和八个 P100 GPGPU 卡;数字价格为 3,000 美元。
Nvidia 证实它有一个人工智能FP4 精度(密集/稀疏?)下性能达到 1,000 Teraflops。尽管没有直接比较,但我们可以估计这台小型超级计算机的处理能力大约是满载 8 卡的一半基于帕斯卡 DGX-1。
Digits 的核心是 GB10 SoC,它有 20手臂内核(10 个 Arm Cortex-X925 和 10 个 Cortex-A725)。除了已确认存在的布莱克韦尔GPU(B100的精简版),根据数据只能推断出功耗(100W)和带宽(825GB/s)登记册)。
您应该能够通过 Nvidia 专有的 ConnectX 技术连接其中两个设备(但不能更多),以处理更大的问题法学硕士比如Meta的Llama 3.1 405B。目前看来,将这些微型 PC 放入 42U 机架中几乎是不可能的,因为这会侵犯 Nvidia 利润丰厚得多的利润DGX GB200系统。
关于护城河的一切
Nvidia 为何启动 DIGITS 项目?我认为这都是为了加强其护城河。让你的产品具有如此大的粘性,以至于几乎不可能进入竞争对手,这对其他人来说非常有效:微软和窗户,谷歌和 Gmail,苹果和iPhone。
Nvidia 也发生了同样的情况CUDA- 占据主导地位使英伟达可以做一些事情,例如改变球门柱和在竞争中犯错。
转向 FP4 进行推理使 Nvidia 能够提供令人印象深刻的基准声明,例如 –Blackwell 在 FP8 中的每芯片训练性能是其前代产品的 2.5 倍,在 FP4 中的推理性能是前代产品的 5 倍—。当然,AMD不提供 FP4 计算米300X/325X 系列,我们必须等到今年晚些时候才能在本能MI350X/355X。
因此,由于缺乏更好的词或类比,英伟达正在为未来来自现有和未来竞争对手(包括其自己的客户)的入侵奠定基础(想想微软和谷歌)。Nvidia 首席执行官黄仁勋 (Jensen Huang) 的野心很明确;他希望将公司的统治地位扩大到商业领域之外超大规模者。
– 人工智能将成为每个行业每个应用程序的主流。通过 DIGITS 项目,Grace Blackwell 超级芯片来到了数百万开发者手中,将 AI超级计算机在每位数据科学家、人工智能研究人员和学生的办公桌上,他们能够参与并塑造人工智能时代,”黄最近发表评论。
除了将 Nvidia 更名为 Nvid-ai 之外,黄仁勋还承认自己希望让公司的名字成为 AI 的代名词,就像他们之前的 Tarmac 和 Hoover 一样(尽管是在更利基的垂直领域)。
和许多人一样,我也对联发科技的联系感到困惑,这种合作的理由可以在联发科新闻稿。这家台湾公司“将其在基于 Arm 的 SoC 性能和能效方面的设计专业知识带到了人工智能研究人员和开发人员的突破性设备中”,它指出。
我相信,这种合作伙伴关系对联发科的好处比英伟达更大,从短期来看,我可以看到英伟达悄然独立。路透社据报道,黄拒绝了 Nvidia 追赶 AMD 的想法,英特尔,说,“现在他们(联发科)可以向我们提供这个,他们可以自己保留并服务于市场。因此,这是一次伟大的双赢。
但这并不意味着英伟达不会提供更多主流产品,只是它们将针对企业和专业人士,而不是消费者,因为激烈的竞争使事情变得更具挑战性(并且利润微薄)。
路透社文章援引黄仁勋的话说:“我们将使其成为主流产品,我们将尽一切努力支持专业和高质量的软件,PC(制造商)将使其可供使用最终用户。”
滑动即可水平滚动
标题单元格 - 第 0 列 | 数字 | 数字 2.4X | DGX-1 v1 | 方差(DGX 与 DIGITS) |
---|---|---|---|---|
深度(估计),单位:毫米 | 8989 | 第866章 | 9.73倍 | 宽度(估计),单位:毫米 |
135 | 第324章 | 第444章 | 1.37倍 | 高度(估计),单位:毫米 |
40 | 40 | 131 | 3.28倍 | 重量(公斤) |
〜1 | 〜2.4 | 60.8 | 25.35倍 | 价格美元(2024 年 11 月调整) |
3000 | 7200 | 170100 | 23.63倍 | 性能 GPU FP16 (TF) |
170 | 0 | 0 | 第 5 行 - 单元格 4 | 性能 GPU FP16 密集 (TF) |
〜282 | 676.8 | 680 | 1.00倍 | 性能 GPU FP4 密集 (TF) |
1000 | 第 7 行 - 单元格 2 | 第 7 行 - 单元格 4 | 0 | GPU内存(GB) |
128 | 307.2128 | 0.42倍 | 最大功耗(W) | 〜150 |
〜300 | 3200 | 10.67倍 | 存储(TB) | 4 |
9.6 | 7.68 | 0.80倍 | GPU家族 | 布莱克威尔 |
布莱克威尔 | 帕斯卡 | 第 11 行 - 单元格 4 | GPU功耗(W)x8 | 〜100 |
〜240 | 2400 | 10倍 | GPU 晶体管数量 (十亿) x8 | 〜30 |
〜72 | 120 | 1.67倍 | 内存带宽(GB/秒)x | ~850 |
~850 | 720 | 0.85倍 | 凝视我的水晶球 | 我在研究此功能时遇到的一个理论是,越来越多的数据科学家正在拥抱 Apple 的 Mac 平台,因为它提供了一种平衡的方法。 |
得益于其统一的内存架构,性能足够好,而且价格“合理”。
这Mac工作室配备 128GB 统一内存和 4TB SSD,目前零售价为 5,799 美元。
那么英伟达将何去何从呢?一个明显的举措是将内存集成到 SoC 上,类似于苹果对其 M 系列 SoC 所做的事情(以及AMD 及其 HBM 驱动的 Epyc)。这不仅可以节省成本,还可以提高性能,而其更大的兄弟产品 GB200 已经做到了这一点。
然后,这将取决于英伟达是否想以相同的价格提供更多的产品,或者以更低的价格提供相同的性能(或两者兼而有之)。Nvidia 可以走英特尔的路,使用 GB10 作为原型,鼓励其他主要合作伙伴(PNY、技嘉、华硕)推出类似的项目(英特尔通过下一代计算单元或全国统一大学)。
我也特别想知道 Jetson Orin 家族会发生什么;NX 16GB 版本几周前刚刚升级,INT8 性能达到 157 TOPS。这个平台注定要实现更多 DIY/边缘用例,而不是纯粹的训练/推理任务,但我忍不住思考“假设”场景。
Nvidia 显然正在其他公司尝试之前颠覆自己;问题是它能走多远。