评论在上个月的GPU技术会议上,NVIDIA通过将其定义为GPU而违反了惯例。
首席执行官詹森·黄(Jensen Huang)在舞台上解释说:“我犯了一个错误的一件事:布莱克威尔实际上是两个GPU。”在GTC。“我们称那个芯片为GPU,这是错误的。原因是它搞砸了所有的NVLink命名法。”
但是,NVIDIA转向计数GPU死亡而不是SXM模块,因为单个GPU不仅简化了NVLink模型编号和命名约定。NVIDIA可以收取的AI Enterprise许可证的数量也可以增加一倍。
NVIDIA的AI Enterprise Suite,涵盖了许多AI框架,包括访问其推理微服务(尼姆),每年的gpu,每年$ 4,500或每小时$ 1的价格。这意味着NVIDIA HGX B200具有八个模块(每个模块一个Blackwell GPU)的价格为每年36,000美元或每小时$ 8。
但是有了新的HGXB300 NVL16,Nvidia现在将每个模具都视为GPU。而且由于该系统还具有八个模块,每个模块都有两个模块,因此总计达到16 GPU。这意味着,假设NVIDIA的AI Enterprise订阅定价没有更改,那么其最新的HGX盒子将使您退缩的两倍。
命名大会的变化与去年的不同布莱克韦尔系统。在我们的Blackwell发布覆盖范围中,NVIDIA与我们称Blackwell为“ chiplet”建筑 - 多个单独的模具或一个链接在一个处理器软件包中的chiplets”,认为这实际上是“两次reticle Limited Die Architection,它充当统一的单一GPU”。
与去年的B200相比,最新的B300 GPU也不是更强大。作为快速复习,HGX B300在2.3TB时提供了约1.5倍的记忆容量,而B200上的记忆容量为1.5TB,而4位浮点(FP4)perf的每个系统的浮点(FP4)perf量高约50%,每个系统的密集Petaflops略高于105。但是,性能跳跃仅用于可以利用FP4性能的工作负载。在较高的精度上,B300在较旧的系统中没有任何浮点优势。
令人困惑的是,此更改仅适用于NVIDIA的气冷B300盒,而不是更强大的GB300 NVL72系统,该系统继续将包装算作GPU。
那给什么呢?好吧,根据NVIDIA的Hyperscale和HPC的副总裁Ian Buck的说法,有一个技术原因。
主要区别在于,HGX底盘上提供的B300软件包缺少前一代Blackwell加速器上发现的芯片到芯片互连。这意味着这两个芯片确实是两个不同的144GB GPU,共享一个共同的软件包。Buck解释了这使NVIDIA获得更好的功率和热量。这确实带来了一些缺点。由于两者之间没有C2C互连,因此,如果一个模具想访问另一个内存,则必须在NVLink开关上脱包,然后进行掉头。
另一方面,GB300保留了C2C接口,避免了包装内存绕组。由于两个模具可以直接交流和共享内存,因此它们将其视为一个统一的GPU-至少就NVIDIA的软件和许可而言。
但是,随着Nvidia的发布,这种技术例外不会持续很长时间维拉·鲁宾(Vera Rubin)SuperChips将包含B300风格的命名约定,并开始将单个模具算作GPU,因此将其命名为NVL144。
这也是NVIDIA的Vera Rubin Ultra平台,于2027年下半年可以要求576 GPU每个架子。正如我们之前探索的那样,实际上只是144个模块 - 在Blackwell Ultra之前,我们本来会考虑一个GPU,每个模块有四个模块。
如果我们不得不猜测,自Nvidia揭幕Blackwell以来,我们将在这一年中赌注,GPU巨头意识到它正在将订阅软件收入放在桌面上。我们说这看起来是因为当我们问Nvidia时,命名变更将如何影响AI Enterprise许可时,他们告诉我们定价细节尚未完成。
一位发言人说:“定价细节仍在最终确定B300,而GTC主题演讲中显示的鲁宾没有任何细节可以分享。”El Reg。®