据一份报告称,Nvidia正在考虑为其即将推出的Blackwell B300 GPU(用于AI和HPC应用)中的至少一部分采用插座设计。集邦咨询引用了经济日报 和 MoneyDJ该公司据说为一个代号为GB300的项目采用了新的插座设计,目前这些信息至少可以说缺乏说服力。然而,考虑到供应链中有一些传闻,至少值得考虑一下。
_moneydj报道,考虑到AI GPU在高负载下的故障率、主板更换成本以及冷却挑战,英伟达和其他AI GPU设计公司可能会考虑在其下一代GPU中使用插座设计,而不是将GPU焊接在主板上。_
EDN 引用了 CLSA 分析师陈硕文的说法,他表示根据供应链检查,英伟达一直在为其产品设计 GPU 插槽,可能从 GB200 Ultra 开始。据报道,陈还提到了一种四路 Nvidia GPU 设计搭配一个 Nvidia CPU 的方案。这两份报告中都没有提到被称为 GB300 的内容,因此 TrendForce 增加了这部分信息,可能是基于某些额外的讨论。
关于这些报告有几点需要注意。插座式设计会增加功率和散热的挑战,而不是帮助解决问题,因此第一份报告是不准确的。最耗电的GPU通常使用BGA封装。
一块配备一个CPU主板的4路Blackwell GPU并不显得特别出众,因为考虑到DGX服务器中会看到带有8路GPU底板和双路CPU主板的设计,这样的设计看起来非常惊人。
Nvidia的数据中心命名规则将公司的GPU(A100、H100、B100/B200)和Grace CPU+GPU平台(GH100、GB200)分开。目前,GB200平台的CPU和GPU都使用BGA封装;我们不确定B200 Ultra更新时是否会有所改变,尤其是在今年下半年可能推出的GB200 Ultra更新的情况下。
我们都喜欢标准的CPU插座,因为它们易于维修和升级。但在服务器中,它们占用的空间更大,并且在功耗和散热方面比BGA封装或SXM/OAM模块有更多的限制。虽然这些模块是可以修复的,但具体主板设计的不同可能会导致修复过程有所差异,而且卸下OAM/SXM模块时需要小心处理,因此它们不如插座好用。
还有一个要点。添加卡、SXM和OAM模块难以且成本高昂,目前大多数Nvidia的SXM模块由富士康制造。从卡或模块迁移到插座可以降低成本但会限制性能。
布莱克威尔五金可能性
在继续讨论据称基于Blackwell的数据中心产品(如GB300、GB200 Ultra等)配备可插拔GPU的情况之前,让我们回顾一下Nvidia已经推出的基于Blackwell的数据中心GPU有哪些。
到现在,Nvidia 已经正式推出了它的B200GPU(功率超过1000W)将用于GB200主板(代号为Bianca,包含一个Grace CPU和两个Blackwell GPU以及Ariel,包含一个Ariel CPU和一个Blackwell GPU),并采用BGA封装形式。此外,Nvidia还推出了Umbriel GPU主板,支持八块B200(1000W)B100(700W) SXM模块形式因素。此外,还有代号为Miranda(增加性能(考虑更高的TDP),PCIe 6.0和800G网络)以及代号为Oberon的GB200平台,据称半分析.
虽然Nvidia推出了基于Hopper架构的性能降低版Nvidia H100甚至H200独立显卡,以适应经典服务器提供的典型功率和散热预算,但Nvidia从未宣布过任何采用Blackwell架构GPU的独立显卡。
然而,根据非官方信息,我们知道英伟达正在准备其代号为B200A的产品,该产品基于单片的B102处理器,并使用台积电的CoWoS-S封装技术连接四个HBM3E内存堆栈。这与双芯片设计(如B100/B200)形成对比,后者是先使用台积电的CoWoS-L进行封装然后再连接到八个HBM3E内存堆栈上。
鉴于所谓的B200A是一款并非设计为性能冠军的单芯片产品,它可以采用多种外形规格。这包括SXM模块化设计(特别是其专为中国市场的B20形式)和添加卡外形规格。它可能是插槽式的吗?也许吧。我们拭目以待。英特尔曾推出带有HBM板载内存的Socketed Xeon CPU Max 9480 'Sapphire Rapids',但除了特定的超级计算机市场之外,并没有取得成功。Nvidia是否想构建类似的产品?让我们拭目以待。