据报道,英伟达正在考虑为Blackwell B300 AI GPU设计可插拔插座——下一代Blackwell GPU可能允许用户自行更换

2024-10-12 13:02:54 英文原文

作者:Anton ShilovSocial Links NavigationContributing Writer

GB200 Grace Blackwell Superchip
GB200 格蕾丝·布莱克威尔超级芯片 (图片版权:Nvidia)

据一份报告称,Nvidia正在考虑为其即将推出的Blackwell B300 GPU(用于AI和HPC应用)中的至少一部分采用插座设计。集邦咨询引用了经济日报 和  MoneyDJ该公司据说为一个代号为GB300的项目采用了新的插座设计,目前这些信息至少可以说缺乏说服力。然而,考虑到供应链中有一些传闻,至少值得考虑一下。

_moneydj报道,考虑到AI GPU在高负载下的故障率、主板更换成本以及冷却挑战,英伟达和其他AI GPU设计公司可能会考虑在其下一代GPU中使用插座设计,而不是将GPU焊接在主板上。_

EDN 引用了 CLSA 分析师陈硕文的说法,他表示根据供应链检查,英伟达一直在为其产品设计 GPU 插槽,可能从 GB200 Ultra 开始。据报道,陈还提到了一种四路 Nvidia GPU 设计搭配一个 Nvidia CPU 的方案。这两份报告中都没有提到被称为 GB300 的内容,因此 TrendForce 增加了这部分信息,可能是基于某些额外的讨论。

关于这些报告有几点需要注意。插座式设计会增加功率和散热的挑战,而不是帮助解决问题,因此第一份报告是不准确的。最耗电的GPU通常使用BGA封装。

Nvidia Bianca board

(图片署名:Tom's Hardware)

一块配备一个CPU主板的4路Blackwell GPU并不显得特别出众,因为考虑到DGX服务器中会看到带有8路GPU底板和双路CPU主板的设计,这样的设计看起来非常惊人。

Nvidia的数据中心命名规则将公司的GPU(A100、H100、B100/B200)和Grace CPU+GPU平台(GH100、GB200)分开。目前,GB200平台的CPU和GPU都使用BGA封装;我们不确定B200 Ultra更新时是否会有所改变,尤其是在今年下半年可能推出的GB200 Ultra更新的情况下。

我们都喜欢标准的CPU插座,因为它们易于维修和升级。但在服务器中,它们占用的空间更大,并且在功耗和散热方面比BGA封装或SXM/OAM模块有更多的限制。虽然这些模块是可以修复的,但具体主板设计的不同可能会导致修复过程有所差异,而且卸下OAM/SXM模块时需要小心处理,因此它们不如插座好用。

获取TomHardware的最佳新闻和深度评论,直接发送到您的邮箱。

还有一个要点。添加卡、SXM和OAM模块难以且成本高昂,目前大多数Nvidia的SXM模块由富士康制造。从卡或模块迁移到插座可以降低成本但会限制性能。

布莱克威尔五金可能性

Nvidia Ariel board

(图片版权:Tom's Hardware)

在继续讨论据称基于Blackwell的数据中心产品(如GB300、GB200 Ultra等)配备可插拔GPU的情况之前,让我们回顾一下Nvidia已经推出的基于Blackwell的数据中心GPU有哪些。

到现在,Nvidia 已经正式推出了它的B200GPU(功率超过1000W)将用于GB200主板(代号为Bianca,包含一个Grace CPU和两个Blackwell GPU以及Ariel,包含一个Ariel CPU和一个Blackwell GPU),并采用BGA封装形式。此外,Nvidia还推出了Umbriel GPU主板,支持八块B200(1000W)B100(700W) SXM模块形式因素。此外,还有代号为Miranda(增加性能(考虑更高的TDP),PCIe 6.0和800G网络)以及代号为Oberon的GB200平台,据称半分析.

虽然Nvidia推出了基于Hopper架构的性能降低版Nvidia H100甚至H200独立显卡,以适应经典服务器提供的典型功率和散热预算,但Nvidia从未宣布过任何采用Blackwell架构GPU的独立显卡。

然而,根据非官方信息,我们知道英伟达正在准备其代号为B200A的产品,该产品基于单片的B102处理器,并使用台积电的CoWoS-S封装技术连接四个HBM3E内存堆栈。这与双芯片设计(如B100/B200)形成对比,后者是先使用台积电的CoWoS-L进行封装然后再连接到八个HBM3E内存堆栈上。

鉴于所谓的B200A是一款并非设计为性能冠军的单芯片产品,它可以采用多种外形规格。这包括SXM模块化设计(特别是其专为中国市场的B20形式)和添加卡外形规格。它可能是插槽式的吗?也许吧。我们拭目以待。英特尔曾推出带有HBM板载内存的Socketed Xeon CPU Max 9480 'Sapphire Rapids',但除了特定的超级计算机市场之外,并没有取得成功。Nvidia是否想构建类似的产品?让我们拭目以待。

安东·希洛夫是Tom's Hardware的特约撰稿人。在过去几十年里,他报道了从CPU和GPU到超级计算机的各种内容,以及从现代工艺技术、最新的制造工具到高科技行业趋势等各个方面。

关于《据报道,英伟达正在考虑为Blackwell B300 AI GPU设计可插拔插座——下一代Blackwell GPU可能允许用户自行更换》
暂无评论

摘要

GB200 Grace Blackwell 超级芯片 (图片提供:Nvidia) 据TrendForce引述《经济日报》和MoneyDJ的报道,英伟达正在考虑为其即将推出的面向AI和HPC应用的Blackwell B300 GPU中至少一部分采用插座设计。英伟达的数据中心命名法将其GPU(A100、H100、B100/B200)及Grace CPU + GPU平台(GH100、GB200)区分开来。附加卡、SXM和OAM模块制造难度大且成本高,目前大多数英伟达的SXM模块都是由富士康生产的。Blackwell硬件可能性(图片提供:Tom's Hardware)在继续介绍据称基于Blackwell的数据中心产品(GB300、GB200 Ultra等)之前,让我们回顾一下英伟达已经推出的哪些数据中心GPU是基于Blackwell架构的。英伟达是否想要打造类似的产品?

相关讨论