评论正如詹森·黄(Jensen Huang)喜欢说的那样,摩尔的律法已死本月在NVIDIA GTC,GPU-Slinger的首席执行官让计算缩放定律真正深入。
黄台站在舞台上,不仅揭示了芯片设计师的下一代布莱克韦尔超级处理器,但关于其接下来的两代加速计算平台的细节令人惊讶,包括600kW机架标尺系统包装576 GPU。我们还了解到,即将到来的GPU家庭将于2028年到达,将以理查德·费曼(Richard Feynman)的名字命名。当然,你在开玩笑!
芯片制造商不时取笑他们的路线图并不罕见,但是我们通常不会一次获得这么多信息。那是因为Nvidia被卡住了。它不仅遇到了一个障碍,而且遇到了几个。更糟糕的是,除了向问题投入资金外,它们都在很大程度上取决于Nvidia的控制。
这些挑战不会给那些关注的人带来任何惊喜。分布式计算一直是瓶颈whack-a-mole的游戏,而AI可能只是终极的痣狩猎。
这些挑战中的第一个也是最明显的是围绕缩放计算。
近年来,工艺技术的进步已减缓到爬网。虽然仍然有旋钮可以转弯,但他们变得越来越难以固定。
面对这些局限性,NVIDIA的策略很简单:尽可能地扩大每个计算节点中的硅数量。如今,NVIDIA的最密集系统或真正的机架使用其高速1.8TB/S NVLINK织物将单个计算域网状gpus网格72 GPU。然后,使用Infiniband或以太网将其中八个或多个架子缝合在一起,以实现所需的计算和内存能力。”
在GTC,NVIDIA揭示它的目的是将其提高到144,最终每个机架576 GPU。但是,扩展不限于机架。它也在芯片包装上发生。
这变得很明显发射一年前的Nvidia的Blackwell加速器。芯片吹嘘了5倍的性能提升,这听起来很棒,直到您意识到它需要两倍的模具计数,一个新的4位数据类型,还有500瓦的功率可以做到这一点。
现实是归一化为FP16的,NVIDIA的最高标记的Blackwell死亡仅比1,250浓密的Teraflops的GH100快1.25倍,而989却恰好有两个。
我们还不知道技术NVIDIA计划用于其下一代芯片的过程,但是我们所知道的是,Rubin Ultra将继续这一趋势,从两个标线限制限制变为四个。即使效率提高约20%,黄也希望从TSMC 2NM中脱颖而出,这仍然是一个热门包。
这也不只是计算;这也是记忆。鹰眼中可能已经注意到,鲁宾至鲁宾Ultra 288GB的容量和带宽相当大的跳动与1TB相比。其中大约一半来自更快,更高的容量内存模块,但另一半来自将硅的数量翻了一番,从布莱克韦尔(Blackwell)和鲁宾(Rubin)上的八个模块到鲁宾·Ultra上的16个模块。
更高的容量意味着NVIDIA可以将更多的模型参数(大约2万亿个FP4)塞入一个软件包中,即每个“ GPU”,因为他们现在计算单个模具而不是插座。HBM4E还希望有效地将内存带宽倍增HBM3E。在鲁宾Ultra上,带宽预计将从今天的Blackwell死亡约4TB/S跃升至8TB/s。
不幸的是,除了流程技术的重大突破之外,NVIDIA GPU软件包可能会包装更多的硅。
好消息是,过程进步不是扩展计算或内存的唯一方法。一般而言,从16位降至8位精度有效地将吞吐量增加一倍,同时也使给定模型的内存要求减半。问题是NVIDIA用尽了几点以榨汁的性能增长。从霍珀(Hopper)到布莱克韦尔(Blackwell),恩维迪亚(Nvidia)丢下了四个位,使硅翻了一番,并获得了5倍的浮点增长。
但是在四位数的精度以下,LLM推理变得非常粗糙,并具有快速攀登的困惑得分。也就是说,在保持准确性的同时,有一些有趣的研究涉及超低精度量化,低至1.58位。
并不是降低精度并不是捡拖鞋的唯一方法。您还可以将更少的模具区域用于AI工作负载不需要的更高精度数据类型。
我们与Blackwell Ultra一起看到了这一点。NVIDIA加速计算业务部门的副总裁伊恩·巴克(Ian Buck)在接受采访时告诉我们,他们实际上介绍了芯片的双重精度(FP64)张量核心性能,以换取更多的4位4位拖鞋。
这是否表明FP64在NVIDIA出门有待观察,但是如果您真的在乎双精度的咕unt,AMD的GPU和APU都可能在您列表的顶部。
无论如何,NVIDIA的前进道路很明显:它的计算平台只会从现在开始变得更大,更密集,更热,更热,更大的力量。正如Huang在上周的新闻问答期间所说的卡路里剥夺者所说的那样,机架的实际限制是可以喂养它的很大的功能。
黄说:“数据中心现在是250兆瓦。这是每个机架的限制。我认为其余的只是细节。”“如果您说数据中心是Gigawatt,我会说每个架子的Gigawatt听起来像是一个很好的限制。”
自然,600kW架子为数据中心操作员带来了一个Helluva头痛。
需要明确的是,超密集的计算的震惊并不是一个新问题。克雷(Cray),埃维登(Eviden)和联想(Lenovo)的人们已经弄清楚了多年。发生了变化的是,我们不是每年谈论少数精品群的计算集群。我们正在谈论数十个集群,其中一些是这么大至于取消前500名最强大的超级超级超级,如果将200,000个hopper GPU与Linpack绑在一起,将赚钱。”
在这些尺度上,高度专业化的,小体积的热管理和动力输送系统根本不会削减它。不幸的是,数据中心供应商 - 您知道卖出不太性感的碎片和鲍勃的人,您需要使这些数百万美元的NVL72架子工作需要 - 现在才赶上需求。
我们怀疑这就是为什么到目前为止宣布的许多布莱克韦尔部署是为空冷的HGX B200而不是NVL72 Huang继续宣传的原因。这八个GPU HGX系统可以在许多现有的H100环境中部署。NVIDIA多年来一直在做30-40kW的机架,因此跳到60kW并不是那么伸展,而且仍然可以选择每个机架下降到两个或三台服务器。
这是黄金不断发挥作用的“ AI工厂”的地方
NVL72是一种由DC总线杆,动力雪橇和网络前面的大型标准的Rackscale设计。在120kW的液体冷却计算中,在现有设施中部署了多个事情,急忙有问题。一旦Nvidia的600kW怪物架在2027年末首次亮相,这只会变得更加困难。
这是那些”AI工厂“ Huang不断发挥作用。与Schneider Electric这样的合作伙伴设计的目的构建数据中心,以应对AI的功率和热需求。
惊喜,惊喜,在详细介绍了未来三年的GPU路线图后一周,施耐德宣布在美国进行了7亿美元的扩张,以增强支持它们所需的所有功率和冷却套件的生产。
当然,拥有为这些超密集系统供电和冷却这些超密集系统所需的基础设施并不是唯一的问题。因此,首先将功率传达给数据中心,这在很大程度上远远超出了NVIDIA的控制。
每次元,甲骨文,微软或其他任何人都会宣布另一个AI谷仓,通常会随后一项多汁的电力购买协议。Meta的Mega DC在Bayou中出生宣布除了2.2GW的气体发生器植物外,对于那些可持续性和碳中立性承诺。
尽管我们希望看到核能卷土重来,但即使是最玫瑰色的预测,在2030年代的部署也将部署放到某个地方时,很难认真对待小型模块化反应堆。
需要明确的是,这些障碍都不是NVIDIA所独有的。AMD,Intel以及其他所有云提供商和芯片设计师都争夺NVIDIA的市场份额,一定会遇到这些相同的挑战。Nvidia恰好是第一个与他们竞争的人之一。
尽管这当然具有其缺点,但它也使NVIDIA处于一个独特的位置,以塑造未来数据中心功率和热设计的方向。
正如我们前面提到的那样,黄愿愿意透露其接下来的三代GPU技术并取笑其第四次的原因是其基础设施合作伙伴可以在最终到达时支持他们。
黄说:“我向世界沟通的原因是Nvidia的接下来的三年路线图现在是其他人都可以计划的。”
另一方面,这些努力也为竞争芯片制造商扫清了道路。如果Nvidia设计了一个120kW或现在600kW,则架子和托管提供商以及云运营商愿意支持这一点,AMD或Intel现在可以清楚地包装自己的机架规模平台,而不必担心客户会放在哪里。®