深入潜水亚马逊Web服务(AWS)正在建立一个大型超级计算集群,其中包含“数十万”的加速器,该集群有望在AI Arm Race中为其模型建立伙伴提供模型的建筑伙伴。
该系统被称为Rainier项目,将于今年晚些时候在线上线,跨越了美国的多个站点。亚马逊Annapurna Labs产品和客户工程总监Gadi Hutt告诉El Reg印第安纳州的一个地点将跨越三十个数据中心,每个数据中心各有200,000平方英尺。仅这个设施就是最近据报道,消耗超过2.2吉瓦的力量。
但是与Openai的星际之门不同,Xai的Collusus或AWS自己的CEIBA项目,该系统不使用GPU。取而代之的是,Rainier项目将代表有史以来亚马逊Anapurna AI硅的最大部署。
赫特说:“这是我们第一次建立如此大规模的培训集群,该集群将使客户(在这种情况下为人类)在所有基础架构上培训单个模型。”“规模确实是前所未有的。”
如果您忘记了亚马逊,亚马逊是人类最大的支持者之一,已经在Openai竞争对手上投资了80亿美元。
亚马逊还没有准备好透露该项目的全部范围,并且由于它是一个类似于Stargate的多站点项目,而不是像Colossus这样的单一AI工厂,因此Rainier项目可能没有上限。所有计划都假设导致AI繁荣的经济状况不会消失。
但是,我们被告知,拟人化已经设法掌握了系统计算的一部分。
虽然我们不知道有多少火车芯片或数据中心最终将为雷尼尔提供动力,并且可能要等到11月发明才能发动,但我们对它的外观确实有一个很好的了解。因此,到目前为止,这是我们对Rainier项目的了解。
Rainier项目的核心是Annapurna Lab的Trainium2加速器,它放开在12月的网络上。
尽管它的名字可能暗示,但该芯片可以用于培训和推理工作量,这将对客户使用强化学习(RL)派上用场,就像我们在DeepSeek R1和Openai的O1上看到的那样,将其模型带入了推理能力。
赫特说:“ RL作为工作量有很多推理,因为我们需要在培训步骤中验证结果。”
芯片本身具有一对5nm计算机模具,使用TSMC的芯片 - 垫片中的芯片(Cowos)包装技术,该芯片由四个HBM堆栈喂食。结合使用,每个Trainium2加速器提供1.3 Petaflops的浓密FP8性能,96GB的HBM和2.9TB/s的内存带宽。
本身,芯片看起来并没有那么有竞争力。例如,NVIDIA的B200拥有4.5 Petaflops的浓密FP8,192GB的HBM3E和8TB/s的内存带宽。
支持4倍的稀疏性可以极大地加速AI训练工作量,确实有助于tranium2缩小差距,将FP8 perf提高到5.2 PETAFLOPS,但它仍然以同一精度在9 Petaflops的B200后面落在B200后面。
虽然Tranium2在与Nvidia的最新加速器的芯片比较中看起来可能有些贫血,但这并不能说明完整的故事。
与H100和H200系列GPU不同,NVIDIA的B200仅以八向HGX形式为单位。同样,AWS对Trainium2的最低配置(它称为其TRN2实例)具有16个加速器。
赫特解释说:“当您谈论大型群集时,单个芯片为您提供的内容不太重要,而是所谓的'好put'。”“您对培训的好吞吐量是什么?也考虑到停机时间? - 我在行业中没有太多谈论这一点,但这是客户正在考虑的指标。”
与NVIDIA的HGX B200系统相比,性能差距更加近。在内存带宽和密集的FP8计算方面,基于Blackwell的零件仍然具有优势,这是推理性能的关键指标。
对于培训工作负载,亚马逊的TRN2实例确实具有一些优势,因为它们至少在纸上提供了更高的稀疏浮动性能。是的,NVIDIA的Blackwell芯片确实支持4位浮点精度,但是我们还没有看到任何人以此精确地训练模型。当预计大量数据的值为零时,稀疏计算最有用。结果,稀疏性通常对推论并不有用,而是可以在训练方面产生很大的影响。
这样一来,这是一个快速浏览一下NVIDIA的Blackwell B200如何与AWS的TRN2实例相吻合:
一个 | trn2 | DGX B200 |
---|---|---|
CPU: | 2x 48c英特尔蓝宝石急流 | 2x 56c英特尔翡翠急流 |
系统mem: | 2TB DDR5 | 最多4TB |
加速器: | 16倍火车2 | 8x B200 GPU |
HBM: | 1536GB | 1440GB |
内存BW: | 46.4TB/s | 64TB/s |
互连BW: | 16tb/s | 14.4tb/s |
扩展BW: | 3.2TBPS EFAV3 | 3.2Tbps infiniband |
密集的FP4: | na | 72 Petaflops |
密集的FP8: | 20.8 Petaflops | 36 Petaflops |
稀疏FP8: | 83.2 Petaflops | 72 Petaflops |
仔细观察每个TRN2群集,芯片分布在八个计算叶片(每个2倍的火车2)上,这些刀片由Intel的一对X86 CPU管理。在这方面,体系结构有些让人联想到NVIDIA的NVL72机架系统。
但是,使用AWS高速Neuronlink V3互连,每个TRN2群集中的芯片并没有像我们在NVL72中看到的全部拓扑,而是在4x4 2D圆圈中连接。该拓扑消除了对高速切换的需求,但确实增加了一个额外的跳跃或芯片交流的延迟。
这种内在互连与NVIDIA的NVLINK或AMD的InfiniFabric相同,可以为TRN2群集中的每个加速器提供1TB/s的芯片带宽。
然后,可以使用NeurOnlink将四个TRN2系统一起融合在一起,以将计算域从16芯片扩展到64,在配置中,AWS称为Ultraserver。
这是通过将每个TRN2系统彼此堆叠以形成3D圆环来实现的,如果您很难成像看起来有点像这样:
根据亚马逊的说法文档,TRN2实例之间由NeuronLink提供的固定范围带宽在每个芯片的带宽下,在256GB/s的情况下要低一些。
再次,无需开关就可以实现此芯片到芯片网格,这将带来较低的功耗。这与将系统在两个机架上分配的较低的计算密度一起,使AWS可以摆脱空气冷却的方式 - 它作为CEIBA项目的一部分所部署的NVL72系统无法说的话。
一个 | TRN2 Ultraserver | DGX GB200 NVL72 |
---|---|---|
CPU: | 8x 48c英特尔蓝宝石急流 | 一个 |
系统mem: | 8TB DDR5 | 17TB LPDRR5X |
加速器: | 64X Trainium2 | 72x Blackwell GPU |
HBM: | 6.1TB | 13.4TB |
内存BW: | 186TB/s | 576TB/s |
互连BW: | 68TB/s | 130TB/s |
扩展BW: | 12.8TBPS EFAV3 | 28.8tbps infiniband |
密集的FP4: | na | 720 Petaflops |
密集的FP8: | 83.2 Petaflops | 360 Petaflops |
稀疏FP8: | 332.8 PETAFLOPS | 720 Petaflops |
机架电源: | 未知 | 120kw |
如您所见,NVL72仍然比亚马逊的TRN2快,但是正如赫特指出的那样,还需要考虑到该计算的成本。“客户要求我们的东西不是'给我们最快的筹码或最复杂的筹码。'客户以最低的成本关心性能和绩效,当然也必须易于使用。”
他补充说,归根结底,客户将火车作为云中的软件API消费。
这些Ultraservers是亚马逊在建立完整的Rainier“ UltraCluster”项目时基本上复制和粘贴的计算的关键单位。
使用Amazon的自定义EFAV3网络来实现此可伸缩性,并且我们被告知群集中的每个加速器都将配备200GBPS的网络带宽。这意味着每个TRN2 Ultraserver都将具有12.8TBP的连接性,这是由Annapurna的自定义氮数据处理单元提供的,以使所有这些芯片都馈入培训数据。
这也不是您典型的以太网网络。亚马逊已经开发了一种自定义面料,他们说,它将提供数十potabits的带宽(据我们了解,这会根据群集中的超声波数量而变化),整个网络中的潜伏期不到10微秒。
亚马逊清楚地为一些严重拥挤的网络柜做好了准备。在RE:Invent去年,Cloud Titan详细介绍了它的长度,以防止其网络柜变成老鼠的光纤电缆巢。这包括开发一条纤维式躯干线,该线条将数百个纤维对塞入最佳的光子绳索中。
正如我们之前提到的,亚马逊对雷尼尔最终将有多大的项目含糊不清。以前吹嘘该系统将包含数十万架Trainium2芯片。
在最近的博客文章它说:“当您连接成千上万的超声波主并将它们指向同一问题时,您就会得到雷尼尔项目。”
即使只有10,000个超强者也等于640,000个加速器。考虑到一百万个加速器群集将使头条变得更好,因此我们将假设作者打算说TRN2实例,而不是Ultraservers。
有600万平方英尺的地板空间,我们不希望空间是限制因素。话虽如此,我们预计亚马逊的印第安纳州校园将是专门为Rainier项目建造的。我们必须想象,许多空间将被传统的IT设备(例如存储阵列,开关,X86和Graviton CPU运行虚拟化和容器工作负载)所占用,并且可能也有大量的GPU。
亚马逊尚未说过芯片消耗的功率,但是假设它约为500瓦,我们估计我们将需要256,000个Tranium2加速器的群集在250至300兆瓦的功率之间。作为参考,这与Xai的巨像超级计算机大致相当,该计算机包含200,000个Hopper GPU。
到目前为止,亚马逊的所有消息传递都为Rainier推动了Trainium2为Project Rainier提供动力,但是距离其第三代加速器仅几个月了,我们不会惊讶地发现至少某些网站最终使用了更新,更强大的芯片。
由Annapurna Labs团队在RE:Invent去年取笑,该芯片将建立在TSMC的3NM Process Node上,并承诺与当前一代相比提供40%的效率。亚马逊还希望其基于Trainium3的Ultraservers提供约4倍基于TRN2的系统的性能。
这意味着我们可以期望每个TRN3 Ultraserver能够提供约332.8 PETAFLOPS的浓密FP8或约1.33 Exaflops,并启用了稀疏性。假设Annapurna并没有将诸如FP6或FP4之类的较低的精度数据型浸入以实现这些性能提高。但是除了这些性能指标之外,细节仍然很轻。
当然,有先例可以支持最后一刻的变化。
您可能还记得,亚马逊的Project Ceiba最初是假设使用Nvidia的Grace Hopper Superchips,但最终最终与更强大的Blackwell加速器一起使用。
亚马逊只能谈论已发布的芯片和系统,尽管我们已经对Trainium3了解了一定的了解,但要开始向他们部署工作负载还需要一段时间。®