本月初,我们报告了exaailabs的大量驱动器,一组18台运行144个NVIDIA的机器H200GPU,恰好是基于这些处理器的第一个群集之一。从那时起,促进集群建设的公司Hydra Host为我们提供了有关该系统的其他详细信息。该集群使用Hydra Host的多个自定义的联想系统,该系统发挥了重要作用。当业主通过Hydra的Brokkr平台不使用时,也可以租用机器。
很多计算功率
该簇的骨干由18个Lenovo节点组成,配备了144个NVIDIA H200 GPU和20TB的HBM3E内存 - 或每个系统的8个,可为AI提供570 FP8 Petatops的计算性能。Hydrahost进行了16个节点的配置和微调,以进行训练,这需要大量的计算和记忆性能,而其余两个则用作推理节点。此外,Hydra主机安装了其BROKKR平台用于GPU供应,管理和远程租赁(稍后再详细介绍)。
Hydra主机与ComputAcenter合作设计了针对集群需求量身定制的高性能网络体系结构。该设置使用3.2TBPS Infiniband用于东西方流量和400Gbps以太网,用于North-South通信,包括每台服务器的双200GBPS连接和400Gbps戴尔以太网开关。ComputAcenter的网络工程师确保了与NVIDIA的参考体系结构对齐的所有组件,以实现无缝兼容性。
Hydra主机发言人安德里亚·霍尔特(Andrea Holt)解释说:“我们为18个Lenovo节点提供了H200 GPU(16个相互联系和两个推理节点),与ComputAcenter合作设计了网络架构,并通过Patmos促进了托管。”
即使就通用计算而言,群集本身也非常强大。该服务器具有192 96核处理器(总计3,456个核心),并与36TB的DDR5存储器和270TB的NVME固态存储配对。有备用托架,以便可以轻松扩展存储空间。超级计算机使用Hydrahost自定义构建的网络。
该公司还带来了Patmos来处理托管,提供了足够的电力(约100kW),并为渴望的和热的机器冷却。
最佳价格的最佳性能
这次膨胀的价格为500万美元,平均每台机器277,777美元,可与单个8向H200踢脚线相当,而不是完整的服务器。这是它变得有趣的地方。谁促进了这个价格?
一方面,Hydra主持人是NVIDIA的亲密合作伙伴,仅提供NVIDIA GPU作为服务。此外,其BROKKR软件主要针对CUDA进行了优化。另一方面,Exaai是由NVIDIA支持的公司,因此它可能会获得优惠的价格。
Hydra的首席销售工程师Ryan Horjus说:“我们最好在市场上为客户提供合适的GPU满足他们的需求和最佳价格。”“这个集群得到了建筑设计及其成立计划的NVIDIA的支持。Hydra为Exa处理了EXA,就像我们为其他公司所做的那样。”
Hydra还专门针对初创企业构建定制解决方案,甚至在不使用时使他们的机器获利。
Horjus补充说:“ Hydra帮助初创企业进入了自己的集群,以通过大量购买来更好地定价。”“他们可以通过我们的网络实现理想的定价。当不使用Brokkr管理平台使用时,他们还能够使服务器获利。”
说到Brokkr,这是GPU管理和供应软件,也是GPU的货币化平台。它为数据中心和初创企业提供了一个交钥匙软件解决方案,该解决方案将其硬件进入客户的手并获得报酬。
Deschapell说:“它的主要特征之一是自动化的裸金属供应和生命周期管理。”“这意味着该平台完成了配置和管理基本服务器操作系统和固件,设置驱动程序和其他支撑软件以及在GPU和其他组件上运行测试的所有工作。这可以显着加快和标准化交付过程,从而大大减少空闲过程在服务器和GPU上,如果需要更改,则可以轻松地将未使用的服务器转售给Brokkr平台上的其他用户,以寻找裸机GPU。