英语轻松读发新版了,欢迎下载、更新

其设计师详细介绍的144个NVIDIA H200 AI GPU:Hydra主机进入现场

2025-01-31 20:00:00 英文原文

作者:Anton ShilovSocial Links NavigationContributing Writer

ExaAI's H200 cluster
(图片来源:Will Bryk/X)

本月初,我们报告了exaailabs的大量驱动器,一组18台运行144个NVIDIA的机器H200GPU,恰好是基于这些处理器的第一个群集之一。从那时起,促进集群建设的公司Hydra Host为我们提供了有关该系统的其他详细信息。该集群使用Hydra Host的多个自定义的联想系统,该系统发挥了重要作用。当业主通过Hydra的Brokkr平台不使用时,也可以租用机器。

很多计算功率

该簇的骨干由18个Lenovo节点组成,配备了144个NVIDIA H200 GPU和20TB的HBM3E内存 - 或每个系统的8个,可为AI提供570 FP8 Petatops的计算性能。Hydrahost进行了16个节点的配置和微调,以进行训练,这需要大量的计算和记忆性能,而其余两个则用作推理节点。此外,Hydra主机安装了其BROKKR平台用于GPU供应,管理和远程租赁(稍后再详细介绍)。

Hydra主机与ComputAcenter合作设计了针对集群需求量身定制的高性能网络体系结构。该设置使用3.2TBPS Infiniband用于东西方流量和400Gbps以太网,用于North-South通信,包括每台服务器的双200GBPS连接和400Gbps戴尔以太网开关。ComputAcenter的网络工程师确保了与NVIDIA的参考体系结构对齐的所有组件,以实现无缝兼容性。

Hydra主机发言人安德里亚·霍尔特(Andrea Holt)解释说:“我们为18个Lenovo节点提供了H200 GPU(16个相互联系和两个推理节点),与ComputAcenter合作设计了网络架构,并通过Patmos促进了托管。”

即使就通用计算而言,群集本身也非常强大。该服务器具有192 96核处理器(总计3,456个核心),并与36TB的DDR5存储器和270TB的NVME固态存储配对。有备用托架,以便可以轻松扩展存储空间。超级计算机使用Hydrahost自定义构建的网络。

该公司还带来了Patmos来处理托管,提供了足够的电力(约100kW),并为渴望的和热的机器冷却。

最佳价格的最佳性能

这次膨胀的价格为500万美元,平均每台机器277,777美元,可与单个8向H200踢脚线相当,而不是完整的服务器。这是它变得有趣的地方。谁促进了这个价格?

获取汤姆(Tom)的硬件的最佳新闻和深入的评论,直接进入收件箱。

一方面,Hydra主持人是NVIDIA的亲密合作伙伴,仅提供NVIDIA GPU作为服务。此外,其BROKKR软件主要针对CUDA进行了优化。另一方面,Exaai是由NVIDIA支持的公司,因此它可能会获得优惠的价格。

Hydra的首席销售工程师Ryan Horjus说:“我们最好在市场上为客户提供合适的GPU满足他们的需求和最佳价格。”“这个集群得到了建筑设计及其成立计划的NVIDIA的支持。Hydra为Exa处理了EXA,就像我们为其他公司所做的那样。”

Hydra还专门针对初创企业构建定制解决方案,甚至在不使用时使他们的机器获利。

Horjus补充说:“ Hydra帮助初创企业进入了自己的集群,以通过大量购买来更好地定价。”“他们可以通过我们的网络实现理想的定价。当不使用Brokkr管理平台使用时,他们还能够使服务器获利。”

说到Brokkr,这是GPU管理和供应软件,也是GPU的货币化平台。它为数据中心和初创企业提供了一个交钥匙软件解决方案,该解决方案将其硬件进入客户的手并获得报酬。

Deschapell说:“它的主要特征之一是自动化的裸金属供应和生命周期管理。”“这意味着该平台完成了配置和管理基本服务器操作系统和固件,设置驱动程序和其他支撑软件以及在GPU和其他组件上运行测试的所有工作。这可以显着加快和标准化交付过程,从而大大减少空闲过程在服务器和GPU上,如果需要更改,则可以轻松地将未使用的服务器转售给Brokkr平台上的其他用户,以寻找裸机GPU。

安东·希洛夫(Anton Shilov)是汤姆(Tom)硬件的撰稿人。在过去的几十年中,他涵盖了从CPU和GPU到超级计算机的所有内容,从现代流程技术和最新工厂工具到高科技行业的趋势。

关于《其设计师详细介绍的144个NVIDIA H200 AI GPU:Hydra主机进入现场》的评论


暂无评论

发表评论