其设计师详细介绍的144个NVIDIA H200 AI GPU：Hydra主机进入现场

作者：Anton ShilovSocial Links NavigationContributing Writer

（图片来源：Will Bryk/X）

本月初，我们报告了exaailabs的大量驱动器，一组18台运行144个NVIDIA的机器H200GPU，恰好是基于这些处理器的第一个群集之一。从那时起，促进集群建设的公司Hydra Host为我们提供了有关该系统的其他详细信息。该集群使用Hydra Host的多个自定义的联想系统，该系统发挥了重要作用。当业主通过Hydra的Brokkr平台不使用时，也可以租用机器。

很多计算功率

该簇的骨干由18个Lenovo节点组成，配备了144个NVIDIA H200 GPU和20TB的HBM3E内存 - 或每个系统的8个，可为AI提供570 FP8 Petatops的计算性能。Hydrahost进行了16个节点的配置和微调，以进行训练，这需要大量的计算和记忆性能，而其余两个则用作推理节点。此外，Hydra主机安装了其BROKKR平台用于GPU供应，管理和远程租赁（稍后再详细介绍）。

Hydra主机与ComputAcenter合作设计了针对集群需求量身定制的高性能网络体系结构。该设置使用3.2TBPS Infiniband用于东西方流量和400Gbps以太网，用于North-South通信，包括每台服务器的双200GBPS连接和400Gbps戴尔以太网开关。ComputAcenter的网络工程师确保了与NVIDIA的参考体系结构对齐的所有组件，以实现无缝兼容性。

Hydra主机发言人安德里亚·霍尔特（Andrea Holt）解释说：“我们为18个Lenovo节点提供了H200 GPU（16个相互联系和两个推理节点），与ComputAcenter合作设计了网络架构，并通过Patmos促进了托管。”

即使就通用计算而言，群集本身也非常强大。该服务器具有192 96核处理器（总计3,456个核心），并与36TB的DDR5存储器和270TB的NVME固态存储配对。有备用托架，以便可以轻松扩展存储空间。超级计算机使用Hydrahost自定义构建的网络。

该公司还带来了Patmos来处理托管，提供了足够的电力（约100kW），并为渴望的和热的机器冷却。

最佳价格的最佳性能

这次膨胀的价格为500万美元，平均每台机器277,777美元，可与单个8向H200踢脚线相当，而不是完整的服务器。这是它变得有趣的地方。谁促进了这个价格？

获取汤姆（Tom）的硬件的最佳新闻和深入的评论，直接进入收件箱。

一方面，Hydra主持人是NVIDIA的亲密合作伙伴，仅提供NVIDIA GPU作为服务。此外，其BROKKR软件主要针对CUDA进行了优化。另一方面，Exaai是由NVIDIA支持的公司，因此它可能会获得优惠的价格。

Hydra的首席销售工程师Ryan Horjus说：“我们最好在市场上为客户提供合适的GPU满足他们的需求和最佳价格。”“这个集群得到了建筑设计及其成立计划的NVIDIA的支持。Hydra为Exa处理了EXA，就像我们为其他公司所做的那样。”

Hydra还专门针对初创企业构建定制解决方案，甚至在不使用时使他们的机器获利。

Horjus补充说：“ Hydra帮助初创企业进入了自己的集群，以通过大量购买来更好地定价。”“他们可以通过我们的网络实现理想的定价。当不使用Brokkr管理平台使用时，他们还能够使服务器获利。”

说到Brokkr，这是GPU管理和供应软件，也是GPU的货币化平台。它为数据中心和初创企业提供了一个交钥匙软件解决方案，该解决方案将其硬件进入客户的手并获得报酬。

Deschapell说：“它的主要特征之一是自动化的裸金属供应和生命周期管理。”“这意味着该平台完成了配置和管理基本服务器操作系统和固件，设置驱动程序和其他支撑软件以及在GPU和其他组件上运行测试的所有工作。这可以显着加快和标准化交付过程，从而大大减少空闲过程在服务器和GPU上，如果需要更改，则可以轻松地将未使用的服务器转售给Brokkr平台上的其他用户，以寻找裸机GPU。

安东·希洛夫（Anton Shilov）是汤姆（Tom）硬件的撰稿人。在过去的几十年中，他涵盖了从CPU和GPU到超级计算机的所有内容，从现代流程技术和最新工厂工具到高科技行业的趋势。

OC

其设计师详细介绍的144个NVIDIA H200 AI GPU：Hydra主机进入现场

很多计算功率

最佳价格的最佳性能

关于《其设计师详细介绍的144个NVIDIA H200 AI GPU：Hydra主机进入现场》的评论

发表评论

摘要

相关新闻

相关讨论