随着人工智能领域的发展,对可扩展和高性能基础设施的需求持续呈指数级增长。我们的客户依靠 Azure AI 基础架构来开发创新的 AI 驱动解决方案,这就是为什么我们今天提供使用 Azure ND H200 v5 系列虚拟机 (VM) 构建的新型基于云的 AI 超级计算集群。这些虚拟机现已普遍可用,并且经过定制,可以处理从基础模型训练到生成推理等日益复杂的高级人工智能工作负载。我们的 ND H200 v5 虚拟机的规模、效率和增强的性能已经推动客户和 Microsoft AI 服务(例如 Azure 机器学习和 Azure OpenAI 服务)的采用。
我们很高兴采用 Azure 的新 H200虚拟机。我们已经看到 H200 以最少的移植工作提供了改进的性能,我们期待使用这些虚拟机来加速我们的研究、改善 ChatGPT 体验并进一步推进我们的使命。Trevor Cai,OpenAI 基础设施主管。
Azure ND H200 v5 虚拟机采用 Microsoft 的系统方法构建,可提高效率和性能,并配备 8 个 NVIDIA H200 Tensor Core GPU。具体来说,它们解决了由于 GPU 原始计算能力的增长速度比附加内存和内存带宽快得多而造成的差距。与上一代 Azure ND H100 v5 VM 相比,Azure ND H200 v5 系列 VM 的高带宽内存 (HBM) 增加了 76%,达到 141GB,HBM 带宽增加了 43%,达到 4.8 TB/s。HBM 带宽的增加使 GPU 能够更快地访问模型参数,从而有助于减少整体应用程序延迟,这对于交互式代理等实时应用程序来说是一个关键指标。ND H200 V5 虚拟机还可以在单个虚拟机的内存中容纳更复杂的大型语言模型 (LLM),通过帮助用户避免在多个虚拟机上运行分布式作业的开销来提高性能。
我们的 H200 超级计算集群还可以更有效地管理模型权重、键值缓存和批量大小的 GPU 内存,所有这些都直接影响基于 LLM 的生成 AI 推理工作负载的吞吐量、延迟和成本效率。凭借更大的 HBM 容量,ND H200 v5 VM 可以支持更高的批量大小,与 ND H100 v5 系列相比,可提高 GPU 利用率和吞吐量,以实现小语言模型 (SLM) 和 LLM 上的推理工作负载。在早期测试中,我们观察到,与 ND H100 v5 系列相比,对于运行 LLAMA 3.1 405B 模型(世界大小 8、输入长度 128、输出长度 8 和最大批量)的推理工作负载,ND H200 v5 虚拟机的吞吐量提高了 35%H100 尺寸为 32,H200 尺寸为 96)。有关 Azure 高性能计算基准的更多详细信息,请在此处阅读更多内容或访问 Azure GitHub 存储库上的 AI 基准测试指南以了解更多详细信息。
ND H200 v5 虚拟机与 Azure Batch、Azure 预先集成Kubernetes 服务、Azure OpenAI 服务和 Azure 机器学习可帮助企业立即入门。请访问此处,获取有关新 Azure ND H200 v5 VM 的更详细技术文档。