MLPerf Storage V1.0发布:华为在最高带宽要求测试块和文件中表现出色 - Blocks

2024-09-26 17:16:00 英文原文

赞助专题:MLCommons 刚刚发布了 MLPerf Storage Benchmark V1.0 的结果,其中包含 3D-Unet、resnet50 和 cosmoflow 三个工作负载。与V0.5相比,V1.0去掉了Bert工作负载,增加了resnet50和cosmoflow,加速器类型也增加了NVIDIA H100和A100。

华为使用8U双核参与3D-Unet工作负载测试-节点OceanStor A800,通过提供679 GB/s的稳定带宽并保持超过90%的加速器利用率,成功支持了255个模拟NVIDIA H100进行训练的数据吞吐量要求。

MLPerf存储的目标Benchmark是为了测试存储系统支持的最大加速器数量以及存储系统在保证最佳加速器利用率(AU)的情况下能够提供的最大带宽。

工作负载每个加速器的带宽要求H100A1003D-Unet2727MB/s1385MB/sResn​​et50176MB/s90MB/scosmoflow539MB/s343MB/s

来源:MLCommons

以上数据表明,要获得高基准带宽,需要更多的加速器模拟的。在所有工作负载中,3D-Unet H100 的存储带宽要求最高。这意味着,如果模拟相同数量的加速器,3D-Unet H100对存储的访问压力最大。

来源:华为

需要注意的是,加速器数量并且每个计算节点的带宽并不直接反映存储性能。相反,它们指示计算节点的服务器性能。只有加速器(模拟 GPU)的总数和总体带宽才能准确代表存储系统的能力。

主机节点的数量对于标准化来说并不是特别有用,MLCommons 发言人表示。给定提交的规模由模拟加速器的数量和类型表示,即从存储的角度来看,十个模拟 H100 的工作量是一个模拟 H100 的工作量的 10 倍。

您可以阅读有关 MLPerf Storage v1 如何使用的更多信息此处编译并展示了 .0 基准测试结果。

来源:华为

这一结果表明 OceanStor A800 在一个重要方面处于领先地位:其总吞吐量达到了 1.92 倍与第二名相比,每个节点和每个机架单元的吞吐量分别是亚军的 2.88 倍和 1.44 倍(完整的 MLPerf 存储基准套件结果可在此处查看)。

此外,与传统的存储性能测试工具不同,MLPerf Storage Benchmark对延迟也有严格的要求。对于高带宽存储系统来说,当加速器数量增加给存储系统带来更大的访问压力时,需要稳定的低时延来防止AU减少并达到预期的带宽。在V1.0测试结果中,OceanStor A800即使在高带宽的情况下也能够为训练系统提供稳定、低延迟的性能,有助于保持较高的加速器利用率。

来源:华为

GenAI 推动存储发展

在独立分析公司麦肯锡进行的一项关于人工智能使用情况的全球调查中,65% 的受访者表示他们现在经常使用生成式人工智能 (GenAI),近乎是 10 个月前麦肯锡调查记录的数字的两倍。

虽然常规人工智能旨在处理现有数据集,但 GenAI 算法专注于创建与真实信息非常相似的新内容。这种能力正在为众多垂直领域创造一系列可能性。

从软件、金融到时尚、自动驾驶汽车,大多数不同的 GenAI 用例都依赖于使用大语言模型 (LLM) 来创建正确的类型的应用程序和工作负载。当 GenAI 和 LLM 相互合作时,也会给底层存储架构带来压力,输入大型人工智能模型的数据更新缓慢可能会导致糟糕的结果,包括大型人工智能模型可以启动的所谓人工智能幻觉编造不准确的答案。

大多数科技公司都忙于通过存储产品和解决方案来解决这些挑战。V1.0测试结果表明,OceanStor A800可以为AI训练和GPU/NPU计算利用率的最大化提供数据服务,同时还支持集群组网,为大规模训练集群提供高性能数据服务。

华为于2023年推出了OceanStor A800高性能AI存储,专门提升大模型训练的性能,帮助组织加速基于大AI模型的应用的上线。在日前举行的HUAWEI CONNECT 2024活动中,华为副总裁、华为数据存储产品线总裁周彼得博士表示,这套全新的长期记忆存储系统可以显着提升大型AI模型的训练和推理能力,帮助各行业迈上新台阶。进入他所说的数字智能时代。

由华为赞助。

关于《MLPerf Storage V1.0发布:华为在最高带宽要求测试块和文件中表现出色 - Blocks》
暂无评论

摘要

赞助专题:MLCommons 刚刚发布了 MLPerf Storage Benchmark V1.0 的结果,其中包含 3D-Unet、resnet50 和 cosmoflow 三个工作负载。来源:华为需要注意的是,加速器数量和每个计算节点的带宽并不直接反映存储性能。数据来源:华为 这一结果表明,OceanStor A800 在一个重要方面处于领先地位:其总吞吐量是第二名的 1.92 倍,而每个节点和每个机架单元的吞吐量分别是第二名的 2.88 倍和 1.44 倍。此外,与传统存储性能测试工具不同,MLPerf Storage Benchmark 对延迟也有严格的要求。这种能力正在为众多垂直领域创造一系列可能性。当 GenAI 和 LLM 相互合作时,也会给底层存储架构带来压力,输入大型人工智能模型的数据更新缓慢可能会导致糟糕的结果,包括大型人工智能模型可以启动的所谓人工智能幻觉编造不准确的答案。