作者:Dina Genkina
这机器学习田野正在快速移动,尺寸使用的尺寸衡量了它必须竞赛才能跟上。一个很好的例子mlperf,两年一次的机器学习竞赛有时称为AI的奥运会,引入了三个新的基准测试,反映了该领域的新方向。
``最近,尝试遵循该领域发生的事情非常困难。”米罗·霍达克(Miro Hodak),,,,AMD工程师和MLPERF推理工作组联合主席。我们看到这些模型正在逐渐更大,在过去的两轮中,我们介绍了有史以来最大的模型。
解决这些新基准的芯片来自通常的嫌疑人Nvidia,Arm和英特尔。Nvidia在图表的顶部,介绍了新的布莱克韦尔超级GPU,包装在GB300机架规模的设计。AMD表现出色,引入了最新Mi325x GPU。英特尔证明,人们仍然可以对CPU进行推断Xeon提交,但也以Intel Arc Pro提交。
上一轮,mlperf引入它最大的基准是基于Llama3.1-403B的大型语言模型。在这一轮中,他们再次提高了自己,基于DeepSeek R1 671B型号的基准,是上一个最大基准的参数数量的1.5倍以上。
作为一种推理模型,DeepSeek R1在接近查询时经历了几个思想链的步骤。这意味着许多计算发生在推断期间,然后在正常的LLM操作中,这使得该基准更具挑战性。推理模型被认为是最准确的,使它们成为科学,数学和复杂的首选技术编程查询。
除了最大的LLM基准测试外,MLPERF还基于Llama3.1-8B引入了最小的。MLPERF推断工作队主席Taran Iyengar解释说,行业对低潜伏期但高临界性推理的需求不断增长。小型LLM可以提供此功能,并且是文本摘要和Edge应用程序等任务的绝佳选择。
这使基于LLM的基准的总数达到了令人困惑的四个。它们包括新的,最小的Llama3.1-8B基准;现有的Llama2-70B基准;上一轮的Llama3.1-403B基准的介绍;最大的是新的DeepSeek R1型号。如果没有其他意义,这表明llms不会去任何地方。
除了众多的LLM外,这一轮MLPERF推论还基于Whisper-Large-V3,还包括一种新的语音到文本模型。该基准是对越来越多的语音应用程序的回应智能设备或基于语音的AI接口。
themlperf推理竞争有两个广泛的类别:封闭式,需要使用参考神经网络模型AS-I-IS不进行修改,并且允许对模型进行一些修改。在其中,有几个子类别与测试的完成以及哪种基础架构有关。我们将重点关注封闭式数据中心服务器结果是为了理智。
令人惊讶的是,至少在“服务器类别”中,每个基准标准上的每个加速器的最佳性能是由基于NVIDIA GPU的系统实现的。Nvidia还揭幕了Blackwell Ultra,在两个最大的基准中排名第一:Lllama3.1-405B和DeepSeek R1推理。布莱克韦尔超级
是Blackwell体系结构的更强大的迭代,具有更多的内存能力,与标准Blackwell相比,注意力层的加速度增加了1.5倍,AI计算增加了1.5倍,内存和连接更快。它适用于较大的AI工作负载,例如测试的两个基准。
除了硬件改进外,NVIDIA的加速计算产品总监Dave Salvator将Blackwell Ultra的成功归因于两个关键变化。首先,使用Nvidia的专有4位浮点 数字格式,,,,NVFP4。Salvator说,我们可以提供与BF16这样的格式的可比精度,同时使用较少的计算能力。
第二个是所谓的分解服务。分解份量背后的想法是,推理工作负载有两个主要部分:预填充,查询(请汇总此报告。这两个阶段有不同的要求。虽然预填充量很重,但生成/解码更大程度地取决于内存带宽。Salvator说,通过将不同的GPU分配给两个不同阶段,NVIDIA的性能增长近50%。
AMD的最新加速器芯片MI355X于7月推出。该公司仅在允许对模型的软件修改的开放类别中提供结果。像Blackwell Ultra一样,MI355X具有4位浮点支撑,并具有扩展的高带宽内存。MI3555X在Open Llama2.1-70B基准中以2.7倍击败了其前身MI325X。Mahesh Balasubramanian,AMD数据中心GPU产品营销高级总监。
AMD封闭式提交包括由AMD MI300X和MI325X GPU提供支持的系统。更先进的MI325X计算机的执行方式与Lllama2-70B上使用NVIDIA H200构建的计算机,专家测试的混合物和图像生成基准测试。
本轮还包括第一个混合提交,其中AMD MI300X和MI325X GPU均用于相同的推理任务,即Llama2-70B基准。混合GPU的使用很重要,因为新的GPU正在出现年度节奏,部署的旧型号不会走到任何地方。能够在不同种类的GPU之间扩散工作量是重要的一步。
过去,英特尔一直坚定地认为,人们不需要GPU即可进行机器学习。实际上,使用英特尔的Xeon CPU提交的提交仍然与NVIDIA L4在对象检测基准上进行,但落后于推荐系统基准。
这一轮首次出现了英特尔GPU。这Intel Arc Pro于2022年首次发行。图形卡称为Maxsun Intel Arc Pro B60 Dual 48g Turbo,其中包含两个GPU和48 GB的内存。该系统在小型LLM基准上与NVIDIA的L40进行了PAR,并在Llama2-70B基准测试上进行了拖延。