MLPERF介绍了最大和最小的LLM基准

这机器学习田野正在快速移动，尺寸使用的尺寸衡量了它必须竞赛才能跟上。一个很好的例子mlperf，两年一次的机器学习竞赛有时称为AI的奥运会，引入了三个新的基准测试，反映了该领域的新方向。

``最近，尝试遵循该领域发生的事情非常困难。”米罗·霍达克（Miro Hodak），，，，AMD工程师和MLPERF推理工作组联合主席。我们看到这些模型正在逐渐更大，在过去的两轮中，我们介绍了有史以来最大的模型。

解决这些新基准的芯片来自通常的嫌疑人Nvidia，Arm和英特尔。Nvidia在图表的顶部，介绍了新的布莱克韦尔超级GPU，包装在GB300机架规模的设计。AMD表现出色，引入了最新Mi325x GPU。英特尔证明，人们仍然可以对CPU进行推断Xeon提交，但也以Intel Arc Pro提交。

新的基准

上一轮，mlperf引入它最大的基准是基于Llama3.1-403B的大型语言模型。在这一轮中，他们再次提高了自己，基于DeepSeek R1 671B型号的基准，是上一个最大基准的参数数量的1.5倍以上。

作为一种推理模型，DeepSeek R1在接近查询时经历了几个思想链的步骤。这意味着许多计算发生在推断期间，然后在正常的LLM操作中，这使得该基准更具挑战性。推理模型被认为是最准确的，使它们成为科学，数学和复杂的首选技术编程查询。

除了最大的LLM基准测试外，MLPERF还基于Llama3.1-8B引入了最小的。MLPERF推断工作队主席Taran Iyengar解释说，行业对低潜伏期但高临界性推理的需求不断增长。小型LLM可以提供此功能，并且是文本摘要和Edge应用程序等任务的绝佳选择。

这使基于LLM的基准的总数达到了令人困惑的四个。它们包括新的，最小的Llama3.1-8B基准；现有的Llama2-70B基准；上一轮的Llama3.1-403B基准的介绍；最大的是新的DeepSeek R1型号。如果没有其他意义，这表明llms不会去任何地方。

除了众多的LLM外，这一轮MLPERF推论还基于Whisper-Large-V3，还包括一种新的语音到文本模型。该基准是对越来越多的语音应用程序的回应智能设备或基于语音的AI接口。

themlperf推理竞争有两个广泛的类别：封闭式，需要使用参考神经网络模型AS-I-IS不进行修改，并且允许对模型进行一些修改。在其中，有几个子类别与测试的完成以及哪种基础架构有关。我们将重点关注封闭式数据中心服务器结果是为了理智。

NVIDIA领导

令人惊讶的是，至少在“服务器类别”中，每个基准标准上的每个加速器的最佳性能是由基于NVIDIA GPU的系统实现的。Nvidia还揭幕了Blackwell Ultra，在两个最大的基准中排名第一：Lllama3.1-405B和DeepSeek R1推理。布莱克韦尔超级

是Blackwell体系结构的更强大的迭代，具有更多的内存能力，与标准Blackwell相比，注意力层的加速度增加了1.5倍，AI计算增加了1.5倍，内存和连接更快。它适用于较大的AI工作负载，例如测试的两个基准。

除了硬件改进外，NVIDIA的加速计算产品总监Dave Salvator将Blackwell Ultra的成功归因于两个关键变化。首先，使用Nvidia的专有4位浮点数字格式，，，，NVFP4。Salvator说，我们可以提供与BF16这样的格式的可比精度，同时使用较少的计算能力。

第二个是所谓的分解服务。分解份量背后的想法是，推理工作负载有两个主要部分：预填充，查询（请汇总此报告。这两个阶段有不同的要求。虽然预填充量很重，但生成/解码更大程度地取决于内存带宽。Salvator说，通过将不同的GPU分配给两个不同阶段，NVIDIA的性能增长近50％。

AMD紧随其后

AMD的最新加速器芯片MI355X于7月推出。该公司仅在允许对模型的软件修改的开放类别中提供结果。像Blackwell Ultra一样，MI355X具有4位浮点支撑，并具有扩展的高带宽内存。MI3555X在Open Llama2.1-70B基准中以2.7倍击败了其前身MI325X。Mahesh Balasubramanian，AMD数据中心GPU产品营销高级总监。

AMD封闭式提交包括由AMD MI300X和MI325X GPU提供支持的系统。更先进的MI325X计算机的执行方式与Lllama2-70B上使用NVIDIA H200构建的计算机，专家测试的混合物和图像生成基准测试。

本轮还包括第一个混合提交，其中AMD MI300X和MI325X GPU均用于相同的推理任务，即Llama2-70B基准。混合GPU的使用很重要，因为新的GPU正在出现年度节奏，部署的旧型号不会走到任何地方。能够在不同种类的GPU之间扩散工作量是重要的一步。

英特尔进入GPU游戏

过去，英特尔一直坚定地认为，人们不需要GPU即可进行机器学习。实际上，使用英特尔的Xeon CPU提交的提交仍然与NVIDIA L4在对象检测基准上进行，但落后于推荐系统基准。

这一轮首次出现了英特尔GPU。这Intel Arc Pro于2022年首次发行。图形卡称为Maxsun Intel Arc Pro B60 Dual 48g Turbo，其中包含两个GPU和48 GB的内存。该系统在小型LLM基准上与NVIDIA的L40进行了PAR，并在Llama2-70B基准测试上进行了拖延。

OC

MLPERF介绍了最大和最小的LLM基准

新的基准

NVIDIA领导

AMD紧随其后

英特尔进入GPU游戏

关于《MLPERF介绍了最大和最小的LLM基准》的评论

发表评论

摘要

相关新闻

相关讨论