MCR内存如何能将HPC和AI性能提高一倍以上

2024-10-04 23:27:29 英文原文

作者:Rob Farber

英特尔最近展示了一种新的DIMM内存技术,称为多路复用组合等级(MCR),也被称为MRDIMMs,在HPC工作负载上相比第五代Intel至强处理器最多可提供2.3倍的性能提升,并在AI推理工作负载上最多可提供2倍的性能提升,基于英特尔内部分析。

英特尔Xeon 6产品线的副总裁兼总经理Matt Langman最近谈论了运行名为Nemo(欧洲海洋建模的核心)的新技术。Nemo是一种用于模拟海洋温度、海平面变化、盐度以及其他热力学和生物地球化学指标的工作负载。Xeon 6 CPU配备了P核心,通常被称为“Granite Rapids”,两周前由英特尔推出结合MCR内存,相比采用传统DDR内存的第五代英特尔“ Sapphire Rapids ”至强SP处理器,运行速度可提升高达2.3倍。基于英特尔内存控制器的创新技术,并配合更多核心和内存通道,高带宽MRDIMM技术带来了显著的性能提升。

英特尔的战略规划师Nate Mather通过指出:“MRDIMM为客户提供了一个有趣的新选择点,相比DDR5 RDIMM提供了巨大的带宽提升。在现有平台上即可实现30%到40%的性能改进,并且可以无缝工作,这为客户在其AI和HPC工作负载中提供了灵活的选择。”解释了这一更快内存技术对许多客户的价值主张。

性能预测与验证

英特尔在5月份的性能预测表明,结合12通道的MRDIMM内存与架构改进意味着最新的英特尔至强处理器(代号Granite Rapids)将为HPC和AI工作负载提供整体性能提升.

这在实践中已经得到了证明。

在德国汉堡举行的国际超级计算大会(ISC)2024上,英特尔宣布了多项内容,包括报告早期性能结果显示,与前一代系统相比,MRDIMM 配置的系统为如 NEMO 这样的实际高性能计算 (HPC) 应用程序提供了高达 2.3 倍的性能提升。这表明该新技术作为 HPC 解决方案首选主机 CPU 的选择具有坚实的基础。

美光科技确认,他们最近宣布的64GB、96GB和128GB容量的MRDIMM模块相比RDIMM平均带宽有所增加。不低于1.3倍.

平台兼容——无需更改软件

在两个DDR5内存等级之间添加数据缓冲区(如下所示)意味着MR内存技术可以被封装并访问,使其与DDR5 RDIMM完全兼容,并且还支持一系列新的处理器功能:

  • 对于当前系统,MRDIMM模块具有同时访问内存芯片个别rank的能力,正如Intel在幻灯片9中指出的那样。英特尔2023年Hot Chips大会演讲这些MRDIMM们可以实现超过6400 RDIMM的37%更多带宽.
  • MRDIMM带宽魔术发生在同时操作双排DDR5内存时,向CPU提供128字节的数据(每排64字节)。这意味着CPU可以以比传统DDR5 RDIMM更高的速率执行突发操作。实现双插槽系统中超过1.5TB/秒的内存带宽能力更高的带宽是通过将CPU到MRDIMM接口的运行速度设置为DRAM速度的2倍来实现的,每个DRAM Rank在每个周期都能发送或接收数据。此外,还提供了最多12个内存通道的CPU以及一系列英特尔至强架构改进——其中许多改进提供了更多的未完成内存请求和预取能力。提高性能.
  • 最新款的英特尔至强处理器(代号为Granite Rapids)将支持非常高核心数量,并且新技术提供了从1S到8S的可扩展性,每个通道最多可以使用2条RDIMM或MRDIMM。
两种操作模式。请注意,DIMM与当前的DDR5内存兼容,并可以提供相同的RAS特性。

DDR5 内存规格兼容性

英特尔数据中心和人工智能部门的Xeon产品经理Bhanu Jaiswal观察到:“MRDIMMs与当今的DDR5 RDIMMs在形态上兼容。您无需重新设计系统主板或牺牲任何DDR5的可靠性、可用性和可维护性(RAS)功能。软件不需要任何更改。简而言之,在相同的设计中获得更多的带宽。”DDR5 RAS特性在现代服务器中绝对是必要的当然。

Jaiswal 表示,MRDIMM 启用的英特尔至强新内存技术将最有利于内存带宽受限的工作负载。对于 HPC 工作负载,这体现在许多技术文章.

更高的内存带宽意味着处理器可以保持更多的核心处于活跃状态,从而完成更多有用的工作(例如,更好的性能)。这种带宽的提升对于满足现代CPU中快速增长的核心数量以及确保这些核心能够被高效利用至关重要。内存带宽的增加也有利于英特尔正在开发的其他性能特性。支持各种AI、HPC和数据中心工作负载.

英特尔即将推出的AVX-10融合向量指令集包含改进,目标是深度学习和高性能计算工作负载,这些工作负载可以从向量处理中受益,例如科学模拟和数据分析。较大的寄存器大小意味着CPU核心可以在单个时钟周期内对多份数据执行相同的操作,而无需在较小的数据上进行多个周期的处理。MRDIMMS将在提供保持此向量指令集忙碌所需的数据方面证明是有用的。AVX10版本1将仅与Granite Rapids Xeon 6 CPU一起引入,并且完整版本将在后续代中得到支持。

因此,在考虑服务器时,请记住,对于包括人工智能和高性能计算在内的许多工作负载而言,内存带宽是主要的性能瓶颈。但是,仅靠内存带宽并不能满足许多客户的工作负载需求。这就是为什么在至强6处理器中集成了片上增强模块化网状结构和优化的核心,据预测这些处理器相比前一代至强处理器将提供2倍到3倍的性能提升。更棒的是,增加的内存带宽有助于释放运行这些关键工作负载所需的性能,即使是在不断增加的CPU核心数量下也是如此。

罗伯·法伯是一位全球技术顾问和作者,拥有丰富的高性能计算(HPC)和机器学习技术背景。

订阅我们的Newsletter

带来一周内的亮点、分析和故事,直接从我们这里发送到您的邮箱,没有其他冗余信息。
立即订阅

关于《MCR内存如何能将HPC和AI性能提高一倍以上》
暂无评论

摘要

英特尔最近展示了一种新的DIMM内存技术,称为多路复用组合等级(MCR),也被称为MRDIMMs,在内部英特尔分析中显示,与第五代Intel至强处理器相比,该技术可以为HPC工作负载提供高达2.3倍的性能提升,并且在AI推理工作负载上最多可提高两倍。这意味着CPU可以在比传统DDR5 RDIMM更高的速率下执行突发操作,在双插槽系统中实现可能超过1.5 TB/秒的内存带宽能力。最新的Intel至强处理器(代号Granite Rapids)将支持极高的核心数量,新技术提供从单插槽到八插槽的可扩展性,并且每个通道最多可以使用2个RDIMMs或MRDIMMs。对于HPC工作负载,这一点在许多技术文章中都有所体现。订阅我们的通讯以接收每周直接发送至您的收件箱的内容摘要、分析和故事。