性能效率是AI和HPC处理器性能快速提升的关键,因此AMD和其他公司在每一代新产品中都在激烈争夺。早在 2021 年,该公司就设定了 2025 年的目标,将其 EPYC 处理器和 Instinct 加速器的能效比 2020 年提高 30 倍。 出现凭借最新的 EPYC 9005 系列“Turin”CPU 和 Instinct MI300X GPU,它基本上已经实现了目标,但提前了一年。
为了证明这一点,AMD 使用了配备 2 个 64 核 EPYC 9575F CPU、8 个 Instinct MI300X 加速器和 2,304 GB DDR5 内存的机器,并在 Llama3.1-70B(vLLM 0.6.1.post2、TP8)中测试了其推理性能。并行、FP8、连续配料)模型。AMD 使用一组复杂的计算确定了该系统的能源效率,并将其与 2020 年的一台未公开的机器进行了比较,发现新机器28.3倍比旧的更节能。
AMD 没有透露其 2020 系统的规格,但我们可以想象它是基于该公司的 EPYC 7002 系列处理器,该处理器采用 Zen 2 微架构,每个 CPU 最多 64 个核心,以及 Instinct MI100 加速器,基于 cDNA 1 架构。
AMD的Instinct MI100不支持FP8(与MI300X不同,MI300X以与INT8相同的速率支持FP8),但如果我们比较MI100(184.6 TOPS)和MI300X(2615 TOPS/5230 TOPS,稀疏)的INT8性能,差异将是纸上 14 – 28 次。FP16 也能观察到大致相同的差异,因此该比较是有效的。当我们考虑到显着更好的内存子系统(32 GB HBM2,1.20 GB/s vs. 192 GB HBM3,5.30 GB/s)和显着更好的 CPU 时,AMD 现有机器的速度和性能显着提升也就不足为奇了从 2020 年开始,该系统的效率将高于其系统。
AMD自己表示,除了“强力”硬件改进之外,其更高的性能效率是通过架构进步和软件优化相结合来实现的,这是可以预料的。
就在最近,该公司推出了本能MI325X基于 CDNA 3 架构的加速器,但具有 288 GB HBM3E 内存子系统。明年,该公司将推出其 本能 MI355X 处理器,它将基于 CDNA 4 架构,与 MI325X 相比,计算 FP8 和 FP16 性能提高约 80%。除了 FP8 和 FP16 之外,MI325X 还将添加对 AI 的 FP4 和 FP6 格式的支持,这会将其峰值性能提高到 9.2 PetaFLOPS (FP4),这对于许多大型语言模型来说非常有用。也就是说,AMD 有望在 2025 年之前将其计算平台的能源效率比 2020 年提高 30 倍。
“凭借我们深思熟虑的硬件和软件协同设计方法,我们对超越 30x25 目标的路线图充满信心,并对未来的可能性感到兴奋,我们看到了未来几年内大幅提高能源效率的道路,”写道Sam Naffziger,AMD 高级副总裁、AMD 公司院士兼产品技术架构师。
AMD 仍然看到了改进的空间,甚至看到了 到 2027 年将能源效率提高 100 倍的途径。一个