作者:Matthias Bastian
2024 年 12 月 24 日更新:
SemiAnalysis 创始人迪伦·帕特尔 (Dylan Patel) 与 AMD 首席执行官苏姿丰 (Lisa Su) 会面了 90 分钟,讨论了本报告中详细介绍的软件问题。根据帕特尔的说法,Su 承认 AMD 软件堆栈中的差距,并认真对待团队的建议。帕特尔指出,许多变化已经在开发中,但没有提供细节。
原始文章发表于 2024 年 12 月 23 日:
SemiAnalysis 为期五个月的调查显示,由于重大软件问题,AMD 的新款 MI300X AI 芯片未能发挥其潜力,使得 Nvidia 的市场主导地位无法受到挑战。
广告
解码器时事通讯
最重要的人工智能新闻直接发送到您的收件箱。
– 每周
– 免费
– 随时取消
研究发现,AMD 的软件存在缺陷,如果不进行大量调试,几乎不可能训练人工智能模型。虽然 AMD 在质量保证和易用性方面举步维艰,但 Nvidia 通过推出新功能、库和性能更新不断扩大差距。
分析师进行了广泛的测试,包括 GEMM 基准测试和单节点训练,结果发现 AMD 无法克服他们所谓的““CUDA护城河”——Nvidia强大的软件优势。
在纸面上,MI300X看起来令人印象深刻,在 FP16 计算中提供 1,307 TeraFLOPS 和 192 GB 的 HBM3 内存。相比之下,Nvidia 的 H100 具有 989 TeraFLOPS 和 80 GB 内存Nvidia 的新款 H200其 141 GB 配置弥补了这一内存差距。得益于更便宜的价格和更实惠的以太网网络,AMD 系统的总拥有成本也更低。
然而,这些优势在实践中意义不大。根据半分析,比较这些规格就像“仅通过检查百万像素数来比较相机”——表明 AMD 只是在玩数字游戏,而没有提供足够的实际性能。
分析师必须直接与 AMD 工程师合作,修复大量错误,才能获得可用的基准测试结果。相比之下,英伟达的系统开箱即用,运行流畅。
他们写道:“AMD 的开箱即用体验非常难以使用,需要相当大的耐心和努力才能达到可用状态。”
SemiAnalysis 在一个特别有说服力的细节中透露,AMD 最大的 GPU 云提供商 Tensorwave 必须让 AMD 自己的团队免费访问 GPU(Tensorwave 与 AMD 购买的硬件相同),只是为了解决软件问题。
SemiAnalysis建议AMD首席执行官苏姿丰在软件开发和测试方面投入大量资金。具体来说,他们建议分配数千个 MI300X 芯片进行自动化测试(遵循 Nvidia 的方法),并简化复杂的环境变量,同时实现更好的默认设置。“让开箱即用的体验可用!”他们写。
虽然 SemiAnalysis 希望看到 AMD 作为 Nvidia 的竞争对手取得成功,但他们表示“不幸的是,还有很多工作要做。”如果不对其软件进行重大改进,AMD 可能会进一步落后Nvidia 准备推出下一代 Blackwell 芯片,尽管报告表明Nvidia 的下一代产品的推出也并非一帆风顺。