研究发现，AMD 的软件困境让英伟达在人工智能芯片市场上毫无挑战

2024-12-23 13:17:40 英文原文

作者：Matthias Bastian

2024 年 12 月 24 日更新：

SemiAnalysis 创始人迪伦·帕特尔 (Dylan Patel) 与 AMD 首席执行官苏姿丰 (Lisa Su) 会面了 90 分钟，讨论了本报告中详细介绍的软件问题。根据帕特尔的说法，Su 承认 AMD 软件堆栈中的差距，并认真对待团队的建议。帕特尔指出，许多变化已经在开发中，但没有提供细节。

原始文章发表于 2024 年 12 月 23 日：

SemiAnalysis 为期五个月的调查显示，由于重大软件问题，AMD 的新款 MI300X AI 芯片未能发挥其潜力，使得 Nvidia 的市场主导地位无法受到挑战。

解码器时事通讯

最重要的人工智能新闻直接发送到您的收件箱。

– 每周

– 免费

– 随时取消

研究发现，AMD 的软件存在缺陷，如果不进行大量调试，几乎不可能训练人工智能模型。虽然 AMD 在质量保证和易用性方面举步维艰，但 Nvidia 通过推出新功能、库和性能更新不断扩大差距。

分析师进行了广泛的测试，包括 GEMM 基准测试和单节点训练，结果发现 AMD 无法克服他们所谓的““CUDA护城河”——Nvidia强大的软件优势。

在纸面上，MI300X看起来令人印象深刻，在 FP16 计算中提供 1,307 TeraFLOPS 和 192 GB 的 HBM3 内存。相比之下，Nvidia 的 H100 具有 989 TeraFLOPS 和 80 GB 内存Nvidia 的新款 H200其 141 GB 配置弥补了这一内存差距。得益于更便宜的价格和更实惠的以太网网络，AMD 系统的总拥有成本也更低。

软件问题掩盖了硬件优势

然而，这些优势在实践中意义不大。根据半分析，比较这些规格就像“仅通过检查百万像素数来比较相机”——表明 AMD 只是在玩数字游戏，而没有提供足够的实际性能。

分析师必须直接与 AMD 工程师合作，修复大量错误，才能获得可用的基准测试结果。相比之下，英伟达的系统开箱即用，运行流畅。

他们写道：“AMD 的开箱即用体验非常难以使用，需要相当大的耐心和努力才能达到可用状态。”

SemiAnalysis 在一个特别有说服力的细节中透露，AMD 最大的 GPU 云提供商 Tensorwave 必须让 AMD 自己的团队免费访问 GPU（Tensorwave 与 AMD 购买的硬件相同），只是为了解决软件问题。

SemiAnalysis建议AMD首席执行官苏姿丰在软件开发和测试方面投入大量资金。具体来说，他们建议分配数千个 MI300X 芯片进行自动化测试（遵循 Nvidia 的方法），并简化复杂的环境变量，同时实现更好的默认设置。“让开箱即用的体验可用！”他们写。

虽然 SemiAnalysis 希望看到 AMD 作为 Nvidia 的竞争对手取得成功，但他们表示“不幸的是，还有很多工作要做。”如果不对其软件进行重大改进，AMD 可能会进一步落后Nvidia 准备推出下一代 Blackwell 芯片，尽管报告表明Nvidia 的下一代产品的推出也并非一帆风顺。

关于《研究发现，AMD 的软件困境让英伟达在人工智能芯片市场上毫无挑战》的评论

暂无评论

发表评论

摘要

SemiAnalysis 创始人迪伦·帕特尔 (Dylan Patel) 与 AMD 首席执行官苏姿丰 (Lisa Su) 会面了 90 分钟，讨论了阻碍 AMD MI300X AI 芯片的软件问题。据 SemiAnalysis 称，由于严重的软件问题，这些芯片未能发挥其潜力，从而导致 Nvidia 继续占据市场主导地位。大量测试表明，虽然 MI300X 的硬件规格令人印象深刻，但软件错误使得在没有大量调试的情况下训练 AI 模型几乎不可能。报告建议AMD大力投资软件开发和测试，以改善用户体验并缩小与Nvidia的差距。

研究发现，AMD 的软件困境让英伟达在人工智能芯片市场上毫无挑战

软件问题掩盖了硬件优势

关于《研究发现，AMD 的软件困境让英伟达在人工智能芯片市场上毫无挑战》的评论

发表评论

摘要

相关新闻

相关讨论