英语轻松读发新版了,欢迎下载、更新

研究发现,AMD 的软件困境让英伟达在人工智能芯片市场上毫无挑战

2024-12-23 13:17:40 英文原文

作者:Matthias Bastian

2024 年 12 月 24 日更新:

SemiAnalysis 创始人迪伦·帕特尔 (Dylan Patel) 与 AMD 首席执行官苏姿丰 (Lisa Su) 会面了 90 分钟,讨论了本报告中详细介绍的软件问题。根据帕特尔的说法,Su 承认 AMD 软件堆栈中的差距,并认真对待团队的建议。帕特尔指出,许多变化已经在开发中,但没有提供细节。

原始文章发表于 2024 年 12 月 23 日:

SemiAnalysis 为期五个月的调查显示,由于重大软件问题,AMD 的新款 MI300X AI 芯片未能发挥其潜力,使得 Nvidia 的市场主导地位无法受到挑战。

广告

解码器时事通讯

最重要的人工智能新闻直接发送到您的收件箱。

– 每周

– 免费

– 随时取消

研究发现,AMD 的软件存在缺陷,如果不进行大量调试,几乎不可能训练人工智能模型。虽然 AMD 在质量保证和易用性方面举步维艰,但 Nvidia 通过推出新功能、库和性能更新不断扩大差距。

分析师进行了广泛的测试,包括 GEMM 基准测试和单节点训练,结果发现 AMD 无法克服他们所谓的““CUDA护城河”——Nvidia强大的软件优势

在纸面上,MI300X看起来令人印象深刻,在 FP16 计算中提供 1,307 TeraFLOPS 和 192 GB 的 HBM3 内存。相比之下,Nvidia 的 H100 具有 989 TeraFLOPS 和 80 GB 内存Nvidia 的新款 H200其 141 GB 配置弥补了这一内存差距。得益于更便宜的价格和更实惠的以太网网络,AMD 系统的总拥有成本也更低。

软件问题掩盖了硬件优势

然而,这些优势在实践中意义不大。根据半分析,比较这些规格就像“仅通过检查百万像素数来比较相机”——表明 AMD 只是在玩数字游戏,而没有提供足够的实际性能。

分析师必须直接与 AMD 工程师合作,修复大量错误,才能获得可用的基准测试结果。相比之下,英伟达的系统开箱即用,运行流畅。

他们写道:“AMD 的开箱即用体验非常难以使用,需要相当大的耐心和努力才能达到可用状态。”

SemiAnalysis 在一个特别有说服力的细节中透露,AMD 最大的 GPU 云提供商 Tensorwave 必须让 AMD 自己的团队免费访问 GPU(Tensorwave 与 AMD 购买的硬件相同),只是为了解决软件问题。

SemiAnalysis建议AMD首席执行官苏姿丰在软件开发和测试方面投入大量资金。具体来说,他们建议分配数千个 MI300X 芯片进行自动化测试(遵循 Nvidia 的方法),并简化复杂的环境变量,同时实现更好的默认设置。“让开箱即用的体验可用!”他们写。

虽然 SemiAnalysis 希望看到 AMD 作为 Nvidia 的竞争对手取得成功,但他们表示“不幸的是,还有很多工作要做。”如果不对其软件进行重大改进,AMD 可能会进一步落后Nvidia 准备推出下一代 Blackwell 芯片,尽管报告表明Nvidia 的下一代产品的推出也并非一帆风顺

关于《研究发现,AMD 的软件困境让英伟达在人工智能芯片市场上毫无挑战》的评论


暂无评论

发表评论

摘要

SemiAnalysis 创始人迪伦·帕特尔 (Dylan Patel) 与 AMD 首席执行官苏姿丰 (Lisa Su) 会面了 90 分钟,讨论了阻碍 AMD MI300X AI 芯片的软件问题。据 SemiAnalysis 称,由于严重的软件问题,这些芯片未能发挥其潜力,从而导致 Nvidia 继续占据市场主导地位。大量测试表明,虽然 MI300X 的硬件规格令人印象深刻,但软件错误使得在没有大量调试的情况下训练 AI 模型几乎不可能。报告建议AMD大力投资软件开发和测试,以改善用户体验并缩小与Nvidia的差距。