Nvidia 的 Jensen Huang 承认 AI 芯片设计缺陷“100% Nvidia 的错”——台积电不应该受到责备,现已修复的 Blackwell 芯片正在生产中

2024-10-23 21:34:05 英文原文

作者:Anton ShilovSocial Links NavigationContributing Writer

Nvidia Blackwell GTC 2024 Keynote
Anton Shilov 是 Tom's Hardware 的特约撰稿人。(图片来源:Nvidia)

Nvidia 的 影响良率的设计缺陷Blackwell GPU 几个月前就已修复,B100/B200 处理器的精炼版本即将进入量产。据报道,英伟达首席执行官黄仁勋本周承认该缺陷完全是英伟达造成的,并表示该公司的生产合作伙伴台积电及时帮助修复了该缺陷。 路透社

“我们的 Blackwell 存在设计缺陷,它可以正常工作,但设计缺陷导致产量较低,”黄说。“这 100% 都是 Nvidia 的错。”

当有关设计缺陷的第一份报道出现时,一些媒体报道称台积电应该承担责任,并暗示这可能会导致英伟达与其代工合作伙伴之间出现紧张关系。黄说,事实并非如此,英伟达自己的误判导致了这个问题。黄还驳斥了有关两家公司之间关系紧张的报道,称其为“假新闻”。 英伟达的

Blackwell B100 和 B200 GPU使用链接它们的两个小芯片台积电的CoWoS-L封装技术,它依赖于配备本地硅互连 (LSI) 桥的 RDL 内插器(以实现约 10 TB/s 的数据传输速率)。这些桥梁的放置至关重要。然而,GPU 小芯片、LSI 桥、RDL 中介层和主板基板之间的热膨胀特性假定不匹配,导致系统变形和故障,据报道 Nvidia 必须修改 GPU 硅的顶部金属层和凸块,以增强性能。生产产量。虽然该公司没有透露有关修复的具体细节,但它确实提到需要新的口罩。

在半导体领域,影响产量的问题和主要功能问题(勘误表)并非闻所未闻。通常,公司通过修改一个(或两个)金属层并将其称为新的台阶来修复它们。典型案例:英特尔的 Sapphire Rapids 据报道有 500 个错误,该公司发布了大约十几个步骤来修复所有这些问题(其中五个是基础重新旋转)。每一个新的步骤都需要大约三个月的时间才能完成(包括识别问题、修复问题以及生产新版本的芯片),因此 Nvidia 和台积电修复 Blackwell GPU 的速度相当令人印象深刻。

用于人工智能和超级计算机的 Blackwell GPU 现已修复,将于 10 月下旬进入批量生产,并应于明年初开始发货(仍为 Nvidia 的 2025 财年)。 

尽管如此,Nvidia 今年早些时候透露,为了满足 AWS 等主要云服务提供商对其 Blackwell GPU 的需求,谷歌, 和微软,它仍然需要运送一些最初的低产量 Blackwell 处理器2024 年。目前尚不清楚 2024 年将有多少 Blackwell GPU 运往数据中心。

将 Tom's Hardware 的最佳新闻和深入评论直接发送到您的收件箱。

Anton Shilov 是 Tom’s Hardware 的特约撰稿人。在过去的几十年里,他涵盖了从 CPU 和 GPU 到超级计算机,从现代工艺技术和最新的晶圆厂工具到高科技行业趋势的一切内容。

关于《Nvidia 的 Jensen Huang 承认 AI 芯片设计缺陷“100% Nvidia 的错”——台积电不应该受到责备,现已修复的 Blackwell 芯片正在生产中》的评论


暂无评论

发表评论

摘要

(图片来源:Nvidia)Nvidia Blackwell GPU 中影响产量的设计缺陷在几个月前就得到了修复,B100/B200 处理器的改进版本即将进入批量生产。据路透社报道,英伟达首席执行官黄仁勋本周承认,该缺陷完全是英伟达造成的,并表示该公司的生产合作伙伴台积电及时帮助修复了该问题。在半导体领域,影响产量的问题和主要功能问题(勘误表)并非闻所未闻。尽管如此,英伟达今年早些时候透露,为了满足 AWS、谷歌和微软等主要云服务提供商对其 Blackwell GPU 的需求,该公司仍需在 2024 年出货部分最初的低产量 Blackwell 处理器。