Nvidia 的 影响良率的设计缺陷Blackwell GPU 几个月前就已修复,B100/B200 处理器的精炼版本即将进入量产。据报道,英伟达首席执行官黄仁勋本周承认该缺陷完全是英伟达造成的,并表示该公司的生产合作伙伴台积电及时帮助修复了该缺陷。 路透社。
“我们的 Blackwell 存在设计缺陷,它可以正常工作,但设计缺陷导致产量较低,”黄说。“这 100% 都是 Nvidia 的错。”
当有关设计缺陷的第一份报道出现时,一些媒体报道称台积电应该承担责任,并暗示这可能会导致英伟达与其代工合作伙伴之间出现紧张关系。黄说,事实并非如此,英伟达自己的误判导致了这个问题。黄还驳斥了有关两家公司之间关系紧张的报道,称其为“假新闻”。 英伟达的
Blackwell B100 和 B200 GPU使用链接它们的两个小芯片台积电的CoWoS-L封装技术,它依赖于配备本地硅互连 (LSI) 桥的 RDL 内插器(以实现约 10 TB/s 的数据传输速率)。这些桥梁的放置至关重要。然而,GPU 小芯片、LSI 桥、RDL 中介层和主板基板之间的热膨胀特性假定不匹配,导致系统变形和故障,据报道 Nvidia 必须修改 GPU 硅的顶部金属层和凸块,以增强性能。生产产量。虽然该公司没有透露有关修复的具体细节,但它确实提到需要新的口罩。
在半导体领域,影响产量的问题和主要功能问题(勘误表)并非闻所未闻。通常,公司通过修改一个(或两个)金属层并将其称为新的台阶来修复它们。典型案例:英特尔的 Sapphire Rapids 据报道有 500 个错误,该公司发布了大约十几个步骤来修复所有这些问题(其中五个是基础重新旋转)。每一个新的步骤都需要大约三个月的时间才能完成(包括识别问题、修复问题以及生产新版本的芯片),因此 Nvidia 和台积电修复 Blackwell GPU 的速度相当令人印象深刻。
用于人工智能和超级计算机的 Blackwell GPU 现已修复,将于 10 月下旬进入批量生产,并应于明年初开始发货(仍为 Nvidia 的 2025 财年)。
尽管如此,Nvidia 今年早些时候透露,为了满足 AWS 等主要云服务提供商对其 Blackwell GPU 的需求,谷歌, 和微软,它仍然需要运送一些最初的低产量 Blackwell 处理器2024 年。目前尚不清楚 2024 年将有多少 Blackwell GPU 运往数据中心。