作者:Laura Peters
随着需要由最先进的人工智能加速器、图形处理单元和高性能计算应用程序快速处理的数据量持续爆炸式增长,高带宽内存 (HBM) 的销量激增。HBM
由于开发和改进 ChatGPT 等大型语言模型的巨大努力和投资,库存已售罄。HBM 是存储创建这些模型所需的大部分数据的首选存储器,通过添加更多层来增加密度而进行的更改以及 SRAM 扩展的限制正在火上浇油。
Neeraj Paliwal 表示:“大型语言模型 (LLM) 目前已超过一万亿个参数,并且还在持续增长,克服内存带宽和容量的瓶颈对于满足 AI 训练和推理的实时性能要求至关重要。”,高级副总裁兼硅 IP 总经理兰布斯。
这种势头至少有一部分是先进封装的结果,在许多情况下,先进封装可以提供比平面 SoC 更短、更快、更稳健的数据路径。“领先的[包装]正在大受欢迎,”Ken Hsiang,投资者关系主管日月光公司,在最近的财报电话会议上。“无论是人工智能、网络还是其他正在开发中的产品,对我们先进互连技术及其所有形式的需求看起来都非常有前景。”
这就是 HBM 完全适合的地方。三星半导体副总裁兼 DRAM 产品规划主管 Indong Kim 在最近的一次演讲中表示,“HBM 架构即将迎来一股大浪潮——定制 HBM”。– AI 基础设施的激增需要极高的效率和横向扩展能力,我们与主要客户一致认为,基于 HBM 的 AI 定制将是关键的一步。PPA — 功耗、性能和面积是 AI 解决方案的关键,而定制将为 PPA 提供巨大的价值。 —
过去,经济因素严重限制了 HBM 的广泛采用。硅中介层价格昂贵,处理大量的硅通孔FEOL 晶圆厂中的存储单元(TSV)。“随着 HPC、人工智能和机器学习的需求,中介层尺寸显着增加,”日月光工程和技术营销高级总监曹立红说道。– 高成本是 2.5D 硅中介层 TSV 技术的主要缺点, –
虽然这限制了其大众市场的吸引力,但对成本敏感度较低的应用(例如数据中心)的需求仍然强劲。HBM 的带宽是任何其他存储技术都无法比拟的,并且使用具有微凸块和 TSV 的硅中介层的 2.5D 集成已成为事实上的标准。
但客户想要更好的性能,这就是为什么 HBM 制造商正在考虑修改凸块、凸块下和成型材料,以实现从 8 层到 12 层再到 16 层 DRAM 模块的飞跃,能够以闪电般的速度处理处理数据。HBM3E(扩展)模块的处理速度为每秒 4.8 TB (HBM3),并有望在 HBM4 下达到 1 TB/s。HBM4 实现此目的的一种方法是将数据线数量从 HBM3 中的 1,024 条增加一倍至 2,048 条。
如今,共有 3 家公司生产 HBM 内存模块:美光 (Micron)、三星 (Samsung) 和 SK 海力士 (SK hynix)。尽管它们都使用硅通孔和微凸块来可靠地交付其 DRAM 堆栈和随附器件,以便集成到先进封装中,但每个公司都采用略有不同的方法来实现这一目标。三星和美光在每个凸点级别都采用了非导电薄膜 (NCF) 和热压接合 (TCB)。与此同时,SK hynix 正在继续采用模制底部填充 (MR-MUF) 的倒装芯片大规模回流工艺,该工艺可一步将堆叠密封在高导电率模制材料中。
HBM 中的垂直连接是使用铜 TSV 和堆叠 DRAM 芯片之间的按比例缩小的微凸块来实现的。下部缓冲器/逻辑芯片为每个 DRAM 提供数据路径。可靠性问题很大程度上取决于回流、粘合和模具背面研磨过程中的热机械应力。识别潜在问题需要测试高温工作寿命 (HTOL)、温度和湿度偏差 (THB) 以及温度循环。结合预处理以及无偏湿度和压力测试 (uHAST) 来确定各层之间的粘附水平。此外,还需要进行其他测试以确保长期使用而不会出现微凸块,例如短路、金属桥接或芯片与微凸块之间的界面分层。混合键合是 HBM4 代产品替代微凸块的一种选择,但前提是无法满足良率目标。
图 1:实现最大数据吞吐量的 HBM 堆栈。来源:Rambus
正在开发的另一项进步涉及 3D DRAM 设备,它与 3D NAND 一样,可以将存储单元翻转到一侧。“3D DRAM 堆叠将显着降低功耗和面积,同时消除来自中介层的性能障碍,”三星的 Kim 说道。– 将内存控制器从 SoC 重新定位到基础芯片将为 AI 功能指定更多逻辑空间。我们坚信定制 HBM 将开启性能和效率的新高度。紧密集成的内存和代工能力将为大规模部署提供更快的上市时间和最高的质量。
图2: 三星的 DRAM 路线图和创新。资料来源:半导体工程/MemCon 2024
这里的总体趋势是将逻辑移近内存,以便在内存中或内存附近进行更多处理,而不是将数据移至一个或多个处理元件。但从系统设计的角度来看,这比听起来更复杂。
——这是一个激动人心的时刻。随着人工智能如此火爆,HBM 就是一切。各个存储器制造商都在与时间赛跑,力求成为第一个生产下一代 HBM 的厂商。”泛林研究。
下一代是 HBM4,JEDEC 正忙于制定这些模块的标准。与此同时,JEDEC 将 HBM3E 标准的最大内存模块厚度从 720 毫米扩大到 775 毫米,但仍然允许使用 40 微米厚的小芯片。HBM 标准指定了每个引脚的传输速率、每个堆栈的最大芯片数、最大封装容量(以 GB 为单位)和带宽。与这些标准相伴随的设计和流程简化有助于将 HBM 产品以更快的速度推向市场——现在每两年进行一次。即将推出的 HBM4 标准将定义 24 Gb 和 32 Gb 层,以及 4 高、8 高、12 高和 16 高 TSV 堆栈。
HBM 的演变
高带宽内存的发展可以追溯到 2008 年的研发,旨在解决与计算内存相关的功耗和占用空间增加的问题。“当时,GDDR5 作为最高带宽 DRAM,速度限制为 28 GB/s(7 Gbps/针 x 32 个 I/O),”三星的 Sungmock Ha 和同事说道。[1] – 另一方面,HBM Gen2 没有将频率降低到 2.4Gbps,而是将 I/O 数量增加到 1,024 个,从而实现了 307.2 GB/s。从HBM2E开始,采用17nm高k金属栅极技术,达到每引脚3.6Gbps和460.8GB/s带宽。现在,HBM3 新引入了 8 至 12 个芯片堆叠的每引脚 6.4Gbps 传输速率,与上一代产品相比,带宽提高了约 2 倍。
这只是故事的一部分。HBM 一直在向处理方向靠拢,以提高性能,这为多种处理选择打开了大门。
大规模回流焊是最成熟且最便宜的焊接选择。“一般来说,只要有可能,就会使用大规模回流焊,因为安装的资本支出很大,而且成本相对较低,”Curtis Zwenger,工程和技术营销副总裁安靠。– 大规模回流焊继续提供一种经济高效的方法,用于将芯片和先进模块连接到封装基板。然而,随着性能预期的不断提高以及 HI 模块和先进基板的解决方案空间的增加,净效应之一是 HI(异质集成)模块和基板的翘曲量增加。热压缩和 R-LAB(反向激光辅助键合)都是传统 MR 的工艺增强,可以在 HI 模块级别和封装级别更好地处理更高的翘曲。
微凸块金属化经过优化以提高可靠性。如果微凸块和焊盘之间的互连使用传统的回流工艺,并使用助焊剂和底部填充材料进行细间距应用,则底部填充空隙捕获和剩余的助焊剂残留物可能会导致凸块之间的截留。为了解决这些问题,预涂非导电薄膜 (NCF) 可以在一步键合工艺中取代助焊剂、底部填充和键合工艺,而不会产生底部填充空洞,也不会残留助焊剂残留物。
三星在其 12 层 HBM3E 中使用热压粘合的薄型 NCF,据称其高度规格与 8 层堆栈相同,带宽高达 1,280 GB/s,容量为 36 GB。NCF 本质上是含有固化剂和其他添加剂的环氧树脂。该技术有望带来额外的好处,特别是在更高的堆叠上,因为业界寻求减轻更薄芯片带来的芯片芯片翘曲。三星在每一代产品中都扩大了 NCF 材料的厚度。诀窍是完全填充凸块周围的底部填充区域(为凸块提供缓冲),使焊料流动并且不留下空隙。
SK Hynix 在其 HBM2E 一代产品中首次从 NCF-TCB 改为大规模回流成型底部填充。导电模具材料是与其材料供应商合作开发的,并且可能采用专有的注射方法。该公司利用其大规模回流工艺展示了较低的晶体管结温。
HBM 中的 DRAM 堆栈放置在缓冲芯片上,随着公司努力在该基础芯片上实现更多逻辑以降低功耗,同时将每个 DRAM 核心连接到处理器,缓冲芯片的功能也在不断增强。每个芯片被拾取并放置在载体晶圆上,回流焊料,最终的堆叠被模制,经过背面研磨、清洁,然后切割。台积电和 SK 海力士宣布,代工厂未来将向这家存储器制造商提供基础芯片。
“人们对逻辑记忆很感兴趣,”Sutirtha Kabir,研发总监新思科技。——记忆逻辑是过去研究过的东西,而且也不能被排除。但其中每一个都将面临功率和热量方面的挑战,而这两者是相辅相成的。直接影响将是热引起的应力,而不仅仅是装配级应力。而且您很可能会使用混合键合或超细间距键合,那么热问题对那里的机械应力有何影响?
来自基本逻辑的热量还会在逻辑和 DRAM 芯片 1 之间的接口处引起热机械应力。并且由于 HBM 模块靠近处理器定位,因此来自逻辑的热量不可避免地消散到存储器。“我们的数据显示,当主机芯片温度升高 2°C 时,HBM 端的温度至少会升高 5°C 至 10°C,”SK hynix 高级技术经理 Yousoo Kim 表示。
其他问题需要通过 NCF TCB 流程来解决。在高温高压下发生的热压接合可能会引发 2.5D 组装问题,例如凸块与下方镍焊盘之间的金属桥接或界面分层。TCB 是一个低吞吐量的过程。
对于任何多芯片堆叠,翘曲问题都与表面材料的膨胀系数 (TCE) 不匹配有关,这会在加工和使用过程中随着温度循环而产生应力。压力往往集中在痛点——基础芯片和第一内存芯片之间,以及微凸块水平。具有仿真的产品模型可以帮助解决此类问题,但有时这些问题的全部范围只能在实际产品上观察到。
结论
AI 应用依赖于多个 DRAM 芯片、TSV、可包含内存驱动器的基本逻辑芯片以及多达 100 个去耦电容器的成功组装和封装。与图形处理器、CPU 或其他处理器的结合是一个精心策划的组件,其中所有移动部件必须协调一致才能形成高产且可靠的系统。
随着行业从 HBM3 过渡到 HBM4,制造高级 DRAM 堆栈的工艺只会变得更加复杂。但供应商和芯片制造商也在关注更低成本的替代品,以进一步增加这些极快且必要的存储芯片堆栈的采用。
参考
高带宽内存标准在许多层面上限制了设计自由度,但这是互操作性所必需的。可以从其他功能中获得哪些自由来使小芯片成为可能?
高带宽内存可能是一项重要的网关技术,使行业能够可控地过渡到真正的 3D 设计和组装。
使用逻辑存储器作为 3D-IC 的垫脚石的好处是否超过成本?