如何获得足够的 HBM,并将其堆叠的足够高?
任何新的内存方法都必须具备可制造性与成本效益,方能被采用。
业界可通过多种方式扩展计算引擎的内存容量与带宽,以更好地驱动人工智能(AI)和高性能计算(HPC)工作负载,但目前所能做到的仍有不足。
如近期与 Microsoft Azure、AMD、Cerebras Systems 和 Ayar Labs 的专家共同举办的网络研讨会上所提及,任何新的内存方法(当前有诸多有趣的光学 I/O 选项)都必须具备可制造性与成本效益,方能被采用。
此乃当前 HBM 瓶颈之缘由。少数昂贵的 HPC 和 AI 工作负载受限于内存带宽,将大量并行 HBM 内存堆栈置于极靠近计算引擎之处。HBM 无法同时提升内存容量与带宽,仅能二者择其一。
HBM 内存较常规 DRAM 及 GDDR(对于带宽关键的计算引擎而言)更为优越,但即便美光科技加入 SK 海力士与三星的 HBM 阵营,全球亦无法生产足量产品以满足需求。这导致高端计算引擎(及所需的中介层封装)短缺,使市场扭曲,造成原始计算与内存容量、带宽间的效率低下与不平衡。
此前已有诸多文章详细探讨此问题,在此不再赘述。当前及不久将来推出的 GPU 和定制 AI 处理器可轻松拥有 2 倍、3 倍甚至 4 倍的 HBM 内存容量与带宽,以更好地平衡其巨大计算量。同一 GPU 内存翻倍时,AI 工作负载性能几近提升 2 倍,内存即为问题所在,或许所需并非更快的 GPU,而是更多内存以满足其需求。
鉴于此,考量 SK 海力士近期两份公告。SK 海力士为全球 HBM 出货领先者,亦是 Nvidia 和 AMD 数据中心计算引擎的主要供应商。本周,SK 海力士首席执行官 Kwak Noh-Jung 在韩国首尔举行的 SK AI 峰会上展示即将推出的 HBM3E 内存一种,该内存已于过去一年在各种产品中批量生产。此 HBM3E 内存的亮点在于,内存堆栈高达 16 个芯片。这意味着每个存储体的 DRAM 芯片堆栈高度为当前许多设备中使用的 HBM3E 堆栈的两倍,24 Gbit 内存芯片可提供每个堆栈 48 GB 容量。
与使用 16 Gbit 内存芯片的八高 HBM3 和 HBM3E 堆栈(最高容量为每堆栈 24 GB)及使用 24 Gbit 内存芯片的十二高堆栈(最高容量为 36 GB)相比,容量大幅提升。
在兴奋之前需知,16 位高堆栈正在使用 HBM3E 内存进行采样,但 Kwak 表示,16 位高内存将 "从 HBM4 代开始启用",且正在创建更高的 HBM3E 堆栈 "以确保技术稳定性",并将于明年初向客户提供样品。
可以确定的是,Nvidia、AMD 和其他加速器制造商均期望尽快将此技术纳入其路线图。拭目以待。
SK 海力士表示,正使用先进的大规模回流成型底部填充(MR-MUF)技术,该技术可熔化 DRAM 芯片间的凸块,并用粘性物质填充其间空间,以更好地为芯片堆栈散热的方式将它们连接在一起。自 2019 年随 HBM2E 推出以来,MR-MUF 一直是 SK 海力士 HBM 设计的标志。2013 年的 HBM1 内存和 2016 年的 HBM2 内存使用了一种称为非导电薄膜热压缩或 TC-NCF 的技术,三星当时亦使用此技术,且至今仍是其首选的堆栈连接方式。三星认为,TC-NCF 混合键合对于 16 高堆栈是必要的。
但 Kawk 表示,SK Hynix 正在开发一种用于 16 高 HBM3E 和 HBM4 内存的混合键合技术,以防更高堆栈的产量未达预期。从某种意义上说,这表明 SK Hynix 略有担忧。推测此为 TC-NCF 工艺的变体,该公司在 HBM1 和 HBM2 内存方面早有此工艺经验。
Kawk 还透露了部分性能信息,称 16 高 HBM3E 堆栈将使 AI 训练性能提高 18%,AI 推理性能提高 32%(具体指标未知)。
HBM 路线图回顾之旅
综合上述情况及几周前 SK 海力士在 OCP 峰会上的演讲,此时审视 HBM 内存的发展路线图以及 SK 海力士及其竞争对手在将该技术推向极限时所面临的挑战,可使计算引擎制造商避免如过去十年般使用光学 I/O 将 HBM 连接至电机。
当前有一系列 SK Hynix HBM 路线图流传,各有不同内容。
回顾过往,HBM1 于 2014 年推出,2015 年小批量生产,因是提升计算引擎主内存带宽的全新技术,产量较低。SK Hynix 最初的 HBM1 内存基于 2 Gb 内存芯片,堆叠四层,容量为 1 GB 内存,带宽为 128 GB / 秒,使用 1 Gb / 秒 I/O 通道。
HBM2 于 2016 年推出,2018 年商业化,此时设备线速提升至 2.4 Gb / 秒,为 HBM1 的 2.4 倍,每个堆栈可提供 307 GB / 秒带宽。HBM2 堆栈最初有四个 DRAM 芯片高,后增至八个芯片堆栈。HBM2 中使用的 DRAM 芯片容量为 8 Gb,故四高堆栈最高可达 4 GB,八高堆栈为其两倍,即 8 GB。
2020 年 HBM2E 发布,情况更趋有趣。DRAM 芯片密度翻倍至 16 Gbit,主内存容量翻倍至 4 层塔式机箱的 8 GB 和 8 层塔式机箱的 16 GB。DRAM 线速提高 50%,达 3.6 Gb / 秒,每堆栈带宽高达 460 GB / 秒。有四个堆栈时,设备总内存带宽可达 1.8 TB / 秒,远高于传统 CPU 的四或六个 DDR4 通道所能提供的带宽。
2022 年 HBM3E 发布,Nvidia 推出 "Hopper" H100 GPU 加速器且商业 GenAI 热潮兴起,一切变得疯狂。连接 DRAM 和 CPU 或 GPU 的线路速度提高 1.8 倍,达 6.4 Gb / 秒,每个堆栈可提供 819 GB / 秒带宽,堆栈以八高为基础,十二高选项使用 16 Gbit DRAM。八高堆栈为 16 GB,十二高堆栈为 24 GB。令人遗憾的是,HBM3 未实现十六高堆栈。且每次增加新高度都不只是难度的增加。
HBM3E 于 2023 年 5 月由 SK Hynix 推出,DRAM 上的引脚速度提升至 8 Gb / 秒,比 HBM3 内存提高 25%,使其每堆栈高达 1 TB / 秒。HBM3E 的 DRAM 芯片为 24 Gbit,八高堆栈容量为 24 GB,十二高堆栈容量为 36 GB。由于其更快的 9.2 Gb / 秒信号传输速率,美光科技的 HBM3E 被选为 Hopper H200 GPU 加速器(每堆栈 1.2 TB / 秒),而速度较慢的 SK Hynix 芯片则被选为 Grace-Hopper 超级芯片中使用的 H100 和 Nvidia 的 H100-NVL2 推理引擎的第二次更新。
SK Hynix DRAM 技术规划负责人 Younsoo Kim 介绍了公司的 HBM 路线图,并讨论了转向 HBM4 内存所需的具体挑战,HBM4 内存仍是一个不断发展的标准,预计将于 2026 年在 Nvidia 的下一代 "Rubin" R100 和 R200 GPU 中首次亮相,采用八高堆栈,并于 2027 年在 R300 中首次亮相,采用十二高堆栈。
"Blackwell" B100 和 B200 GPU 预计将使用 8 层 HBM3E 高堆栈,最大容量为 192 GB,而明年即将推出的后续产品 "Blackwell Ultra"(若传言属实,可能称为 B300)将使用 12 层 HBM3E 高堆栈,最大容量为 288 GB。
一直以来猜测 HBM4 会采用 16 个高堆栈,而 SK Hynix 实际正在为 HBM3E 构建如此高的 DRAM 堆栈以供测试。只要良率不高,AI 计算引擎肯定可提前利用内存容量和带宽提升。
正如 Kim 在 OCP 演讲中所解释,在实现目标之前,仍有诸多问题需解决。首先,计算引擎制造商敦促所有三家 HBM 内存制造商提高带宽至高于最初约定规格,同时要求降低功耗。
随着计算引擎制造商为获取更高性能而使设备升温速度快于性能提升速度,降低功耗变得更加困难。由此,2013 年末 Nvidia 的 "Kepler" K40 GPU 加速器的功耗从 240 瓦提高到全口径 Blackwell B200 加速器的预期 1200 瓦。B100 和 B200 由两个 Blackwell 芯片组成,每个芯片有四个 HBM3E 堆栈,总共八个堆栈,每个堆栈有八个内存芯片高。192 GB 的内存可提供 8 TB / 秒的总带宽。需知,整个拥有数千个节点的超级计算机集群拥有惊人的 8 TB / 秒总内存带宽。
若实现,使用 B300 中的 Micron HBM3E 内存可将带宽提高到 9.6 TB / 秒。
遗憾的是,由于内存堆栈增长至 16 层高,HBM4 内存密度在 2026 年不会增加。或许内存制造商会带来惊喜,推出容量更大的 32 Gbit 的 HBM4E 内存,而非坚持使用 Kim 演示文稿中的图表所示的 24 Gbit 芯片。
HBM 内存中薄晶圆的处理及将 DRAM 粘合成堆栈的 MR-MUF 工艺会影响良率。散热问题亦是一大挑战。内存对热量敏感,尤其是当大量内存如摩天大楼般堆叠,旁边是大型、发热量大的 GPU 计算引擎,且两者需保持不到 2 毫米距离以保证信号传输正常。
这些即为推进计算引擎 HBM 内存所面临的挑战。SK Hynix 可采取措施应对:使产品更宽,并更好地结合。HBM3E 具有 1024 位宽通道,HBM4 将其加倍至 2048 位。24 Gbit 和 32 Gbit DRAM 芯片或将支持 HBM4(可能后者用于 HBM4E,但不确定)。带有 32 Gbit 芯片的 16 高堆栈将产生每堆栈 64 GB 内存,对于 Blackwell 封装上的每个 Nvidia 芯片为 256 GB,或每个插槽 512 GB。若 Rubin 保持两个芯片且仅为架构增强则甚佳。但 Rubin 可能是三个甚至四个 GPU 互连,HBM 沿侧面运行。
想象一下,一个 Nvidia R300 套件包含四个 GPU,以及十六个堆栈,每个堆栈包含十六个高 32 Gbit 内存,每个计算引擎总共 1 TB。添加一些 RISC-V 核心以运行 Linux,加上 NVLink 端口和一个以 1.6 Tb / 秒速度运行的 UEC 以太网端口,即可称为服务器。
除更宽总线外,Kim 还建议将内存寻址逻辑集成到 HBM 堆栈的基础芯片中,而非集成到 HBM 控制器中介层中的单独芯片,以降低在计算与内存间链路上进行内存控制所需的功率。
此方法还可独立于完成的 AI 计算引擎对 HBM 堆栈进行完整测试。可获取已知良好的堆叠芯片,在确定后(而非之前)将其焊接到计算引擎插槽上。
总而言之,HBM4 预计将提供超过 1.4 倍的带宽、1.3 倍的每个内存芯片的容量、1.3 倍的更高堆栈容量,并且功耗仅为 HBM3/HBM3E 的 70%。
虽然上述内容皆为良好的发展方向,但显而易见的是,当前便需对 2026 年与 2027 年将实现的内存作出承诺。由于内存与计算间的不平衡,客户在设备上投入大量资金,然而因 HBM 内存的带宽与容量瓶颈,该设备无法接近其峰值性能。因此要么尽早需要 HBM4E 内存,要么如今年 3 月在介绍 Eliyan 的同步双向 NuLink PHY 时所提及那般,需要一种方法将更多的 HBM3E 内存连接至当前设备。
更优的选择是,将堆栈数量加倍,并为 Nvidia Blackwell 和 AMD Antares GPU 获取 HBM4E。