☰

針對兆級規模參數量的AI需求打造 NVIDIA揭曉「Blackwell」新一代顯示架構

▲NVIDIA揭晓代号「Blackwell」的新一代显示架构

因应近年自动生成式人工智慧技术应用发展，以及多模运作的人工智慧兴盛，NVIDIA在此次GTC 2024正式揭晓代号「Blackwell」的新一代显示架构，接续代号「Hopper」成为新一代推动加速运算的显示架构。

「Blackwell」显示架构，是以美国统计学家、加州大学柏克莱分校统计学名誉教授，同时也是美国国家科学院的首位黑人院士身分的David Blackwell姓名为称，其同时也是描述如何将任意粗略估算值转化为以均方误差准则，或是任何一种类似准则优最佳化的估算值的拉奥-布莱克韦尔定理（Rao–Blackwell theorem）共同提出者。

▲NVIDIA执行长黄仁勋右手拿的就是「Blackwell」显示架构GPU，左手则是先前推出的「Hopper」显示架构GPU，明显在面积尺寸大了一些

依照NVIDIA说明，「Blackwell」显示架构是针对兆级规模参数量的人工智慧需求打造，本身以台积电客制化4nm制程生产，并且能借由单一GPU设计对应20 PetaFLOPS算力表现，结合此GPU设计的Superchip涵盖2080亿组电晶体，分别可在训练效率相比先前推出的「Hopper」提升4倍，推论运算效率则可提高30倍，而能源使用效率更提升25倍。

▲「Blackwell」显示架构是针对兆级规模参数量的人工智慧需求打造，本身以台积电客制化4nm制程生产，并且能借由单一GPU设计对应20 PetaFLOPS算力表现，结合此GPU设计的Superchip涵盖2080亿组电晶体，分别可在训练效率相比先前推出的「Hopper」提升4倍，推论运算效率则可提高30倍，而能源使用效率更提升25倍

架构方面，「Blackwell」整合第二代Tramsformer人工智慧引擎、可对应FP4/FP6低位元浮点运算的Tensor Core设计，并且对应第五代NVLink连接技术，最多可同时与576组GPU连动，支援每秒达800GB的资料解压速率，以及更安全资料加密保护机制，更可确保运作稳定性。

另外，「Blackwell」也以两组光罩对应Die裸晶核心单元构成的特殊设计，内部则以每秒10TB资料传输速率方式的NV-HBI介面进行沟通，并且能以单一GPU形式运作。这样的作法预期是为了在现有制程技术容纳更多电晶体数量，进而使运算效能提升。

▲以两组光罩对应Die裸晶核心单元构成的特殊设计，内部则以每秒10TB资料传输速率方式的NV-HBI介面进行沟通，并且能以单一GPU形式运作

「Blackwell」在FP8运算模式可对应10 PetaFLOPS算力表现，而在FP4运算模式则可对应20 PetaFLOPS算力表现，本身则整合192GB容量、支援每秒8TB资料传输量的HBM3e高密度记忆体，并且能透过NVLink以每秒1.8TB速率交换资料内容。

为了进一步提升「Blackwell」在多模运作人工智慧应用效率，NVIDIA也透过HDR Infiniband传输介面提供每秒可达100 GByte的资料传输效率，借此能让大规模运算丛集中的每15组GPU运算资料进行同步，并且搭配第五代NVLink设计让多达576组GPU构成运算节点的运算内容维持正确。

▲透过HDR Infiniband传输介面提供每秒可达100 GByte的资料传输效率，借此能让大规模运算丛集中的每15组GPU运算资料进行同步

▲搭配第五代NVLink设计让多达576组GPU构成运算节点的运算内容维持正确

包含Cisco、Dell、HPE、联想和Supermicro预计提供基于「Blackwell」产品打造的各类伺服器，而包含永擎电子、华硕、Eviden、鸿海、技嘉、英业达，以及和硕、云达、纬创资通、纬颖科技和云达国际科技也会推出基于「Blackwell」产品打造伺服器。

至于Ansys、Cadence和Synopsys等工程模拟软体业者，将使用基于「Blackwell」产品加速用于设计及模拟电气、机械、制造系统与零件的软体，并且透过利用自动生成式人工智慧与加速运算资源，以更快、更低成本及更高能源效率方式将产品推向市场。

《原文刊登于合作媒体mashdigi，联合新闻网获授权转载。》

針對兆級規模參數量的AI需求打造 NVIDIA揭曉「Blackwell」新一代顯示架構

相关资讯