針對兆級規模參數量的AI需求打造 NVIDIA揭曉「Blackwell」新一代顯示架構

▲NVIDIA揭晓代号「Blackwell」的新一代显示架构

因应近年自动生成式人工智慧技术应用发展,以及多模运作的人工智慧兴盛,NVIDIA在此次GTC 2024正式揭晓代号「Blackwell」的新一代显示架构,接续代号「Hopper」成为新一代推动加速运算的显示架构。

「Blackwell」显示架构,是以美国统计学家、加州大学柏克莱分校统计学名誉教授,同时也是美国国家科学院的首位黑人院士身分的David Blackwell姓名为称,其同时也是描述如何将任意粗略估算值转化为以均方误差准则,或是任何一种类似准则优最佳化的估算值的拉奥-布莱克韦尔定理(Rao–Blackwell theorem)共同提出者。

▲NVIDIA执行长黄仁勋右手拿的就是「Blackwell」显示架构GPU,左手则是先前推出的「Hopper」显示架构GPU,明显在面积尺寸大了一些

依照NVIDIA说明,「Blackwell」显示架构是针对兆级规模参数量的人工智慧需求打造,本身以台积电客制化4nm制程生产,并且能借由单一GPU设计对应20 PetaFLOPS算力表现,结合此GPU设计的Superchip涵盖2080亿组电晶体,分别可在训练效率相比先前推出的「Hopper」提升4倍,推论运算效率则可提高30倍,而能源使用效率更提升25倍。

▲「Blackwell」显示架构是针对兆级规模参数量的人工智慧需求打造,本身以台积电客制化4nm制程生产,并且能借由单一GPU设计对应20 PetaFLOPS算力表现,结合此GPU设计的Superchip涵盖2080亿组电晶体,分别可在训练效率相比先前推出的「Hopper」提升4倍,推论运算效率则可提高30倍,而能源使用效率更提升25倍

架构方面,「Blackwell」整合第二代Tramsformer人工智慧引擎、可对应FP4/FP6低位元浮点运算的Tensor Core设计,并且对应第五代NVLink连接技术,最多可同时与576组GPU连动,支援每秒达800GB的资料解压速率,以及更安全资料加密保护机制,更可确保运作稳定性。

另外,「Blackwell」也以两组光罩对应Die裸晶核心单元构成的特殊设计,内部则以每秒10TB资料传输速率方式的NV-HBI介面进行沟通,并且能以单一GPU形式运作。这样的作法预期是为了在现有制程技术容纳更多电晶体数量,进而使运算效能提升。

▲以两组光罩对应Die裸晶核心单元构成的特殊设计,内部则以每秒10TB资料传输速率方式的NV-HBI介面进行沟通,并且能以单一GPU形式运作

「Blackwell」在FP8运算模式可对应10 PetaFLOPS算力表现,而在FP4运算模式则可对应20 PetaFLOPS算力表现,本身则整合192GB容量、支援每秒8TB资料传输量的HBM3e高密度记忆体,并且能透过NVLink以每秒1.8TB速率交换资料内容。

为了进一步提升「Blackwell」在多模运作人工智慧应用效率,NVIDIA也透过HDR Infiniband传输介面提供每秒可达100 GByte的资料传输效率,借此能让大规模运算丛集中的每15组GPU运算资料进行同步,并且搭配第五代NVLink设计让多达576组GPU构成运算节点的运算内容维持正确。

▲透过HDR Infiniband传输介面提供每秒可达100 GByte的资料传输效率,借此能让大规模运算丛集中的每15组GPU运算资料进行同步

▲搭配第五代NVLink设计让多达576组GPU构成运算节点的运算内容维持正确

包含Cisco、Dell、HPE、联想和Supermicro预计提供基于「Blackwell」产品打造的各类伺服器,而包含永擎电子、华硕、Eviden、鸿海、技嘉、英业达,以及和硕、云达、纬创资通、纬颖科技和云达国际科技也会推出基于「Blackwell」产品打造伺服器。

至于Ansys、Cadence和Synopsys等工程模拟软体业者,将使用基于「Blackwell」产品加速用于设计及模拟电气、机械、制造系统与零件的软体,并且透过利用自动生成式人工智慧与加速运算资源,以更快、更低成本及更高能源效率方式将产品推向市场。

《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》