NVIDIA進一步解釋Blackwell架構細節 更高效能輸出維持運算組合彈性

▲以单一「Grace」CPU搭配两组「Blackwell」GPU组成的GB200 Superchip

针对此次揭晓的「Blackwell」显示架构,NVIDIA在会后解释此显示架构细节,并且说明分别推出B100、B200与GB200 Superchip三种加速运算元件设计。

NVIDIA执行长黄仁勋说明,「Blackwell」显示架构是在挑战物理极限的情况下,同时考量实际效能与成本之间效益平衡所打造产品。

「Blackwell」显示架构是针对兆级规模参数量的人工智慧需求打造,本身以台积电客制化4nm制程生产,并且能借由单一GPU设计对应20 PetaFLOPS算力表现,结合此GPU设计的Superchip涵盖2080亿组电晶体,分别可在训练效率相比先前推出的「Hopper」提升4倍,推论运算效率则可提高30倍,而能源使用效率更提升25倍。

架构方面,「Blackwell」整合第二代Transformer人工智慧引擎、可对应FP4/FP6低位元浮点运算的Tensor Core设计,并且对应第五代NVLink连接技术,最多可同时与576组GPU连动,支援每秒达800GB的资料解压速率,以及更安全资料加密保护机制,更可确保运作稳定性。

另外,「Blackwell」也以两组光罩对应Die裸晶核心单元构成的特殊设计,内部则以每秒10TB资料传输速率方式的NVLink-HBI介面进行沟通,并且能以单一GPU形式运作。

NVIDIA执行长黄仁勋说明,「Blackwell」显示架构是在挑战物理极限的情况下,同时考量实际效能与成本之间效益平衡所打造产品。因此将两组Die裸晶核心单元组成单一GPU,显然是在既有制程技术良率与制造成本之间取得平衡,并且透过组合堆叠方式提高「Blackwell」显示架构运算效能。

▲「Blackwell」显示架构设计,可以看见透过相同资料传输量设计,让整个「GPU」运算加速更快

「Blackwell」在FP8运算模式可对应10 PetaFLOPS算力表现,而在FP4运算模式则可对应20 PetaFLOPS算力表现,本身则整合192GB容量、支援每秒8TB资料传输量的HBM3e高密度记忆体,并且能透过NVLink以每秒1.8TB速率交换资料内容。

为了进一步提升「Blackwell」在多模运作人工智慧应用效率,NVIDIA也透过HDR Infiniband传输介面提供每秒可达100 GByte的资料传输效率,借此能让大规模运算丛集中的每15组GPU运算资料进行同步,并且搭配第五代NVLink设计让多达576组GPU构成运算节点的运算内容维持正确。

分别推出B100、B200与GB200 Superchip三种加速运算元件设计

而目前以「Blackwell」显示架构打造加速运算元件设计,分别区分B100、B200,以及结合单组「Grace」CPU与两组「Blackwell」GPU构成的GB200 Superchip。

其中,B100、B200均搭载总容量达192GB的HBM3e高密度记忆体,对应每秒8TB资料传输量,同时与GPU本身对应资料传输量相同,因此在显示架构上可以对应更快资料处理效率。

至于B100、B200两者最大差异在于运作功耗不同,前者最高功耗为700W,可借由空冷散热形式运作,同时也能直接用在H100加速元件设计对应HGX机架空间内,后者功耗则在一般情况下对应1000W,依然可透过空冷形式运作,但能否用于H200既有对应机架空间则要看情况,至于若将功耗进一步提高至1200W,就必须以水冷形式运作,因此对应机架就必须重新设计。

▲可透过功耗、组合差异对应不同效能输出

GB200 Superchip主要针对人工智慧训练加速打造,以全水冷形式运作

GB200 Superchip就必须以全水冷形式运作,但好处在于能减少极占空间的散热模组,并且透过水冷系统维持运作稳定性,对比运作功耗为10.2kW、8U机架设计的DGX H100系统,在接近运算效能情况下,所对应占据空间将降低为八分之一,同时也能以水冷系统降低热交换所需空间,以及运作时所产生噪音等问题。

若以H100算力为基础,GB200 Superchip的算力为6倍,约可处理GPT-3 1750亿组参数量,而对应处理多模特定领域算力表现则可达30倍,可处理多达1.8兆参数规模。

透过NVLink将36组GB200 Superchip串接成的GB200 NVL72,可在训练对应720 PFLOPS算力表现,推论算力则可达1440 PFLOPS,同时可对应27兆组参数规模,多节点传输频宽可达每秒130TB,最高可对应每秒260TB传输量。

▲将36组GB200 Superchip串接成的GB200 NVL72

另外,将8组GB200 NVL72串接的话,则可建构DGX BG200 Superpod,整合288组「Grace」CPU与576组「Blackwell」GPU构成,并且包含240TB高速记忆体容量,在FP4运算模式可对应11.5 ExaFLOPS算力表现,并且发挥30倍推论效率、4倍训练效率,同时提升25倍能源使用效率。

保持组合弹性,但在人工智慧发展趋势下更倾向Arm架构组合

以目前来看,NVIDIA依然在「Blackwell」显示架构维持组合弹性,可选择与x86架构CPU或Arm架构CPU组合,而在B100设计上也能相容既有H100对应机架使用,B200在特定情况下也能相容使用既有机架,借此维持其布署应用升级弹性,同时也在运算效能有相当程度提升表现。

但如果是要对应人工智慧布署应用的话,NVIDIA表示当前最佳组合还是Arm架构CPU,主要还是受限于x86架构CPU对应I/O埠等通道设计,以及NVLink可对应连接数量上限,加上采用x86架构CPU还有额外散热系统建置需求,因此目前用于人工智慧推论等训练,依然会主推搭配「Grace」CPU的组合。

▲透过NVLink增加可同时连接GPU数量,让人工智慧训练速度更快

《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》