☰

NVIDIA進一步解釋Blackwell架構細節更高效能輸出維持運算組合彈性

▲以单一「Grace」CPU搭配两组「Blackwell」GPU组成的GB200 Superchip

针对此次揭晓的「Blackwell」显示架构，NVIDIA在会后解释此显示架构细节，并且说明分别推出B100、B200与GB200 Superchip三种加速运算元件设计。

NVIDIA执行长黄仁勋说明，「Blackwell」显示架构是在挑战物理极限的情况下，同时考量实际效能与成本之间效益平衡所打造产品。

「Blackwell」显示架构是针对兆级规模参数量的人工智慧需求打造，本身以台积电客制化4nm制程生产，并且能借由单一GPU设计对应20 PetaFLOPS算力表现，结合此GPU设计的Superchip涵盖2080亿组电晶体，分别可在训练效率相比先前推出的「Hopper」提升4倍，推论运算效率则可提高30倍，而能源使用效率更提升25倍。

架构方面，「Blackwell」整合第二代Transformer人工智慧引擎、可对应FP4/FP6低位元浮点运算的Tensor Core设计，并且对应第五代NVLink连接技术，最多可同时与576组GPU连动，支援每秒达800GB的资料解压速率，以及更安全资料加密保护机制，更可确保运作稳定性。

另外，「Blackwell」也以两组光罩对应Die裸晶核心单元构成的特殊设计，内部则以每秒10TB资料传输速率方式的NVLink-HBI介面进行沟通，并且能以单一GPU形式运作。

NVIDIA执行长黄仁勋说明，「Blackwell」显示架构是在挑战物理极限的情况下，同时考量实际效能与成本之间效益平衡所打造产品。因此将两组Die裸晶核心单元组成单一GPU，显然是在既有制程技术良率与制造成本之间取得平衡，并且透过组合堆叠方式提高「Blackwell」显示架构运算效能。

▲「Blackwell」显示架构设计，可以看见透过相同资料传输量设计，让整个「GPU」运算加速更快

「Blackwell」在FP8运算模式可对应10 PetaFLOPS算力表现，而在FP4运算模式则可对应20 PetaFLOPS算力表现，本身则整合192GB容量、支援每秒8TB资料传输量的HBM3e高密度记忆体，并且能透过NVLink以每秒1.8TB速率交换资料内容。

为了进一步提升「Blackwell」在多模运作人工智慧应用效率，NVIDIA也透过HDR Infiniband传输介面提供每秒可达100 GByte的资料传输效率，借此能让大规模运算丛集中的每15组GPU运算资料进行同步，并且搭配第五代NVLink设计让多达576组GPU构成运算节点的运算内容维持正确。

分别推出B100、B200与GB200 Superchip三种加速运算元件设计

而目前以「Blackwell」显示架构打造加速运算元件设计，分别区分B100、B200，以及结合单组「Grace」CPU与两组「Blackwell」GPU构成的GB200 Superchip。

其中，B100、B200均搭载总容量达192GB的HBM3e高密度记忆体，对应每秒8TB资料传输量，同时与GPU本身对应资料传输量相同，因此在显示架构上可以对应更快资料处理效率。

至于B100、B200两者最大差异在于运作功耗不同，前者最高功耗为700W，可借由空冷散热形式运作，同时也能直接用在H100加速元件设计对应HGX机架空间内，后者功耗则在一般情况下对应1000W，依然可透过空冷形式运作，但能否用于H200既有对应机架空间则要看情况，至于若将功耗进一步提高至1200W，就必须以水冷形式运作，因此对应机架就必须重新设计。

▲可透过功耗、组合差异对应不同效能输出

GB200 Superchip主要针对人工智慧训练加速打造，以全水冷形式运作

GB200 Superchip就必须以全水冷形式运作，但好处在于能减少极占空间的散热模组，并且透过水冷系统维持运作稳定性，对比运作功耗为10.2kW、8U机架设计的DGX H100系统，在接近运算效能情况下，所对应占据空间将降低为八分之一，同时也能以水冷系统降低热交换所需空间，以及运作时所产生噪音等问题。

若以H100算力为基础，GB200 Superchip的算力为6倍，约可处理GPT-3 1750亿组参数量，而对应处理多模特定领域算力表现则可达30倍，可处理多达1.8兆参数规模。

透过NVLink将36组GB200 Superchip串接成的GB200 NVL72，可在训练对应720 PFLOPS算力表现，推论算力则可达1440 PFLOPS，同时可对应27兆组参数规模，多节点传输频宽可达每秒130TB，最高可对应每秒260TB传输量。

▲将36组GB200 Superchip串接成的GB200 NVL72

另外，将8组GB200 NVL72串接的话，则可建构DGX BG200 Superpod，整合288组「Grace」CPU与576组「Blackwell」GPU构成，并且包含240TB高速记忆体容量，在FP4运算模式可对应11.5 ExaFLOPS算力表现，并且发挥30倍推论效率、4倍训练效率，同时提升25倍能源使用效率。

保持组合弹性，但在人工智慧发展趋势下更倾向Arm架构组合

以目前来看，NVIDIA依然在「Blackwell」显示架构维持组合弹性，可选择与x86架构CPU或Arm架构CPU组合，而在B100设计上也能相容既有H100对应机架使用，B200在特定情况下也能相容使用既有机架，借此维持其布署应用升级弹性，同时也在运算效能有相当程度提升表现。

但如果是要对应人工智慧布署应用的话，NVIDIA表示当前最佳组合还是Arm架构CPU，主要还是受限于x86架构CPU对应I/O埠等通道设计，以及NVLink可对应连接数量上限，加上采用x86架构CPU还有额外散热系统建置需求，因此目前用于人工智慧推论等训练，依然会主推搭配「Grace」CPU的组合。

▲透过NVLink增加可同时连接GPU数量，让人工智慧训练速度更快

《原文刊登于合作媒体mashdigi，联合新闻网获授权转载。》

NVIDIA進一步解釋Blackwell架構細節 更高效能輸出維持運算組合彈性

相关资讯

NVIDIA進一步解釋Blackwell架構細節更高效能輸出維持運算組合彈性