☰

NVIDIA說明「Blackwell」加速運算平台能藉由降低精度計算換取更大人工智慧執行效能

针对今年在GTC 2024期间揭晓的「Blackwell」显示架构，并且说明将推出B100、B200与GB200 Superchip三种加速运算元件设计之后，NVIDIA稍早于Hot Chips 2024活动上进一步说明此加速运算元件细节。

「Blackwell」显示架构针对兆级规模参数量的人工智慧需求打造

在先前说明里，NVIDIA表示「Blackwell」显示架构是针对兆级规模参数量的人工智慧需求打造，本身以台积电客制化4nm制程生产，并且能借由单一GPU设计对应20 PetaFLOPS算力表现，结合此GPU设计的Superchip涵盖2080亿组电晶体，分别可在训练效率相比先前推出的「Hopper」提升4倍，推论运算效率则可提高30倍，而能源使用效率更提升25倍。

架构方面，「Blackwell」整合第二代Transformer人工智慧引擎、可对应FP4/FP6低位元浮点运算的Tensor Core设计，并且对应第五代NVLink连接技术，最多可同时与576组GPU连动，支援每秒达800GB的资料解压速率，以及更安全资料加密保护机制，更可确保运作稳定性。

另外，「Blackwell」也以两组光罩对应Die裸晶核心单元构成的特殊设计，内部则以每秒10TB资料传输速率方式的NVLink-HBI介面进行沟通，并且能以单一GPU形式运作，而在与「Grace」CPU沟通部分则是以NVLink-C2C介面连接。

支援降低计算精度换取更高人工智慧执行效率

运算部分，「Blackwell」可对应近期市场提出的FP4、FP6精度计算，借由降低精度计算换取更大人工智慧执行效能，并且减少单次运算所需花费时间与电力，但也强调在特定FP4精度计算情况下，效能可贴近BF16。

而在目前诸多人工智慧运算更着重判断、推论执行效率情况来看，NVIDIA在「Blackwell」设计作此调整，主要就是为了因应更快的人工智慧执行反应表现使用需求，毕竟并非所有人工智慧应用功能都需要透过高精度计算完成。

更高组合弹性

目前以「Blackwell」显示架构打造加速运算元件设计，分别区分B100、B200，以及结合单组「Grace」CPU与两组「Blackwell」GPU构成的GB200 Superchip。

其中，B100、B200均搭载总容量达192GB的HBM3e高密度记忆体，对应每秒8TB资料传输量，同时与 GPU本身对应资料传输量相同，因此在显示架构上可以对应更快资料处理效率。

至于B100、B200两者最大差异在于运作功耗不同，前者最高功耗为700W，可借由空冷散热形式运作，同时也能直接用在H100加速元件设计对应HGX机架空间内，后者功耗则在一般情况下对应1000W，依然可透过空冷形式运作，但能否用于H200既有对应机架空间则要看情况，至于若将功耗进一步提高至1200W，就必须以水冷形式运作，因此对应机架就必须重新设计。

若以H100算力为基础，GB200 Superchip的算力为6倍，约可处理GPT-3 1750亿组参数量，而对应处理多模特定领域算力表现则可达30倍，可处理多达1.8兆参数规模。

透过NVLink将36组GB200 Superchip串接成的GB200 NVL72，可在训练对应720 PFLOPS算力表现，推论算力则可达1440 PFLOPS，同时可对应27兆组参数规模，多节点传输频宽可达每秒130TB，最高可对应每秒260TB传输量。

另外，将8组GB200 NVL72串接的话，则可建构DGX BG200 Superpod，整合288组「Grace」CPU与576组「Blackwell」 GPU构成，并且包含240TB高速记忆体容量，在FP4运算模式可对应11.5 ExaFLOPS算力表现，并且发挥30倍推论效率、4倍训练效率，同时提升25倍能源使用效率。

在组合方面，NVIDIA依然在「Blackwell」显示架构维持组合弹性，可选择与x86架构CPU或Arm架构CPU组合，而在B100设计上也能相容既有H100对应机架使用，B200在特定情况下也能相容使用既有机架，借此维持其布署应用升级弹性，同时也在运算效能有相当程度提升表现。

但如果是要对应人工智慧布署应用的话，NVIDIA表示当前最佳组合还是Arm架构CPU，主要还是受限于x86架构CPU对应I/O埠等通道设计，以及NVLink可对应连接数量上限，加上采用x86架构CPU还有额外散热系统建置需求，因此目前用于人工智慧推论等训练，依然会主推搭配「Grace」CPU的组合。

未来发展

在今年Compoutex 2024展前主题演讲上，NVIDIA说明将以一年节奏 (One Year Rhythm)持续推动技术成长的发展目标，更预告接下来将以Blackwell架构GPU为基础，于2025年接续推出名为「Blackwell Ultra」的GPU，另外也确认下一代显示架构代号为「Rubin」，同时也确定会推出名为「Rubin Ultra」的GPU产品，预计会在2026年推出。

除了将持续推出新款GPU产品，NVIDIA也确认将推出代号「Vera」的CPU产品，以及第六代NVLink设计与Spectrum-X1600乙太网路平台，借此加速更大规模人工智慧应用发展。

《原文刊登于合作媒体mashdigi，联合新闻网获授权转载。》

NVIDIA說明「Blackwell」加速運算平台能藉由降低精度計算換取更大人工智慧執行效能

相关资讯