NVIDIA說明「Blackwell」加速運算平台能藉由降低精度計算換取更大人工智慧執行效能

针对今年在GTC 2024期间揭晓的「Blackwell」显示架构,并且说明将推出B100、B200与GB200 Superchip三种加速运算元件设计之后,NVIDIA稍早于Hot Chips 2024活动上进一步说明此加速运算元件细节。

「Blackwell」显示架构针对兆级规模参数量的人工智慧需求打造

在先前说明里,NVIDIA表示「Blackwell」显示架构是针对兆级规模参数量的人工智慧需求打造,本身以台积电客制化4nm制程生产,并且能借由单一GPU设计对应20 PetaFLOPS算力表现,结合此GPU设计的Superchip涵盖2080亿组电晶体,分别可在训练效率相比先前推出的「Hopper」提升4倍,推论运算效率则可提高30倍,而能源使用效率更提升25倍。

架构方面,「Blackwell」整合第二代Transformer人工智慧引擎、可对应FP4/FP6低位元浮点运算的Tensor Core设计,并且对应第五代NVLink连接技术,最多可同时与576组GPU连动,支援每秒达800GB的资料解压速率,以及更安全资料加密保护机制,更可确保运作稳定性。

另外,「Blackwell」也以两组光罩对应Die裸晶核心单元构成的特殊设计,内部则以每秒10TB资料传输速率方式的NVLink-HBI介面进行沟通,并且能以单一GPU形式运作,而在与「Grace」CPU沟通部分则是以NVLink-C2C介面连接。

支援降低计算精度换取更高人工智慧执行效率

运算部分,「Blackwell」可对应近期市场提出的FP4、FP6精度计算,借由降低精度计算换取更大人工智慧执行效能,并且减少单次运算所需花费时间与电力,但也强调在特定FP4精度计算情况下,效能可贴近BF16。

而在目前诸多人工智慧运算更着重判断、推论执行效率情况来看,NVIDIA在「Blackwell」设计作此调整,主要就是为了因应更快的人工智慧执行反应表现使用需求,毕竟并非所有人工智慧应用功能都需要透过高精度计算完成。

更高组合弹性

目前以「Blackwell」显示架构打造加速运算元件设计,分别区分B100、B200,以及结合单组「Grace」CPU与两组「Blackwell」GPU构成的GB200 Superchip。

其中,B100、B200均搭载总容量达192GB的HBM3e高密度记忆体,对应每秒8TB资料传输量,同时与 GPU本身对应资料传输量相同,因此在显示架构上可以对应更快资料处理效率。

至于B100、B200两者最大差异在于运作功耗不同,前者最高功耗为700W,可借由空冷散热形式运作,同时也能直接用在H100加速元件设计对应HGX机架空间内,后者功耗则在一般情况下对应1000W,依然可透过空冷形式运作,但能否用于H200既有对应机架空间则要看情况,至于若将功耗进一步提高至1200W,就必须以水冷形式运作,因此对应机架就必须重新设计。

若以H100算力为基础,GB200 Superchip的算力为6倍,约可处理GPT-3 1750亿组参数量,而对应处理多模特定领域算力表现则可达30倍,可处理多达1.8兆参数规模。

透过NVLink将36组GB200 Superchip串接成的GB200 NVL72,可在训练对应720 PFLOPS算力表现,推论算力则可达1440 PFLOPS,同时可对应27兆组参数规模,多节点传输频宽可达每秒130TB,最高可对应每秒260TB传输量。

另外,将8组GB200 NVL72串接的话,则可建构DGX BG200 Superpod,整合288组「Grace」CPU与576组「Blackwell」 GPU构成,并且包含240TB高速记忆体容量,在FP4运算模式可对应11.5 ExaFLOPS算力表现,并且发挥30倍推论效率、4倍训练效率,同时提升25倍能源使用效率。

在组合方面,NVIDIA依然在「Blackwell」显示架构维持组合弹性,可选择与x86架构CPU或Arm架构CPU组合,而在B100设计上也能相容既有H100对应机架使用,B200在特定情况下也能相容使用既有机架,借此维持其布署应用升级弹性,同时也在运算效能有相当程度提升表现。

但如果是要对应 人工智慧布署应用的话,NVIDIA表示当前最佳组合还是Arm架构CPU,主要还是受限于x86架构CPU对应I/O埠等通道设计,以及NVLink可对应连接数量上限,加上采用x86架构CPU还有额外散热系统建置需求,因此目前用于人工智慧推论等训练,依然会主推搭配「Grace」CPU的组合。

未来发展

在今年Compoutex 2024展前主题演讲上,NVIDIA说明将以一年节奏 (One Year Rhythm)持续推动技术成长的发展目标,更预告接下来将以Blackwell架构GPU为基础,于2025年接续推出名为「Blackwell Ultra」的GPU,另外也确认下一代显示架构代号为「Rubin」,同时也确定会推出名为「Rubin Ultra」的GPU产品,预计会在2026年推出。

除了将持续推出新款GPU产品,NVIDIA也确认将推出代号「Vera」的CPU产品,以及第六代NVLink设计与Spectrum-X1600乙太网路平台,借此加速更大规模人工智慧应用发展。

《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》