NVIDIA推出結合「Grace」CPU與「Blackwell」GPU運算叢集 強化雲端AI應用佈署
▲结合单一「Grace」CPU与两组「Blackwell」GPU的GB200 Superchip
除了公布「Blackwell」显示架构,NVIDIA也同步宣布结合单一「Grace」CPU与两组「Blackwell」GPU的GB200 Superchip,并且以此建构的运算丛集设备GB200 NVL72,其中整合36组「Grace」CPU及72组「Blackwell」GPU,彼此则以NVLink连接形成运算丛集。
效能方面,GB200 NVL72可在训练对应720 PFLOPS算力表现,推论算力则可达1440 PFLOPS,同时可对应27兆组参数规模,多节点传输频宽可达每秒130TB,最高可对应每秒260TB传输量。
▲整合36组「Grace」CPU及72组「Blackwell」GPU,彼此则以NVLink连接形成运算丛集GB200 NVL72
此外,NVIDIA也强调结合「Grace」CPU与「Blackwell」GPU的GB200 Superchip的布署应用弹性,例如以单一Superchip,或是以整合两组Superchip形式的机架形式运算,甚至可以透过NVLink串连多组机架,借此让算力能以倍数堆叠。
不过,显然受限于Arm运算子系统对应资料传输频宽,加上若以人工智慧推论运算效能最大化为目的,在GB200 Superchip的组合主要以单一「Grace」CPU与两组「Blackwell」GPU为设计,借此让算力发挥最大化,并且以此组合进行倍数形式堆叠算力。
▲以人工智慧推论运算效能最大化为目的,在GB200 Superchip的组合主要以单一「Grace」CPU与两组「Blackwell」GPU为设计,借此让算力发挥最大化
▲GB200 Superchip能以倍数堆叠形式增加GB200 NVL72运算丛集算力
若以H100 GPU算力为基础,GB200 Superchip的算力为6倍,约可处理GPT-3 1750亿组参数量,而对应处理多模特定领域算力表现则可达30倍,可处理多达1.8兆参数规模。
▲GB200 Superchip能以倍数堆叠形式增加GB200 NVL72运算丛集算力
▲同样以90天完成训练GPT-MoE-1.8T人工智慧模型情况,透过GB200 NVL72仅需花费「Hopper」显示架构运算丛集的四分之一能耗
目前GB200 NVL72将由AWS、Google Cloud、微软Azure与甲骨文OCI (Oracle Cloud Infrastructure)在内公有云服务采用,并且能借由BlueField-3 SuperNIC、Spectrum-X800,或是ConnectX-8 SuperNIC、Quantum-X800的网路传输介面组合连接,预计会在今年内加速更多自动生成式人工智慧运算平台与云端加速运算发展。
▲借由BlueField-3 SuperNIC、Spectrum-X800,或是ConnectX-8 SuperNIC、Quantum-X800的网路传输介面组合连接
而NVIDIA也将推出采用GB200 Superchip设计的DGX GB200超级电脑,以及以8组DGX GB200超级电脑构成的DGX SuperPOD运算丛集,其中整合288组「Grace」CPU与576组「Blackwell」GPU构成,并且包含240TB高速记忆体容量,在FP4运算模式可对应11.5 ExaFLOPS算力表现,并且发挥30倍推论效率、4倍训练效率,同时提升25倍能源使用效率。
▲采用GB200 Superchip设计的DGX超级电脑,以及以8组DGX超级电脑构成的DGX SuperPOD运算丛集
▲同样透过运算丛集堆叠方式提升DGX SuperPOD算力表现
除了宣布以水冷系统维持运作的DGX超级电脑,NVIDIA也同步推出仅以空冷系统形式运作的HGX B200,其中移除「Grace」CPU设计,全数以「Blackwell」GPU运作,分别对应15倍推论效率、3倍训练效率,能源使用效率则可提升12倍,同时也能减少水冷系统占据空间,能以更大弹性布署使用。
▲同步推出仅以空冷系统形式运作的HGX B200
《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》