NVIDIA Blackwell高耗能驱动散热需求 今年底液冷方案渗透率有望达10%

▲NVIDIA GB200 Grace Blackwell 超级晶片。(图/NVIDIA提供)

记者高兆麟/综合报导

根据TrendForce最新AI server报告,由于NVIDIA将在2024年底前推出新一代平台Blackwell,届时大型CSP也会开始建置Blackwell新平台的AI server资料中心,预估有机会带动液冷散热方案渗透率达10%。

根据TrendForce,NVIDIA Blackwell平台将于2025年正式放量,取代既有的Hopper平台、成为NVIDIA高阶GPU主力方案,占整体高阶产品近83%。在B200和GB200等追求高效能的AI server机种,单颗GPU功耗可达1,000W以上。HGX机种每台装载8颗GPU,NVL机种每柜达36颗或72颗GPU,可观的能耗将促进AI server散热液冷供应链的成长。

TrendForce表示,server晶片的热设计功耗(Thermal Design Power, TDP)持续提高,如B200晶片的TDP将达1,000W,传统气冷散热方案不足以应付需求;GB200 NVL36及NVL72整机柜的TDP甚至将高达70kW及近140kW,需要搭配液冷方案方以有效解决散热问题。

据TrendForce了解, GB200 NVL36架构初期将以气冷、液冷并行方案为主;NVL72因有更高散热能力需求,原则上优先使用液冷方案。

观察现行GB200机柜系统液冷散热供应链,主要可分水冷板(Cold Plate)、冷却分配系统(Coolant Distribution Unit, CDU)、分歧管(Manifold)、快接头(Quick Disconnect, QD)和风扇背门(Rear Door Heat Exchanger, RDHx)等五大零组件。

TrendForce指出,CDU为其中的关键系统,负责调节冷却剂的流量至整个系统,确保机柜温度控制在预设的TDP范围内。TrendForce观察,目前针对NVIDIA AI方案,以Vertiv为主力CDU供应商,奇𬭎、双鸿、台达电和CoolIT等持续测试验证中。

根据TrendForce,2025年NVIDIA将以HGX、GB200 Rack及MGX等多元组态AI server,分攻CSPs及企业型客户,预估这三个机种的出货比例约为5:4:1。HGX平台可较无痛接轨既有Hopper平台设计,CSPs或大型企业客户能迅速采用。GB200整柜AI sever方案将以超大型CSPs为主打,TrendForce预期NVIDIA将于2024年底先导入NVL36组态,以求快速进入市场。NVL72因其AI server整体设计及散热系统较为复杂,预计将于2025年推出。

TrendForce表示,在NVIDIA大力扩展CSPs客群的情况下,预估2025年GB200折算NVL36出货量可望达6万柜,而GB200的Blackwell GPU用量可望达210-220万颗。

然而,终端客户采用GB200 Rack的过程仍有几项变数。TrendForce指出,NVL72需较完善的液冷散热方案,难度亦高。而液冷机柜设计较适合新建资料中心,但会牵涉土地建物规划等复杂程序。此外,CSPs可能不希望被单一供应商绑住规格,而并采HGX或MGX等搭载x86 CPU架构的机种,或扩大自研ASIC AI server基础设施,以因应更低成本或特定AI应用情境。