《科技》Nvidia点火需求 2024年底液冷方案渗透率看10%

Nvidia将在2024年底前推出新一代平台Blackwell,届时大型CSP也会开始建置Blackwell新平台的AI server资料中心,TrendForce指出,2025年Nvidia将以HGX、GB200 Rack及MGX等多元组态AI server,分攻CSPs及企业型客户,预估这3个机种的出货比例约为5:4:1;HGX平台可较无痛接轨既有Hopper平台设计,CSPs或大型企业客户能迅速采用;GB200整柜AI sever方案将以超大型CSPs为主打,预期Nvidia将于2024年底先导入NVL36组态,以求快速进入市场,NVL72因其AI server整体设计及散热系统较为复杂,预计将于2025年推出。

在Nvidia大力扩展CSPs客群的情况下,TrendForce预估,2025年GB200折算NVL36出货量可望达6万柜,而GB200的Blackwell GPU用量可望达210-220万颗。

高速运算需求成长,更有效的AI server散热方案也受到重视,随着Nvidia Blackwell平台将于2025年正式放量,取代既有的Hopper平台、成为Nvidia高阶GPU主力方案,占整体高阶产品近83%;在B200和GB200等追求高效能的AI server机种,单颗GPU功耗可达1,000W以上,HGX机种每台装载8颗GPU,NVL机种每柜达36颗或72颗GPU,可观的能耗将促进AI server散热液冷供应链的成长。

TrendForce表示,server晶片的热设计功耗(Thermal Design Power, TDP)持续提高,如B200晶片的TDP将达1000W,传统气冷散热方案不足以应付需求;GB200 NVL36及NVL72整机柜的TDP甚至将高达70kW及近140kW,需要搭配液冷方案方以有效解决散热问题。

据TrendForce了解, GB200 NVL36架构初期将以气冷、液冷并行方案为主;NVL72因有更高散热能力需求,原则上优先使用液冷方案。

观察现行GB200机柜系统液冷散热供应链,主要可分水冷板(Cold Plate)、冷却分配系统(Coolant Distribution Unit, CDU)、分歧管(Manifold)、快接头(Quick Disconnect, QD)和风扇背门(Rear Door Heat Exchanger, RDHx)等五大零组件; TrendForce指出,CDU为其中的关键系统,负责调节冷却剂的流量至整个系统,确保机柜温度控制在预设的TDP范围内,TrendForce观察,目前针对Nvidia AI方案,以Vertiv为主力CDU供应商,奇𬭎(3017)、双鸿(3324)、台达电(2308)和CoolIT等持续测试验证中。

不过,终端客户采用GB200 Rack的过程仍有几项变数。TrendForce指出,NVL72需较完善的液冷散热方案,难度亦高。而液冷机柜设计较适合新建资料中心,但会牵涉土地建物规划等复杂程序。此外,CSPs可能不希望被单一供应商绑住规格,而并采HGX或MGX等搭载x86 CPU架构的机种,或扩大自研ASIC AI server基础设施,以因应更低成本或特定AI应用情境。