NVIDIA Blackwell 平台和ASIC晶片升級助力2025年液冷散熱滲透率逾20%

NVIDIA。 路透

根据TrendForce最新调查,随着NVIDIA Blackwell新平台预计2024年第4季出货,将助益液冷散热方案的渗透率明显成长,从2024年的10%左右至2025年将突破20%。由于全球ESG意识提升,加上CSP加速布建AI server,预期有助于带动散热方案从气冷转向液冷形式。

观察全球AI server市场,2024年主要AI方案供应商仍是NVIDIA。若单就GPU AI Server市场而言,NVIDIA则有绝对领先优势,市占率逼近90%,排名第二的AMD仅约8%。

TrendForce观察,今年NVIDIA Blackwell出货规模尚小,因供应链持续执行产品最终测试验证等流程,如高速传输、散热设计等有待持续优化。新平台因能耗较高,尤其GB200整柜式方案需要更好的散热效率,有望带动液冷方案渗透率。然而,既有server生态系采用液冷的比例尚低,对于漏液或散热效能不佳的问题,ODM仍须历经学习曲线后得出最佳解决方式。TrendForce预估2025年Blackwell平台在高阶GPU的占比有望超过80%,促使电源供应厂商、散热业者等将竞相投入AI液冷市场,形成新的产业竞合态势。

近年Google、AWS和Microsoft等大型美系云端业者皆加快布建AI server,以搭载NVIDIA GPU及自研ASIC的方式为主。据TrendForce了解,NVIDIA GB200 NVL72机柜之热设计功耗(TDP)高达约140kW,须采用液冷方案才能解决散热问题,预计将以水对气(Liquid-to-Air, L2A)方式为主流。HGX和MGX等其他架构的Blackwell伺服器因密度较低,气冷散热为主要方案。

就云端业者自研AI ASIC来说,Google的TPU除了使用气冷方案,亦布局液冷散热,是最积极采用液冷方案的美系业者,BOYD及Cooler Master为其冷水板(Cold Plate)的主要供应商。在中国大陆方面,Alibaba最积极扩建液冷资料中心,其余云端业者对自家的AI ASIC主要仍采用气冷散热方案。

TrendForce指出,云端业者将指定GB200机柜液冷散热方案的关键零组件供应商,目前冷水板(Cold Plate)主要业者为奇𬭎(3017)及Cooler Master,分歧管(Manifold)是Cooler Master和双鸿,冷却分配系统(Coolant Distribution Unit, CDU)为Vertiv及台达电。至于防止漏水的关键零件快接头(Quick Disconnect, QD),目前采购仍以CPC、Parker Hannifin、Denfoss和Staubli等国外厂商为主,台湾供应商如嘉泽、富世达等已在验证阶段,预期2025年上半年台厂有机会加入快接头供应商行列,有助于逐步舒缓当前供不应求情形。