数据中心的功耗难题,液冷能解决吗?

耗能颇高的数据中心常被称为“不冒烟的钢厂”。这不仅是因为处理器运行消耗大量电力,也是因为数据中心需消耗更多能源,来冷却高温运行中的服务器。几年间,数据中心处理器功耗持续攀升,大模型更添一把“火”,业内正在寻找新的冷却方式。

“原来一个机柜40多U(长度单位),有那么高,功耗不到8000瓦,现在常用于训练或推理的4U八卡机功耗达到10千瓦,体积才那么大一点。”近日一场采访中,绿色云图总经理、网宿科技副总裁胡世轩用手比划,向记者形容,服务器机柜变小了,但一台高度不到2分米的服务器,现在却成为功耗“怪兽”。

推高功耗表现的一大原因是AI。AI处理器功耗随着性能提高而提高,传统风冷不再适合。有业内人士告诉记者,目前各种液冷技术还在竞赛,但从大趋势看,液冷已逐渐成为新建智算中心的标配。

数据中心功耗难题

全球AI基础设施竞赛还在进行。与此同时,应用于AI场景的高性能芯片功耗越来越高。山西证券研报引用S&P Global数据称,2017年主流芯片厂商TDP(热设计功耗)仅200瓦左右,到2023年,一般GPU的TDP已经达到350~700瓦,英伟达新一代B100功耗甚至超过1000瓦。

“原来一台服务器功率大概500瓦、1000瓦,现在单张芯片就能达到500瓦了。” 胡世轩向记者形容。

高功耗导向高排放。谷歌近日在其年度环境报告中指出,2023年公司温室气体排放量达到1430万吨碳当量,比2019年基准高出48%。谷歌2023年与能源相关的排放量同比增长37%,排放主要来自数据中心电力消耗。微软总裁布拉德·史密斯5月也承认,公司的减排目标受到人工智能战略的影响。

高功耗导致芯片出现高温,进而影响芯片性能,业内将这一现象成为“功耗墙”。冷却成为必不可少的手段。一般而言,数据中心有约40%的功耗用于制冷系统。传统数据中心多采用风冷等传统冷却方式,但因应对高功耗时的低能效,业内出现了取代风冷的声音。

今年早些时候,英伟达CEO黄仁勋表示,液冷技术将成为AI算力的下一个趋势性领域。英伟达从B100产品开始便采用液冷技术。“黄仁勋认为浸没式液冷是未来方向,这是他的观点,不一定代表业界对液冷技术走向的共识,但高功耗情况下,液冷确实是需要的。”一名服务器业内人士告诉记者,如果说风冷是吹风扇、空调,液冷则像泡澡。

英特尔资深技术专家近日接受第一财经记者采访时解释,之所以风冷不适应高功耗场景,是因为传统风冷风扇转速越快、散热效果越好、风扇转动耗能越高,但转速达到某个临界点后散热效果提升有限,功耗却上升明显。风冷对300瓦、350瓦功耗以上的处理器而言性价比不高。

记者从多名服务器业内人士了解到,今年服务器出货增长较明显的是智算中心常用的AI服务器。“据我们观察,新建数据中心的冷却方式以液冷为主,风冷较少。我们和中国台湾、美国的产业上下游厂商聊,发现大家的感觉都是‘今年跟以前明显不一样’。” 以上技术专家告诉记者,从存量市场看,多数数据中心仍采用风冷,应对高功耗时需通过加装更多电风扇、做大散热器等方式‘打补丁’,确保已有处理器还能使用。但未来几年,随着数据中心逐渐转向液冷,芯片厂商可能会转向推出只考虑液冷环境下运行的芯片。埃克森美孚合成基础油业务部门亚太市场总监王欣也感受到,今年数据中心服务器冷却液的需求有所增长。

粗略分,液冷目前主要有两种方式,冷板式液冷不需要浸没芯片,浸没式液冷则是将整台服务器包括芯片浸在液体中,由液体带走热量。胡世轩向记者形容,做通用计算的数据中心发热量不大,没有必要打破由冷机、空调降温的方式,而当智算中心单U功耗达0.5千瓦的临界值时,液冷的效果和性价比都更高。

“液冷和风冷相比,数据中心能节省20%以上能耗,我判断其中用在制冷上的能耗可节省80%以上。风冷数据中心PUE(数据中心电能利用效率)一般在1.5左右,有的地方要求做到1.3,从我们做的项目看,浸没式液冷数据中心PUE则能做到1.1以下。” 胡世轩表示。

仍在发展初期

液冷能以较低能耗冷却数据中心的处理器,但作为相对新兴的技术,目前部署液冷的价格仍偏高,各种液冷技术也仍在争流。

液冷有一些技术挑战需要攻克。王欣告诉记者,浸没式液体把服务器所有硬件泡在里面,材料兼容是关键难题,此外,需要解决信号稳定性、散热性等问题,冷却液厂商需要持续研发和更新。

此外,记者了解到,目前各方对冷却方案的选择各有判断,共识还未形成。据市场研究机构IDC数据,去年国内液冷服务器市场规模增长52.6%,其中95%采用冷板式液冷。技术路线上看,冷板式和浸没式都有单相和两相两种技术路线,单相采用氟碳化合物或合成油,双相目前只有氟碳化合物散热能力较高。

上述英特尔资深技术专家表示,单相冷板散热效果出色、业界采用较多,但无法根除液体泄漏风险。两相冷板所用的氟化物冷却液泄漏后不会造成电路短路,但氟化物对环境有影响。氟化物在国际上有减少或禁止使用的趋势,英特尔目前支持基于合成油的单相冷板和单相浸没式液冷技术。产业链也在根据目前的技术挑战做调整。王欣表示,氟化液冷却液非常稳定,在自然界中不容易降解且价格较高,公司推出对环境影响较小的无PFAS(全氟和多氟烷基物质)浸没式冷却液,正与产业链合作,满足浸没式冷却场景的技术指标。

整体而言,上述英特尔资深技术专家告诉记者,现在液冷还没有某种技术比另一种技术更有统治性优势,未来需求也还不明确,每个技术都有优缺点,而且为了适应未来需求还在继续演进。另有业内人士告诉记者,液冷上游供应链有不少厂家,技术有壁垒,竞争也较激烈。

价格方面,胡世轩告诉记者,浸没式和冷板式液冷的价格今年都在往下走。建造成本看,浸没式液冷比传统风冷贵5%~8%,但预计部署规模增大后,两年内可以做到风液同价。冷却液厂商也在推动冷却液迭代降价,现在已有产品价格比氟化物冷却液低很多。

目前,液冷产业链上游为零部件及液冷设备厂商,国产厂商包括英维克、绿色云图等,中游为液冷服务器及芯片厂商、液冷集成设施厂商,包括中兴、浪潮、曙光、新华三等。产业链已形成一些合作。英特尔与绿色云图、立讯精密、埃克森美孚等合作开发液冷解决方案,6月推出PUE低于1.05的G-Tank浸没式冷却解决方案。英伟达则与液冷设备提供商Vertiv合作,超微电脑也针对英伟达芯片推出液冷系统。

从相关性较大的产业链上市企业看,部分股价或业绩受液冷需求增长催化,但整体冷热不均。Vertiv股价从年初的每股45美元左右涨至美股7月11日92.86美元/股。英维克7月11日发布今年上半年业绩预告,称机房温控节能产品增长较快,上半年净利润业绩增长80%~110%。全栈布局液冷的服务器厂商浪潮2023年曾受专用芯片供应紧张影响,营收、净利润均同比减少,今年上半年预计营收同比增长60%以上。

今年第一季度,中科曙光旗下布局数据中心冷却技术的曙光数创营收则同比下降94.22%,净利润亏损,公司相关负责人5月在投资者活动上提及,冷板产品门槛低于比浸没液冷产品,仍处于发展初期,很多同行业公司都在进入冷板市场抢夺份额,导致竞争激烈,公司目前以抢占市场份额为主,长远看预计毛利会改善。