NVIDIA推出液体冷却式GPU

(NVIDIA推出液体冷却式GPU。图/业者提供)

全球各地尽一切努力遏止气候变迁所带来的影响,Zac Smith尽己所长投身其中,协助打造兼具高效能及高能源使用效率的资料中心。他是全球服务供应商Equinix的边缘基础设施部门负责人,该公司管理超过240个资料中心,致力于成为业界首间达到气候中和的公司。

因2000年初为纽约市的同行音乐家伙伴建立网站而进入科技领域的茱莉亚音乐学院(The Juilliard School)毕业生Smith表示,我们拥有10,000名客户希望我们能协助他们完成这趟旅程。他们需要更多的资料与更多的智慧导入,通常是伴随人工智慧(AI)的使用,而且他们希望以永续发展为目标的方式进行。

截至今年四月,Equinix已发行49亿美元的绿色债券。Equinix将利用这项投资债券,以最佳化的电源使用效率(Power Usage Effectiveness,PUE)方式来减少对环境的影响,PUE是衡量资料中心直接用于处理运算作业之能源使用量的产业指标。

资料中心营运商正试着将这个比例向下调整到接近1.0 PUE的理想值。如今,Equinix设备的平均PUE为1.48,其表现最佳的全新资料中心PUE数字则低于1.2。

Equinix在一月时成立专门提升能源使用效率的场域,在这方面又往前迈进了一步。液体冷却(液冷)技术为该场域的工作重点之一。

问世于大型主机时代的液冷技术,在AI时代日趋成熟。液冷技术亦称直接晶片(direct-chip)冷却技术,广泛用于世界上最快的超级电脑中。

液冷技术是NVIDIA GPU加速运算技术发展的下一步,它在AI推论和高效能运算的效能表现较CPU高出20倍。

若将所有全球运行AI及高效能运算的纯CPU伺服器转换成GPU加速系统,每年将可省下高达11兆瓦特小时的能源,相当于省下一年150万个家庭所消耗的能源。

NVIDIA发表首款采用直接晶片冷却技术的资料中心PCIe GPU,将进一步推动永续发展。

Equinix正在对A100 80GB PCIe液冷式GPU进行资格认证,以便用于该公司的资料中心,并作为永续冷却和热捕获综合方法的一部分。NVIDIA现正提供该GPU的样品给客户,预计将于今年夏季正式上市。

Smith表示,这象征着我们的实验室将引进首款液冷式GPU,这令我们非常期待,因为我们的客户一直希望能以符合永续发展的方式使用AI。

资料中心营运商的目标是淘汰冷水机的使用,冷水机每年以蒸发数百万加仑水的方式来冷却资料中心内的空气。液冷系统却可在封闭系统中循环少量液体,将重点着重于排除关键的热点。Smith补充.我们将把废弃物变成资产。

Equinix与NVIDIA在个别的测试中都发现,使用液冷技术与使用气冷技术的资料中心相比,两者可以执行相同的作业负载,但前者的能源消耗减少约30%。NVIDIA预估使用液冷技术资料中心的PUE值可以达到1.15,远低于使用气冷技术资料中心的1.6 PUE值。

使用液冷技术的资料中心也能在相同的空间处理两倍的运算量,原因在于液冷式A100 GPU只用了一个PCIe插槽,而气冷式A100 GPU则使用两个PCIe插槽。

至少有超过十家系统制造商计划于今年下半年将这些GPU导入至旗下产品线。这些制造商包括华硕(ASUS)、永擎电子(ASRock Rack)、富士康工业互联网(Foxconn Industrial Internet)、技嘉科技(GIGABYTE)、杭州华三通信技术(H3C)、浪潮(Inspur)、英业达(Inventec)、Nettrix、云达科技(QCT)、美超微(Supermicro)、纬颖科技(Wiwynn)与xFusion。

亚洲、欧洲和美国正在制定能源效率标准的法规,这也促使银行和其他大型资料中心营运商开始评估液冷技术。液冷技术并不限于资料中心的使用,汽车和其他系统同样需要用它来冷却嵌入在密闭空间内的高效能系统。

Smith在谈到液冷主流GPU的首次亮相时表示,这是旅程的起点。

我们计划在A100 PCIe卡的基础上,于明年推出采用基于NVIDIA Hopper架构的H100 Tensor核心GPU版本。NVIDIA计划在可预见的未来,于高效能资料中心GPU和NVIDIA HGX平台上支援液冷技术。

当前的液冷GPU可以提供相同的效能表现,但能源消耗却更低,而这将有助于业界加速采用液冷GPU。NVIDIA预期这些GPU将为用户带来在相同的能源消耗下,获得更多效能的选择,而这也是用户一直以来想要的方案。

Smith表示,只单测量瓦特数是没有意义的,你所获得的碳影响效能才是我们要推动的目标。