传英伟达取消双机架 72 GPU GB200 开发,聚焦单机
据分析师郭明錤在 Medium 上的说法,英伟达正在停止其双机架 72 路 GB200 型 NVL36×2 的开发,以便专注于单机架的 NVL72 和 NVL36。他是一位知名分析师,似乎对此事有内部消息。单机架 NVL36 和 NVL72 机器将按计划推向市场,据说这一决定是受到有限的资源和客户偏好的驱动。然而,此前的报告表明,双机架 NVL36×2 将是英伟达客户中最受欢迎的选择。
该公司最初计划基于 Blackwell GPU 为 AI 和 HPC 工作负载开发三款 GB200 型号:NVL36、NVL72 和 NVL36×2。然而,管理这三个项目变得颇具挑战性,特别是同时处理两个不同的 72-GPU 版本(NVL72 和 NVL36×2)所具有的复杂性。因此,英伟达现在只专注于 NVL72 和 NVL36。
英伟达的 GB200 NVL72 机架包含 18 个计算托盘和 9 个 NVSwitch 托盘(18 个 NVSwitch ASIC),每个托盘装着两块 Bianca 板,每块板有一个 Grace CPU 和两个 Blackwell GPU。这是英伟达最强劲的产品,不过它也是最费电的解决方案,因为它的功耗大概是 120 千瓦。
半分析公司 预计这种配置的使用会受到限制,由于其极高的功率和密度要求(典型的机架功率是 12 千瓦,而基于 H100 的机架大约消耗 40 千瓦),大多数数据中心无法支持。然而,有一个主要客户计划进行广泛部署,郭明錤称微软明显更倾向于 NVL72 而非 NVL36×2。
GB200 NVL36×2 由两个相互连接的机柜组成,最初预计这会是更常用的配置。每个机柜有 18 个 Grace CPU 和 36 个 Blackwell GPU,72 个 GPU 之间保持完全连接。然而,它需要 36 个 NVSwitch 专用集成电路(ASIC),因此比一个 NVL72 消耗的功率更多,而且性能略低。预计一个 GB200 NVL36×2 每个机柜消耗 66kW(总计 132kW),略高于 NVL72,尽管它较大的尺寸与现有的数据中心更兼容。
GB200 NVL72 比 GB200 NVL36×2 在空间利用方面高效得多。然而,大多数英伟达客户难以满足 NVL72 的功率和散热密度要求。此外,据郭明錤所说,这些复杂性可能会将 GB200 NVL72 的发货时间推迟至 2025 年下半年。不过,此前有报道指出,部分 NVL72 型机器 将于今年 12 月交付,可能交付给微软。
“我最新的供应链调查显示,NVL72 的大规模生产可能会推迟到 2025 年下半年(相较于英伟达乐观设定的 2025 年上半年的目标),”郭明錤写道。
今年早些时候,英伟达在为人工智能和高性能计算(HPC)封装其B100 和 B200 GPU 时遇到了导致产量下降的问题,这促使它生产低产量的 Blackwell 硬件以满足需求,并改进这些处理器的设计。改进后的 GPU 要到 10 月下旬才开始大规模生产,因此要到 1 月下旬才能投入使用。在这种情况下,针对那些追求最大性能、要求最为苛刻的客户,专注于基于 GB200 的 NVL72 设计对英伟达而言绝对是合情合理的。
还需要指出的是,搭载布莱克韦尔处理器的 x86 服务器要到 2025 年才会推出。在现阶段,这些机器的外形尺寸仍未知,初步报告指向 NVL72 和 NVL36×2 机器。现在很可能首先转向 NVL72 和 NVL36 机架,定制的第三方解决方案随后登场。