Meta Grand Teton系统将NVIDIA Hopper架构导入资料中心

Meta基础设施硬体部门副总裁Alexis Bjorlin在2022年的Open Compute Project(OCP,开放运算计划)全球大会上表示,与Meta前一代ZionEX平台相比,Grand Teton系统搭载了更多记忆体、更高的网路频宽及更强大的运算能力。

Facebook将AI模型广泛用于其动态消息、内容推荐与辨识仇恨言论等多项服务及其他许多应用。

Bjorlin在本届大会致词时表示,我们很高兴在今年的大会中向各位介绍这个产品系列的最新成员。她也感谢NVIDIA鼎力协助设计Grand Teton系统,以及一直以来对OCP大会的支持。

Meta以座落于怀俄明州(Wyoming)国家公园内高达4,199公尺的大提顿峰为自家最新的AI平台命名。Grand Teton使用NVIDIA H100 Tensor核心GPU来训练和运行AI模型,这些模型的规模与能力迅速增长,需要更庞大的运算能力来因应。

以NVIDIA Hopper架构为基础的H100搭载了一个Transformer引擎,用于加快处理神经网路的工作,因这些神经网路可以因应自然语言处理、医疗照护、机器人等众多持续扩大的应用领域,通常被称为基础模型。

NVIDIA H100具有绝佳的效能及能源使用效率。使用NVIDIA网路技术将H100加速的伺服器和超大规模资料中心数千台伺服器连接时,其能源使用效率比仅使用CPU的伺服器高出300倍。

NVIDIA超大规模与高效能运算部门副总裁IanBuck表示,NVIDIA为了解决世界上严峻的挑战而设计出NVIDIA Hopper GPU,实现能源使用效率及效能都更优化的加速运算,同时扩大规模并降低成本。Meta今日推出搭载H100的Grand Teton平台,全球各地的系统建置商很快将获得用于超大规模资料中心运算基础设施的开放式设计,为各产业的AI挹注更强大的助力。

Meta表示,Grand Teton平台与之前的Zion系统相比,可提供两倍的网路频宽、主机处理器与GPU加速器之间的频宽为四倍。

Bjorlin表示,加大的网路频宽让Meta能够建立更庞大的系统丛集来训练AI模型。Grand Teton平台还拥有比Zion系统更多的记忆体,可以储存和运行更大规模的AI模型。

Bjorlin表示,将这些功能纳入一个整合式伺服器将大幅简化系统部署作业,让我们能更迅速地安装和配置机队,并提高系统可靠性。