Meta公布用於自動生成式人工智慧的硬體基礎設施 採用近5萬組NVIDIA H100 GPU

Meta公布其用于自动生成式人工智慧的硬体基础设施,其中包含两个各自采用2万4576组NVIDIA H100 GPU、可对应大型数据中心算力规模的运算丛集。

相较Meta在2022年公布用于人工智慧运算丛集、采用1.6万组NVIDIA A100 GPU的AI Research SuperCluster (RSC),此次公布规格几乎提升超过2倍以上,并且能运作更大、更复杂的人工智慧模型。

其中一个运算丛集基于Arista 7800、Wedge400,以及Minipack2开放运算计划 (OCP)机架交换器构成的RDMA over Converged Ethernet (RoCE)解决方案,另一个运算丛集则是基于NVIDIA的Quantum2 InfiniBand网路架构,两个运算丛集均对应400 Gbps的端点互连传输速率,并且能以不同网路架构,评估不同类型的互连型态对于大规模人工智慧训练的适用性及可扩展性,同时也能作为日后设计、建置更大规模运算丛集的参考依据。

此运算丛集除了网路架构,其他均以Meta内部设计建构,并且对外贡献给开放运算计划的GPU硬体平台Grand Teton,借此让更多人工智慧系统采用,可在单一机箱内整合包含变电源、控制系统、运算架构与传输介面,同时也能对应更好运算效能及讯号完整性,更可对应更良好的热效能。

而在储存架构则采用Meta内部Tectonic分散式储存解决方案,透过其中Linux Filesystem in Userspace (FUSE) API资源对应人工智慧运算丛集资料,以及检查点相关需求,让多数GPU能同步储存、载入检查点,借此提资料载入时的弹性,以及提供EB储存规模吞吐量。

另外,Meta也与全球资料共用平台Hammerspace合作打造平行网路档案系统布署技术,其中运用可让工程人员透过数千个GPU资源进行执行任务除错,并且让程式有所变动时,可让布署应用环境所有节点同步存取,借此对应庞大人工智慧运算使用模式。

Meta计划持续扩大自动生成式人工智慧的硬体基础设施,预计在今年底增加使用35万组NVIDIA H100 GPU,并且计划发挥等同60万组NVIDIA H100 GPU的运算效能。

《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》