Intel宣布推出Gaudi 3人工智慧加速器 加速大型自然語言模型與多模態模型的人工智慧訓練

在Vision 2024大会上,Intel宣布推出Gaudi 3人工智慧加速器,相比前一代产品在BF16运算约提供4倍人工智慧效能,并且对应1.5倍记忆体传输频宽与2倍网路传输频宽,借此实现扩充更大规模人工智慧运算,并且加速大型自然语言模型与多模态模型的人工智慧训练,以及推论运算效率。

英特尔执行副总裁暨资料中心与AI解决方案总经理Justin Hotard表示:「AI市场瞬息万变,但产品间仍存在巨大差距。不论是来自客户还是更广泛市场的回馈,皆反映对更多选择的渴望。企业须权衡可用性、可扩充性、效能、成本和能源效率等因素。Intel Gaudi 3作为生成式AI的新选择,凭借性价比、系统可扩充性和时间成本优势的完美结合脱颖而出。」

Gaudi 3加速器专为高效的大规模人工智慧运算需求打造,采用5nm制程生产,其设计允许同时启动所有引擎,借此提升包含矩阵乘法引擎 (MME)、张量处理器核心 (TPC),以及网路介面卡 (NIC)等整体运算速度,并且实现更高速、高效的深度学习运算与规模扩充。

而借由专属异质运算引擎设计,Gaudi 3加速器由64个人工智慧自订与可编程张量处理器核心,加上8个矩阵乘法引擎构成,每个Gaudi 3的矩阵乘法引擎均能执行64000组平行运算,并且对应高效率的复杂矩阵运算,并且支援FP8和BF16在内多种资料类型。

为了符合大型自然语言模型运算需求,Gaudi 3加速器搭载128GB的HBMe2记忆体容量、3.7TB的记忆体频宽,以及96MB的on-board静态随机存取记忆体。另外,每组 Gaudi 3加速器均整合24组传输量可达200GB的乙太网路连接埠,借此实现高效扩充、支援大型运算集特性,可对应单一节点至超过1000个节点扩充能力。

另外,Gaudi 3加速器可借由Gaudi软体整合PyTorch框架,并且可使用托管于Hugging Face社群的最佳化模型,借此对应常见自动生成式人工智慧框架,并且可提升人工智慧布署易用性与生产力,同时也能快速将模型移转到不同硬体使用。

除了推出一般版本,Gaudi 3加速器更额外提供PCIe版本,本身以600W热设计功耗封装,并且整合128GB记忆体容量,对应每秒可3.7TB的资料传输频宽。

相比NVIDIA推出的H100加速器,Intel标榜Gaudi 3加速器在Llama2 7B与13B参数规模,以及GPT-3 175B参数规模模型的训练时间可缩减50%,而在Llama 7B与70B参数规模,以及Falcon 180B参数模型上的推论速度提升30%,推论吞吐量则是提升50%,推论电力损耗更降低40%,同时在较长的输入和输出序列中,更具有明显的推理效能优势。

Intel将于今年第二季开始向OEM业者提供基于Gaudi 3加速器的通用基板与开放加速器模型 (Open accelerator module, OAM)的标准配置,而包含戴尔、HPE、联想与Supermicro等OEM业者都将采用Gaudi 3加速器打造应用设备。

至于Gaudi 3加速器预计于今年第三季全面上市,Gaudi 3 PCIe版本则预计于今年第四季上市。

《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》