☰

Intel宣布推出Gaudi 3人工智慧加速器加速大型自然語言模型與多模態模型的人工智慧訓練

在Vision 2024大会上，Intel宣布推出Gaudi 3人工智慧加速器，相比前一代产品在BF16运算约提供4倍人工智慧效能，并且对应1.5倍记忆体传输频宽与2倍网路传输频宽，借此实现扩充更大规模人工智慧运算，并且加速大型自然语言模型与多模态模型的人工智慧训练，以及推论运算效率。

英特尔执行副总裁暨资料中心与AI解决方案总经理Justin Hotard表示：「AI市场瞬息万变，但产品间仍存在巨大差距。不论是来自客户还是更广泛市场的回馈，皆反映对更多选择的渴望。企业须权衡可用性、可扩充性、效能、成本和能源效率等因素。Intel Gaudi 3作为生成式AI的新选择，凭借性价比、系统可扩充性和时间成本优势的完美结合脱颖而出。」

Gaudi 3加速器专为高效的大规模人工智慧运算需求打造，采用5nm制程生产，其设计允许同时启动所有引擎，借此提升包含矩阵乘法引擎 (MME)、张量处理器核心 (TPC)，以及网路介面卡 (NIC)等整体运算速度，并且实现更高速、高效的深度学习运算与规模扩充。

而借由专属异质运算引擎设计，Gaudi 3加速器由64个人工智慧自订与可编程张量处理器核心，加上8个矩阵乘法引擎构成，每个Gaudi 3的矩阵乘法引擎均能执行64000组平行运算，并且对应高效率的复杂矩阵运算，并且支援FP8和BF16在内多种资料类型。

为了符合大型自然语言模型运算需求，Gaudi 3加速器搭载128GB的HBMe2记忆体容量、3.7TB的记忆体频宽，以及96MB的on-board静态随机存取记忆体。另外，每组 Gaudi 3加速器均整合24组传输量可达200GB的乙太网路连接埠，借此实现高效扩充、支援大型运算集特性，可对应单一节点至超过1000个节点扩充能力。

另外，Gaudi 3加速器可借由Gaudi软体整合PyTorch框架，并且可使用托管于Hugging Face社群的最佳化模型，借此对应常见自动生成式人工智慧框架，并且可提升人工智慧布署易用性与生产力，同时也能快速将模型移转到不同硬体使用。

除了推出一般版本，Gaudi 3加速器更额外提供PCIe版本，本身以600W热设计功耗封装，并且整合128GB记忆体容量，对应每秒可3.7TB的资料传输频宽。

相比NVIDIA推出的H100加速器，Intel标榜Gaudi 3加速器在Llama2 7B与13B参数规模，以及GPT-3 175B参数规模模型的训练时间可缩减50%，而在Llama 7B与70B参数规模，以及Falcon 180B参数模型上的推论速度提升30%，推论吞吐量则是提升50%，推论电力损耗更降低40%，同时在较长的输入和输出序列中，更具有明显的推理效能优势。

Intel将于今年第二季开始向OEM业者提供基于Gaudi 3加速器的通用基板与开放加速器模型 (Open accelerator module, OAM)的标准配置，而包含戴尔、HPE、联想与Supermicro等OEM业者都将采用Gaudi 3加速器打造应用设备。

至于Gaudi 3加速器预计于今年第三季全面上市，Gaudi 3 PCIe版本则预计于今年第四季上市。

《原文刊登于合作媒体mashdigi，联合新闻网获授权转载。》

Intel宣布推出Gaudi 3人工智慧加速器 加速大型自然語言模型與多模態模型的人工智慧訓練

相关资讯

Intel宣布推出Gaudi 3人工智慧加速器加速大型自然語言模型與多模態模型的人工智慧訓練