AMD正式推出代號Turin的第五代EPYC伺服器處理器 同步推出與NVIDIA H200抗衡的AI加速器
今年初宣布将推出代号Turin (义大利北部的重要工业城市杜林)的第五代EPYC伺服器处理器之后,AMD正式说明此款处理器正式出货,并且获得Cisco、Dell、HPE、联想、Supermicro等ODM业者及云端服务业者采用,另外也同步推出基于CDNA 3架构设计的Instinct MI325X加速器,借此推动高效能和最佳化的人工智慧解决方案。
第五代EPYC伺服器处理器在人工智慧与高效运算每周期指令执行效能提升多达37%
第五代EPYC伺服器处理器以9005系列为称,同样以Zen 5架构打造,并且相容既有SP5接脚平台,提供8核心到192核心的广泛核心数量规格选择,强调在效能及能源效率之间平衡取得优势,其中最高阶的192核心处理器效能比起竞争对手推出同级提升高达2.7倍。
对比先推出Zen 4架构产品,此次应用Zen 5架构的第五代EPYC伺服器处理器在企业及云端工作负载的每周期指令执行效能 (IPC)提升达17%,而在人工智慧与高效运算表现则在每周期指令执行效能提升多达37%。
以此次推出采192核心设计的EPYC 9965处理器为例,相比Intel推出的Xeon 8592+处理器在商业型应用如视讯转码速度提升高达4倍,而在科学和高效能运算应用洞察时间缩短则多达3.9倍,另外在虚拟化基础设施 (infrastructure)中的每核心效能更提升高达1.6倍。
在TPCx-AI (衍生)等端对端人工智慧工作负载,EPYC 9965处理器效能提升高达3.7倍,而在Meta Llama 3.1-8B等中小型企业级生成式人工智慧模型可对应资料吞吐处理效能更比竞争对手推出同级产品提升1.9倍。
而此次同步新增、采64核心设计的EPYC 9575F处理器,则是针对需要极致主机CPU功能与GPU加速人工智慧解决方案打造,其中在运作时脉提高达5GHz,相比竞争对手推出同级产品的运作时脉为3.8GHz,速度提升高达28%,让GPU能够满足要求严苛的人工智慧工作负载资料处理需求,并且能让1000个节点的人工智慧运算丛集可在每秒驱动超过70万个推论符元 (token),借此更快完成多项执行任务。
其他部分,第五代EPYC伺服器处理器以9005系列更将推出以Zen 5c架构打造衍生规格,同时每组CPU可对应多达12通道的DDR5记忆体模组,最高可对应DDR5-6400 MT/s记忆体规格,另外也支援完整512b资料路径的AVX-512指令集,并且使用对应机密运算的可信任I/O连接埠设计,以及正进行该系列中每个部份的FIPS认证,借此确保系统运作安全。
Instinct MI325X加速器对比H200加速器在记忆体容量提高1.8倍
此次同步推出的Instinct MI325X加速器,则采用可达256GB容量、6.0TB/s传输速率的HBM3E高频宽记忆体,强调对比NVIDIA的H200加速器在记忆体容量提高1.8倍,资料传输频宽则增加1.3倍,另外在Mistral 7B模型的FP16运算理论峰值效能,更可在Llama 3.1 70B模型的FP8运算效能提升1.2倍,另外在Mixtral 8x7B模型的FP16运算峰值效能也提升1.4倍。
Instinct MI325X加速器预计在2024年第4季量产出货,并且将于2025年第1季起由Dell、HPE、联想、Supermicro、Eviden、技嘉等平台业者导入用于设计产品。
另外,AMD也宣布下一代Instinct MI350系列加速器将换上CDNA 4架构设计,预计带来35倍推论效能提升,并且将配置高达288GB HBM3E高频宽记忆体,预计会在2025年下半年顺利推出。
至于Instinct MI400系列加速器则会在2026年推出,并且换上下一代人工智慧架构设计。
推出新款DPU、NIC推动人工智慧执行最佳化
而针对人工智慧运算执行最佳化,AMD宣布推出用于前端执行运算的Pensando Salina DPU,以及用于后端、业界首款UEC (Ultra Ethernet Consortium,超乙太网路联盟)就绪的Pensando Pollara 400 AI NIC。
其中,Pensando Salina DPU与前一代产品相比,包含效能、频宽和规模均提升高达2倍,支援400G资料传输吞吐量,而Pensando Pollara 400则支援新一代RDMA软体,并且由开放的网路产业体系提供支援,可在后端网路中提供更高效能、可扩展性及加速器间通讯效率。
Pensando Salina DPU及Pensando Pollara 400 AI NIC都会在今年第四季送样,并且将如期在2025年上半年推出。
在ROCm开放软体堆叠持续加入全新特性及应用功能
而在人工智慧软体框架部分,AMD强调持续推进软体功能和开放产业体系的发展,在其ROCm开放软体堆叠持续加入全新特性及应用功能。
在开放软体社群中,AMD持续推广PyTorch、Triton、Hugging Face等广泛采用的人工智慧框架、函式库与模型,并且使其相容AMD运算引擎运作,可用于Stable Diffusion 3、Meta Llama 3、3.1和3.2等热门的生成式人工智慧模型,以及Hugging Face平台收录超过100万个人工智慧模型。
除了协助扩大开放软体社群成长,AMD更持续推进其ROCm开放软体堆叠,目前在ROCm 6.2均加入支援FP8资料类型、Flash Attention 3、Kernel Fusion等关键人工智慧功能,相比先前推出的ROCm 6.0可提供高达2.4倍的推论效能,以及1.8倍的大型语言模型训练效能。
《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》