英特爾AI加速晶片 擬推中國「特供版」

英特尔将推出中国特供版AI加速晶片Gaudi 3。(路透)

英特尔日前公布新一代AI加速晶片Gaudi 3之后,最新消息指出,英特尔将推出两款中国独家型号的AI加速晶片 Gaudi 3,但为了适应美国的制裁,它们将受到严重削弱。

中媒半导体行业观察报导,英特尔的Gaudi 3白皮书详细介绍两种获准在中国销售的型号。这两款专为中国制造的处理器分别为HL-328和HL-388,分别采用OAM和PCIe外形规格,前者于6月推出,后者于9月推出,与其他PCIe外形规格的Gaudi 3一起推出。

总体而言,HL-328和HL-388看起来或多或少与其他产品相同,具有相同的128GB HBM2e VRAM,带宽为3.7TB/s、96MB缓存、PCIe 5.0 x16介面和解码标准。

唯一的区别在于热设计功耗,OAM和PCIe卡型号均为450瓦。这与其他型号相比大幅减少。非中国PCIe HL-338 的TDP为600瓦,OAM外形规格HL-325L和HL-335的TDP为900瓦。ChinaGaudi 3型号的TDP相对较低,这可能是没有液冷版本的原因。

尽管白皮书中没有明确说明,但几乎可以肯定的是,为了遵守美国政府对处理器的出口管制,做出这些改变是必要的,该管制禁止美国公司根据性能向中国出口晶片。

中媒分析,无法真正知道英特尔对Gaudi 3做了什么来使其相容,以及这些批准用于中国的晶片在这些变化中的执行速度有多快,但有一些线索。与其他Gaudi 3变体一样,HL-328和HL-388仍然使用两个晶片,因为记忆体和缓存配置未更改。使用两个晶片而不是一个晶片有助于降低性能密度,使晶片能够达到4800总处理能力(TPP)的更高出口限制。

4800TPP限制意味着没有晶片可以拥有150 TFLOPS或更多的16位元性能,并且由于Gaudi 3在BF16下可以达到1835TFLOPS,因此英特尔需要大幅降低性能。这必须通过真正大规模削减核心数量和时钟速度或其他一些性能限制方法来实现。

中媒预期HL-328和HL-388的性能与Nvidia的H20类似,H20是最快的GPU,已获准在中国销售。它具有148 TFLOPS的FB16和FP16性能,略低于150 TFLOPS限制。

由于H20和Gaudi 3的中国型号之间的原始核心性能或多或少相同,因此主要区别将归结为记忆体(英特尔的容量更大但带宽略少)和软体(这一直是一个卖点)适用于 Nvidia 晶片。