英特尔LunarLake架构解析:单核暴增、Xe2首秀

2024年6月初,英特尔方面在COMPUTEX展会期间正式公布了传闻许久的LunarLake平台具体信息。

作为英特尔的下一代低功耗笔记本电脑计算平台,LunarLake的定位毫无疑问是接替现在的MeteorLake。但从它的具体设计上来说,LunarLake又并非简单地基于本世代进行的规格增强,因为它的变化实在是太大、甚至可以说是有点“颠覆”。

那么,这一世代的英特尔移动平台究竟是如何设计,它又会带来产品形态、技术路线上怎样的影响呢?接下来,就让我们一起来看看刚刚公布的LunarLake架构相关信息吧。

变化综述:4+4CPU、集成内存、NPU性能暴增

首先,我们简述一下LunarLake的几大特征。

在CPU方面,LunarLake采用了最高4P+4E的设计。不得不说这其实挺让人意外,因为上一代的MeteorLake最多可是拥有6P+8E+2LPE的16核CPU,因此英特尔如何用一半的核心数量实现性能提升,显然会是这次的重点。

在GPU方面,LunarLake一如我们此前猜测的那样,集成了全新的Xe2架构核显。它除了更大的GPU规格之外,一个很显著的变化,就是重新加入了之前在“核显版”ARC上被删掉的XMX矩阵计算单元。

与此同时,LunarLake也成为英特尔历史上第二款集成内存的CPU设计。之所以说是第二款,是因为在之前的13代酷睿平台上,已经有了i9-13905H这款带有实验性质、采用“超短内存布线”设计的方案存在。当时它就已经证明,将内存直接集成在CPU基板上,可以很容易地换来比常规内存或者主板焊接内存高得多的频率(因为布线更短、干扰就更少,有利于使用更高频的颗粒)。LunarLake显然便是这种设计思路的“推广化”应用。

最后,LunarLake的内置NPU规格也从前代的10TOPs,一跃提升到了最高48TOPs。而且它的GPU现在也具备高达67TOPs的AI性能,再加上5TOPs算力的CPU,总计便能达到120TOPs的“平台AI算力”。

很显然,LunarLake明显是一款迎合当下“AI PC”潮流的处理器设计。但比起AI特性,它的其他一些部分可能更加值得关注。

“超宽型”CPU设计,小核已能达到过去大核得性能

LunarLake“凭什么”敢于用4+4核的CPU设计?其中一个很大的原因,就是它的CPU架构迎来了巨大改动。特别是其中的E核(能效核、小核),性能相比前代更是提升了2-4倍之多。所以哪怕只有4核心,实际性能已经未必输给前代的8E配置了。与此同时,它的P核这一次改动也不小。

首先是E核。LunarLake此次采用了全新的E核设计,它取消了前代MeteorLake里位于低功耗岛里面的LPE(超低功耗能效)核心,因此相当于“回归”了从12代酷睿开始的“P+E”混合架构。这也就意味着LunarLake的E核这一次既要用更少的核心数量实现足够高的峰值性能,又要能够在低频率运行时做到极低的功耗,以取代之前LPE核心的功用。

那么它是怎么做到的呢?简单来说,这源自新一代的“Skymont”架构。而它的变化用一个字其实就可以形容,那就是“宽”。

与前代的E核相比,Skymont架构的解码单元采用了3*3的9宽度设计,比前代增加了足足50%。

同时,它的乱序执行引擎也大幅加宽。其分配宽度从6发射改成了8发射,指令退役单元从8宽度倍增到16宽度,乱序执行窗口的重定序缓冲(ROB)容量从256大幅增至416个指令。除此之外,更深的指令队列长度、更大的加载和存储缓冲区,以及多达26个预取接口,都使得Skymont架构在各种意义上来说的核心规模,都已经超过了名称相似的经典架构Skylake。

这里还有个很有意思的的伏笔,那就是Skymont架构这次内置了四组128bit的浮点和SIMD矢量单元。嗯,四组128bit,相信大家懂得都懂,看来AVX512、或者更准确地来说AVX10.1指令集降临消费级E核的日子,或许是不远了。

根据英特尔方面公布的相关数据来看,Skymont架构E核现在的单核整数IPC相当于前代LPE节能核138%的水平,浮点性能则是168%。

算上频率增长带来的性能提升之后,全新的E核现在每一个核心已经可以顶过去2个低功耗核的水准,甚至是在低功耗范围上胜过13代酷睿的Raptor Cove大核。换句话说,LunarLake现在的每一颗能效核,都有着比过去“性能核”还要高的同频性能、同时还能兼顾到“LPE”级别功用的超低功耗。而这,便是它敢于只设计四个E核的底气了。

更大更强的性能核,架构设计上还有伏笔

讲完了LunarLake的能效核,接下来我们来说说它的性能核,也就是俗称的P核、大核。

与能效核一样,英特尔此次也完全重新设计了新处理器的性能核架构,现在它使用的是名为“Lion Cove”的新架构。

与Skymont一样,更宽更大的并发处理能力也是Lion Cove架构的主要改进思路。比如它的前端部分将预测区块增大了8倍之多,拥有更宽的预取单元,同时还增加了微操作的缓冲容量。

而在执行单元部分,Lion Cove将分配/重命名单元的宽度从6增加到8个,指令退役单元的宽度从8个增加到12个,指令窗口深度从512增加到576,同时执行接口也从12个增加到18个。

与此同时,Lion Cove架构现在拥有更大规模的整数执行设计,它的算数逻辑单元从5个增加到6个,64*64乘法单元从1个增加到3个。

而在浮点部分,Lion Cove的256bit SIMD单元也从3个增加到了4个,浮点除法器数量翻倍,同时还降低了乘加运算的指令延迟。此外值得注意的是,大家都知道隔壁AMD是用两个256bit SIMD单元去实现的AVX512指令集兼容,而英特尔这次将Lion Cove内部的256bit SIMD单元数量增加为4组,也算是再次暗示了未来512bit向量指令集在消费级CPU上回归的可能。

或许是为了更好地应对更宽、吞吐量更大的架构设计,英特尔还首次在Lion Cove架构里引入了大容量的L0缓存。当然,其实说他们是增加了新的“L1.5”缓存或许更准确。因为从本质上来说,现代CPU其实都会带有很小的L0(通常只有几KB、甚至不到1KB)用于存储微操作指令。而从Lion Cove与前代Redwood Cove(注:MeteorLake的性能核)的对比中就不难发现,新的缓存实际上相当于在L1和L2中间加入了新的缓冲层,以缓解更大、但循环周期更长的L2对延迟造成的影响。

从官方公布的数据来看,Lion Cove性能核架构的IPC比前代提升大约在14%,而且尤其在低频部分的优势会更加明显、接近20%。

放弃超线程,但多线程能效反而得以大增

除了更宽的架构设计,LunarLake的CPU部分这次还有一个很大的变化,那就是取消了性能核的超线程功能。

需要注意的是,根据英特尔方面的说法,取消超线程并不一定是架构层面的硬件不支持,主要是出于平台能效比做的决定。因为他们发现,对于如今的“性能核”来说,增加超线程功能可以提供大约30%的多线程增益,但同时会多消耗20%的功耗。

但是由于LunarLake的能效核性能比过去一下子强了太多,这就使得性能核的超线程单元相比之下反而就很“不划算”了。因为现在新处理器的能效核与性能核之间的差距,已经没有过去那么大,所以他们的办法就是直接用能效核去承担更多的多线程运算。

与此同时,LunarLake处理器现在拥有大幅改进的“线程调度器”和电源管理特性。它的小核现在具备单独的电源管理单元,同时大核的主频调节步进不再是过去的100MHz、而是细化为可以按照16.67MHz为一个步进、进行频率的自动调整。

这样一来,一方面操作系统(目前主要是Windows 11的最新版本)可以更加清楚地“知道”,什么类型的程序应该被放在什么种类的核心上运行,从而避免过去性能核动不动被低功耗程序所激活,白白浪费功耗的情况出现。

另一方面,当笔记本电脑处于受限功耗场景(比如电池模式、或者低噪声散热模式)时,新的处理器可以尽可能地根据实时性能需求更细密地调整主频,从而解决了过去粗放式的睿频机制所导致,低功耗模式下主频太低、性能不够用的问题。

核显补齐短板,内存设计杜绝“简配”

最后,我们来聊聊LunarLake这一代的核显部分设计。

实际上,LunarLake的核显会加回XMX单元这件事,我们三易生活很早之前就已经猜到。因为对现代的Intel ARC独显来说,XMX单元不仅是重要的AI计算资源,而且对于游戏内的AI超分、AI HDR等最新的画面增强功能,也会提供很大的帮助。

不过在具体的架构上,LunarLake这次集成的Xe2 GPU架构又绝非是简单地“加回XMX单元”。因为除此之外,它还大幅提升了内部渲染切片的吞吐率,将纹理预取和网格遮罩性能都增加到了原来的3倍。

与此同时,新的GPU内核也同样采用了“更大更宽”的改进思路。其采样吞吐量、渲染吞吐量全部翻倍,像素色彩缓冲增大了33%。同时英特尔还全面重新设计了Xe2的光追引擎,大幅提升了光追的计算效率,降低了开启光追之后的帧率损失。

根据官方公布的数据显示,与前代Xe架构的ARC核显相比,LunarLake的Xe2架构在单时钟周期下的光追性能达到了前代的1.6倍,采样反馈性能为前代2.7倍,网格渲染性能可达4倍以上。同时得益于XMX单元的引入,在多个AI计算场景下,Xe2的同频性能都能达到前代的4倍。

这里特别值得一提的是,Xe2架构增加了对于Excute Indirect功能的硬件支持。而这则是最新版Direct 12里引入的技术特性,它完全改变了GPU的工作方式,让GPU不需要再等待CPU的指令,可以自主地“安排”高并发的draw和dispatch任务。

根据实测数据显示,与过去依赖CPU进行“指挥”的GPU架构相比,Xe2的这一改进使得它在新版系统下的dispatch速度提升了7倍、draw速度提升了12.5倍,毫无疑问堪称是革命性的增强。

当然大家都知道,要想充分地发挥核显性能,足够高带宽的内存是必须的。在之前的MeteorLake上,英特尔虽然提供了对LPDDR5X-7500内存的支持,但并未强制OEM厂商使用这种高频内存。因此也给了部分品牌“节约成本”,换用普通DDR5-5600内存的可能性。

但到了LunarLake这一代,情况就完全改变了。因为新处理器直接采用了集成内存的设计,可以将16GB或32GB的LPDDR5X-8533内存集成到CPU基板上。

虽然可以说这样的设计也就意味着LunarLake不可能再去适配更大的内存,不过没关系,考虑到LunarLake的定位,它对应的同世代“高性能向”移动平台,注定会是同样在今年登场的“箭湖”变体。而后者采用了与LunarLake同宗同源的CPU核心设计,并且几乎一定可以支持更大容量的内存配置,以满足那些移动工作站,以及下一代游戏本的需求。

总结:主打低功耗,但也带来了新的希望

总的来说,LunarLake可以说是英特尔这几年以来变化最大的一次处理器设计。如果按照代次间变化程度的大小去评判,那么它的“新意”甚至可能比11代酷睿到12代酷睿的变化还要更大一些。

当然不能否认的是,无论是最大4P+4E的CPU布局、最高32GB的片上内存设计,还是其所采用的集成式WiFi新方案,这些都表明LunarLake注定会是一款更注重“低功耗”、主打超轻薄笔记本电脑、x86掌机等等设备的处理器设计。

官方已经明示,新架构同样会被用于桌面端新品

但这就会带来一个问题,那就是LunarLake很可能并不能完全覆盖现在MeteorLake的市场区间。因为后者毕竟有6P+8E+2LPE的高功耗版本被用在一些游戏本、甚至是工作站级别的产品中,而LunarLake就未必可以满足它们的配置需求。

不过英特尔方面在发布LunarLake的过程中也多次提及,这次的CPU、GPU采用的都是可扩展的模块化架构。比如其Skymont E核,未来在高性能处理器上就必然还会有8核、16核,甚至是更多核心数量的版本,Lion Cove P核在更注重纯粹性能的“纯大核”处理器上,也完全可以加入超线程功能。

所以这实际上也就意味着,LunarLake的意义并不仅仅是一代新的超轻薄AI笔记本电脑芯片方案,它的许多基础架构将来都会被继承到英特尔新的高性能桌面CPU、高性能游戏本CPU、独立显卡,甚至是服务器和工作站产品线上。反过来说,这也代表着LunarLake很可能会是英特尔全新的软件优化、指令集优化生态和驱动适配服务的一个“新起点”。所以它“战未来”的潜力,或许比我们现在想象的还要更大一些。