☰

22年后英特尔放弃了超线程！Lunar Lake架构深度解析

新一代酷睿Ultra处理器Lunar Lake正式亮相

6月4日，在中国台北举行的COMPUTEX 2024展前发布会上，英特尔正式公布了新一代的AI PC处理器，也就是第二代酷睿Ultra中的移动版，代号为Lunar Lake的超低功耗处理器。

要知道，酷睿Ultra（Meteor Lake）是去年12月正式发布的，距今不过半年时间，彼时，酷睿Ultra以开创性的分离式模块架构，成为英特尔客户端SoC历史上40年来的重大变革。我们以为这种架构至少会延续一段时间，最起码不应该变得这么快，但从公布的Lunar Lake架构细节来看，信息量巨大，英特尔堪称在革自己的命，比如自2002年首次推出的超线程技术不再使用，比如首次将内存集成到封装内，比如Metor Lake的低功耗能效核心LP E只存活了一代…具体细节请看我们接下来的详细解析。

首先说明一点，Lunar Lake是针对轻薄笔记本、掌机类产品设计的，侧重于低功耗、高效能以及增强的AI能力，设计功耗（TDP）仅有17瓦。根据英特尔的路线图，后续的高性能移动版以及桌面版尚在开发中，Arrow Lake、Panther Lake还需要等待一段时间。

全新性能核心砍掉超线程 E核当做P核用

Lunar Lake延续了Meteor Lake的分离式模块架构，采用3D Foveros 封装技术，但唯一的不同是：处处不同。Lunar Lake是一个全方位创新的新一代平台，无论是计算部分、还是控制部分、以及AI部分都发生了巨大的变化。简单来说：Lunar?Lake的整体功耗相比上代下降了40%；核芯显卡的游戏和图形性能提高1.5倍；全新的NPU性能达前代4倍，平台AI算力高达120TOPS。?

先来看看整个芯片架构中的Compute Tile，也就是计算模块。首先，制造工艺升级为Intel 20A（台积电N3B制程），这也是英特尔“四年五制程节点”计划中的预定推进时间。

计算模块仍然采用混合架构设计，包含8个核心，4个性能核（P核）和4个能效核（E核），不再设有LP E，也就是低功耗能效核心，并且Lunar Lake只会提供这个规格的核心组合。

全新的性能核代号Lion Cove，首要的一个变化就是取消了超线程，也就是说英特尔自2002年发布超线程技术以来，首次在主流处理器平台上去掉了这个设置，原因也很简单，通过架构优化，在取消超线程的设置下，性能功耗比反而提升了，而且还提升了性能晶片尺寸比。当然，超线程就没有存在的必要了。

这也符合Lunar Lake的设计理念：去除任何对产品没有贡献的晶体管，以达到最高能效。Lion Cove着重优化了每瓦性能，这是衡量能效比的重要指标。它有2.5MB的L2缓存以及12MB的共享L3缓存，主要用来帮助实现出色的单线程性能。同时，这种微架构的突破为后续几代的P核设计奠定了新的基础。新的设计让性能核心实现了高达14%的代际性能提升，同时实现了更低的功耗。

全新的能效核心（Skymont）则是另外一种设计理念，Intel希望让E核能够涵盖更多的日常算力要求，日常应用、非极端重载的情况下，甚至不希望P核运行，从而降低能耗。所以Lunar Lake的E核是按照与Raptor Lake的P核性能相当的目标去设计的，同时还要保持E核级别的能效水平。

从12代酷睿之后的几代芯片中，E核已经被证明是比超线程更高效的一种多线程加速手段，也就是说如果要追求多线程性能，与其赋能超线程，不如去提高E核的能效。

在Lunar Lake上，这4个能效核有4MB的L2共享缓存，与Meteor Lake的LP E核心相比，能提供2倍的单线程性能和4倍的多线程性能，而且它增加了AI向量计算的吞吐量，使得其能够用于处理复杂的AI计算任务。

Skymont提高了核内并行处理能力，并在此基础上优化了能耗。和Raptor Lake的P核相比，IPC性能提高了2%，如果与Meteor Lake的LP E核相比，整数性能提升38%，浮点性能提升68%，非常可观。

功耗方面，和Meteor Lake的LP E核相比，Skymont仅用1/3的功耗就取得了一样的性能。因为Raptor Lake功耗涵盖的范围更广，可以跑在非常高的功耗区间，所以其绝对性能还是会超过Skymont，但Lunar Lake是面向移动端的产品，所以功耗范围是低于Raptor Lake的。因此在日常工作负载时，Skymont的性能表现相当领先，同样的性能下功耗只有Raptor Lake P核的60%，同功耗下，性能又比Raptor Lake的P核高出20%。

并且，Skymont核心的微架构是灵活的，Lunar Lake上只是4核心的配置，但在不久的将来，其它产品线，如桌面级处理器都会采用Skymont微架构。所以Skymont微架构的设计初衷不仅是低核心数，它也是非常适合于多核心的部署，这个架构是有延展性的。

通过以上的分析，我们不难发现Lunar Lake的性能核和能效核的设计形成了巧妙的互补，因为二者的完美协作，在广泛的任务当中能够既能体现它的性能优势，又能节省更多的功耗，帮助笔记本获得更长的续航时间。在较低功耗的区间，E核的性能实际上更强，但P核的功率上限更好，性能宽度拉得更极致。因此尽管P核取消了超线程，整个处理器的线程数量减少了，但Lunar Lake仍然能够取得多核性能的提升。

在性能核与能效核的调度方面，英特尔Lunar?Lake中的硬件线程调度器（Intel Thread Director）也有改进与优化，带来了动态调度策略、增强算法、更精细的控制，EEM也有更大的定制范围。硬件线程调度器会充分考虑能效，如工作负载合适将优先分配给单能效核，多线程时进行能效核扩展，再根据需求引导至性能核。同时配合操作系统隔离区、加强电源管理等设计，也可以提高能效。

率先采用Xe2架构GPU图形性能与AI双提升

接下来，我们来看看Lunar Lake的GPU部分，自Meteor上首次使用锐炫独显同源的Xe-LPG架构后，核芯显卡的性能有了明显的提升，这次Lunar Lake更加勇猛，甚至先于锐炫独显就用上了新一代的Xe2 GPU微架构。

代号为Battlemage的全新GPU设计结合了两项创新技术：Xe2 GPU核心用于图形处理、Xe矩阵扩展（XMX）阵列用于人工智能。

Xe2 GPU提供了8个Xe核心，同时还有8个光线追踪单元，和上一代相比，游戏和图形性能提高了1.5倍。全新的XMX矩阵扩展单元作为第2个AI加速器，可以提供高达67 TOPS的性能，为AI内容创作提供出色的吞吐量，能够为人工智能应用在集显上运行提供更好的性能。

总结来说，全新的Xe集显加上软件优化，与上一代相比图形性能提升超过50%，同时在人工智能的计算方面，有着3.5倍的提高。

除此之外，Lunar Lake也提供了非常好的视觉体验，全新设计了显示和媒体部分。媒体引擎增加了H.266，也就是VCC（多功能视频编码），VVC的优势在于降低比特率并保持同等画质，从而减少文件大小和传输压力，可自适应分辨率码率，更加灵活，还支持屏幕内容编码流(SCC)、360度全景码流。

显示部分，全新显示引擎可支持HDMI?2.1、DP?2.1、eDP?1.5，支持三路显示，低功耗的eDP可以确保能效核高质量的显示性能。Lunar Lake还提升了IPU影音处理单元的能力，主要提供了增强型的时域噪声抑制，以及多帧静态处理和改进的双重曝光校错HDR。

史上最强的AI算力 NPU性能提高3倍

既然是第二代AI PC，那么NPU自然是另一个重点。Lunar Lake上的NPU被命名为NPU 4.0，对，不是2.0而是4.0，因为事实上2018年的神经网络单元就是NPU的1.0版本。

全新的NPU 4与上一代的Meteor Lake相比，性能大幅提高3倍之多，算力达到48TOPS。英特尔表示Lunar Lake的NPU 4是“面向AI PC的最大的集成和专用AI加速器”。

NPU 4拥有12个用作向量计算的增强SHAVE?DSP，6个带有缓存的神经计算引擎，支持原生激活功能和数据转换以及大语言模型的嵌入标记化。新的NPU架构级效率提升，使得英特尔大规模人工智能战略向前又跨出了一大步。

当然，AI计算不能只靠NPU，Lunar Lake的AI性能仍然聚合了GPU、CPU与NPU的多元算力，把所有的XPU加在一起，一共可以提供高达120 TOPS的算力。通过三种XPU不同的性能特点，Lunar Lake能够使得所有的AI应用、用例得到完美的支持。这意味着更多参数的大模型可以在本地运行，更重负载的AI应用也能有更大的发挥空间。Lunar Lake将成为AI PC更强大的基石。

首次使用封装级内存先进的平台控制模块

Lunar Lake还有另外一个极其重要的特性——封装级内存。通过使用新的MoP（Memory on Package）封装技术将内存芯片首次集成到SoC中，2颗内存容量最高32GB，支持LPDDR5x，每个芯片最高8.5GT/s(8500MHz)，支持4个16bit通道。

由于内存就在SoC内部，因此缩短了内存走线，可以将Memory的物理功耗降低高达40%，这将带来更好的功耗表现，同时对于AI和图形性能的提升也有帮助。MOP还可以减少内存占用面积，从而使得PCB的层数能够降低，降低电路板设计的复杂性。

不过但要注意的是，使用MoP后，就不再支持外接内存，也就是笔记本的内存就是固定容量，不能再扩展了。

特别的是，Lunar Lake上首次引入了内存侧的缓存区（Memory side cache），用来提升系统效率和系统性能。它有8MB的物理缓存，能够把一些经常使用的数据缓存在这里，以减少对DRAM的访问，降低功耗，提高反应速度。同时，还可以缓存一些IO引擎，缓存区是高度可配置的，允许在引擎之间动态分配，适用于不同的应用。

Lunar Lake的平台控制模块（Platform Controller tile）也是一大亮点，集成了PCIe 5.0/4.0控制器、雷电4控制器、USB控制器、Wi-Fi与蓝牙控制器、安全引擎等，重点在连接性方面进行了提升。Lunar?Lake提供最多4条PCIe 5.0、4条PCIe?4.0总线通道，支持Wi-Fi 7(5G Gig)，支持蓝牙5.4，支持雷电4及雷电共享技术。计算模块与平台控制模块通过可扩展第二代交叉总线以及D2D界面互联，另外Lunar?Lake还集成4个电源控制器，可实现增强遥测，可动态调节电压。Lunar Lake的电源管理架构也有了变化，独立的PMIC与全新的能效核心、增强的英特尔硬件线程调度器、内存侧缓存等一起，优化了能效，实现了整个SoC的既定设计目标。

变革之后是更大的变革一切皆可再超越

去年发布的英特尔Meteor Lake平台，无论是技术层面，还是AI层面，都足以在英特尔的历史中成为浓墨重彩的一页，只是没想到，仅仅半年之后，英特尔就开始革自己的命，创新之上在创新，全新的Lunar Lake变化之大令我们感到惊讶。

也许正如英特尔公司创始人戈登·摩尔先生在2015年说的那句话一样，“WHATEVER HAS BEEN DONE, CAN BE OUTDONE”，超越永无止境，AI时代，一切才刚刚开始。

据悉，Lunar Lake目前已经进入晶圆和芯片量产阶段，将在第三季度正式发布。Lunar Lake将为来自20家OEM的80多款AI PC提供动力。英特尔预计在今年交付超过4000万片英特尔酷睿Ultra处理器。

当下，对于英特尔来说，还有另外一个最重要的事情就是持续加强与操作系统、ISV厂商、大模型厂商以及开发者们的合作，继续推动AI PC的生态建设，确保大模型以及软件能够在英特尔的GPU和NPU上有更深层的优化，以带给用户更好的体验。毕竟AI PC这个赛道上，AMD、高通都也在发力，千帆竞发，谁能勇立潮头？我们拭目以待！

22年后英特尔放弃了超线程！Lunar Lake架构深度解析

相关资讯