網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英特爾Panther Lake淺析：AI提升50%，18A的絕地反擊

2025-10-09 21:02:52　來(lái)源: 愛(ài)極物

上海舉報(bào)

分享至

回顧酷睿Ultra的成長(zhǎng)史，會(huì)發(fā)現(xiàn)產(chǎn)品誕生到發(fā)布之間，英特爾都承擔(dān)著來(lái)自各方的多重壓力。而在壓力之下，破釜沉舟的技術(shù)革新讓也人印象深刻。從Meteor Lake在架構(gòu)設(shè)計(jì)上大改開(kāi)始，到Lunar Lake的效能、GPU和AI性能大幅更新，兩代酷睿Ultra著實(shí)拿出了不少令人驚艷的產(chǎn)品。但無(wú)奈成本和市場(chǎng)壓力，讓英特爾以更快的速度進(jìn)行產(chǎn)品迭代，被反復(fù)提及的Panther Lake終于正式擺上了臺(tái)面。

Panther Lake從誕生之初就自帶很多光環(huán)，它即能擁有Lunar Lake長(zhǎng)續(xù)航與AI性能，也具備比Arrow Lake更好的多線程表現(xiàn)，更重要的是，它是英特爾18A制程的第一款產(chǎn)品，并且用上了NPU 5和Xe3 GPU，將AI性能提升到了180 TOPS，足足提升50%。

距離Lunar Lake發(fā)布僅一年時(shí)間，就能看到產(chǎn)品力再度大幅提升的Panther Lake，光憑這一點(diǎn)，就讓人覺(jué)得很不“英特爾”，一點(diǎn)都不擠牙膏。

那么這次擠爆牙膏的性能究竟從何而來(lái)？在前段時(shí)間，筆者有幸參觀了英特爾位于亞利桑那州的Fab 52晶圓廠，獲取了關(guān)于Panther Lake更多細(xì)節(jié)。這款即將奠定未來(lái)筆記本電腦基調(diào)的處理器，會(huì)發(fā)生什么樣的變化，趁著解禁，慣例奉上一年一度的技術(shù)淺析。

為了方便閱讀，筆者將Panther Lake的大致變化和特點(diǎn)放在第一章節(jié)，如果時(shí)間有限，看完第一章節(jié)概覽即可。而如果你對(duì)Panther Lake有更多興趣，其余的章節(jié)會(huì)向你分享Darkmont E-Core、Cougar Cove P-Core，以及NPU 5、Xe3 GPU的更多細(xì)節(jié)。

概覽：來(lái)自18A的戰(zhàn)斗力

Panther Lake延續(xù)了Meteor Lake以來(lái)多個(gè)模塊（Tile）和多種制程拼接的設(shè)計(jì)理念，盡可能小的模塊能夠更好的良率，并通過(guò)英特爾自家的Foveros-S 2.5D實(shí)現(xiàn)連接，實(shí)現(xiàn)效能、成本的最大化利用。這也給Panther Lake架構(gòu)設(shè)計(jì)奠定了一個(gè)主要基調(diào)，即：通過(guò)架構(gòu)創(chuàng)新實(shí)現(xiàn)更廣泛的市場(chǎng)適配、全負(fù)載性能擴(kuò)展與每瓦性能提升。

圍繞這個(gè)基調(diào)，Panther Lake實(shí)現(xiàn)了三個(gè)方向的升級(jí)：

提升架構(gòu)靈活性：以滿足更廣泛的市場(chǎng)需求，例如對(duì)應(yīng)游戲本、輕薄本或者邊緣計(jì)算場(chǎng)景，可以在Panther Lake同一架構(gòu)下提供不同的產(chǎn)品；

全負(fù)載性能擴(kuò)展：覆蓋CPU、GPU、NPU三大關(guān)鍵升級(jí)，全維度性能提升；

能效優(yōu)先：持續(xù)追求每瓦性能表現(xiàn)，注重性能與功耗平衡。

借助架構(gòu)上的可擴(kuò)展支持，Panther Lake技能夠?qū)崿F(xiàn)Lunar Lake上超強(qiáng)的x86能效表現(xiàn)，也可以實(shí)現(xiàn)Arrow Lake上諸如多線程的性能擴(kuò)展能力。更確切的說(shuō)，英特爾將每一個(gè)模塊的IP進(jìn)行獨(dú)立設(shè)計(jì)，通過(guò)成熟且成本可控的Foveros-S 2.5D完成封裝，從而實(shí)現(xiàn)第二代可擴(kuò)展架構(gòu)（Scalable Fabric Gen 2），滿足不同的細(xì)分市場(chǎng)。

這里讓我們先說(shuō)結(jié)論。Panther Lake架構(gòu)根據(jù)產(chǎn)品細(xì)分目前做成了三個(gè)版本，坊間聽(tīng)到的數(shù)個(gè)版本多個(gè)數(shù)量的CPU與GPU以及I/O搭配，均是基于這三個(gè)版本而來(lái)，它們分別是：

8 Core + 4 Xe3

計(jì)算模塊（Compute Tile）由Intel 18A打造，包含4個(gè)P-Core，4個(gè)LP E-Core，共計(jì)8核。計(jì)算模塊內(nèi)還包含用于攝像頭增強(qiáng)的IPU 7.5，50 AI TOPS算力的NPU 5，8MB內(nèi)存?zhèn)染彺妫瑑?nèi)存最高支持LPDDR5x-6800，DDR5-6400。

GPU模塊（GPU Tile）為4個(gè)Xe3核心，包含4個(gè)光線追蹤單元。平臺(tái)控制模塊（PCD Tile）提供8條PCIe 4.0和4條PCIe 5.0，共計(jì)12條PCIe通道，同時(shí)最高支持4個(gè)Thunderbolt 4，2個(gè)USB 3.2，8個(gè)USB 2.0，Wi-Fi 7（R2），藍(lán)牙6.0。

可以看到，這個(gè)版本是唯一不帶E-Core的版本，定位于超低電壓版本。在線程管理上與現(xiàn)在的Lunar Lake類似。

16 Core + 4 Xe3

計(jì)算模塊（Compute Tile）由Intel 18A打造，包含4個(gè)P-Core，8個(gè)E-Core，4個(gè)LP E-Core，共計(jì)16個(gè)核心。同時(shí)也包含IPU 7.5，50 AI TOPS算力的NPU 5，8MB內(nèi)存?zhèn)染彺妫瑑?nèi)存最高支持LPDDR5x-8533，DDR5-7200。

GPU模塊（GPU Tile）為4個(gè)Xe3核心，包含4個(gè)光線追蹤單元。平臺(tái)控制模塊（PCD Tile）提供8條PCIe 4.0和12條PCIe 5.0，共計(jì)20條PCIe通道，同時(shí)最高支持4個(gè)Thunderbolt 4，2個(gè)USB 3.2，8個(gè)USB 2.0，Wi-Fi 7（R2），藍(lán)牙6.0。

這個(gè)版本擁有更多的PCIe通道，以及提供了對(duì)DDR5內(nèi)存的多樣化支持，明顯是為了匹配獨(dú)立顯卡版本的游戲筆記本、移動(dòng)工作站所準(zhǔn)備的。

16 Core + 12 Xe3

GPU模塊（GPU Tile）高達(dá)12個(gè)Xe3核心，包含12個(gè)光線追蹤單元，僅憑GPU模塊就能提供120 AI TOPS算力，配合CPU的10 AI TOPS和NPU 5的50 AI TOPS，在XPU的調(diào)度協(xié)同下，整個(gè)處理器可以獲得180 AI TOPS算力，相對(duì)上一代Lunar Lake提升了50%。順帶一提，AMD因?yàn)槿狈PU協(xié)同調(diào)度能力，不同CPU、GPU、NPU之間的算力是比較難實(shí)現(xiàn)協(xié)同調(diào)度的，因此AMD在宣傳AI性能的時(shí)候，會(huì)有意規(guī)避這一點(diǎn)。

平臺(tái)控制模塊（PCD Tile）提供8條PCIe 4.0和4條PCIe 5.0，共計(jì)12條PCIe通道，同時(shí)最高支持4個(gè)Thunderbolt 4，2個(gè)USB 3.2，8個(gè)USB 2.0，Wi-Fi 7（R2），藍(lán)牙6.0。

在筆者看來(lái)，這也是英特爾工程師們對(duì)于Panther Lake定義的完全體，也是旗艦級(jí)便攜筆記本、Windows游戲掌機(jī)的最終展現(xiàn)形態(tài)。

這樣的架構(gòu)優(yōu)勢(shì)在于，通過(guò)Foveros-S 2.5D，在封裝下就可以滿足應(yīng)付所有場(chǎng)景的設(shè)計(jì)，GPU模塊屬于獨(dú)立IP，不僅可以交給臺(tái)積電制造，還可以根據(jù)產(chǎn)品安排提供諸如4核Xe3或者12核Xe3版本，所有的I/O IP都集中在了平臺(tái)控制模塊（Platform Controller Tile，PCD Tile）中，主要的計(jì)算單元、媒體引擎則聚集在計(jì)算模塊（Compute Tile）中。

值得注意的是，Panther Lake中采用英特爾18A制程工藝主要是指計(jì)算模塊（Compute Tile），GPU模塊（GPU Tile）和平臺(tái)控制模塊（PCD Tile）則根據(jù)不同的版本使用不同的工藝制程，比如4核Xe3來(lái)自于Intel 3制程工藝，12核Xe3則來(lái)自于臺(tái)積電。

三款型號(hào)的整體對(duì)比圖如下。英特爾在正式推出酷睿Ultra 300系列產(chǎn)品的時(shí)候，會(huì)根據(jù)產(chǎn)品定位對(duì)這三個(gè)型號(hào)進(jìn)行一定核心刪減，從而細(xì)分出不同定位的產(chǎn)品。而文章中提到的IPU 7.5，NPU 5，Xe3核顯以及連接性等細(xì)節(jié)，文章的后半部分都會(huì)提供詳細(xì)的解釋。

所有核心和電源管理通過(guò)升級(jí)后的Intel Thread Director線程調(diào)度器完成，在調(diào)度邏輯上，按照LP E-Core，E-Core，再到P-Core進(jìn)行分配。升級(jí)后的線程調(diào)度器擴(kuò)展了實(shí)際繁忙的應(yīng)用范圍，支持跨核心類型的并發(fā)執(zhí)行反饋，因此也可以更好的避免效能核心搶性能核心工作的尷尬。

即插即用（PnP）決策從軟件層遷移到了SoC硬件層，以實(shí)現(xiàn)更精確的功耗控制，保證在AC/DC電源連接模式、效能/續(xù)航模式、Windows/Chrome/Linux跨平臺(tái)系統(tǒng)下電源控制的一致性。

另外，Panther Lake也宣布正式支持LPCAMM2內(nèi)存模組，在英特爾DEMO區(qū)筆者看到了來(lái)自美光英睿達(dá)LPCAMM2 8533 MT/s產(chǎn)品展示。

無(wú)論對(duì)比酷睿Ultra 200系列的Lunar Lake還是Arrow Lake，Panther Lake的提升都是驚人的。

在CPU方面，Panther Lake相比Lunar Lake單線程性能提升高于10%，相同功耗下，Panther Lake相比Lunar Lake、Arrow Lake在多線程性能表現(xiàn)上50%的提升。其中Panther Lake相比Arrow Lake，在相同的多線程性能下，功耗還可以降低30%。

GPU部分提升則更為明顯，12核Xe3可以直觀的帶來(lái)50%的性能提升。

NPU 5部分則是AI TOPS/面積利用率提升了40%，換而言之，NPU 5雖然僅從Lunar Lake NPU 4的48 TOPS提升到了現(xiàn)在的50 TOPS，但占用面積小將近一半。

從整體來(lái)看，Panther Lake相對(duì)Lunar Lake降低了10%的功耗，相對(duì)Arrow Lake降低了40%的功耗。另外由于IPU 7.5的性能加強(qiáng)，Panther Lake相對(duì)Lunar Lake在相同的硬件HDR場(chǎng)景下，功耗可以降低1.5W。

基本上來(lái)說(shuō)，Panther Lake通過(guò)更細(xì)的模塊化架構(gòu)、18A制程工藝、組件升級(jí)實(shí)現(xiàn)了靈活擴(kuò)展、性能提升、效能提升的核心目標(biāo)，因此也不限于CPU、GPU、NPU的加量，還在于線程調(diào)度器、電源管理、跨場(chǎng)景應(yīng)用體驗(yàn)一致性的提升。在概覽結(jié)束后，接下來(lái)讓我們進(jìn)入正題。

Darkmont E-Core：多線程與節(jié)能的主角

現(xiàn)在我們知道，Panther Lake的計(jì)算模塊（Compute Tile）帶來(lái)了兩個(gè)全新的IP，分別是Cougar Cove P-Core和Darkmont E-Core，兩款核心都針對(duì)18A制程工藝進(jìn)行優(yōu)化，無(wú)論P(yáng)-Core還是E-Core都提升了IPC性能，并且在較低的功耗下?lián)碛懈玫谋憩F(xiàn)，確保筆記本在離電狀態(tài)下?lián)碛邢嗤男阅埽约皳碛懈L(zhǎng)的續(xù)航。

Panther Lake多線程提升的優(yōu)勢(shì)在于使用了最多12個(gè)Darkmont作為E-Core提供多線程支持，進(jìn)而讓Panther Lake多線程能力和節(jié)能上有顯著提升。

值得注意，Darkmont不僅用在E-Core中，也用在LP E-Core中，同時(shí)也是至強(qiáng)6+（Xeon 6+）處理器Clearwater Forest的計(jì)算核心，幫助至強(qiáng)6+一舉拿下288核壯舉，后續(xù)我們會(huì)有專門的文章進(jìn)行詳細(xì)說(shuō)明。

與Meteor Lake和Lunar Lake的E-Core相似，每4個(gè)E-Core為1個(gè)計(jì)算集群，無(wú)論哪個(gè)型號(hào)，E-Core和LP E-Core數(shù)量都將是4的倍數(shù)。每1個(gè)計(jì)算集群E-Core會(huì)共享4MB L2緩存。

E-Core和LP E-Core雖然在架構(gòu)上相同，但是緩存的訪問(wèn)策略是不一樣的。LP E-Core不直接與L3緩存（即LLC末級(jí)緩存）直接連接，而是通過(guò)一致性代理（Coherency Agent，CA）實(shí)現(xiàn)跨集群的數(shù)據(jù)同步與仲裁。

E-Core則是由L3緩存（即LLC末級(jí)緩存）上的一致性代理（Coherency Agent，CA）進(jìn)行統(tǒng)一調(diào)度。

這里有一個(gè)小彩蛋。Lunar Lake的E-Core實(shí)際上也是不與LLC末級(jí)緩存環(huán)（L3緩存環(huán)）連接，如果按照Panther Lake的定義，Lunar Lake的E-Core應(yīng)該屬于LP E-Core，這樣也正好與Panther Lake的8 Core版本類似。實(shí)際上由于一致性代理（Coherency Agent，CA）的存在，兩者在溝通的邏輯層不存在任何阻礙，主要還是根據(jù)能耗策略對(duì)核心進(jìn)行命名，方便了解。而事實(shí)上，在最新的Roadmap中，英特爾也是這么定義的。

現(xiàn)在我們把關(guān)注點(diǎn)放到核心微架構(gòu)上。這次E-Core架構(gòu)代號(hào)為Darkmont，不僅應(yīng)用在Panther Lake上，至強(qiáng)6+處理器同樣使用Darkmont E-Core作為核心，進(jìn)而構(gòu)建出288核的強(qiáng)力產(chǎn)品。

Darkmont可以看成上一代酷睿Ultra 200系列中E-Core的Skymont的進(jìn)階，例如在執(zhí)行引擎（Execution Engine）中增加多項(xiàng)式乘法單元（CLMUL）硬件單元，同時(shí)亂序引擎的退役（Retirement）也提升至16寬，比Crestmont的8寬和Skymont的12寬都要高。

這里英特爾使用的是上一代至強(qiáng)E-Core Crestmont與Darkmont進(jìn)行對(duì)比，主要圍繞前端、亂序引擎、執(zhí)行引擎、內(nèi)存子系統(tǒng)、性能與能效提升的維度展開(kāi)。

先是前端（Front-End）設(shè)計(jì)提升了指令處理效率。Darkmont擁有64KB指令緩存，結(jié)合增強(qiáng)型分支預(yù)測(cè)期，能夠減少指令獲取延遲。指令帶寬支持3x 32bit并行，對(duì)比Crestmont提升50%，并采用3個(gè)3寬亂序解碼器（3-wide out-of-order decoders），解碼能力對(duì)比Crestmont從6寬提升至9寬，以此獲得更好的指令解碼并行度。

Darkmont與Skymont一樣，微操作隊(duì)列（μOP）容量從Crestmont的64項(xiàng)擴(kuò)展至96項(xiàng)，減少指令在隊(duì)列中的阻塞。

亂序引擎（Out-of-Order Engine）用于增強(qiáng)并行處理能力。Darkmont支持8寬分配（Allocation/Rename），相比Crestmont的6寬分配有所提升。由于處理器流水線中，指令的執(zhí)行是一個(gè)多階段的過(guò)程，當(dāng)一條指令完成了其所需的所有操作后，它就會(huì)從亂序引擎中退役（Retirement），以便為下一條指令騰出空間。這里英特爾將Crestmont的8寬退役（Retirement）增加到16寬，也相對(duì)于Skymont的12寬退役有所提升。

另外Darkmont亂序執(zhí)行窗口容量達(dá)到416項(xiàng)目，遠(yuǎn)超Crestmont的256項(xiàng)，能更充分地發(fā)現(xiàn)程序中的數(shù)據(jù)并行性，減少指令依賴導(dǎo)致的等待。調(diào)度端口從Crestmont的17個(gè)增加至26個(gè)，可同時(shí)調(diào)度更多操作至執(zhí)行單元。

接下來(lái)是執(zhí)行引擎（Execution Engine）針對(duì)計(jì)算與向量處理進(jìn)行優(yōu)化，在執(zhí)行引擎中分為標(biāo)量引擎（Scalar engine）和向量引擎（Vector engine）。標(biāo)量引擎包括8個(gè)整數(shù)ALU（Scalar ALU）、3個(gè)跳轉(zhuǎn)端口（JMP），向量引擎包括4個(gè)128b向量FMA（浮點(diǎn)乘加）單元、4個(gè)向量/浮點(diǎn)ALU、2個(gè)向量/浮點(diǎn)存儲(chǔ)數(shù)據(jù)端口，地址生成包括4個(gè)AGU（地址生成單元）、2個(gè)整數(shù)存儲(chǔ)數(shù)據(jù)端口。

值得注意的是，多項(xiàng)式乘法（Carry-Less Multiplication, CLMUL）是此次在執(zhí)行引擎中新增的單元，Skymont中是沒(méi)有的。

接下來(lái)是核心內(nèi)存子系統(tǒng)（Core Memory Subsystem），主要聚焦低延遲、高帶寬與高容錯(cuò)。包括32KB支持ECC的L1數(shù)據(jù)緩存，4MB L2共享緩存。L2緩存帶寬從Crestmont的64B/cycle提升至128B/cycle，數(shù)據(jù)吞吐量翻倍，相對(duì)于Skymont持平。

在內(nèi)存訪問(wèn)優(yōu)化方面，提供3路加載（Load）、2路存儲(chǔ)（Store），配備深度加載/存儲(chǔ)緩沖，支持128個(gè)未完成的L2缺失（Outstanding L2 Misses），減少內(nèi)存等待導(dǎo)致的性能損耗。現(xiàn)在全緩存層級(jí)集成高級(jí)預(yù)取器，能識(shí)別多種數(shù)據(jù)流模式，提前加載數(shù)據(jù)。在容錯(cuò)方面，支持?jǐn)?shù)據(jù)污染防護(hù)（Data Poisoning）、可恢復(fù)機(jī)器檢查（Recoverable Machine Check）、核心鎖步（Core Lockstep），并兼容52位物理地址。

這里放出Crestmont與Darkmont的對(duì)比：

從能效表現(xiàn)上，Darkmont相對(duì)Crestmont有著明顯優(yōu)勢(shì)，得益于前端帶寬、亂序窗口和執(zhí)行端口擴(kuò)容，IPC（每時(shí)鐘周期指令數(shù)）顯著提升。同時(shí)Darkmont也幫助英特爾至強(qiáng)6+性能相比至強(qiáng)6780E提升1.9倍性能，全負(fù)載范圍內(nèi)能效提升23%，服務(wù)器整合比達(dá)到8:1，這對(duì)歐美供電不平均地區(qū)而言很有吸引力。可以這么說(shuō)，Darkmont無(wú)論在至強(qiáng)還是Panther Lake上，都發(fā)揮了很重要的作用。

Cougar Cove P-Core：18A的高光時(shí)刻

Panther Lake的18A制程工藝可以總結(jié)為4個(gè)關(guān)鍵技術(shù)點(diǎn)，即：

庫(kù)與陣列啟用（Library and array enabling）：確保核心IP在18A工藝下穩(wěn)定運(yùn)行

密度優(yōu)化（Density）：提升芯片單位面積的晶體管密度

供電設(shè)計(jì)（Power delivery）：適配先進(jìn)工藝的低功耗供電需求

信號(hào)完整性（Signal integrity）：減少高頻信號(hào)干擾，保障核心穩(wěn)定運(yùn)行

在18A的條件下，Cougar Cove P-Core主打單線程性能與高吞吐，并且在架構(gòu)上有所優(yōu)化。包括配備18個(gè)執(zhí)行端口（Execution ports），深度指令窗口（Deep Instruction Window）為576條，支持8寬解碼（Decode）、8寬分配（Allocation/Rename）。同時(shí)TLB（Translation Lookaside Buffer）容量提升1.5倍，內(nèi)存消歧（Memory disambiguation）減少內(nèi)存訪問(wèn)沖突，也使得流水線更為穩(wěn)定靈活。

Cougar Cove在架構(gòu)上繼承自Lion Cove，因此多層緩存設(shè)計(jì)中包含了1個(gè)具備4周期延遲的48KB L0D緩存，1個(gè)9周期延遲的192KB L1D緩存，以及1個(gè)17周期的3MB L2緩存。這意味著在9個(gè)時(shí)鐘周期內(nèi)，可以獲得L0D+L1D的240KB緩存。同時(shí)數(shù)據(jù)轉(zhuǎn)換后備緩沖區(qū)（DTLB）為128項(xiàng)，以提升命中率。

Cougar Cove還會(huì)通過(guò)3個(gè)地址生成單元（Address Generation Unit，AGU）以進(jìn)一步提升存儲(chǔ)性能。負(fù)載單元和存儲(chǔ)單元管道數(shù)量均達(dá)到3個(gè)，在英特爾早年的架構(gòu)設(shè)計(jì)中，負(fù)載單元通常多于存儲(chǔ)單元。可以看到，CPU中投入更多緩存設(shè)計(jì)，以應(yīng)對(duì)CPU系統(tǒng)愈發(fā)復(fù)雜的問(wèn)題已經(jīng)變成未來(lái)趨勢(shì)。

此外，Cougar Cove還具備AI電源管理，AI能夠以自適應(yīng)方式動(dòng)態(tài)響應(yīng)實(shí)際的實(shí)時(shí)操作條件，以實(shí)現(xiàn)更高的持續(xù)性能。以往的固定檔位調(diào)節(jié)只能以100MHz進(jìn)行調(diào)整，現(xiàn)在更細(xì)的時(shí)鐘粒度可以做到16.67MHz為一個(gè)間隔，從而獲得更好的功耗管理。

此外，Cougar Cove還包括6個(gè)整數(shù)ALU單元（Arithmetic Logic Unit），3個(gè)跳轉(zhuǎn)單元（Jump Units），3個(gè)移位單元（Shift Units），3個(gè)64乘法單元。Cougar Cove與Lion Cove一樣，注重構(gòu)建大規(guī)模分區(qū)（Partition）以減少物理邊界，一次提升硅片面積利用率，降低設(shè)計(jì)成本和復(fù)雜度。

另外分支預(yù)測(cè)（BPU）也是Cougar Cove的關(guān)鍵模塊，主要集中提升效率，提升容量減少BPU延遲，同時(shí)結(jié)合I-TLB和I-CACHE協(xié)同工作，確保分支預(yù)測(cè)后指令快速獲取，提升整體執(zhí)行效率。

緩存和線程調(diào)度

在進(jìn)入GPU模塊章節(jié)之前，這里有必要額外開(kāi)個(gè)小章節(jié)來(lái)說(shuō)明緩存系統(tǒng)和線程調(diào)度。主要圍繞內(nèi)存?zhèn)染彺妫∕emory-Side Cache）和新版的線程調(diào)度器（Intel Thread Director）展開(kāi)。

內(nèi)存?zhèn)染彺妫∕emory-Side Cache）是Panther Lake處理器中用于優(yōu)化內(nèi)存訪問(wèn)效率的關(guān)鍵組件，核心作用是幫助處理器改善延遲、提升帶寬、降低功耗。無(wú)論任何版本的Panther Lake，都增加了單獨(dú)的8MB內(nèi)存?zhèn)染彺妫∕emory-Side Cache）。

內(nèi)存?zhèn)染彺婵勺鲎鳛镈RAM內(nèi)存與計(jì)算模塊、I/O模塊之間的中間緩存，可將高頻訪問(wèn)的數(shù)據(jù)暫存于本地，以減少核心直接訪問(wèn)DRAM內(nèi)存的次數(shù)，從而顯著降低數(shù)據(jù)讀取延遲，同時(shí)提升單位時(shí)間內(nèi)的數(shù)據(jù)傳輸帶寬，保障多任務(wù)、高負(fù)載下的性能穩(wěn)定。

同時(shí)內(nèi)存?zhèn)染彺孢€可以答復(fù)減少計(jì)算模塊與DRAM內(nèi)存的數(shù)據(jù)交互量，降低DRAM Traffic。由于DRAM功耗與數(shù)據(jù)交互頻率直接相關(guān)，內(nèi)存?zhèn)染彺娴某霈F(xiàn)能夠進(jìn)一步幫助Panther Lake降低功耗，提升每瓦性能。

除此之外，內(nèi)存?zhèn)染彺孢€可以給I/O、GPU、IPU和媒體引擎體統(tǒng)緩存支持，優(yōu)化不同組件之間內(nèi)存交互效率，避免諸如視頻編解碼、圖形渲染時(shí)密集I/O任務(wù)導(dǎo)致的內(nèi)存訪問(wèn)瓶頸。

內(nèi)存?zhèn)染彺媸嵌嗄K組合之下必然且創(chuàng)新型的產(chǎn)物，能夠很好的提升全平臺(tái)協(xié)同性能。

這時(shí)候 Panther Lake的緩存一致性與系統(tǒng)協(xié)同也成為內(nèi)存?zhèn)染彺婧凸蚕砭彺娑夹枰鉀Q的問(wèn)題。針對(duì)這一情況，Panther Lake在緩存系統(tǒng)中設(shè)置了一致性代理（Coherency Agent，CA）和歸屬代理（Home Agent，HA）作為協(xié)同。

其中一致性代理（Coherency Agent，CA）存在于L3共享緩存和LP E-Core的L2共享緩存中，主要作用是實(shí)現(xiàn)集群內(nèi)及跨集群的數(shù)據(jù)同步與仲裁，并且作為末級(jí)緩存（LLC），即L3共享緩存、P-Core、E-Core與第二代可擴(kuò)展架構(gòu)（Scalable Fabric Gen 2）的接口。主要用于監(jiān)測(cè)集群內(nèi)核心對(duì)緩存數(shù)據(jù)的訪問(wèn)請(qǐng)求（如讀、寫、修改），避免多個(gè)核心同時(shí)操作同一數(shù)據(jù)導(dǎo)致的不一致問(wèn)題。

不同集群之間的一致性代理（Coherency Agent，CA）還通過(guò)第二代可擴(kuò)展架構(gòu)（Scalable Fabric Gen 2）實(shí)現(xiàn)跨集群的緩存數(shù)據(jù)同步，確保全處理器范圍內(nèi)的數(shù)據(jù)準(zhǔn)確性。并從而簡(jiǎn)化核心、緩存、GPU模塊、平臺(tái)控制模塊（PCD Tile）之間數(shù)據(jù)交互流程，減少延遲，進(jìn)而提升數(shù)據(jù)訪問(wèn)效率。

內(nèi)存測(cè)緩存（Memory-Side Cache）則采用的是歸屬代理（Home Agent，HA），需要承擔(dān)內(nèi)存訪問(wèn)管理與系統(tǒng)級(jí)一致性保障，協(xié)調(diào)全處理器的DRAM內(nèi)存操作。包括對(duì)所有DRAM訪問(wèn)請(qǐng)求的排序，確保內(nèi)存操作按邏輯順序執(zhí)行，避免因并發(fā)訪問(wèn)導(dǎo)致的內(nèi)存數(shù)據(jù)混亂。管理內(nèi)存地址映射，定位數(shù)據(jù)在內(nèi)存或緩存中的存儲(chǔ)位置，優(yōu)化數(shù)據(jù)讀取路徑。

歸屬代理（Home Agent，HA）還會(huì)與一致性代理（Coherency Agent，CA）協(xié)同工作，當(dāng)緩存中無(wú)目標(biāo)數(shù)據(jù)時(shí)，歸屬代理（Home Agent，HA）負(fù)責(zé)發(fā)起內(nèi)存訪問(wèn)請(qǐng)求，并將獲取的數(shù)據(jù)分發(fā)至對(duì)應(yīng)的核心或緩存，同時(shí)更新系統(tǒng)一致性狀態(tài)，保障數(shù)據(jù)在緩存與內(nèi)存間的同步。

從整體上來(lái)看。一致性代理（Coherency Agent，CA）注重集群內(nèi)部、跨集群之間的緩存數(shù)據(jù)一致性維護(hù)，歸屬代理（Home Agent，HA）注重DRAM全系統(tǒng)訪問(wèn)排序與管理，從而實(shí)現(xiàn)多核心、多模塊架構(gòu)下的高效協(xié)同能力。

在Darkmont E-Core章節(jié)中，我們解釋了Lunar Lake E-Core不接入L3緩存環(huán)，在物理上更像Panther Lake的LP E-Core。因此在Panther Lake配置中，每個(gè)P-Core擁有3MB L2緩存，每4個(gè)E-Core共享L2緩存，LP E-Core的L2緩存對(duì)比Meteor Lake和Arrow Lake在容量上是翻倍的。

線程調(diào)度器（Intel Thread Director）一直是處理器中調(diào)度不同核心工作的重要模塊，特別是從Meteor Lake混合核心開(kāi)始，調(diào)度功能變得愈發(fā)重要。

在調(diào)度理念上，Panther Lake線程調(diào)度器（Intel Thread Director）遵循LP E-Core、E-Core、P-Core的順序，并進(jìn)行了關(guān)鍵性增強(qiáng)。比如針對(duì)P-Core和E-Core優(yōu)化分類模型，擴(kuò)展繁忙的場(chǎng)景應(yīng)用。

同時(shí)PC軟件和游戲已經(jīng)呈現(xiàn)出集中化的趨勢(shì)，大部分軟件和游戲已經(jīng)能夠被輕松識(shí)別，因此線程調(diào)度器（Intel Thread Director）能夠更好的對(duì)正在運(yùn)行的應(yīng)用進(jìn)行識(shí)別，增強(qiáng)跨場(chǎng)景線程表現(xiàn)，自動(dòng)適配辦公軟件、游戲、渲染等應(yīng)用的不同負(fù)載。另外線程調(diào)度器也會(huì)協(xié)同軟件系統(tǒng)OS實(shí)現(xiàn)效能、混合、無(wú)分區(qū)多種模式調(diào)度，針對(duì)性的匹配Team、Cinebench、DirectX 12游戲線程調(diào)度優(yōu)化。

伴隨著線程調(diào)度器（Intel Thread Director）升級(jí)，Panther Lake也打通了IP到OS垂直整合的鏈路，從Cougar Cove和Darkmont IP的架構(gòu)優(yōu)化，到線程調(diào)度，再到軟件層的電源管理策略，都可以更好實(shí)現(xiàn)。

例如OEM自定模式中可以提供更精密的性能、功耗調(diào)整，動(dòng)態(tài)的提供電源分配，提供能效比。在現(xiàn)場(chǎng)，英特爾展示了Panther Lake在CINEBENCH 2024單線程場(chǎng)景和UL Procyon Office中，基準(zhǔn)性能提升19%。

另外，用戶也可以通過(guò)Intel Intelligent Experience Optimizer自動(dòng)優(yōu)化Windows電源管理模式，自動(dòng)獲得續(xù)航與性能上的動(dòng)態(tài)調(diào)節(jié)。原本筆記本模式調(diào)整可能只有2-3檔模式調(diào)整，比如省電-平衡-性能，現(xiàn)在通過(guò)Intel Intelligent Experience Optimizer，筆記本自己就可以擁有數(shù)百檔的動(dòng)態(tài)自能調(diào)節(jié)，這個(gè)過(guò)程無(wú)需用戶手動(dòng)。

Xe3 GPU與XeSS-MFG多幀生成

即便是獲得了NVIDIA的投資，英特爾Xe3 GPU從目前來(lái)看仍有著自己的野心。如果不出意外，正式發(fā)布的時(shí)候，搭配12核Xe3 GPU的產(chǎn)品很可能會(huì)是市面上的最強(qiáng)核顯，游戲掌機(jī)和輕薄筆記本處理能力再向上提升一個(gè)層級(jí)，這也是筆者最為期待的。

在現(xiàn)場(chǎng)，英特爾還大方展示了更強(qiáng)悍的Xe3P GPU的存在，至于用在什么地方，英特爾表示以后再告訴我們，但可以確定的是，Battlemage獨(dú)顯已經(jīng)箭在弦上。

Xe3 GPU會(huì)根據(jù)不同配置給與4核到12核的配置，制程工藝包括Intel 3和臺(tái)積電N3E，這也從側(cè)面展示了Panther Lake極強(qiáng)的擴(kuò)展能力。

Xe3作為英特爾新一代圖形加速核心，展現(xiàn)了極強(qiáng)的紙面性能，相對(duì)上一代Lunar Lake GPU可以獲得50%的圖形性能提升，50%的AI TOPS提升，相較于Arrow Lake H GPU有40%的能效比提升。

在底層架構(gòu)上，Xe3依然沿用了渲染切片（Render Slice）設(shè)計(jì)，包括4Xe和12Xe兩種變體。每一個(gè)Xe3 Core內(nèi)都包含8個(gè)512-bit向量引擎（XVE），8個(gè)2048-bit矩陣加速引擎（XMX）。每個(gè)Xe3內(nèi)海擁有1個(gè)光線追蹤單元（RTU），以及用于光線追蹤的BVH緩存，支持動(dòng)態(tài)光線管理與異步光線追蹤。

在緩存系統(tǒng)上，Xe3擁有16MB L2緩存，12個(gè)采樣器（samplers）和12個(gè)像素后端（pixel backends）。

每個(gè)Xe3 Core還會(huì)匹配1個(gè)XMX引擎，單個(gè)XMX引擎現(xiàn)在可以在每個(gè)時(shí)鐘周期內(nèi)處理1024次TF32運(yùn)算、2048次FP16/BF16運(yùn)算、4096次INT8運(yùn)算、8192次INT4/INT2運(yùn)算，相比Xe2提升33%。整體GPU AI算力達(dá)120TOPS，進(jìn)而讓XeSS2和XeSS-MFG多幀生成提供AI砝碼，同時(shí)也能更好的滿足AI創(chuàng)作的任務(wù)。

在功能上，Xe3與微軟合作，支持DirectX Cooperative Vectors，將矩陣乘法加速引入著色器，提供2倍各向異性過(guò)濾速率、2倍模板測(cè)試速率，同時(shí)命令前端（Command Front End）提升25%現(xiàn)成，支持可變寄存器分配與FP8反量化。

Xe3架構(gòu)相比Xe2有明顯優(yōu)勢(shì)，例如在無(wú)SIMD32溢出+可變寄存器的場(chǎng)景中，性能可以達(dá)到Xe2的7.4倍，計(jì)算著色器可達(dá)2.7倍，計(jì)算與像素著色器、異步計(jì)算調(diào)用場(chǎng)景中，Xe3性能也普遍在Xe2的1.5倍到3.1倍之間。

Panther Lake在單幀延遲上也有明顯提升。同樣場(chǎng)景下，12核Xe3單幀延遲可以從45.44ms降低至22.84ms。

AI的增強(qiáng)讓XeSS也進(jìn)階到超分辨率（XeSS-SR）搭配XeSS-MFG多幀生成（Multi-Frame Generation）的形式。在邏輯上與DLSS-MFG多幀生成類似，無(wú)需借助硬件光流加速器，通過(guò)深度、運(yùn)動(dòng)向量（Motion Vectors），讓1幀原始畫面獲得最高4幀的畫面輸出，配合超分XeSS-SR，效果可以獲得成倍的提升。

在現(xiàn)場(chǎng)，英特爾通過(guò)DEMO演示了第一人稱射擊游戲，雖然看不到實(shí)際幀率，實(shí)際效果已經(jīng)與獨(dú)顯旗鼓相當(dāng)了。

AI增強(qiáng)游戲畫質(zhì)并非沒(méi)有缺點(diǎn)。為了避免生成畫面導(dǎo)致的畫質(zhì)劣化，英特爾會(huì)通過(guò)Presentmon增強(qiáng)工具監(jiān)控原生畫面與生成畫面的動(dòng)畫誤差，確保流暢度穩(wěn)定性。同時(shí)生成幀會(huì)結(jié)合光流投影、運(yùn)動(dòng)向量、深度差值等多個(gè)維度，確保生成畫面與原生畫面風(fēng)格轉(zhuǎn)一致，進(jìn)而減少偽影和卡頓。另外與NVIDIA DLSS 4一樣，在游戲中也會(huì)提供2X到4X幀生成，允許用戶自行調(diào)節(jié)。

降低系統(tǒng)延遲和加載時(shí)間也是Panther Lake的關(guān)注點(diǎn)。英特爾提出了云端預(yù)編譯著色器概念。即在云端收集游戲著色器后，通過(guò)預(yù)編譯優(yōu)化和圖形分發(fā)服務(wù)推送到終端，在游戲安裝的同時(shí)就會(huì)直接加載優(yōu)化后的著色器，以降低首次啟動(dòng)游戲的等待時(shí)間。

另外Panther Lake還引入了Intelligent Bias Control v2防止游戲幀率驟降，通過(guò)固件啟發(fā)式算法（Firmware Heuristics），提供 GPU 時(shí)鐘頻率提示（Hinting）與平衡（Balancing），優(yōu)先保障GPU游戲性能，自動(dòng)為Xe Core配置更多功耗預(yù)算，避免因功耗不足導(dǎo)致的性能瓶頸。

在英特爾的展示中，12核Xe3在17W TDP、1080p中等畫質(zhì)下，表現(xiàn)遠(yuǎn)超Xe2的Intel Arc 140V GPU，包括《黑神話：悟空》《戰(zhàn)神：諸神黃昏》《賽博朋克 2077》平均FPS提升10%，99% Low FPS提升25%，卡頓大幅減少。

需要注意的是，Xe媒體引擎獨(dú)立于GPU模塊，內(nèi)置在計(jì)算模塊中，提供了AVC、H.265（HEVC）、VP9、XAVC-H/S/HS支持，新增10-bit AVC編解碼，這也使得Panther Lake更為專業(yè)。

NPU 5：原生支持FP8

Panther Lake中的NPU 5相比Lunar Lake NPU 4進(jìn)行了大幅更新，首次原生支持FP8，在面積更小的情況下獲得更高的性能。同時(shí)NPU 5也很克制的將AI算力控制在了50 TOPS，如果按照NPU 4的面積，NPU 5是有機(jī)會(huì)做到性能成倍提升的。

NPU 5同樣使用了模塊化設(shè)計(jì)，包含3個(gè)神經(jīng)計(jì)算引擎（NCE），多個(gè)數(shù)字信號(hào)處理器（SHAVE DSP）。其中每個(gè)神經(jīng)計(jì)算引擎（NCE）包含MAC陣列（矩陣乘法與卷積陣列），支持INT8、FP8和FP16，單周期可處理4096次INT8/FP8運(yùn)算、2048次FP16運(yùn)算。

NPU 5內(nèi)還包含4.5MB Scratchpad RAM作為臨時(shí)存儲(chǔ)，256KB L2緩存，是NPU 4的兩倍。

由于NPU 5原生支持FP8，使得在處理BF8/E4M3、HF8/E5M2等FP8數(shù)據(jù)類型時(shí)，內(nèi)存占用可以減少50%，吞吐量提升2倍，在Stable Diffusion任務(wù)中，能耗上會(huì)有更好的表現(xiàn)。同時(shí)NPU 5還支持ReLU、PReLU、GELU、Tanh等非線性激活函數(shù)，重構(gòu)數(shù)據(jù)轉(zhuǎn)換流水線，原生支持FP32/FP16/BF16/FP8/INT8/INT4精度轉(zhuǎn)換。

NPU 5帶來(lái)的50 TOPS算力主要用于AI PC場(chǎng)景中本地LLM推理、AI助手、實(shí)時(shí)圖像增強(qiáng)等工作。CPU的10 TOPS則用來(lái)完成VNNI和AVX輕量AI任務(wù)，GPU的120 TOPS則是用來(lái)支持游戲和內(nèi)容創(chuàng)作AI重載任務(wù)。

在XPU的統(tǒng)一調(diào)度下，Panther Lake總計(jì)可以做到180 TOPS的AI算力，相對(duì)于Lunar Lake提升50%。

在DEMO現(xiàn)場(chǎng)，英特爾展示了諸多基于Panther Lake平臺(tái)實(shí)現(xiàn)的AI應(yīng)用，以證明產(chǎn)品對(duì)現(xiàn)有AI應(yīng)用已經(jīng)提供了很好的兼容性。

IPU 7.5：AI之外的圖像增強(qiáng)

不是所有的場(chǎng)景處理都需要AI硬件進(jìn)行增強(qiáng)的，例如攝像頭和屏幕HDR增強(qiáng)，實(shí)際上都可以通過(guò)IPU完成。Panther Lake IPU 7.5作為最新版本的IPU，主要圍繞視頻會(huì)議、智能邊緣視覺(jué)場(chǎng)景展開(kāi)，這也是Panther Lake可以應(yīng)用于邊緣計(jì)算的關(guān)鍵核心之一，在工控領(lǐng)域，自動(dòng)駕駛系統(tǒng)、醫(yī)療患者監(jiān)測(cè)、安全防護(hù)監(jiān)測(cè)、工業(yè)質(zhì)量控制，都可以依賴于IPU 7.5來(lái)完成。

這也是英特爾在整合部門之后，Panther Lake還將承擔(dān)起PC領(lǐng)域之外的業(yè)務(wù)擴(kuò)展工作。

IPU 7.5作為圖像信號(hào)處理器（ISP）的核心，被用于解決場(chǎng)景、光學(xué)元件和傳感器帶來(lái)的成像問(wèn)題，處理流程涉及場(chǎng)景、光學(xué)元件、傳感器，并最終輸出包運(yùn)動(dòng)、光照、色彩、深度等圖像信息。具有處理速度快，節(jié)能，專職專用的特點(diǎn)。自從英特爾在2014年推出IPU 2開(kāi)始，十年期間IPU升級(jí)沒(méi)有間斷過(guò)。

Panther Lake IPU 7.5最高支持3個(gè)攝像頭并發(fā)，核心處理模塊包含傳感器與光學(xué)引擎（鏡頭與色彩補(bǔ)償、高畫質(zhì)去馬賽克等）、噪聲與紋理引擎（空間降噪、AI 降噪等）、色彩處理引擎（自適應(yīng)色彩還原、裁剪縮放等），還具備相機(jī) 3A 統(tǒng)計(jì)（自動(dòng)曝光、自動(dòng)白平衡、自動(dòng)對(duì)焦）與防抖功能。

得益于8MB內(nèi)存?zhèn)染彺嬷袣w屬代理（Home Agent，HA）可以對(duì)所有模塊的換從調(diào)動(dòng)，IPU 7.5還可以與CPU、GPU、NPU產(chǎn)生聯(lián)動(dòng)，進(jìn)而實(shí)現(xiàn)AI增強(qiáng)圖像處理，突破本地SRAM對(duì)時(shí)間域處理（Temporal Processing）的限制。

IPU 7.5可實(shí)現(xiàn)最高500萬(wàn)像素?cái)z像頭在弱光環(huán)境下的圖像清晰度，提升幀率與銳度，優(yōu)化色調(diào)映射。另外還可以獲得AI色調(diào)映射可增強(qiáng)對(duì)比度，避免光暈、色彩失真，保證時(shí)間域行為穩(wěn)定。

在播放4K HDR視頻時(shí)，IPU 7.5通過(guò)協(xié)同多個(gè)傳感器，通過(guò)雙曝光與自適應(yīng)曝光控制，保留高光與陰影細(xì)節(jié)，同等畫質(zhì)下，幫助筆記本節(jié)省1.5W功率。

另外IPU 7.5還支持最高1600萬(wàn)像素靜態(tài)圖像，實(shí)現(xiàn)零快門延遲。可拍攝1080P 120幀慢動(dòng)作視頻。

Wi-Fi 7 R2與藍(lán)牙Core 6.0

最后是無(wú)線性能。Panther Lake提供了Intel Wi-Fi 7 BE211 CRF模塊，對(duì)應(yīng)Intel Killer 1775，支持Wi-Fi 7 R2標(biāo)準(zhǔn)，CNVio 3接口支持11Gbps速率，相比CNVio 2的5Gbps提升了120%。另外藍(lán)牙模塊支持藍(lán)牙Core 6.0和LE Audio。

Wi-Fi 7 R2主要集中在效率與穩(wěn)定性上，增強(qiáng)動(dòng)態(tài)管理活躍鏈路的資源分配、IoT設(shè)備優(yōu)先級(jí)分配，單射頻客戶端實(shí)現(xiàn)MLO，避免P2P流量干擾設(shè)備。為特定設(shè)備分配固定時(shí)間片，實(shí)現(xiàn)可預(yù)測(cè)的延遲與可靠性，適配AI推理、實(shí)時(shí)協(xié)作等場(chǎng)景。

藍(lán)牙Core 6.0則注重音頻體驗(yàn)和功能升級(jí)，包括LE Audio低功耗音頻，Auracast廣播，提升助聽(tīng)器兼容性，支持多組音頻流同步，實(shí)現(xiàn)不同設(shè)備之間無(wú)縫切換等等。

寫在最后：新希望

無(wú)論性能還是能耗，英特爾Panther Lake給人的第一印象都非常深刻。按照計(jì)劃，Panther Lake的實(shí)際搭載產(chǎn)品將會(huì)在CES2026正式展出，英特爾還有幾個(gè)月的時(shí)間調(diào)試18A性能，以確保最終表現(xiàn)。

如果一切順利，Panther Lake綜合性能無(wú)疑會(huì)有大幅度提升，輕薄本在成本可控的前提下向長(zhǎng)續(xù)航和高性能進(jìn)發(fā)，高性能本的多線程和游戲性表現(xiàn)也會(huì)更為突出。英特爾18A制程工藝已經(jīng)給我們留足懸念，接下來(lái)只需要給點(diǎn)耐心，把舞臺(tái)交給下一代酷睿Ultra。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.