![]()
Yole Group發布的《2025年處理器產業狀況》報告確認了一個里程碑式的節點:2024年GPU銷售額首次超越了CPU。這標志著半導體產業正式邁入了一個由加速計算主導的新周期。在這樣一個宏觀背景下,一個核心議題浮出水面:當GPU、NPU以及ASIC這些“加速器”逐漸接管大規模并行計算任務時,傳統的中央處理器會不會被邊緣化?或者說,它能在新的計算范式中找到不可替代的位置嗎?
GenAI計算重心的轉移并未消除對主機處理器的需求,但卻徹底改變了對其性能指標的定義。過去三十年間,CPU主要依靠提升通用計算頻率和推測執行效率來推動摩爾定律。然而,在面對萬億參數模型訓練與實時推理的高吞吐量需求時,這種通用設計原則正遭遇能效比與I/O瓶頸的雙重挑戰。
行業正在重新審視CPU在AI集群里的位置。過去,它只是個簡單的邏輯控制器;現在,它正在演變成異構系統的調度中樞,不僅提供大容量內存,還直接負責特定的推理任務。這種轉變不僅重構了底層技術架構,也在深刻影響著市場格局和資本流向,從數據中心一直延伸到邊緣設備。
01
CPU的困境與“轉型”
在傳統的以CPU為中心的計算架構中,數據處理流程通常由運行在CPU上的軟件棧進行管理,數據需要在網絡接口、CPU內存和深度學習加速器(DLA)之間進行多次搬運。這種基于軟件的數據控制機制在面對AI工作負載時,顯現出明顯的效率缺陷。主要問題體現在并行命令的沖突以及數據路徑的擁塞,這直接限制了后端加速器的利用率,導致昂貴的硬件資源處于等待狀態,進而推高了系統的整體功耗與成本。
更為深層的技術矛盾,在于處理器微架構的設計哲學。現代CPU普遍依賴“推測執行”技術,通過分支預測來提前執行指令以保持流水線滿載,這種機制在處理邏輯復雜的通用程序時表現優異。然而,AI和機器學習工作負載主要由大規模的向量和矩陣運算構成,且內存訪問模式往往呈現出高度的不規則性。在這種場景下,推測執行容易出現預測失敗,導致流水線頻繁刷新。被丟棄的計算指令不僅未能產生有效產出,反而造成了額外的能源浪費與延遲。
針對通用架構在AI負載下的局限性,處理器行業正在經歷第一層維度的革新:微架構層面的去推測化。近期獲得美國專利商標局專利認證的“基于時間的確定性執行模型”代表了一種新的設計思路。該模型摒棄了復雜的推測機制,引入帶有時間計數器的向量協處理器,采用靜態調度策略。在這一架構下,指令僅在數據依賴關系完全解決且操作數就緒的確定時刻,才會被分發至執行單元。
由于執行順序和時間是預先規劃且確定的,芯片設計可以省去復雜的寄存器重命名和亂序執行控制邏輯,從而在矩陣計算等任務中以更低的晶體管開銷和功耗實現高可擴展性。這種確定性執行模型在保持與RISC-V等標準指令集兼容的同時,從底層邏輯上適配了AI計算對高吞吐量和低延遲的剛性需求。
第二層維度的革新則是系統級架構的“專用化分流”。為了解決I/O瓶頸,行業開始探索將網絡排序、服務質量管理(QoS)及數據預處理功能從主機CPU的軟件棧中剝離,下沉至專用的硬件邏輯中。這種被稱為“網絡附加處理單元”(NAPU)的設計理念,通過在處理器內部集成DSP核心、視頻引擎及AI優化的網絡接口,實現了數據路徑的硬件加速。
這不僅釋放了通用CPU核心的算力資源,使其能專注于復雜的邏輯調度,還大幅減少了數據在不同組件間的無效移動。此外,主流x86處理器也在通過集成AMX等專用加速指令集來進行自我進化,優化對bf16和int8等低精度數據類型的處理能力,從而在不依賴外部加速器的情況下,提升CPU自身處理矩陣運算的效率。
02
AI 時代,CPU的應用場景
技術架構的演進直接映射在市場需求的結構性變化上。盡管訓練端對GPU的需求持續高漲,但推理端市場正呈現出對成本和能效的敏感,這為新型CPU提供了廣闊的市場空間。根據Future Market Insights預測,美國數據中心CPU需求將保持7.4%的復合年增長率。這并非源于對傳統通用算力的渴求,而是由AI應用落地過程中的實際“經濟賬”所逼出來的。
在推理場景中,并非所有任務都需要昂貴的GPU集群。對于大量參數量在7B至13B之間的中小模型,或者是單用戶的實時交互請求,現代服務器CPU已經能夠提供足夠的吞吐量。英特爾的數據顯示,雙路服務器在運行特定參數規模的Llama模型時,可以達到滿足實時閱讀速度的Token生成率。
更為關鍵的是,根據亞信科技和Cast AI的統計,公有云環境中存在大量利用率低于20%的閑置CPU資源。利用這些已部署的通用算力進行AI推理,相比額外采購專用加速器,具有顯著的總擁有成本(TCO)優勢。因此,在長尾應用和非高并發場景下,CPU正在加入AI推理的主力軍,這種“夠用就好”的經濟邏輯支撐了數據中心CPU市場的持續增長。
除了直接承擔推理任務,AI大模型對內存容量的渴求也重塑了CPU的市場價值。隨著模型參數量突破萬億級別,GPU的顯存容量日益成為限制推理性能的瓶頸,顯存溢出即意味著服務中斷。在這一背景下,CPU的主內存通過CXL等高速互聯技術與GPU共享,實際上充當了加速器的L4緩存。
在英偉達的GH/GB系列以及華為昇騰的超節點方案中,高性能CPU與其搭載的大容量DDR內存成為了支撐大模型穩定運行的關鍵基礎設施。這意味著市場對服務器CPU的評價標準正在發生改變,內存通道數量、帶寬以及與加速器的互聯速度,成為了比核心頻率更為關鍵的選型指標。
再把視野放寬到邊緣計算和終端設備,市場對“異構協同”的需求已經超越了單一芯片的性能。在具身智能、智能終端這些領域,系統設計有嚴格的分工:CPU負責低延遲的邏輯控制和實時交互,GPU負責高并發計算,NPU處理持續運行的背景任務。
行業專家指出,在語音轉文字、復雜邏輯調度及實時運動控制等場景中,CPU的響應速度優于需要批處理才能發揮效率的GPU。例如在機器人領域,x86 CPU憑借其在工業控制領域的軟件生態積累,配合嵌入式GPU構成的主控方案,依然是主流選擇。這種異構計算的市場趨勢促使CPU必須具備更強的協同能力,能夠高效地將特定負載卸載給NPU或GPU,同時保持對全局任務的精準調度。
03
AI CPU,巨頭與后起之秀
在技術轉型和市場需求的雙重驅動下,處理器產業的競爭格局正在重塑。一方面,專注于AI專用架構的初創企業開始冒頭;另一方面,傳統巨頭也在忙著調整戰略,進行生態融合。
以色列芯片企業NeuReality就是專用化趨勢的典型。該公司近期完成了3500萬美元的A輪融資,總融資額達到4800萬美元,其商業化目標直指AI推理服務器市場。NeuReality推出的NR1芯片實際上是對傳統CPU架構的一次解構與重組,它被定義為“網絡附加處理單元”(NAPU)。該芯片集成了Arm Neoverse核心,但其核心競爭力在于異構集成的十六個通用DSP核心、十六個音頻DSP核心以及四個視頻引擎。
通過這種硬件設計,NeuReality試圖解決傳統CPU在處理AI數據流時的瓶頸,將網絡排序、數據排序及同步等任務固化在硬件中。其公開數據顯示,相較于傳統的CPU中心架構,NR1能夠將AI應用的總擁有成本改善10倍。這種專用化芯片的出現,標志著市場開始接受不再由通用CPU主宰一切,而是由專用宿主處理器來管理AI流水線的理念。
與此同時,傳統芯片巨頭也在積極適應這一變化,通過資本運作與技術合作來鞏固生態地位。2025年9月,英偉達宣布向英特爾投資50億美元并開展基礎設施合作,這一商業動作具有極強的信號意義。盡管英偉達在加速計算領域占據統治地位,但其對x86生態的巨額投資表明,在未來相當長的時間內,高性能x86 CPU作為異構集群的通用底座和生態入口,其戰略價值依然不可撼動。這與其說是妥協,不如說是對現實的承認——再強大的GPU集群,也需要強大的CPU來調度。
在另一端,Arm架構正在服務器領域發起強有力的攻勢。數據顯示,Arm架構CPU在服務器市場的份額持續攀升,預計在2025年將占據全球服務器出貨量的21.1%。這一增長不僅得益于AWS等云廠商自研Graviton系列芯片的推動,也離不開富士通等廠商在歐洲市場的布局。富士通與歐洲云服務商Scaleway達成的戰略合作,旨在利用基于Arm架構的FUJITSU-MONAKA CPU平臺構建高能效AI推理環境,這種方案避開了GPU算力的紅海競爭,轉而在綠色計算和低TCO推理領域尋找突破口。
然而,互聯網大廠的實際部署策略也顯示出市場的復雜性。盡管自研Arm芯片在成本上具有優勢,但在核心的AI訓練集群中,為了保證軟件生態的絕對兼容性和穩定性,x86 CPU依然是首選配置。這表明,未來的處理器市場將不再是單一架構的零和博弈,而是進入了x86與Arm并存、通用CPU與專用AI CPU互補、CPU與加速器深度協同的復雜生態階段。
在這種格局下,CPU廠商的競爭力將不再單純取決于核心數量或頻率,而在于其架構是否足夠開放,是否能高效地融入異構計算的流水線,以及是否能為日益多樣化的AI負載提供最具經濟效益的算力支持。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.