88核、10發(fā)射！英偉達(dá)官宣超級處理器，入局CPU賽道，挑戰(zhàn)Intel/AMD！

2026-03-17 10:10:56　來源: EETOP半導(dǎo)體社區(qū)

北京舉報(bào)

分享至

英偉達(dá)在加州圣何塞舉辦的GTC 2026大會(huì)上，公布了其全新88 核 Vera數(shù)據(jù)中心 CPU 的更多細(xì)節(jié)，宣稱性能較標(biāo)準(zhǔn) CPU 提升高達(dá) 50%。這一提升得益于其Olympus內(nèi)核實(shí)現(xiàn) 1.5 倍 IPC（每時(shí)鐘周期指令數(shù)）增長，以及創(chuàng)新的高帶寬設(shè)計(jì)—— 英偉達(dá)稱其擁有當(dāng)前市場最快的單線程性能。該公司同時(shí)發(fā)布了全新Vera CPU 機(jī)架架構(gòu)，在單一機(jī)架內(nèi)集成 256 顆液冷 CPU，面向以 CPU 為核心的工作負(fù)載，宣稱CPU 吞吐量提升 6 倍，在智能體 AI 工作負(fù)載中性能翻倍。

Vera CPU 的迭代及其融入可部署機(jī)架級系統(tǒng)，標(biāo)志著英偉達(dá)正式進(jìn)入 CPU 直銷市場，在傳統(tǒng) CPU 領(lǐng)域與英特爾、AMD 展開直接競爭，更與全球超大規(guī)模云廠商所使用的各類定制 Arm 處理器形成競爭。這并不完全出人意料 —— 此前英偉達(dá)已宣布，Meta 將在其基礎(chǔ)設(shè)施內(nèi)部署多代英偉達(dá)純 CPU 系統(tǒng)。英偉達(dá)也會(huì)將這些 CPU 用于自家以 GPU 為核心的系統(tǒng)，例如我們此前詳細(xì)介紹過的 Vera Rubin 平臺(tái)。

英偉達(dá)最早在2022 年 GTC推出第一代 Grace CPU，當(dāng)時(shí)便預(yù)示該系列持續(xù)迭代后，終將面向更廣闊的 CPU 市場展開競爭。全新處理器同時(shí)瞄準(zhǔn)AI 核心場景與更多通用場景，且重點(diǎn)偏向前者。英偉達(dá)在能力與目標(biāo)市場上的全面擴(kuò)張，將為正爭奪 AI 數(shù)據(jù)中心份額的 AMD 與英特爾帶來激烈競爭。該芯片現(xiàn)已全面量產(chǎn)，將于今年下半年向英偉達(dá)合作伙伴供貨。下面我們深入解析這款全新芯片及其機(jī)架級架構(gòu)。

英偉達(dá)Vera CPU 規(guī)格與性能

英偉達(dá)設(shè)計(jì) Vera CPU 的目標(biāo)是集眾家之長：融合超大規(guī)模云 CPU 的高核心數(shù)、游戲 CPU 的高單線程性能與移動(dòng)芯片的能效，最終用于加速智能體 AI、訓(xùn)練與推理等典型 GPU 驅(qū)動(dòng)任務(wù)，例如 Python 執(zhí)行、SQL 查詢與代碼編譯。

英偉達(dá)宣稱，相較 x86 競品，其單沙箱性能提升 1.5 倍、每核心內(nèi)存帶寬提升 3 倍、能效翻倍。為實(shí)現(xiàn)這些目標(biāo)，該公司打造了88 核 144 線程CPU，較第一代 Grace 的 72 核有所提升。英偉達(dá)還表示，新內(nèi)核IPC 吞吐量提升 1.5 倍—— 相較于其他競爭架構(gòu)每代僅個(gè)位數(shù)或百分之十幾的增幅，這是一次巨大的代際飛躍。上一代 Grace 采用公版 Arm Neoverse 內(nèi)核，而 Vera 所搭載的全新Olympus內(nèi)核為英偉達(dá)自研設(shè)計(jì)，意味著英偉達(dá)對參考架構(gòu)進(jìn)行了深度定制修改。

這款基于Arm v9.2-A的Olympus 內(nèi)核采用空間多線程技術(shù)：不對執(zhí)行單元、緩存、寄存器文件等關(guān)鍵模塊進(jìn)行時(shí)間片輪轉(zhuǎn)，而是對流水線各組件進(jìn)行物理隔離，使其與同一核心上的另一線程互不搶占。這與傳統(tǒng)同步多線程（SMT）的時(shí)間片輪轉(zhuǎn)機(jī)制截然不同 —— 后者是多線程輪流使用硬件資源。空間多線程會(huì)在執(zhí)行單元空閑時(shí)從其他線程取指，提升指令級并行度（ILP）、吞吐量與性能可預(yù)測性，確保資源滿負(fù)荷利用。

實(shí)際上，這讓兩個(gè)線程能在單個(gè)核心上真正同時(shí)運(yùn)行，而傳統(tǒng) SMT 本質(zhì)上仍是輪流執(zhí)行。這對多租戶環(huán)境無疑是一大利好。

英偉達(dá)將全部 88 核置于單一域內(nèi)，不存在引發(fā)延遲的 NUMA（非統(tǒng)一內(nèi)存訪問）異常，與當(dāng)前高核心數(shù) x86 競品形成鮮明對比。這對延遲、可預(yù)測性、帶寬與編程簡易性都意義重大。英偉達(dá)尚未披露在保證各核心合理延遲的前提下實(shí)現(xiàn)這一突破的完整細(xì)節(jié)，但該芯片搭載新一代英偉達(dá)可擴(kuò)展一致性互聯(lián)（SCF），基于 Grace 所使用的 Arm CMN-700 一致性網(wǎng)格網(wǎng)絡(luò)構(gòu)建。Arm 最新方案已升級至 Neoverse CMN S3 網(wǎng)格，Vera 大概率采用該架構(gòu)或其變體。

該網(wǎng)格網(wǎng)絡(luò)可為全部核心提供可觀的聚合內(nèi)存吞吐量，在部分核心對帶寬需求更高時(shí)表現(xiàn)更突出。Grace 支持 546 GB/s 的網(wǎng)格內(nèi)存吞吐量，平均每核心 7.6 GB/s。而 Vera 這一指標(biāo)翻倍至 1.2 TB/s，由 1.5 TB SOCAMM LPDDR5 模組提供支持（容量提升 3 倍），滿負(fù)載下平均每核心 13.6 GB/s。更重要的是，當(dāng)網(wǎng)格內(nèi)負(fù)載不均時(shí)，該架構(gòu)可支持任意單核心最高 80 GB/s 吞吐量，對高帶寬需求線程是巨大提升。

其執(zhí)行通路包括：10 發(fā)射指令解碼單元、每周期支持兩次預(yù)測的神經(jīng)分支預(yù)測器、定制圖數(shù)據(jù)庫分析預(yù)取引擎，以及針對 PyTorch 優(yōu)化的指令緩沖區(qū)。

邀約｜AMD 技術(shù)日：Physical AI - 機(jī)器人前沿（4.2,北京）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.