英偉達(dá)在加州圣何塞舉辦的GTC 2026大會(huì)上,公布了其全新88 核 Vera數(shù)據(jù)中心 CPU 的更多細(xì)節(jié),宣稱性能較標(biāo)準(zhǔn) CPU 提升高達(dá) 50%。這一提升得益于其Olympus內(nèi)核實(shí)現(xiàn) 1.5 倍 IPC(每時(shí)鐘周期指令數(shù))增長,以及創(chuàng)新的高帶寬設(shè)計(jì)—— 英偉達(dá)稱其擁有當(dāng)前市場最快的單線程性能。該公司同時(shí)發(fā)布了全新Vera CPU 機(jī)架架構(gòu),在單一機(jī)架內(nèi)集成 256 顆液冷 CPU,面向以 CPU 為核心的工作負(fù)載,宣稱CPU 吞吐量提升 6 倍,在智能體 AI 工作負(fù)載中性能翻倍。
Vera CPU 的迭代及其融入可部署機(jī)架級系統(tǒng),標(biāo)志著英偉達(dá)正式進(jìn)入 CPU 直銷市場,在傳統(tǒng) CPU 領(lǐng)域與英特爾、AMD 展開直接競爭,更與全球超大規(guī)模云廠商所使用的各類定制 Arm 處理器形成競爭。這并不完全出人意料 —— 此前英偉達(dá)已宣布,Meta 將在其基礎(chǔ)設(shè)施內(nèi)部署多代英偉達(dá)純 CPU 系統(tǒng)。英偉達(dá)也會(huì)將這些 CPU 用于自家以 GPU 為核心的系統(tǒng),例如我們此前詳細(xì)介紹過的 Vera Rubin 平臺(tái)。
英偉達(dá)最早在2022 年 GTC推出第一代 Grace CPU,當(dāng)時(shí)便預(yù)示該系列持續(xù)迭代后,終將面向更廣闊的 CPU 市場展開競爭。全新處理器同時(shí)瞄準(zhǔn)AI 核心場景與更多通用場景,且重點(diǎn)偏向前者。英偉達(dá)在能力與目標(biāo)市場上的全面擴(kuò)張,將為正爭奪 AI 數(shù)據(jù)中心份額的 AMD 與英特爾帶來激烈競爭。該芯片現(xiàn)已全面量產(chǎn),將于今年下半年向英偉達(dá)合作伙伴供貨。下面我們深入解析這款全新芯片及其機(jī)架級架構(gòu)。
![]()
英偉達(dá)Vera CPU 規(guī)格與性能
英偉達(dá)設(shè)計(jì) Vera CPU 的目標(biāo)是集眾家之長:融合超大規(guī)模云 CPU 的高核心數(shù)、游戲 CPU 的高單線程性能與移動(dòng)芯片的能效,最終用于加速智能體 AI、訓(xùn)練與推理等典型 GPU 驅(qū)動(dòng)任務(wù),例如 Python 執(zhí)行、SQL 查詢與代碼編譯。
英偉達(dá)宣稱,相較 x86 競品,其單沙箱性能提升 1.5 倍、每核心內(nèi)存帶寬提升 3 倍、能效翻倍。為實(shí)現(xiàn)這些目標(biāo),該公司打造了88 核 144 線程CPU,較第一代 Grace 的 72 核有所提升。英偉達(dá)還表示,新內(nèi)核IPC 吞吐量提升 1.5 倍—— 相較于其他競爭架構(gòu)每代僅個(gè)位數(shù)或百分之十幾的增幅,這是一次巨大的代際飛躍。上一代 Grace 采用公版 Arm Neoverse 內(nèi)核,而 Vera 所搭載的全新Olympus內(nèi)核為英偉達(dá)自研設(shè)計(jì),意味著英偉達(dá)對參考架構(gòu)進(jìn)行了深度定制修改。
這款基于Arm v9.2-A的Olympus 內(nèi)核采用空間多線程技術(shù):不對執(zhí)行單元、緩存、寄存器文件等關(guān)鍵模塊進(jìn)行時(shí)間片輪轉(zhuǎn),而是對流水線各組件進(jìn)行物理隔離,使其與同一核心上的另一線程互不搶占。這與傳統(tǒng)同步多線程(SMT)的時(shí)間片輪轉(zhuǎn)機(jī)制截然不同 —— 后者是多線程輪流使用硬件資源。空間多線程會(huì)在執(zhí)行單元空閑時(shí)從其他線程取指,提升指令級并行度(ILP)、吞吐量與性能可預(yù)測性,確保資源滿負(fù)荷利用。
實(shí)際上,這讓兩個(gè)線程能在單個(gè)核心上真正同時(shí)運(yùn)行,而傳統(tǒng) SMT 本質(zhì)上仍是輪流執(zhí)行。這對多租戶環(huán)境無疑是一大利好。
英偉達(dá)將全部 88 核置于單一域內(nèi),不存在引發(fā)延遲的 NUMA(非統(tǒng)一內(nèi)存訪問)異常,與當(dāng)前高核心數(shù) x86 競品形成鮮明對比。這對延遲、可預(yù)測性、帶寬與編程簡易性都意義重大。英偉達(dá)尚未披露在保證各核心合理延遲的前提下實(shí)現(xiàn)這一突破的完整細(xì)節(jié),但該芯片搭載新一代英偉達(dá)可擴(kuò)展一致性互聯(lián)(SCF),基于 Grace 所使用的 Arm CMN-700 一致性網(wǎng)格網(wǎng)絡(luò)構(gòu)建。Arm 最新方案已升級至 Neoverse CMN S3 網(wǎng)格,Vera 大概率采用該架構(gòu)或其變體。
該網(wǎng)格網(wǎng)絡(luò)可為全部核心提供可觀的聚合內(nèi)存吞吐量,在部分核心對帶寬需求更高時(shí)表現(xiàn)更突出。Grace 支持 546 GB/s 的網(wǎng)格內(nèi)存吞吐量,平均每核心 7.6 GB/s。而 Vera 這一指標(biāo)翻倍至 1.2 TB/s,由 1.5 TB SOCAMM LPDDR5 模組提供支持(容量提升 3 倍),滿負(fù)載下平均每核心 13.6 GB/s。更重要的是,當(dāng)網(wǎng)格內(nèi)負(fù)載不均時(shí),該架構(gòu)可支持任意單核心最高 80 GB/s 吞吐量,對高帶寬需求線程是巨大提升。
其執(zhí)行通路包括:10 發(fā)射指令解碼單元、每周期支持兩次預(yù)測的神經(jīng)分支預(yù)測器、定制圖數(shù)據(jù)庫分析預(yù)取引擎,以及針對 PyTorch 優(yōu)化的指令緩沖區(qū)。
邀約|AMD 技術(shù)日 :Physical AI - 機(jī)器人前沿(4.2,北京)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.