網易首頁 > 網易號 > 正文申請入駐

剛剛，黃仁勛一口氣解密6顆芯片，召喚出最強AI超算！

黃仁勛一口氣解密6顆芯片

2026-01-06 08:51:25　來源: 智東西

北京舉報

分享至

智東西
作者 ZeR0 陳駿達
編輯漠影

芯東西拉斯維加斯1月5日報道，剛剛，英偉達創始人兼CEO黃仁勛在國際消費電子展CES 2026上發表2026年首場主題演講。黃仁勛一如既往穿著皮衣，在1.5小時內連宣8項重要發布，從芯片、機架到網絡設計，對整個全新代際平臺進行了深入介紹。

在加速計算和AI基礎設施領域，英偉達發布NVIDIA Vera Rubin POD AI超級計算機、NVIDIA Spectrum-X以太網共封裝光學器件、NVIDIA推理上下文內存存儲平臺、基于DGX Vera Rubin NVL72的NVIDIA DGX SuperPOD。

NVIDIA Vera Rubin POD采用英偉達6大自研芯片，涵蓋CPU、GPU、Scale-up、Scale-out、存儲與處理能力，所有部分均為協同設計，可滿足先進模型需求并降低計算成本。

其中，Vera CPU采用定制Olympus核心架構，Rubin GPU引入Transformer引擎后NBFP4推理性能高達50PFLOPS，每GPU NVLink帶寬快至3.6TB/s，支持第三代通用機密計算（第一個機架級TEE），實現CPU與GPU跨域的完整可信執行環境。

這些芯片均已回片，英偉達已對整個NVIDIA Vera Rubin NVL72系統進行驗證，合作伙伴也已開始運行其內部集成的AI模型和算法，整個生態系統都在為Vera Rubin做部署準備。

其他發布中，NVIDIA Spectrum-X以太網共封裝光學器件顯著優化了電源效率和應用正常運行時間；NVIDIA推理上下文內存存儲平臺重新定義了存儲堆棧，以減少重復計算并提升推理效率；基于DGX Vera Rubin NVL72的NVIDIA DGX SuperPOD將大型MoE模型的token成本降低至1/10。

開放模型方面，英偉達宣布擴展開源模型全家桶，發布新的模型、數據集和庫，包括NVIDIA Nemotron開源模型系列新增Agentic RAG模型、安全模型、語音模型，還發布了適用于所有類型機器人的全新開放模型。不過，黃仁勛并未在演講中詳細介紹。

物理AI方面，物理AI的ChatGPT時刻已經到來，英偉達全棧技術使全球生態系統能通過AI驅動的機器人技術改變行業；英偉達廣泛的AI工具庫，包括全新Alpamayo開源模型組合，使全球交通行業能快速實現安全的L4駕駛；NVIDIA DRIVE自動駕駛平臺現已投入生產，搭載于所有全新梅賽德斯-奔馳CLA，用于L2++ AI定義的駕駛。

一、全新AI超級計算機：6款自研芯片，單機架算力達3.6EFLOPS

黃仁勛認為，每10到15年，計算機行業就會迎來一次全面的重塑，但這次，兩個平臺變革同時發生，從CPU到GPU，從“編程軟件”到“訓練軟件”，加速計算與AI重構了整個計算堆棧。過去十年價值10萬億美元的計算產業，正在經歷一場現代化改造。

與此同時，對算力的需求也急劇飆升。模型的尺寸每年增長10倍，模型用于思考的token數量每年增長5倍，而每個token的價格每年降低10倍。

為了應對這一需求，英偉達決定每年都發布新的計算硬件。黃仁勛透露，目前Vera Rubin也已經全面開啟生產。

英偉達全新AI超級計算機NVIDIA Vera Rubin POD采用了6款自研芯片：Vera CPU、Rubin GPU、NVLink 6 Switch、ConnectX-9（CX9）智能網卡、BlueField-4 DPU、Spectrum-X 102.4T CPO。

（1）Vera CPU：為數據移動和智能體處理而設計，擁有88個英偉達定制Olympus核心、176線程的英偉達空間多線程，1.8TB/sNVLink-C2C支持CPU:GPU統一內存，系統內存達1.5TB（是Grace CPU的3倍），SOCAMM LPDDR5X內存帶寬為1.2TB/s，并支持機架級機密計算，數據處理性能翻倍提升。

（2）Rubin GPU：引入Transformer引擎，NVFP4推理性能高達50PFLOPS，是Blackwell GPU的5倍，向后兼容，在保持推理精度的同時提升BF16/FP4級別的性能；NVFP4訓練性能達到35PFLOPS，是Blackwell的3.5倍。

Rubin也是首個支持HBM4的平臺，HBM4帶寬達22TB/s，是上一代的2.8倍，能夠為苛刻的MoE模型和AI工作負載提供所需性能。

（3）NVLink 6 Switch：單lane速率提升至400Gbps，采用SerDes技術實現高速信號傳輸；每顆GPU可實現3.6TB/s的全互連通信帶寬，是上一代的2倍，總帶寬為28.8TB/s，FP8精度下in-network計算性能達到14.4TFLOPS，支持100%液冷。

（4）NVIDIA ConnectX-9 SuperNIC：每顆GPU提供1.6Tb/s帶寬，針對大規模AI進行了優化，具備完全軟件定義、可編程、加速的數據路徑。

（5）NVIDIA BlueField-4：800Gbps DPU，用于智能網卡和存儲處理器，配備64核Grace CPU，結合ConnectX-9 SuperNIC，用于卸載網絡與存儲相關的計算任務，同時增強了網絡安全能力，計算性能是上一代的6倍，內存帶寬達3倍，GPU訪問數據存儲的速度提升至2倍。

（6）NVIDIA Vera Rubin NVL72：在系統層面將上述所有組件整合成單機架處理系統，擁有2萬億顆晶體管，NVFP4推理性能達3.6EFLOPS，NVFP4訓練性能達2.5EFLOPS。

該系統LPDDR5X內存容量達54TB，是上一代的2.5倍；總HBM4內存達20.7TB，是上一代的1.5倍；HBM4帶寬是1.6PB/s，是上一代的2.8倍；總縱向擴展帶寬達到260TB/s，超過全球互聯網的總帶寬規模。

該系統基于第三代MGX機架設計，計算托盤采用模塊化、無主機、無纜化、無風扇設計，使組裝和維護速度比GB200快18倍。原本需要2小時的組裝工作，現在只需5分鐘左右，而原本系統使用約80%的液冷，目前已經100%使用液冷。

NVLink Switch托盤顆實現零停機維護與容錯，在托盤被移除或部分部署時機架仍可運行。第二代RAS引擎可進行零停機運行狀況檢查。

這些特性提升了系統運行時間與吞吐率，進一步降低訓練與推理成本，滿足數據中心對高可靠性、高可維護性的要求。

已有超過80家MGX合作伙伴準備好支持Rubin NVL72在超大規模網絡中的部署。

二、三大新品爆改AI推理效率：新CPO器件、新上下文存儲層、新DGX SuperPOD

同時，英偉達發布了3款重要新品：NVIDIA Spectrum-X以太網共封裝光學器件、NVIDIA推理上下文內存存儲平臺、基于DGX Vera Rubin NVL72的NVIDIA DGX SuperPOD。

1、NVIDIA Spectrum-X以太網共封裝光學器件

NVIDIA Spectrum-X以太網共封裝光學器件基于Spectrum-X架構，采用2顆芯片設計，采用200Gbps SerDes，每顆ASIC顆可提供102.4Tb/s帶寬。

該交換平臺包括一個512端口高密度系統，以及一個128端口緊湊系統，每個端口的速率均為800Gb/s。

CPO（共封裝光學）交換系統可實現5倍的能效提升、10倍的可靠性提升、5倍的應用程序正常運行時間提升。

這意味著每天可以處理更多token，從而進一步降低數據中心的總擁有成本（TCO）。

2、NVIDIA推理上下文內存存儲平臺

NVIDIA推理上下文內存存儲平臺是一個POD級AI原生存儲基礎設施，用于存儲KV Cache，基于BlueField-4與Spectrum-X Ethernet加速，與NVIDIA Dynamo和NVLink緊密耦合，實現內存、存儲、網絡之間的協同上下文調度。

該平臺將上下文作為一等數據類型處理，可實現5倍的推理性能、5倍的更優能效。

這對改進多輪對話、RAG、Agentic多步推理等長上下文應用至關重要，這些工作負載高度依賴上下文在整個系統中被高效存儲、復用與共享的能力。

AI正在從聊天機器人演進為Agentic AI（智能體），會推理、調用工具并長期維護狀態，上下文窗口已擴展到數百萬個token。這些上下文保存在KV Cache中，每一步都重新計算會浪費GPU時間并帶來巨大延遲，因此需要存儲。

但GPU顯存雖快卻稀缺，傳統網絡存儲對短期上下文而言效率過低。AI推理瓶頸正從計算轉向上下文存儲。所以需要一個介于GPU與存儲之間、專為推理優化的新型內存層。

這一層不再是事后補丁，而必須與網絡存儲協同設計，以最低的開銷移動上下文數據。

作為一種新型存儲層級，NVIDIA推理上下文內存存儲平臺并不直接存在于主機系統中，而是通過BlueField-4連接到計算設備之外。其關鍵優勢在于，可以更高效地擴展存儲池規模，從而避免重復計算KV Cache。

英偉達正與存儲合作伙伴緊密合作，將NVIDIA推理上下文內存存儲平臺引入Rubin平臺，使客戶能夠將其作為完整集成AI基礎設施的一部分進行部署。

3、基于Vera Rubin構建的NVIDIA DGX SuperPOD

在系統層面，NVIDIA DGX SuperPOD作為大規模AI工廠部署藍圖，采用8套DGX Vera Rubin NVL72系統，用NVLink 6縱向擴展網絡，用Spectrum-X Ethernet橫向擴展網絡，內置NVIDIA推理上下文內存存儲平臺，并經過工程化驗證。

整個系統由NVIDIA Mission Control軟件管理，實現極致效率?？蛻艨蓪⑵渥鳛榻昏€匙平臺部署，用更少GPU完成訓練與推理任務。

由于在6款芯片、托盤、機架、Pod、數據中心與軟件層面實現了極致協同設計，Rubin平臺在訓練與推理成本上實現了大幅下降。與上一代Blackwell相比，訓練相同規模的MoE模型，僅需1/4的GPU數量；在相同延遲下，大型MoE模型的token成本降低至1/10。

采用DGX Rubin NVL8系統的NVIDIA DGX SuperPOD也一并發布。

借助Vera Rubin架構，英偉達正與合作伙伴和客戶一起，構建世界上規模最大、最先進、成本最低的AI系統，加速AI的主流化落地。

Rubin基礎設施將于今年下半年通過CSP與系統集成商提供，微軟等將成為首批部署者。

三、開放模型宇宙再擴展：新模型、數據、開源生態的重要貢獻者

在軟件與模型層面，英偉達繼續加大開源投入。

OpenRouter等主流開發平臺顯示，過去一年，AI模型使用量增長20倍，其中約1/4的token來自開源模型。

2025年，英偉達是Hugging Face上開源模型、數據和配方的最大貢獻者，發布了650個開源模型和250個開源數據集。

英偉達的開源模型在多項排行榜中名列前茅。開發者不僅可以使用這些開源模型，還可以從中學習、持續訓練、擴展數據集，并使用開源工具和文檔化技術來構建AI系統。

受到Perplexity的啟發，黃仁勛觀察到，Agents應該是多模型、多云和混合云的，這也是Agentic AI系統的基本架構，幾乎所有的創企都在采用。

借助英偉達提供的開源模型和工具，開發者現在也可以定制AI系統，并使用最前沿的模型能力。目前，英偉達已經將上述框架整合為“藍圖”，并集成到SaaS平臺中去。用戶可以借助藍圖實現快速部署。

現場演示的案例中，這一系統系統可以根據用戶意圖，自動判斷任務應由本地私有模型還是云前沿模型處理，也可調用外部工具（如郵件 API、機器人控制接口、日歷服務等），并實現多模態融合，統一處理文本、語音、圖像、機器人傳感信號等信息。

這些復雜的能力在過去是絕對無法想象的，但如今已經變得微不足道。在ServiceNow、Snowflake等企業平臺上，都能使用到類似的能力。

四、開源Alpha-Mayo模型，讓自動駕駛汽車“思考”

英偉達相信物理AI和機器人最終將成為全球最大的消費電子細分市場。所有能夠移動的事物，最終都將實現完全自主，由物理AI驅動。

AI已經經歷了感知AI、生成式AI、Agentic AI階段，現在正進入物理AI時代，智能走入真實世界，這些模型能夠理解物理規律，并直接從物理世界的感知中生成行動。

不要要實現這一目標，物理AI必須學會世界的常識——物體恒存、重力、摩擦。這些能力的獲取將依賴三臺計算機：訓練計算機（DGX）用于打造AI模型，推理計算機（機器人/車載芯片）用于實時執行，仿真計算機（Omniverse）用于生成合成數據、驗證物理邏輯。

而其中的核心模型是Cosmos世界基礎模型，將語言、圖像、3D與物理規律對齊，支撐從仿真生成訓練數據的全鏈路。

物理AI將出現在三類實體中：建筑（如工廠、倉庫），機器人，自動駕駛汽車。

黃仁勛認為，自動駕駛將成為是物理AI的第一個大規模應用場景。此類系統需要理解現實世界、做出決策并執行動作，對安全性、仿真和數據要求極高。

對此，英偉達發布Alpha-Mayo，一個由開源模型、仿真工具和物理AI數據集組成的完整體系，用于加速安全、基于推理的物理AI開發。

其產品組合為全球車企、供應商、創企和研究人員提供構建L4級自動駕駛系統的基礎模塊。

Alpha-Mayo這是是業內首個真正讓自動駕駛汽車“思考”的模型，這一模型已經開源。它通過將問題拆解為步驟，對所有可能性進行推理，并選擇最安全的路徑。

這種推理型任務-行動模型使自動駕駛系統能夠解決此前從未經歷過的復雜邊緣場景，例如繁忙路口的交通燈失效。

Alpha-Mayo擁有100億個參數，規模足以處理自動駕駛任務，同時又足夠輕量，可運行在為自動駕駛研究人員打造的工作站上。

它能接收文本、環視攝像頭、車輛歷史狀態和導航輸入，并輸出行駛軌跡和推理過程，讓乘客理解車輛為何采取某個行動。

現場播放的宣傳片中，在Alpha-Mayo的驅動下，自動駕駛汽車可以在0介入的情況下自主完成行人避讓、預判左轉車輛并變道繞開等操作。

黃仁勛稱，搭載Alpha-Mayo的梅賽德斯奔馳CLA已經投產，還剛剛被NCAP評為世界上最安全的汽車。每條代碼、芯片、系統都經過安全認證。該系統將在美國市場上線，并將在今年晚些時候推出更強駕駛能力，包括高速公路脫手駕駛，以及城市環境下的端到端自動駕駛。

英偉達亦發布了用于訓練Alpha-Mayo的部分數據集、開源推理模型評估仿真框架Alpha-Sim。開發者可以使用自有數據對Alpha-Mayo進行微調，也可以使用Cosmos生成合成數據，并在真實數據與合成數據結合的基礎上訓練和測試自動駕駛應用。除此之外，英偉達宣布NVIDIA DRIVE平臺現已投入生產。

英偉達宣布，波士頓動力、Franka Robotics、Surgical手術機器人、LG電子、NEURA、XRLabs、智元機器人等全球機器人領先企業均基于NVIDIA Isaac和GR00T構建。

黃仁勛還官宣了與西門子的最新合作。西門子正將英偉達CUDA-X、AI模型和Omniverse集成到其EDA、CAE和數字孿生工具與平臺組合中。物理AI將被廣泛用于設計、仿真到生產制造和運營的全流程。

結語：左手擁抱開源，右手將硬件系統做到不可替代

隨著AI基礎設施的重心正從訓練轉向大規模推理，平臺競爭已從單點算力，演進為覆蓋芯片、機架、網絡與軟件的系統工程，目標轉向以最低TCO交付最大推理吞吐，AI正進入“工廠化運行”的新階段。

英偉達非常注重系統級設計，Rubin同時在訓練和推理上實現了性能與經濟性的提升，并能作為Blackwell的即插即用替代方案，可從Blackwell無縫過渡。

在平臺定位上，英偉達依然認為訓練至關重要，因為只有快速訓練出最先進模型，推理平臺才能真正受益，因此在Rubin GPU中引入NVFP4訓練，進一步提升性能、降低TCO。

同時，這家AI計算巨頭也持續在縱向擴展和橫向擴展架構上大幅強化網絡通信能力，并將上下文視作關鍵瓶頸，實現存儲、網絡、計算的協同設計。

英偉達一邊大舉開源，另一邊正將硬件、互連、系統設計做得越來越“不可替代”，這種持續擴大需求、激勵token消耗、推動推理規模化、提供高性價比基礎設施的策略閉環，正為英偉達構筑更加堅不可摧的護城河。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.