近日,2026年英偉達GTC大會在圣何塞正式開幕。黃仁勛表示,要支撐未來數兆美元規模的智能經濟,必須從系統工程的視角重新設計整個計算堆棧。英偉達正試圖通過全面掌控能源、芯片、基礎設施、模型、應用這五層蛋糕,完成從芯片制造商到AI時代發電商的歷史性蛻變。
而對于AI時代進程的判斷,黃仁勛拋出了一個極其宏大的產業愿景:單純的數字生成時代正在走向深化,我們正在迎來物理AI的大爆炸以及代理式AI的全面普及。如果說過去幾年AI只是在屏幕內作答,那么從2026年開始,AI將擁有在三維物理世界中行動與交互的實體能力,并具備自主執行復雜任務的代理系統。英偉達正試圖通過軟硬一體化的全棧生態,再次重新定義計算基礎設施。
我們梳理了這場發布會的核心信息,以下是重點內容:
1. 算力需求重估:到2027年計算市場規模將突破1萬億美元
黃仁勛在演講中為AI基礎設施的未來需求定下了基調:到2027年,全球計算需求將突破1萬億美元大關。他強調,在這個全新的AI時代,Token(詞元)就是新的基礎貨幣。生成Token的成本與效率直接決定了科技企業的營收與生死。英偉達致力于打造全球每Token成本最低的計算方案,因為這關乎整個行業運轉的經濟學底層邏輯。
2.加速計算才是時代答案:Vera Rubin平臺全面接棒計算霸權
面對外界對摩爾定律終結的探討,黃仁勛給出的答案是不斷進化的加速計算架構。繼Blackwell之后,下一代Vera CPU + Rubin GPU架構(Vera Rubin Ultra)正式成為全場焦點。
這一專為AI代理系統打造的平臺展現了驚人的擴展能力,能夠在一個系統中連接多達144個GPU,并實現了硬件與軟件的徹底垂直整合。在能效與回報率方面,這一新架構的潛力令人側目,結合全面普及的液冷技術(Liquid Cooling)和封裝光學器件(Co-packaged optics),新架構不僅極大優化了能耗比,更被預期能為企業帶來高達5倍的營收產出比,進一步鞏固了英偉達在數據中心領域的絕對統治力。
3. 鞏固圖圖形與生態護城河:CUDA二十周年積累數億GPU裝機,DLSS 5也快來了
除了硬核的AI基建,英偉達的傳統藝能同樣在持續進化。時值CUDA生態誕生20周年,CUDA已在全球范圍內累積了數億GPU的裝機量,并滲透進了每一個技術生態中,飛輪正在以前所未有的速度加速運轉。同時,大會還透露了處于研發前沿的DLSS 5技術,預示著基于神經渲染的技術迭代將再次顛覆AI驅動的圖形和高端游戲體驗。
4. 押注代理式AI:推出NemoClaw,構建AI Agent的專用操作系統
在軟件與生態側,英偉達正式推出了NemoClaw參考堆棧。這相當于為代理式計算機打造了一個專用的操作系統底座。借助NemoClaw,開發者能夠在保障底層隱私與安全的前提下,通過簡單的指令快速構建、部署和加速屬于自己的個性化AI Agent。這標志著AI的交互邏輯正在發生根本性轉變:從被動響應的對話工具,進化為具備自主規劃和執行能力的超級個人助理。
5.物理AI大爆炸:從自動駕駛到具身智能的全面落地
通用語言模型并不是智能的終點,真正的下一代AI必須擁有物理軀殼。黃仁勛強調了物理AI(Physical AI)的概念,AI必須學會理解重力、摩擦力以及復雜的三維物理空間。
在自動駕駛領域,比亞迪、現代、日產等頭部車企已紛紛加入英偉達的Robotaxi就緒平臺;而在通用機器人領域,英偉達發布了專為人形機器人打造的通用基礎模型 Project GR00T。它能夠讓機器人通過觀察人類行為來學習自然語言和模仿動作。此外,英偉達還大幅更新了Isaac機器人平臺,推出了專為機械臂控制和3D視覺環境感知打造的全新軟硬件庫。英偉達與迪士尼幻想工程合作打造的《冰雪奇緣》雪寶(Olaf)實體機器人也踏上GTC舞臺,與黃仁勛親密互動。
![]()
歡迎來到GTC!我只想提醒大家,這是一場技術大會。這么多人在清晨就排起了長隊,很高興見到在座的各位。在GTC我們將探討技術與平臺。NVIDIA擁有三大平臺,大家可能以為我們主要討論的是CUDA X,但系統是我們的另一個平臺,現在我們還有一個名為AI Factories的新平臺。我們將討論所有這些內容,但最重要的是我們要討論生態系統。
在開始之前,我要感謝賽前節目主持人Sarah Go和Alfred Lin,以及NVIDIA的首家風險投資機構Sequoia Capital的Gavin Baker。作為首位主要機構投資者,他們深耕技術領域,洞悉行業動態,擁有廣泛的技術生態系統。當然也要感謝我親手挑選并邀請的各位全明星VIP嘉賓,此外我還要感謝所有到場的贊助公司。NVIDIA是一家平臺公司,擁有技術、平臺以及豐富的生態系統。今天這里匯聚了全球100萬億美元產業的代表,共有450家公司贊助了本次活動,擁有一千場技術分會和2000位演講嘉賓。
本次大會將涵蓋人工智能五層蛋糕架構的每一層,從土地、電力和建筑等基礎設施,到芯片、平臺和模型,而最終讓整個行業騰飛的將是所有的應用程序。
一切都始于這里,今年是CUDA問世20周年。20年來我們一直致力于這一架構的研發。這項革命性的發明通過單指令多線程編寫標量代碼即可衍生出多線程應用,這比SIMD更容易編程。我們最近還添加了Tiles,以幫助開發者對Tensor Core及當今人工智能基礎數學結構進行編程。目前已有數千個工具、編譯器、框架、庫和數十萬個公開的開源項目,CUDA已經深度集成到每一個生態系統中。最難實現的一點是龐大的裝機量。
我們花了20年時間在全球構建起數以億計運行CUDA的GPU和計算系統,覆蓋了每一個云平臺和計算機公司,服務于幾乎所有行業。CUDA的裝機量正是推動飛輪加速轉動的核心動力。裝機量吸引了開發者,開發者隨后創造出如深度學習等實現突破的新算法。這些突破催生了全新市場并建立起新的生態系統,吸引更多公司加入,從而創造了更大的裝機量。這種飛輪效應目前正在加速,NVIDIA庫的下載量正以驚人的速度增長。這種效應不僅讓計算平臺能支持眾多應用和突破,還賦予了基礎設施極長的使用壽命。
有如此多的應用可以在NVIDIA CUDA上運行,我們支持AI生命周期的每個階段和每個數據處理平臺,加速各種基于科學原理的求解器。正因應用范圍如此之廣,一旦安裝NVIDIA GPU,其使用壽命周期就極長。這也是為什么早在六年前出貨的Ampere架構在云端的定價依然在上漲。高裝機量、顯著的飛輪效應和極廣的開發者覆蓋范圍,加上我們持續更新軟件,使得計算成本不斷下降。加速計算極大提升了應用速度,隨著我們在軟件生命周期內的持續培育和更新,用戶不僅能獲得初次使用的性能提升,還能獲得加速計算帶來的持續成本降低。因為裝機量龐大,我們發布的新優化方案能惠及數以百萬計兼容架構的GPU,覆蓋全球用戶。動態組合擴大了NVIDIA架構的影響力,加速增長的同時降低了計算成本并促進新增長,這就是CUDA的核心價值。
但我們的旅程實際上始于25年前的GeForce。GeForce是NVIDIA最偉大的營銷活動,許多人是伴隨它長大的。早在你們自己負擔得起之前,父母就付錢讓你們成為了NVIDIA的客戶,直到有一天你們成為出色的計算機科學家和真正的開發者。GeForce造就了今天的NVIDIA并孕育了CUDA。25年前我們發明了全球首款可編程加速器——像素著色器,旨在讓加速器具備可編程性。5年后CUDA誕生了。我們當年傾盡全公司利潤所做的最大投資,就是憑借GeForce將CUDA推廣到每臺電腦上。歷經20年和13代產品,CUDA現已無處不在。十年前我們推出了RTX,針對現代計算機圖形時代徹底重新設計了架構。GeForce將CUDA推向世界,也讓眾多先驅發現GPU是加速深度學習的良師益友,從而開啟了AI大爆炸。十年前我們決定融合可編程著色技術并引入硬件光線追蹤,當時我們就認為AI將徹底變革計算機圖形學。正如GeForce將AI帶給世界,現在AI將反過來徹底變革計算機圖形學。
今天我將展示下一代圖形技術——神經渲染,這是3D圖形與人工智能的融合,也就是DLSS 5.0。我們融合了可控的3D圖形、虛擬世界的結構化數據與生成式AI的概率計算。結構化數據完美受控,結合生成式AI,創造出精美令人驚嘆且具備可控性的內容。這種將結構化信息與生成式AI融合的概念將接連不斷地影響各個行業,結構化數據正是值得信賴的AI的基石。
接下來我們要詳細探討結構化數據。大家熟知的SQL、Spark、Pandas、Velox以及Snowflake、Databricks、Amazon EMR、Azure Fabric、Google Cloud BigQuery等超大型平臺都在處理數據框。這些數據框是巨大的電子表格,保存著企業計算和業務的單一真值。過去我們努力加速結構化數據處理,以更低成本和更高頻率讓公司高效運行。未來AI將以極快的速度使用這些結構化數據庫。除此之外,還有代表全球絕大部分信息的非結構化生成式數據庫,如向量數據庫、PDF、視頻和演講等。每年生成的90%的數據都是非結構化數據。直到現在由于缺乏簡便的索引方式且難以理解其含義,這些數據一直無法被高效查詢和搜索。
現在我們讓AI來解決這個問題。利用多模態感知與理解技術,AI能夠閱讀PDF并理解其含義,將其嵌入到可搜索和查詢的更大結構中。為此NVIDIA創建了兩個基礎庫:用于數據框和結構化數據的cuDF,以及用于向量存儲和非結構化AI數據的cuVS。這兩個平臺將成為未來最重要的平臺,我們正將其深度融入全球復雜的數據處理系統網絡中。
今天我們將發布幾項重要合作。IBM作為領域特定語言SQL的發明者,正在使用cuDF加速watsonx的數據處理。60年前IBM推出了開啟計算時代的System/360,隨后SQL和數據倉庫構成了現代企業計算的基石。今天IBM與NVIDIA正通過利用GPU計算庫加速watsonx.data的SQL引擎,為AI時代重新定義數據處理。由于當前CPU數據處理系統已無法滿足AI對海量數據集的快速訪問需求,企業必須轉型。例如雀巢每天要做數千次供應鏈決策,在CPU上每天只能刷新幾次匯總了全球交付事件的訂單到現金數據集市,而在NVIDIA GPU上運行加速的watsonx后,速度提升了5倍且成本降低了83%。
AI時代的加速計算已經到來。我們不僅加速了云端數據處理,也加速了本地部署。全球領先的系統和存儲制造商Dell與我們合作,將cuDF和cuVS集成到Dell AI數據平臺中以迎接AI時代。我們還與Google Cloud合作加速了Vertex AI和BigQuery。在與Snapchat的合作中,我們將其計算成本降低了近80%。當你加速計算和數據處理時,不僅獲得了速度和規模優勢,最重要的是獲得了成本優勢。摩爾定律的核心是性能每隔幾年翻倍,但它現在已經后勁不足。加速計算讓我們能夠實現跨越。
NVIDIA作為一家算法公司,憑借廣泛的市場觸達和龐大的裝機量,通過持續優化算法不斷降低計算成本,為大家擴大規模并提升速度。NVIDIA構建了加速計算平臺并提供RTX、cuDF、cuVS等一系列庫,最終將其集成到全球的云服務和OEM廠商中觸達全球。這種合作模式正在Google Cloud、Snapchat等平臺上不斷重復。我們為在JAX、XLA和PyTorch上所做的出色工作感到自豪。我們是全球唯一在這些框架上都表現卓越的加速器。像Baseten、CrowdStrike、Puma、Salesforce等不僅是我們的客戶也是開發者。
我們將NVIDIA技術整合到他們的產品中,并將他們帶入云端。我們與云服務提供商的關系本質就是為他們帶來客戶。大多數云服務提供商都非常樂意與我們合作,因為我們將源源不斷地為所有人提供加速。最后,今年讓我非常興奮的一件事是,我們將把OpenAI引入AWS,這將帶動AWS云計算的巨大消耗并擴展OpenAI的計算能力。
在AWS,我們加速了EMR、SageMaker和Bedrock。NVIDIA與AWS進行了深度集成,他們也是我們的首個云合作伙伴。在Microsoft Azure方面,我們為其打造并安裝了首臺NVIDIA A100超級計算機,這為后來與OpenAI的巨大成功合作奠定了基礎。我們與Azure的合作由來已久,不僅為其云服務和Bing Search提供加速,還與他們的AIFoundry開展了深度合作。隨著AI在全球范圍內的擴展,Azure Regions的合作也變得極其重要。我們提供的一項核心功能是機密計算(Confidential Computing)。機密計算能夠確保操作員無法觸碰或查看數據和模型。NVIDIA GPU是全球首款實現該功能的GPU,它能夠支持并在不同云端和地區安全部署OpenAI和Anthropic等極其寶貴的模型。這一切都要歸功于至關重要的機密計算技術。
在客戶合作方面,Synopsis是我們的重要合作伙伴,我們正在加速其所有的EDA和CAU工作流,并落地于Microsoft Azure。我們既是Oracle的首家供應商,也是他們的首位AI客戶。讓我非常自豪的是,我首次向Oracle解釋了AI云的概念,并成為了他們的首位客戶,從那時起Oracle便開始騰飛。我們在那里落地了包括Quark、Cohere、Fireworks以及OpenAI在內的一大批合作伙伴。CoreWeave是全球首個AI原生云,其建立的核心目標就是在加速計算時代提供并托管GPU,為AI云提供托管服務。他們擁有出色的客戶群,并且增長速度驚人。
我還非常看好Palantir和Dell平臺。我們三家公司共同努力打造了一種全新類型的AI平臺——Palantir Ontology平臺。該平臺可以在任何國家、任何物理隔離(air-gapped)區域實現完全本地化的現場部署。AI幾乎可以部署在任何地方。如果沒有我們的機密計算能力,沒有我們構建端到端系統以及提供整個加速計算和AI堆棧的能力(涵蓋從向量或結構化數據處理到AI時代的完整流程),這一切都不可能實現。這些例子展示了我們與全球云服務提供商之間的特殊合作關系,他們今天都在現場,我由衷感謝大家的辛勤付出。
![]()
NVIDIA是一家垂直整合但同時橫向開放的公司,這是大家會反復看到的主題。其必要性非常簡單:加速計算不僅僅是芯片或系統的問題,它的核心在于應用加速。如果只是讓電腦運行得更快,那是CPU的工作,但CPU已經后勁不足了。未來實現巨大性能提升和成本降低的唯一方式,就是通過應用或特定領域的加速來實現,即應用加速計算。因此NVIDIA必須針對不同的垂直行業和領域,開發一個又一個的庫。
作為一家垂直整合的計算公司,我們別無選擇,必須深入理解應用、領域和算法的底層邏輯。我們還必須弄清楚如何將算法部署在數據中心、云端、本地(on-prem)、邊緣端或機器人系統等各種截然不同的計算系統中。從底層芯片到系統,我們實現了垂直整合。而NVIDIA之所以無比強大,是因為我們橫向開放。我們致力于將NVIDIA的軟件、庫和技術與合作伙伴的技術相結合,集成到任何目標平臺中,從而將加速計算帶給世界上的每一個人。本次GTC大會正是這一理念的絕佳展示。
目前我們擁有觸達各大垂直領域的領域特定庫,以解決各行各業的關鍵問題。例如在金融服務業(這也是本屆GTC參會人數最多的群體),算法交易正從依賴人類進行特征工程的傳統機器學習,轉向由超級計算機分析海量數據并自動發現洞察與模式,這正是金融業的深度學習和Transformer時刻。醫療保健行業也迎來了ChatGPT時刻。我們正在將AI物理學和AI生物學應用于藥物研發,并開發用于客戶服務和輔助診斷的AI Agent。
在工業領域,我們正在開啟人類歷史上規模最大的擴建工程,全球大多數行業都在建造AI工廠,今天也有許多芯片和計算機制造廠的代表來到現場。在媒體與娛樂方面,實時AI平臺正在支持翻譯、廣播、直播游戲和視頻,絕大部分內容都將通過AI進行增強。在量子計算領域,有35家公司正利用我們的Holoscan平臺構建下一代量子GPU混合系統。零售和消費品(CPG)行業正利用NVIDIA優化供應鏈,并構建代理式購物系統和客服AI Agent,這是一個價值35萬億美元的龐大市場。
在規模達50萬億美元的制造業機器人領域,NVIDIA已深耕十年,構建了重建機器人系統所需的基礎計算機,并與所有主流機器人制造公司展開合作,此次展會我們就展出了110臺機器人。電信行業的規模約為2萬億美元,其遍布全球的基站作為上一代計算時代的基礎設施,即將迎來徹底重塑。未來的基站將成為AI基礎設施平臺,讓AI在邊緣運行。我們的Aerial(即AIRAN)平臺正在與Nokia、T-Mobile等多家公司開展重大合作。
在這一切的核心是我們自主發明的CUDA-X庫算法,這是NVIDIA作為一家算法公司的立身之本,也是我們區別于其他公司的特別之處。算法讓我們能夠深入各個行業,將世界頂尖計算機科學家解決問題的方法重構并轉化為庫。在本次展會上,我們將發布大量庫和模型,這些不斷更新的庫是我們公司的瑰寶,它們激活了計算平臺,真正解決了實際問題。比如引發現代AI大爆發的cuDNN,以及用于決策優化的cuOPT、計算光刻的cuLitho、直接稀疏求解器的cuDSS、基因組學的Parabricks等上千個CUDA-X庫,正助力開發者在科學和工程領域取得突破。大家所看到的一切都不是人工動畫,而是基于基礎物理求解器、AI物理模型和物理AI機器人模型的完全模擬。憑借對算法的理解與計算平臺的結合,NVIDIA作為一家垂直整合且橫向開放的公司,正不斷解鎖新機遇。
如今除了傳統巨頭,還涌現了一大批像OpenAI、Anthropic這樣的AI原生(AInative)初創公司。隨著計算被重新發明,創投圈向初創企業投入了史無前例的1500億美元資金。因為歷史上第一次,這些公司全都需要龐大的算力和海量的Token,他們要么自己生成Token,要么為現有的Token增值。正如PC、互聯網和移動云時代誕生了Google、Amazon和Meta一樣,我們正處于新平臺轉型的開端,必將涌現出對未來具有重大影響力的新公司。
AI現在必須思考、行動并進行閱讀,而要做到這些,它必須進行推理并進行邏輯推演。AI的每一個部分在思考、行動和生成Token時都必須進行推理。現在早已過了訓練階段,我們正處于推理領域,推理的拐點已經到來。在這個時刻所需的計算量增加了大約10000倍。在過去的兩年里計算需求增長了10000倍,而使用量可能增長了100倍。相信計算需求在過去兩年里增長了一百萬倍,這也是每一家初創公司、OpenAI和Anthropic的共同感受。如果他們能獲得更多算力就能生成更多Token,營收就會增長,越先進的AI就會變得越聰明。
我們現在正處于這個正向飛輪系統中,推理的拐點已經到來。去年此時我說過到2026年Blackwell和Rubin的高置信度需求和采購訂單總額將達到5000億美元。雖然大家可能因為創下年度營收紀錄而對這個數字不為所動,但我現在要告訴大家,到2027年這一數字將至少達到1萬億美元。事實上我們將面臨算力短缺,計算需求將遠高于此。
![]()
我們在過去一年里做了大量工作,2025年是NVIDIA的推理之年。我們希望確保不僅擅長訓練和后訓練,而且在AI的每一個階段都表現出色。對基礎設施的投資可以長期擴展,NVIDIA基礎設施使用壽命長且成本極低。毫無疑問NVIDIA系統是世界上成本最低的AI基礎設施。去年的一切都是圍繞推理AI展開的,這推動了拐點的到來。同時Anthropic和Meta的Llama等代表全球三分之一AI開源模型算力的平臺都選擇了NVIDIA。開源模型已接近前沿水平且無處不在。NVIDIA是當今世界上唯一能夠跨越所有語言和AI領域運行的平臺,涵蓋生物學、計算機圖形學、計算機視覺、語音、蛋白質、化學和機器人技術等領域。我們的架構從邊緣到云端通用,使其成為成本最低且最值得信賴的平臺。
面對一萬億美元的龐大基礎設施規模,必須確保投資具有高性能、成本效益和長期使用壽命。你可以滿懷信心地選擇NVIDIA,無論部署在云端、本地還是世界任何地方,我們都能提供支持。我們現在是一個運行所有AI的計算平臺,這已體現在業務中。我們60%的業務來自前五大超大規模云服務商,其中一部分用于內部AI消耗。推薦系統和搜索等內部工作負載正從傳統方法轉向深度學習和大語言模型,這些負載正向NVIDIA極具優勢的GPU上遷移。通過與各大AI實驗室合作并擁有龐大的原生生態系統,我們能將算力帶入云端并被迅速消耗。另外40%的業務遍布區域云、主權云、企業、工業領域、機器人技術、邊緣計算和超級計算系統等。AI廣泛的觸達范圍和多樣性正是其韌性所在,它現已成為一項基礎技術和全新的計算平臺變革。
我們的職責是繼續推動技術進步。去年作為推理之年,我們在Hopper架構巔峰時冒著巨大風險進行了徹底重塑。我們決定將架構提升到全新水平,徹底重構系統以解耦計算并創造了NVLINK-72。其構建、制造和編程方式都發生了徹底改變。GraceBlackwell和NVLINK-72是一場巨大的賭注,感謝所有合作伙伴的辛勤努力。NVFP4不僅僅是精度上的提升,它代表了完全不同類型的TensorCore和計算單元。我們證明了可以在不損失精度的情況下進行推理并大幅提升性能和能效,同時還能將其用于訓練。結合NVLINK-72、NVFP4、Dynamo、TensorRT-LLM以及一系列新算法,我們甚至投入數十億美元建造了DGXCloud超級計算機來優化內核和軟件棧。過去人們常說推理很簡單,但實際上推理是終極難題,也是驅動收入的核心動力。對AI推理最全面的掃描數據顯示每瓦特Token數至關重要。每個數據中心都受到功率限制,物理法則決定了1吉瓦的工廠不可能變成2吉瓦。因此必須在有限功率下產出最大數量的Token,力求處于效能曲線的頂端。
去年我說GraceBlackwell和NVLink72的每瓦性能提升了35倍時沒人相信,甚至有分析師認為我保留實力實際提升高達50倍。這使得我們的每Token成本成為全球最低。如果架構錯誤即使免費也不夠便宜,因為建造并分攤一個吉瓦級工廠的成本高達400億美元。必須部署最頂尖的系統以獲得最佳成本效益。通過極致的協同設計,我們進行垂直整合并水平開放,將所有軟件和技術打包給全球推理服務提供商。
![]()
回顧過去十年的發展,我們在2016年推出了全球首款專為深度學習設計的計算機DGX-1,八個Pascal架構GPU通過第一代NVLink連接提供170Teraflops算力。隨后通過Volta架構引入NVLink交換機,將16顆GPU作為巨型GPU運行。隨著模型增長數據中心需成為單一計算單元,于是Mellanox加入了NVIDIA。2020年推出的DGXA100SuperPOD結合了縱向與橫向擴展架構。之后開啟生成式AI時代的Hopper架構配備了FP8,而Blackwell通過NVLINK-72重新定義了AI超級計算,實現130TB/s的全對全帶寬。
如今智能體系統的算力需求呈指數級增長。專為智能體AI設計的VeraRubin推進了計算領域的各個支柱,提供3.6Exaflops算力和每秒260Terabytes的全對全帶寬。搭配專為編排設計的VeraCPU機架、基于BlueField-4的STX存儲機架、提升能效的Spectrum-X交換機,以及增加Token加速器的Grock-3LPX機架,合力實現了每兆瓦35倍的吞吐量提升。這個包含七顆芯片、五臺機架級計算機的全新平臺,讓算力在短短10年內提升了4000萬倍。
過去介紹Hopper時我還能舉起一顆芯片,但VeraRubin是一個需要整體優化的龐大系統。智能體系統最關鍵的是大語言模型的思考過程,模型不斷增大對內存和存儲系統產生了巨大壓力,因此我們重新發明了存儲系統。AI需要工具盡可能快地運行,為此我們打造了全新VeraCPU,它專為極高單線程性能設計,是全球唯一采用LPDDR5的數據中心CPU,能效比傲視群雄。該CPU旨在與機架其他部分協同進行智能體處理。VeraRubin系統已實現100%液冷,取消了線纜,安裝時間從兩天縮短至兩小時。它使用45度溫水冷卻,大幅降低了數據中心的散熱成本與能源消耗。這是目前世界上唯一構建到第六代的縱向擴展交換系統,實現難度極高。此外采用共封裝光學技術的Spectrum-X交換機也已全面量產,光子直接連接芯片硅片,工藝完全是革命性的。VeraCPU作為獨立產品已成為價值數十億美元的業務。
這四個機架組成的系統通過結構化布纜構建,極為高效。而RubinUltra計算節點則更進一步,安裝進名為Kyber的全新機架中,可在一個NVLINK域中連接144個GPU。計算節點垂直插入中板,不再受限于銅纜的驅動距離,背面連接NVLINK交換機,組成一臺巨大的計算機。最后再次強調,在給定的功率下AI工廠的吞吐量和Token生成速度將直接決定明年的收入,這是對AI工廠未來最重要的一項指標。
回顧Hopper架構,大家本就預期下一代產品性能會有所提升,但Grace Blackwell的飛躍幅度超乎所有人想象。Grace Blackwell在免費層級實現了吞吐量的極大提升,而這正是企業實現服務變現的核心領域,其吞吐量直接躍升了35倍。正如各行各業的商業邏輯一樣:服務層級越高,對應的質量與性能越好,但可用容量相對越低。我們在將基礎層級性能提升35倍的同時,還引入了全新的服務層級,這就是Grace Blackwell相較于Hopper實現的巨大跨越。
接下來登場的是Vera Rubin。在每一個細分服務層級上我們都實現了吞吐量的飛躍。特別是在平均售價最高、最具商業價值的頂層細分市場中,我們將吞吐量提升了整整10倍。在頂尖領域實現如此幅度的性能跨越是極其艱難的工程挑戰。這正是NVLink72的優勢所在,也是極低延遲架構帶來的巨大紅利。通過極致的軟硬件協同設計,我們成功拔高了整個行業的技術上限。
從客戶的實際運營角度來看,假設一個數據中心只有1吉瓦的電力總容量,我們需要進行精細的算力分配:比如將各25%的算力分別投入到免費、中級、高級和Premium層級中。免費層級用于獲客,而頂層服務則面向最具價值的客戶群,兩者結合最終轉化為業務營收。在相同的資源限制下,Blackwell架構能夠創造五倍以上的收入,而Vera Rubin同樣能實現五倍的營收增長。因此客戶應該盡早向Vera Rubin架構遷移,這不僅能顯著提升吞吐量,還能大幅降低單Token的生成成本。
但我們的追求不止于此。實現超高吞吐量需要海量的FLOPS算力支撐,而實現極低延遲和高頻交互則高度依賴龐大的內存帶寬。由于系統芯片的物理表面積總是有限的,計算機架構往往難以同時兼顧極高的FLOPS與極致的帶寬。在底層設計上,優化高吞吐量與優化低延遲本質上是相互矛盾的。
為了打破這一物理瓶頸,我們收購了Groq芯片研發團隊并獲得了相關技術授權。雙方一直在通力合作整合系統架構。如今在最具商業價值的高端層級中,我們將性能再度提升了35倍。NVIDIA之所以能在絕大多數AI工作負載中占據絕對的主導地位,根本原因就在于我們深刻理解吞吐量在這一領域的重要性。NVLink72展現出了顛覆性的架構優勢,它是目前最正確的技術路徑,即使在引入Groq技術后,其核心地位依然堅如磐石。
然而如果我們向外大幅延伸需求場景,假設你需要提供的服務不再是每秒400個Token,而是每秒1000個Token的超高速生成,NVLink72受限于帶寬瓶頸將力不從心。這正是Groq大顯身手的領域。Groq技術超越了現有極限,甚至突破了NVLink72所能觸及的性能天花板。如果將技術轉化為實際收益,Vera Rubin的創收能力是Blackwell的5倍。如果你的主要業務是高吞吐量工作負載,我建議100%部署Vera Rubin;但如果你的業務涉及大量代碼編寫或極高價值的Token生成任務,引入Groq將是明智之舉。一種合理的資源配置是將Groq部署在約25%的數據中心節點中,剩余75%全部采用Vera Rubin。通過將兩者深度融合,我們可以進一步拓展系統的性能邊界。
Groq的計算系統之所以極具吸引力,是因為它采用了確定性的數據流處理器架構。它完全依賴靜態編譯和編譯器調度,由軟件預先精準計算并調度執行時機,確保算力與數據同步到達。這種架構徹底摒棄了動態調度并配備了海量的SRAM,是專門為AI推理這一單一工作負載量身定制的。隨著全球對超智能、高速Token的生成需求呈指數級爆發,這種系統集成的價值將日益凸顯。
我們徹底重構了AI推理流水線的執行方式。我們將最擅長高吞吐量計算的任務交給Vera Rubin處理,同時將解碼生成、低延遲響應以及受帶寬瓶頸制約的工作負載卸載給Groq。就這樣我們將兩種特性截然不同的處理器完美統一。為了解決海量內存需求,我們只需橫向擴展大量Groq芯片來擴充內存容量。對于萬億參數級別的超大模型,我們可以將其完整部署在Groq芯片集群中;同時Vera Rubin在一旁協同工作,負責存儲處理復雜智能體(Agentic AI)系統所需的龐大KV緩存。
基于解耦推理的概念,Vera Rubin負責處理相對簡單的預填充(Pre-fill)環節,而Groq則深度參與解碼(Decode)過程。解碼階段中計算密集的注意力(Attention)機制由Vera Rubin承擔,而前饋網絡(Feedforward Network)以及最終的Token生成則在Groq芯片上執行。這兩大系統通過以太網(Ethernet)緊密耦合,并通過特殊傳輸模式將網絡延遲削減了近一半。在這一強大的硬件底座之上,我們運行了專為AI工廠打造的卓越操作系統Dynamo,最終實現了高達35倍的性能飛躍,更帶來了全球前所未見的Token生成層級推理性能。這就是整合了Groq技術的新一代Vera Rubin系統。
在此我要特別感謝Samsung。他們為我們代工制造了Groq LP30芯片,目前產線正在全力運轉,芯片已全面進入量產階段。預計在今年第三季度左右,我們還將發布升級版的Groq LPX。
回顧以往,由于NVLink72架構的極度復雜性,Grace Blackwell在早期的樣片測試階段面臨了巨大挑戰;但Vera Rubin的測試工作推進得異常順利。正如Satya所宣布的,第一臺Vera Rubin機架已在Microsoft Azure云平臺上正式點亮運行。我們在全球范圍內構建了極其強大的供應鏈體系,目前每周能夠產出數千套此類龐大系統,相當于每個月都能交付數吉瓦規模的AI工廠基礎設施。在持續交付GB300機架的同時,我們也在全面量產Vera Rubin機架。
與此同時Vera CPU也取得了空前的成功。當前AI在執行工具調用(Tool Use)等復雜操作時,依然高度依賴CPU的指令處理能力,Vera CPU的架構設計完美契合了這一核心訴求。Vera CPU與BlueField數據處理器以及CX9網卡深度整合,共同接入了BlueField-4網絡堆棧生態。目前全球所有的主流存儲企業都在積極融入我們的系統生態。過去是人類在使用SQL查詢調用數據,而未來將是海量的AI智能體在瘋狂讀取存儲系統。這些系統必須能夠無縫支持cuDF加速存儲、cuVS加速存儲以及極其關鍵的海量KV緩存讀取。
![]()
令人驚嘆的是,在短短兩年內,我們在一座吉瓦級的AI工廠中,通過前所未有的軟硬件架構創新打破了摩爾定律原本只能帶來的線性算力增長。憑借這套全新的架構,我們將Token生成速率從每秒200萬暴增至7億,實現了整整350倍的驚人跨越。這就是極致協同設計(Extreme Co-design)的力量:先進行深度的垂直整合與優化,隨后將其水平開放給整個行業生態。
關于我們的產品路線圖:Blackwell架構的Oberon系統已經全面問世,并且在Rubin架構中我們將繼續沿用Oberon系統,確保客戶軟硬件資產的向后兼容。Oberon采用了銅纜縱向擴展(Scale-up)技術,同時我們也支持通過光通信實現系統的橫向擴展(Scale-out),最高可擴展至NVLink576的龐大網絡。業界經常討論NVIDIA未來會押注銅纜還是光通信,我們的答案是兩者齊頭并進。我們將推出配合Kyber架構的NVLink144,并通過光纖連接將采用NVLink72的Oberon系統進一步擴展為NVLink576集群。
下一代Rubin Ultra芯片正在緊鑼密鼓地流片中。同時我們還將推出全新的LP35芯片,它將首發搭載NVIDIA革命性的NVFP4計算架構,為系統帶來指數級的X-factor性能加速。目前采用NVLink72光子級擴展、搭載全球首款共封裝光學(CPO)器件Spectrum 6的Oberon系統已經全面投入量產。
在這之后我們將迎來代號為Feynman的全新一代架構。Feynman不僅擁有全面革新的GPU,還將搭載由NVIDIA與Grok團隊強強聯手打造的全新LPU——LP40芯片。與之配套的還有代號為Rosa的全新CPU以及新一代BlueField-5數據處理器,負責將新一代CPU與SuperNIC CX10緊密連接。在Feynman架構下,我們將提供基于銅纜的Kyber縱向擴展方案,以及基于CPO技術的Kyber光通信縱向擴展方案。這是我們首次在縱向擴展領域同時并行推進銅纜和共封裝光學技術路線。銅纜連接依然至關重要,但同時我們也必須大規模提升光通信的連接規模和CPO產能,以應對日益暴漲的算力需求。
NVIDIA正以每年一次的極速節奏推進架構迭代,并已從一家芯片公司徹底蛻變為提供AI工廠和基礎設施的系統級公司。目前在全球正建設的龐大AI工廠中,由于缺乏系統級優化存在著巨大的算力和能源浪費。許多底層組件在進入數據中心之前從未進行過聯合設計與調試。
為了解決這一痛點,我們打造了Omniverse及其延伸的DSX平臺。這是一個讓全球產業鏈伙伴能夠在虛擬世界中共同協作、聯合設計吉瓦級超級AI工廠的數字孿生平臺。我們擁有涵蓋機架結構、機械物理、熱力學散熱、電氣工程以及復雜網絡拓撲的全套物理級模擬系統,這些仿真能力已深度集成到我們全球生態伙伴的專業工業軟件中。此外DSX平臺還能直接與現實世界的電網連接,動態統籌調度數據中心功耗與電網負荷以節約能源。在數據中心內部我們引入了Max-Q技術,在供電、冷卻及各類硬件設施之間進行動態負載均衡,確保每一度電都能轉化為最極致的Token吞吐量。在這個宏大的系統工程中,我深信至少還能挖掘出兩倍以上的性能提升空間。
NVIDIA DSX是一張用于設計和運營AI工廠的Omniverse數字孿生藍圖。開發者可以通過豐富的API接入:使用DSXsim進行物理、電氣與熱能仿真;通過DSxExchange管理AI工廠的運營數據;利用DSxFlex實現與電網的動態功率協同;最后由DSX Max-Q動態最大化Token吞吐量。這一流程始于NVIDIA與各大設備制造商提供的仿真就緒(Sim-ready)資產,交由PTC Windchill PLM進行管理,隨后導入達索系統的3DExperience平臺進行基于模型的系統工程(MBSE)設計。工程企業可將數據無縫導入自定義的Omniverse應用中完成最終廠房設計。在虛擬驗證環節,我們調用西門子Star-CCM+進行外部熱分析,使用Cadence Reality進行內部熱分析,利用ETAP進行電氣仿真,最后依靠NVIDIA的網絡模擬器DSx Air配合Procore平臺完成虛擬調試。
當物理站點落成上線后,數字孿生將轉化為工廠的運營者。AI智能體將與DSX Max-Q協同工作,動態編排基礎設施。Phaedrus Agent負責監督冷卻和電力系統以持續優化能源效率;Emerald AI Agent則負責解讀實時電網需求信號并動態調整功率。Omniverse的初衷就是構建世界的數字孿生,而DSX正是我們全新的AI工廠平臺。
不僅如此,NVIDIA的目光已經投向太空。Thor芯片已順利通過太空輻射認證并成功部署在衛星中用于軌道成像。未來我們計劃在太空中建設數據中心。目前我們正與航天伙伴聯合研發名為Vera Rubin Space One的新型計算機,它將成為人類在太空建立數據中心的先驅。由于太空環境中沒有熱傳導和對流,只能依靠熱輻射,這要求我們的工程師必須攻克前所未有的散熱技術難關。
![]()
今天著名開發者Peter Steinberger也來到了現場,他主導開發了一款名為OpenClaw的軟件。也許連他自己都沒意識到這款軟件的深遠影響力。短短數周內OpenClaw就躥升至榜首,成為人類歷史上最受歡迎的開源項目,它極短時間內的成就甚至超越了Linux過去三十年的積淀。這款軟件具有劃時代的意義,NVIDIA今天在此正式宣布將全力支持OpenClaw生態。
它的使用門檻極低,開發者只需在控制臺中輸入一行簡短的代碼,系統就會自動下載OpenClaw并為你構建一個專屬的AI Agent,隨后你只需用自然語言下達指令即可。Andrei Karpathy團隊也剛發布了意義非凡的研究成果:你可以在睡前給AI Agent布置任務,它會在夜間全自動運行上百次實驗,自動保留有效結果并剔除無效路徑。
OpenClaw正在重塑各行各業。有人分享了一位60歲的父親安裝OpenClaw的案例:他通過藍牙將設備連接到OpenClaw,系統接管了精釀啤酒的全套自動化流程,甚至自動生成并上線了供客戶下單的完整電商網站。在深圳數百家商戶正利用它實現龍蝦銷售的全鏈路自動化。連我們自己的工程師也正嘗試使用OpenClaw來構建下一代的OpenClaw。現在甚至連OpenClaw開發者大會(Claw Con)都應運而生了。
它還有什么功能?基于這一點,可以說它事實上是一個操作系統。我剛才使用的正是描述操作系統時會用到的語法。OpenClaw已經開源了Agentic計算機的核心操作系統,這與Windows讓個人電腦成為可能并無二致。現在OpenClaw讓創建個人智能體成為了可能,其影響不可估量。最重要的一點是,現在每一家軟件公司和技術公司都意識到了這一點。對于CEO們來說,問題在于你們的OpenClaw戰略是什么。正如我們曾經需要制定Linux戰略、HTTP和HTML戰略從而開啟互聯網時代,正如我們需要制定Kubernetes戰略從而使移動云成為可能,當今世界上的每家公司都需要制定OpenClaw戰略和智能體系統戰略,這是全新的計算機。
令人驚嘆的是,OpenClaw在最準確的時間為整個行業提供了最需要的東西,就像Linux、Kubernetes和HTML在最恰當的時機出現一樣。它讓整個行業能夠抓住這個開源技術棧并大有作為。但目前面臨一個問題:企業網絡中的智能體系統可以訪問敏感信息、執行代碼并進行外部通信。這意味著它可以訪問員工、供應鏈和財務等敏感信息并將其發送出去,這顯然是絕對不被允許的。因此,我們召集了世界上頂尖的安全和計算專家與Pieter合作開發了OpenClaw,使其具備企業級安全和隱私保護能力。
我們推出了NVIDIA的OpenClaw參考實現NemoClaw。它擁有代理式AI工具包,其中第一部分是現已集成到OpenClaw中的OpenShell技術,這讓它具備了企業級就緒能力。你可以下載試用NemoClaw參考堆棧,并將全球所有SaaS公司極具價值的策略引擎連接到它。NemoClaw或帶有OpenShell的OpenClaw將能夠執行該策略引擎,它配備了網絡護欄和隱私路由器,從而保護并安全地在公司內部執行策略。
我們還為智能體系統增加了定制化Claws功能,讓用戶能夠擁有專屬的定制模型,這正是NVIDIA的Open Model Initiative。NVIDIA目前處于每一個AI模型領域的最前沿,無論是Nemotron語言模型、Kosmos世界基礎模型、GROOT通用機器人人工智能、用于自動駕駛汽車的AlphaMIO、用于數字生物學的VaioNemo,還是用于AI物理學的Earth-2。因為世界是多樣化的,沒有單一的模型可以服務于所有行業。
Open Models是全球規模最大且最具多樣性的AI生態系統之一,涵蓋語言、視覺、生物學、物理學和自主系統領域的近三百萬個開放模型,助力構建特定領域的AI。作為開源AI領域最大的貢獻者之一,NVIDIA構建并發布了六個系列的開放前沿模型,提供訓練數據和框架以幫助開發者進行定制和采用。每個系列都在推出登頂排行榜的新模型。其核心包括用于語言推理、視覺理解、RAG、安全和語音的Nemotron模型,用于物理AI世界生成與理解的前沿模型Kosmos,全球首款具備思考與推理能力的自動駕駛AIAlphaMIO,通用機器人基礎模型GROOT,用于生物化學和分子設計的開放模型VaioNemo,以及植根于AI物理學的天氣和氣候預測模型Earth-2。
NVIDIA開放模型為研究人員和開發人員提供了構建其專業領域AI的基礎。我們的模型是世界級的并在排行榜上名列前茅,但最重要的是我們將持續推動其進化,例如Nemotron 3之后將推出Nemotron 4,Kosmos 1之后推出了Kosmos 2,GROOT也已經到了第二代。我們通過垂直整合與水平開放讓每個人都能加入AI革命。在研究、語音、世界模型、通用人工智能機器人、自動駕駛汽車和推理領域,我們的模型均位列排行榜第一,其中最重要的是集成在OpenClaw中的Nemotron-3,它是世界上最好的三個模型之一。我們致力于創建基礎模型以便用戶進行微調和后訓練,使其完全符合所需的智能水平。即將推出的Nemotron 3 Ultra將成為世界上最出色的基礎模型,幫助每個國家建立其主權AI。
今天,我們宣布成立Nemotron聯盟,致力于讓Nemotron-4變得更加出色。我們投入了數十億美元用于AI基礎設施建設以開發AI核心引擎,這不僅對推理庫至關重要,也能激活世界上的每一個行業。大語言模型固然重要,但在全球不同的行業和國家,由于從生物學到物理學、從自動駕駛到通用機器人的專業領域完全不同,你需要有能力定制自己的模型。我們有能力與每一個地區合作,打造特定領域的主權AI。
加入該聯盟的出色公司包括影像公司Blackforest Labs、編程公司Cursor、在創建自定義智能體方面擁有十億次下載量的LangChain、Mistral,以及打造了多模態智能體系統的Perplexity。此外,還有Reflection、來自印度的Sarvam、Thinking Machine以及Mira Murati的實驗室等優秀伙伴加入了我們。世界上每一家軟件公司都需要智能體系統和OpenClaw策略,這些伙伴都對此表示贊同,并正在與我們合作集成NeMo Claw參考設計、NVIDIA Agentic AI Toolkit以及我們所有的開源模型。
這是一場企業級IT的復興,將把一個兩萬億美元的行業重塑為價值數萬億美元的產業,不僅提供供人們使用的工具,還提供針對特定領域的智能體租賃服務。未來,我們公司的每一位工程師除了獲得幾十萬美元的基本工資外,還需要一份年度Token預算,我可能會給他們相當于基本工資一半的Token,這將為他們帶來十倍的增值空間。Token預算已成為硅谷的招聘工具之一,因為能夠使用Token的工程師將擁有更高的生產力。
![]()
智能體具備感知、推理和行動的能力。目前大多數智能體都是在數字世界中進行推理和編寫軟件的數字智能體,但我們也一直在研究具有物理實體的智能體,也就是機器人,它們需要的是物理AI。世界上幾乎每一家制造機器人的公司都在與NVIDIA合作。我們提供由訓練計算機、合成數據生成與仿真計算機以及機器人內部計算機構成的三臺計算機架構,擁有實現目標所需的所有軟件棧和AI模型,這些都已集成到全球從Siemens到Cadence等合作伙伴的生態系統中。今天我們宣布了一大批新合作伙伴,自動駕駛汽車的ChatGPT時刻已經到來,我們已經成功實現了汽車的自動駕駛。
NVIDIA的自動駕駛出租車平臺迎來了比亞迪、現代、日產和吉利四位新合作伙伴,這四家車企年產量達1800萬輛,他們與梅賽德斯-奔馳、豐田和通用汽車等之前的合作伙伴一起,將使未來支持自動駕駛出租車功能的汽車數量達到驚人的規模。我們還宣布與Uber達成重大合作,將在多個城市部署具備自動駕駛出租車能力的車輛并將其接入Uber網絡。
此外,我們正與ABB、Universal Robotics、KUKA等眾多機器人公司合作,將物理AI模型集成到仿真系統中,以便將機器人部署到生產線上。Caterpillar和T-Mobile也參與了合作,未來的無線電塔將升級為NVIDIA Aerial AI RAN,這種機器人無線電塔能對流量進行推理,計算出如何調整波束成形以節省能源并提高保真度。在眾多人形機器人中,Disney機器人是我最喜歡的之一。物理AI在全球范圍內的首次大規模部署從自動駕駛汽車開啟,借助NVIDIA AlphaMIO,車輛現在具備了推理能力,能夠安全智能地應對各種場景。汽車可以對操作進行旁白解說,解釋繞過違章停放車輛等決策的思考過程,并嚴格遵循加速等指令。
在這個物理AI與機器人技術的時代,全球開發者正在構建各種類型的機器人。但由于現實世界充滿了不可預測的邊緣情況,僅靠真實數據不足以應對所有場景,因此我們需要由AI和仿真生成的數據。對于機器人而言,算力即數據。開發者在海量視頻和人類演示數據上預訓練世界基礎模型,通過結合經典模擬與神經模擬生成海量合成數據,并進行大規模策略訓練。
為加速這一進程,NVIDIA構建了開源的ISAAC Lab用于機器人的訓練、評估與模擬。Newton用于可擴展且GPU加速的可微分物理模擬,Kosmos世界模型用于神經模擬,GROOT開源機器人基礎模型用于推理與動作生成。憑借充足的算力,各地開發者正彌合物理AI的數據鴻溝。例如,Peritas AI在ISAAC Lab中訓練手術室輔助機器人并通過Kosmos成倍增加數據;Skilled AI利用ISAAC Lab和Kosmos生成訓練后數據,并通過強化學習在數千種場景中強化模型。Humanoid、Hexagon Robotics、Foxconn和Noble Machines均使用ISAAC Lab進行全身控制、操作策略訓練及數據生成微調。Disney Research則在Newton和ISAAC Lab中結合其Kamino物理模擬器為其角色機器人訓練策略。
接下來請出Disney機器人Olaf。它的成功運行證明了Newton和Omniverse的強大。Olaf肚子里的Jetson計算機讓它學會了在Omniverse中行走。正是通過物理學原理,以及在與Disney和DeepMind共同開發的NVIDIA Warp之上運行的Newton解算器,Olaf才能完美適應物理世界。試想一下Disneyland的未來,將會有無數像Olaf這樣自由走動的角色機器人。通常在演講結束時我會復述重點內容,包括推理拐點、AI工廠、正在發生的OpenClaw智能體革命以及物理AI和機器人技術。但今天我們將用一段總結視頻來收尾。
視頻回顧了算力爆發的歷程,從CNN到OpenClaw,我們將算力提升了四千萬倍。在AI時代早期,訓練是核心范式,但如今推理正在運行整個世界。通過Vera等架構,成本降低了35倍,Blackwell讓推理能力大幅躍升。過去構建AI工廠耗時數年且缺乏明確的擴展方法,而現在的技術能直接將電力轉化為營收。智能體也從被動觀望轉變為自主行動,一旦偏離航向,開源的NeMo Guardrails會迅速攔截并守護進程。
這不僅是電影場景,會思考的汽車和機器玩具已經拉開序幕,AlphaMIO掌控了自動駕駛,機器人領域迎來了GPT時刻。各種架構的結合掀起了推理熱潮,我們每年都在構建新架構以滿足日益增長的Token需求。AI技術棧已向所有人開放,開源模型正引領前沿。當真實數據缺失時,我們利用算力生成合成數據,助力機器人完美學習并驗證縮放法則。未來已至,感謝大家參加GTC大會。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.