![]()
周一笑 |zhouyixiao@pingwest.com
王兆洋 | wangzhaoyang @pi ngwest.com
今年顯然又是英偉達這家33歲公司又一個關鍵時刻,人們像期待數(shù)碼產(chǎn)品一樣期待它的芯片更新,對超預期的財報甚至都提不起興趣,眼看有些江郎才盡的時刻,黃仁勛又帶來了新的故事。
3月16日,在2026年英偉達GTC大會上,黃仁勛做了萬眾期待的主旨演講。人們看待英偉達,關心和擔心的都是它的增長。而今年GTC,一個花20億美金收購來的Groq,一個突然就改變了一切并看起來解決了“應用普及問題”的OpenClaw,成了增長故事里的絕對主角。
Groq的新芯片融入英偉達體系后,英偉達宣稱會給它的客戶們解鎖一個3000億美金的增量市場;
![]()
同時英偉達也會把Groq更深入融入下一代芯片架構Feynmann 里;
而在他絕對不會遲到的“小龍蝦”狂熱里,黃仁勛要讓英偉達變成OpenClaw們的底層,再次上演一出CUDA同樣的戲碼。
盡管相比GTC最輝煌的那些發(fā)布,今年的整個發(fā)布的大多時間顯得有點乏善可陳,但這些已經(jīng)足夠讓黃仁勛信心滿滿,他表示:
2025年到2027年,英偉達的芯片生意將會繼續(xù)上漲,漲到1萬億美金。
1
Vera Rubin + Groq,七顆芯片合體
黃仁勛展示了他形容為全新的AI基礎設施層的全貌。
他不再舉著一顆芯片說“this is our new GPU”了。他把整個Vera Rubin機架搬上了舞臺,說這一次英偉達想的是整套系統(tǒng),從芯片到軟件到互連,端到端垂直整合,作為一臺超級計算機來優(yōu)化。
![]()
上一代Blackwell Ultra已經(jīng)實現(xiàn)了對比Hopper 50倍的吞吐效率提升,而Vera Rubin + Groq在此基礎上又把前沿推到了新的區(qū)間,這套系統(tǒng)由七顆芯片組成。核心Rubin GPU采用臺積電3nm工藝,雙芯片封裝,336B晶體管,配備288GB HBM4內(nèi)存和22TB/s帶寬,NVFP4推理性能達到50 PFLOPs,比上一代Blackwell提升5倍,訓練性能35 PFLOPs,提升3.5倍。配套的Vera CPU是88核定制Arm架構(代號Olympus),176線程,全球首款在數(shù)據(jù)中心采用LPDDR5的CPU,專門為Agent推理場景下的高單線程性能和數(shù)據(jù)處理做了優(yōu)化。黃仁勛說這顆CPU獨立賣“肯定會成為數(shù)十億美元的業(yè)務”。
但今晚真正的新聞是第七顆芯片,Groq 3 LPU。去年圣誕夜英偉達花200億美元拿下Groq的技術授權和核心團隊,今天是首次產(chǎn)品落地,而且已經(jīng)在量產(chǎn)。
![]()
為什么需要Groq?黃仁勛在臺上講得很清楚,GPU擅長高吞吐的并行計算,做prefill和attention很強,但在超高速token生成這個區(qū)間會力不從心。他的原話是NVL72在超過400 tokens/s/user的區(qū)間“runs out of steam”(跑不動了)。而Groq的LPU是一種完全不同的處理器,確定性數(shù)據(jù)流架構,芯片上全是SRAM,沒有運行時動態(tài)調(diào)度,編譯器在編譯階段就把每個時鐘周期的計算和數(shù)據(jù)搬運全部排好了。這種架構天然適合低延遲的decode和token生成。
問題在于SRAM雖快但容量極小。單顆Groq 3 LPU只有500MB SRAM,而Rubin GPU是288GB HBM4,差了500多倍,根本存不下萬億參數(shù)的模型。英偉達的解法是用一套叫Dynamo的軟件把推理過程拆成兩半,Rubin負責prefill和attention,處理上下文需要大量算力和大容量內(nèi)存;Groq負責feed-forward部分的decode和token生成,需要極低延遲和極高帶寬。兩者通過以太網(wǎng)緊耦合,延遲減半。
黃仁勛管這個叫disaggregated inference(解耦推理),并且總結說高吞吐和低延遲本質(zhì)上enemies of each other(彼此矛盾),而Groq就是解決這個矛盾的那一半拼圖。
![]()
舞臺上的那張對比圖視覺沖擊很強。
左邊一顆Rubin GPU,288GB HBM4、22TB/s帶寬、50 PFLOPs。
右邊一排8顆Groq 3 LPU組成的陣列,4GB SRAM、1,200TB/s SRAM帶寬(Rubin的55倍)、9.6 PFLOPs。
兩種極端的處理器,統(tǒng)一成一個推理系統(tǒng)。Groq 3 LPX整機把256顆LPU裝進一個機架,提供128GB SRAM、40PB/s帶寬、315 PFLOPS推理算力和640TB/s互連帶寬。
![]()
整套NVL72系統(tǒng)100%液冷,用45度熱水冷卻,把原來花在空調(diào)上的能耗省回來給計算用。安裝時間從兩天壓縮到兩小時。第六代NVLink提供3.6TB/s全互連帶寬。首款CPO(共封裝光學)交換機Spectrum X已經(jīng)量產(chǎn)。
目前,微軟Azure已經(jīng)跑起了第一套Vera Rubin機架,Satya Nadella在演講期間直接發(fā)消息確認。
黃仁勛還給了一個極其直觀的對比,同一個1GW數(shù)據(jù)中心,兩年內(nèi)token生成速率從2200萬提升到7億,350倍。他說這就是極致協(xié)同設計的力量。
1
1萬億GPU,和新的商業(yè)模式可能
在演講里,黃仁勛再次給出數(shù)據(jù)的指引。
去年GTC他給出的關于英偉達產(chǎn)品的需求估算是5000億美元(覆蓋Blackwell和Rubin到2026年),而今年直接翻倍,他說現(xiàn)在看到的是:
到2027年至少1萬億美元。
驅(qū)動力是他反復提到的“推理拐點”,從ChatGPT到o1再到Claude Code,AI從能聊天變成能推理再變成能干活,每一步跳躍都讓單次推理需要的算力暴增,而使用量也在同步起飛。黃仁勛說Claude Code是第一個agentic model,英偉達100%的軟件工程師都在用。
![]()
![]()
然后他用一張圖把這個宏觀判斷翻譯成了具體的商業(yè)邏輯。
整場演講最值得反復看的就是這張,標題叫inference Performance and Efficiency Drive Company Results。
![]()
縱軸是吞吐量(TPS/MW,每兆瓦每秒生成的token數(shù)),橫軸是交互速度(TPS/User,每用戶每秒拿到的token數(shù))。橫軸越往右意味著AI越“聰明”,模型更大、上下文更長、思考鏈更深,但吞吐量會下降,因為資源被單個用戶的推理任務占用了更多。高吞吐和低延遲本質(zhì)上矛盾。
黃仁勛在橫軸上切了五檔定價。Free層用Qwen 3(235B參數(shù),32K上下文,免費),Medium層用Kimi K2.5(1T參數(shù),128K上下文,3美元/百萬token),High層用GPT MoE(2T參數(shù),128K,6美元),Premium層同樣是GPT MoE但上下文窗口拉到400K、價格到45美元,Ultra層150美元。
然后他把四代硬件的曲線疊上去。Hopper只能覆蓋Free和Medium層,在高交互區(qū)間曲線貼著底部。Blackwell大幅上移,讓Premium層變得經(jīng)濟可行。Vera Rubin再上一檔。加上Groq LPX之后,曲線在400+ TPS/User的高交互區(qū)間向右延伸出去,對比Hopper提升35倍,讓一個目前還不存在的Ultra層(150美元/百萬token)成為可能。
作為一個“首席銷售”,在第二張圖,黃仁勛直接把這個邏輯翻譯成了營收數(shù)字。
![]()
假設一個1GW數(shù)據(jù)中心按25%算力分配給每個層級,每GW年營收Blackwell能做300億美元,Rubin做1500億(5倍),加上Groq LPX做3000億(10倍)。
兩張圖合在一起看,敘事邏輯很清晰:第一張為了告訴大家,Rubin讓Premium推理($45/M tokens)變得賺錢,而第二張則證明了,Rubin + LPX可以讓一個尚不存在的Ultra推理市場($150/M tokens)成為可能。
黃仁勛借此定義了一套token定價階梯,并在這最重要的大會上,直接告訴所有客戶,這里面每一層的經(jīng)濟可行性都直接綁定在英偉達的硬件代際升級上。
換句話說,沒有我的芯片,你到不了下一個價格層級,你的商業(yè)模型跑不通。有了我,商業(yè)模型的新可能就出現(xiàn)了。
“數(shù)據(jù)中心是生產(chǎn)token的工廠;推理是工作負載,token是新商品,算力等于營收;未來每個CEO都要盯著自己token工廠的效能看。”
他繼續(xù)推銷英偉達:“用得越多省錢閱多。我們是唯一一個在每一個模型里都在被使用的產(chǎn)品,這讓我們成為最強又最便宜的。英偉達的系統(tǒng)是全球范圍內(nèi)你可獲取的成本最低的AI基礎設施。 ”
黃仁勛甚至直接給了不同客戶部署方案:如果工作負載主要是高吞吐的批量推理,100%配Vera Rubin就夠了。如果有大量編程、高價值實時推理和Agent交互需求,拿25%數(shù)據(jù)中心配Groq LPX,其余75%純Rubin。
1
Feynman劇透,2028年全部換代
在Rubin介紹完后,F(xiàn)eynman的劇透來了。
英偉達給自己路線圖節(jié)奏鎖死,每年一代新架構。當前Blackwell,2026下半年Vera Rubin,2027年Rubin Ultra搭配全新Kyber機架(計算節(jié)點改為垂直插入,前置計算后置互連,支持144顆GPU),2028年Feynman。
Feynman是黃仁勛今晚的one more thing式劇透,七個組件全部換代。全新GPU(此前傳聞臺積電A16 1.6nm),LP40 LPU(黃仁勛說是big step up,Groq團隊加入英偉達后共同設計,首次在LPU中加入NVFP4計算能力),Rosa CPU(全名Rosalind,致敬發(fā)現(xiàn)DNA結構的Rosalind Franklin),BlueField 5 DPU,ConnectX-10 SuperNIC,NVLink 8。Kyber機架同時支持銅纜和CPO光學互連。
關于銅纜還是光互連的行業(yè)爭論,黃仁勛一句話終結,銅的要做,光的也要做,CPO也要做,每一種都需要更多的產(chǎn)能。
中間他還順便提了Vera Rubin Space-1,要把計算模塊送上太空做數(shù)據(jù)中心。太空沒有傳導和對流只有輻射,散熱是個問題,但英偉達已經(jīng)在做了。
![]()
1
為龍蝦做“CUDA”,NemoClaw定義Agent時代的操作系統(tǒng)
對于最近瘋狂的龍蝦熱,黃仁勛稱Agent是一個全新的計算平臺,并直接把OpenClaw的定位拔到了和Windows、Linux、Kubernetes同一級別。
他用操作系統(tǒng)的語法拆解了OpenClaw的本質(zhì),管理資源、調(diào)度任務、調(diào)用工具、連接大模型、多模態(tài)IO、派生子Agent。OpenClaw幾周內(nèi)超越Linux 30年的GitHub Star數(shù),是人類歷史上增長最快的開源項目。黃仁勛認為它的意義等同于HTML之于互聯(lián)網(wǎng)、Kubernetes之于移動云,每家公司都需要一個OpenClaw戰(zhàn)略。
然后話鋒一轉,講了企業(yè)場景的致命問題。Agent在公司內(nèi)網(wǎng)能訪問敏感信息、能執(zhí)行代碼、能對外通信。黃仁勛讓全場默念了一遍這三條,然后說,這顯然不能被允許。
NemoClaw就是英偉達的解法,但它不是另起爐灶,而是給OpenClaw套上一層企業(yè)安全殼。核心組件叫OpenShell,已經(jīng)集成進OpenClaw,包含策略引擎接口(對接企業(yè)已有的安全合規(guī)系統(tǒng))、網(wǎng)絡護欄(限制Agent網(wǎng)絡訪問邊界)和隱私路由(防止敏感數(shù)據(jù)外傳)。開源,Apache 2.0協(xié)議,深度整合NeMo框架、Nemotron模型和NIM推理微服務。
這里的類比關系是,NemoClaw之于OpenClaw生態(tài),就像CUDA之于GPU生態(tài)。
CUDA讓GPU從游戲顯卡變成了通用計算平臺,NemoClaw要讓龍蝦從個人玩具變成企業(yè)基礎設施。OpenClaw提供了Agent的操作系統(tǒng),NemoClaw提供了在這個操作系統(tǒng)上安全運行企業(yè)應用的開發(fā)平臺和工具鏈。
黃仁勛的行業(yè)判斷是,未來每家SaaS公司都會變成GaaS(Generative-as-a-Service)公司,企業(yè)IT從2萬億美元的工具產(chǎn)業(yè)升級為多萬億美元的Agent產(chǎn)業(yè)。他甚至預測未來每個工程師入職時都會拿到一份年度token預算,基本工資之外再加一半用于購買token,讓個人生產(chǎn)力放大10倍。“你的offer帶多少token”會成為硅谷新的談判籌碼。
![]()
配合Agent生態(tài),英偉達同時宣布了Nemotron Coalition(開源模型聯(lián)盟)。六大模型家族全部達到前沿水平,Nemotron(語言推理,OpenClaw評測前三)、Cosmos(物理AI世界模型)、Alpamayo(自動駕駛,號稱首個會思考推理的自動駕駛AI)、Groot(通用機器人)、BioNeMo(生物化學)、Earth 2(天氣氣候)。Nemotron 3 Ultra定位為世界最好的基礎模型,供各國做主權AI定制。聯(lián)盟首批成員包括Black Forest Labs、Cursor、LangChain(10億+下載量)、Mistral、Perplexity、Thinking Machines(Mira Murati創(chuàng)辦)等。
英偉達的增長故事不能停。這一次一個可能成為近年英偉達最重要的收購的Groq,和一個突然出現(xiàn)的現(xiàn)象級全民狂熱的OpenClaw讓這個故事得以繼續(xù),黃仁勛也抓住了這些被他形容為“必須抓住的時間窗口”,把大量資源賭在了上面,剩下的,就靠各位一起瘋狂燒token了。
![]()
![]()
點個“愛心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.