直擊GTC：1萬億美元GPU、為龍蝦做“CUDA”，老黃就指著你燒 token 了

2026-03-17 06:29:15　來源: 硅星人

北京舉報

分享至

周一笑｜zhouyixiao@pingwest.com
王兆洋｜ wangzhaoyang @pi ngwest.com

今年顯然又是英偉達這家33歲公司又一個關鍵時刻，人們像期待數(shù)碼產(chǎn)品一樣期待它的芯片更新，對超預期的財報甚至都提不起興趣，眼看有些江郎才盡的時刻，黃仁勛又帶來了新的故事。

3月16日，在2026年英偉達GTC大會上，黃仁勛做了萬眾期待的主旨演講。人們看待英偉達，關心和擔心的都是它的增長。而今年GTC，一個花20億美金收購來的Groq，一個突然就改變了一切并看起來解決了“應用普及問題”的OpenClaw，成了增長故事里的絕對主角。

Groq的新芯片融入英偉達體系后，英偉達宣稱會給它的客戶們解鎖一個3000億美金的增量市場；

同時英偉達也會把Groq更深入融入下一代芯片架構Feynmann 里；

而在他絕對不會遲到的“小龍蝦”狂熱里，黃仁勛要讓英偉達變成OpenClaw們的底層，再次上演一出CUDA同樣的戲碼。

盡管相比GTC最輝煌的那些發(fā)布，今年的整個發(fā)布的大多時間顯得有點乏善可陳，但這些已經(jīng)足夠讓黃仁勛信心滿滿，他表示：

2025年到2027年，英偉達的芯片生意將會繼續(xù)上漲，漲到1萬億美金。

Vera Rubin + Groq，七顆芯片合體

黃仁勛展示了他形容為全新的AI基礎設施層的全貌。

他不再舉著一顆芯片說“this is our new GPU”了。他把整個Vera Rubin機架搬上了舞臺，說這一次英偉達想的是整套系統(tǒng)，從芯片到軟件到互連，端到端垂直整合，作為一臺超級計算機來優(yōu)化。

上一代Blackwell Ultra已經(jīng)實現(xiàn)了對比Hopper 50倍的吞吐效率提升，而Vera Rubin + Groq在此基礎上又把前沿推到了新的區(qū)間，這套系統(tǒng)由七顆芯片組成。核心Rubin GPU采用臺積電3nm工藝，雙芯片封裝，336B晶體管，配備288GB HBM4內(nèi)存和22TB/s帶寬，NVFP4推理性能達到50 PFLOPs，比上一代Blackwell提升5倍，訓練性能35 PFLOPs，提升3.5倍。配套的Vera CPU是88核定制Arm架構（代號Olympus），176線程，全球首款在數(shù)據(jù)中心采用LPDDR5的CPU，專門為Agent推理場景下的高單線程性能和數(shù)據(jù)處理做了優(yōu)化。黃仁勛說這顆CPU獨立賣“肯定會成為數(shù)十億美元的業(yè)務”。

但今晚真正的新聞是第七顆芯片，Groq 3 LPU。去年圣誕夜英偉達花200億美元拿下Groq的技術授權和核心團隊，今天是首次產(chǎn)品落地，而且已經(jīng)在量產(chǎn)。

為什么需要Groq？黃仁勛在臺上講得很清楚，GPU擅長高吞吐的并行計算，做prefill和attention很強，但在超高速token生成這個區(qū)間會力不從心。他的原話是NVL72在超過400 tokens/s/user的區(qū)間“runs out of steam”（跑不動了）。而Groq的LPU是一種完全不同的處理器，確定性數(shù)據(jù)流架構，芯片上全是SRAM，沒有運行時動態(tài)調(diào)度，編譯器在編譯階段就把每個時鐘周期的計算和數(shù)據(jù)搬運全部排好了。這種架構天然適合低延遲的decode和token生成。

問題在于SRAM雖快但容量極小。單顆Groq 3 LPU只有500MB SRAM，而Rubin GPU是288GB HBM4，差了500多倍，根本存不下萬億參數(shù)的模型。英偉達的解法是用一套叫Dynamo的軟件把推理過程拆成兩半，Rubin負責prefill和attention，處理上下文需要大量算力和大容量內(nèi)存；Groq負責feed-forward部分的decode和token生成，需要極低延遲和極高帶寬。兩者通過以太網(wǎng)緊耦合，延遲減半。

黃仁勛管這個叫disaggregated inference（解耦推理），并且總結說高吞吐和低延遲本質(zhì)上enemies of each other（彼此矛盾），而Groq就是解決這個矛盾的那一半拼圖。

舞臺上的那張對比圖視覺沖擊很強。

左邊一顆Rubin GPU，288GB HBM4、22TB/s帶寬、50 PFLOPs。

右邊一排8顆Groq 3 LPU組成的陣列，4GB SRAM、1,200TB/s SRAM帶寬（Rubin的55倍）、9.6 PFLOPs。

兩種極端的處理器，統(tǒng)一成一個推理系統(tǒng)。Groq 3 LPX整機把256顆LPU裝進一個機架，提供128GB SRAM、40PB/s帶寬、315 PFLOPS推理算力和640TB/s互連帶寬。

整套NVL72系統(tǒng)100%液冷，用45度熱水冷卻，把原來花在空調(diào)上的能耗省回來給計算用。安裝時間從兩天壓縮到兩小時。第六代NVLink提供3.6TB/s全互連帶寬。首款CPO（共封裝光學）交換機Spectrum X已經(jīng)量產(chǎn)。

目前，微軟Azure已經(jīng)跑起了第一套Vera Rubin機架，Satya Nadella在演講期間直接發(fā)消息確認。

黃仁勛還給了一個極其直觀的對比，同一個1GW數(shù)據(jù)中心，兩年內(nèi)token生成速率從2200萬提升到7億，350倍。他說這就是極致協(xié)同設計的力量。

1萬億GPU，和新的商業(yè)模式可能

在演講里，黃仁勛再次給出數(shù)據(jù)的指引。

去年GTC他給出的關于英偉達產(chǎn)品的需求估算是5000億美元（覆蓋Blackwell和Rubin到2026年），而今年直接翻倍，他說現(xiàn)在看到的是：

到2027年至少1萬億美元。

驅(qū)動力是他反復提到的“推理拐點”，從ChatGPT到o1再到Claude Code，AI從能聊天變成能推理再變成能干活，每一步跳躍都讓單次推理需要的算力暴增，而使用量也在同步起飛。黃仁勛說Claude Code是第一個agentic model，英偉達100%的軟件工程師都在用。

然后他用一張圖把這個宏觀判斷翻譯成了具體的商業(yè)邏輯。

整場演講最值得反復看的就是這張，標題叫inference Performance and Efficiency Drive Company Results。

縱軸是吞吐量（TPS/MW，每兆瓦每秒生成的token數(shù)），橫軸是交互速度（TPS/User，每用戶每秒拿到的token數(shù)）。橫軸越往右意味著AI越“聰明”，模型更大、上下文更長、思考鏈更深，但吞吐量會下降，因為資源被單個用戶的推理任務占用了更多。高吞吐和低延遲本質(zhì)上矛盾。

黃仁勛在橫軸上切了五檔定價。Free層用Qwen 3（235B參數(shù)，32K上下文，免費），Medium層用Kimi K2.5（1T參數(shù)，128K上下文，3美元/百萬token），High層用GPT MoE（2T參數(shù)，128K，6美元），Premium層同樣是GPT MoE但上下文窗口拉到400K、價格到45美元，Ultra層150美元。

然后他把四代硬件的曲線疊上去。Hopper只能覆蓋Free和Medium層，在高交互區(qū)間曲線貼著底部。Blackwell大幅上移，讓Premium層變得經(jīng)濟可行。Vera Rubin再上一檔。加上Groq LPX之后，曲線在400+ TPS/User的高交互區(qū)間向右延伸出去，對比Hopper提升35倍，讓一個目前還不存在的Ultra層（150美元/百萬token）成為可能。

作為一個“首席銷售”，在第二張圖，黃仁勛直接把這個邏輯翻譯成了營收數(shù)字。

假設一個1GW數(shù)據(jù)中心按25%算力分配給每個層級，每GW年營收Blackwell能做300億美元，Rubin做1500億（5倍），加上Groq LPX做3000億（10倍）。

兩張圖合在一起看，敘事邏輯很清晰：第一張為了告訴大家，Rubin讓Premium推理（$45/M tokens）變得賺錢，而第二張則證明了，Rubin + LPX可以讓一個尚不存在的Ultra推理市場（$150/M tokens）成為可能。

黃仁勛借此定義了一套token定價階梯，并在這最重要的大會上，直接告訴所有客戶，這里面每一層的經(jīng)濟可行性都直接綁定在英偉達的硬件代際升級上。

換句話說，沒有我的芯片，你到不了下一個價格層級，你的商業(yè)模型跑不通。有了我，商業(yè)模型的新可能就出現(xiàn)了。

“數(shù)據(jù)中心是生產(chǎn)token的工廠；推理是工作負載，token是新商品，算力等于營收；未來每個CEO都要盯著自己token工廠的效能看。”

他繼續(xù)推銷英偉達：“用得越多省錢閱多。我們是唯一一個在每一個模型里都在被使用的產(chǎn)品，這讓我們成為最強又最便宜的。英偉達的系統(tǒng)是全球范圍內(nèi)你可獲取的成本最低的AI基礎設施。 ”

黃仁勛甚至直接給了不同客戶部署方案：如果工作負載主要是高吞吐的批量推理，100%配Vera Rubin就夠了。如果有大量編程、高價值實時推理和Agent交互需求，拿25%數(shù)據(jù)中心配Groq LPX，其余75%純Rubin。

Feynman劇透，2028年全部換代

在Rubin介紹完后，F(xiàn)eynman的劇透來了。

英偉達給自己路線圖節(jié)奏鎖死，每年一代新架構。當前Blackwell，2026下半年Vera Rubin，2027年Rubin Ultra搭配全新Kyber機架（計算節(jié)點改為垂直插入，前置計算后置互連，支持144顆GPU），2028年Feynman。

Feynman是黃仁勛今晚的one more thing式劇透，七個組件全部換代。全新GPU（此前傳聞臺積電A16 1.6nm），LP40 LPU（黃仁勛說是big step up，Groq團隊加入英偉達后共同設計，首次在LPU中加入NVFP4計算能力），Rosa CPU（全名Rosalind，致敬發(fā)現(xiàn)DNA結構的Rosalind Franklin），BlueField 5 DPU，ConnectX-10 SuperNIC，NVLink 8。Kyber機架同時支持銅纜和CPO光學互連。

關于銅纜還是光互連的行業(yè)爭論，黃仁勛一句話終結，銅的要做，光的也要做，CPO也要做，每一種都需要更多的產(chǎn)能。

中間他還順便提了Vera Rubin Space-1，要把計算模塊送上太空做數(shù)據(jù)中心。太空沒有傳導和對流只有輻射，散熱是個問題，但英偉達已經(jīng)在做了。

為龍蝦做“CUDA”，NemoClaw定義Agent時代的操作系統(tǒng)

對于最近瘋狂的龍蝦熱，黃仁勛稱Agent是一個全新的計算平臺，并直接把OpenClaw的定位拔到了和Windows、Linux、Kubernetes同一級別。

他用操作系統(tǒng)的語法拆解了OpenClaw的本質(zhì)，管理資源、調(diào)度任務、調(diào)用工具、連接大模型、多模態(tài)IO、派生子Agent。OpenClaw幾周內(nèi)超越Linux 30年的GitHub Star數(shù)，是人類歷史上增長最快的開源項目。黃仁勛認為它的意義等同于HTML之于互聯(lián)網(wǎng)、Kubernetes之于移動云，每家公司都需要一個OpenClaw戰(zhàn)略。

然后話鋒一轉，講了企業(yè)場景的致命問題。Agent在公司內(nèi)網(wǎng)能訪問敏感信息、能執(zhí)行代碼、能對外通信。黃仁勛讓全場默念了一遍這三條，然后說，這顯然不能被允許。

NemoClaw就是英偉達的解法，但它不是另起爐灶，而是給OpenClaw套上一層企業(yè)安全殼。核心組件叫OpenShell，已經(jīng)集成進OpenClaw，包含策略引擎接口（對接企業(yè)已有的安全合規(guī)系統(tǒng)）、網(wǎng)絡護欄（限制Agent網(wǎng)絡訪問邊界）和隱私路由（防止敏感數(shù)據(jù)外傳）。開源，Apache 2.0協(xié)議，深度整合NeMo框架、Nemotron模型和NIM推理微服務。

這里的類比關系是，NemoClaw之于OpenClaw生態(tài)，就像CUDA之于GPU生態(tài)。

CUDA讓GPU從游戲顯卡變成了通用計算平臺，NemoClaw要讓龍蝦從個人玩具變成企業(yè)基礎設施。OpenClaw提供了Agent的操作系統(tǒng)，NemoClaw提供了在這個操作系統(tǒng)上安全運行企業(yè)應用的開發(fā)平臺和工具鏈。

黃仁勛的行業(yè)判斷是，未來每家SaaS公司都會變成GaaS（Generative-as-a-Service）公司，企業(yè)IT從2萬億美元的工具產(chǎn)業(yè)升級為多萬億美元的Agent產(chǎn)業(yè)。他甚至預測未來每個工程師入職時都會拿到一份年度token預算，基本工資之外再加一半用于購買token，讓個人生產(chǎn)力放大10倍。“你的offer帶多少token”會成為硅谷新的談判籌碼。

配合Agent生態(tài)，英偉達同時宣布了Nemotron Coalition（開源模型聯(lián)盟）。六大模型家族全部達到前沿水平，Nemotron（語言推理，OpenClaw評測前三）、Cosmos（物理AI世界模型）、Alpamayo（自動駕駛，號稱首個會思考推理的自動駕駛AI）、Groot（通用機器人）、BioNeMo（生物化學）、Earth 2（天氣氣候）。Nemotron 3 Ultra定位為世界最好的基礎模型，供各國做主權AI定制。聯(lián)盟首批成員包括Black Forest Labs、Cursor、LangChain（10億+下載量）、Mistral、Perplexity、Thinking Machines（Mira Murati創(chuàng)辦）等。

英偉達的增長故事不能停。這一次一個可能成為近年英偉達最重要的收購的Groq，和一個突然出現(xiàn)的現(xiàn)象級全民狂熱的OpenClaw讓這個故事得以繼續(xù)，黃仁勛也抓住了這些被他形容為“必須抓住的時間窗口”，把大量資源賭在了上面，剩下的，就靠各位一起瘋狂燒token了。

點個“愛心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.