![]()
2022年11月30日,ChatGPT上線那天,英偉達內部已經知道麻煩來了。當時他們最強的系統只有8塊GPU,而訓練大模型需要成千上萬塊。黃仁勛需要造一個更大的盒子,或者一張更快的網。
18個月后,答案揭曉:120千瓦的Grace Blackwell NVL72,用銅線把72塊GPU縫成一塊芯片。
但銅的極限快到了。今年GTC,黃仁勛宣布2028年要造超過1000塊GPU的巨型系統,靠的不是銅,是光。過去一個月,英偉達向Marvell、Coherent、Lumentum三家光電公司砸了數十億美元——不是為了炒股,是為了鎖死產能。
"我們需要更多銅的產能,更多光的產能,更多CPO(共封裝光學)的產能。"黃仁勛在 keynote 里說,"這就是我們在和你們所有人一起打地基的原因。"
從銅到光,這不是技術升級,是生存策略。英偉達網絡業務高級副總裁 Gilad Shainer 告訴我:"銅是最好的連接方式,如果你能用它的話。它便宜、零功耗、可靠,沒有有源元件。"
問題是,銅跑不了多遠。1.8TB/s的帶寬下,信號幾英尺就衰減。這就是為什么NVL72的NVSwitch全部擠在機架正中央——線就這么短。銅的臂長限制了英偉達必須把GPU塞得越近越好,直到塞不下為止。
銅的物理天花板:120千瓦已經是極限
NVL72的功耗是120千瓦,什么概念?普通家庭一年的用電量在幾百度到幾千度之間,這個機架一小時吃掉120度。散熱、供電、空間,每一項都逼近工程極限。
但AI模型的胃口更大。GPT-4訓練用了大約2.5萬塊A100,下一代模型可能需要10倍。黃仁勛的解法不是造10個NVL72,而是造一個能裝1000塊GPU的"超級機架"——內部代號可能叫Vera Rubin,2026年先上,2028年光互連全面鋪開。
這里要區分兩個概念:Scale-up(擴展)和Scale-out(外延)。
Scale-up是把更多GPU塞進一個"盒子"里,讓它們像一塊芯片那樣工作,共享內存,延遲極低。NVLink干的就是這個。Scale-out是用以太網或InfiniBand把很多盒子連起來,延遲高,但距離遠。
英偉達的野心是把Scale-up的邊界推到極限。銅時代,這個邊界是機架。光時代,可能是整個數據中心。
但2022年的技術儲備不夠。當時唯一成熟的光互連方案是"可插拔光模塊"——口香糖大小,里面塞滿激光器、重定時器、DSP芯片,把電信號轉成光再轉回來。
可插拔模塊在數據中心網絡里用了十幾年,但用在NVLink這種Scale-up fabric上,問題很大。
可插拔光模塊:英偉達不想走的彎路
首先,功耗爆炸。每個可插拔模塊要處理1.8TB/s,本身就要吃15-25瓦。72塊GPU如果全用可插拔,光互連部分就得多耗幾百瓦。120千瓦的預算已經很緊張,再加這個,散熱工程師要辭職。
其次,可靠性。可插拔模塊是獨立器件,有激光器、有DSP、有連接器,故障點比銅線多一個數量級。數據中心網絡壞個端口可以切流量,NVLink壞一條鏈路,整個超級芯片就瘸了。
第三,密度。可插拔模塊要插在交換機前面板,占空間、擋風道。NVL72的銅背板把線纜藏在內部,光模塊這么玩,機架要胖一圈。
所以英偉達在等兩件事:CPO(共封裝光學),以及硅光子的成熟。
CPO的思路是把光學引擎直接封進交換機芯片旁邊,省掉可插拔模塊的殼子、連接器和大部分功耗。硅光子則是用半導體工藝造光器件,把成本打下來、可靠性提上去。
這兩件事2022年都不成熟。但黃仁勛等不及了,他選擇先走一段彎路,同時押注未來。
3筆投資背后:英偉達在鎖死供應鏈
過去一個月,英偉達的動作很密集。
Marvell拿到一筆大單,為英偉達定制CPO芯片。Marvell的硅光子技術可以把光引擎和電芯片封裝在一起,功耗比可插拔低30-50%。這筆交易的規模沒有公開,但Marvell股價當月漲了40%,市場用腳投票。
Coherent和Lumentum是激光器供應商。CPO需要大量VCSEL(垂直腔面發射激光器)和EML(電吸收調制激光器),這兩家是全球前二。英偉達的投資條款里包含產能預留協議——未來幾年的激光器產量,英偉達先切走一塊。
三筆投資加起來,英偉達在光電領域的布局超過百億美元級別。這不是財務投資,是供應鏈綁架。
黃仁勛在GTC上放了一張圖:2028年的GPU系統,光互連的帶寬密度要比2024年高100倍。這個數字怎么來的?他沒說,但行業共識是,1.6T光模塊2025年量產,3.2T 2027年,配合CPO架構,100倍是個保守估計。
對比之下,銅的演進速度慢得多。112G SerDes(串行器/解串器)已經商用,224G還在實驗室,信號完整性問題是物理極限。銅不會消失,但會被光擠到更短的距離里——芯片到芯片、封裝到封裝。
競爭對手在干什么
AMD和Intel也在搞光互連,但節奏慢半拍。
AMD的MI300系列用銅互連,下一代MI400據說會引入光,但細節模糊。Intel的硅光子技術積累很深,但GPU業務萎縮,缺乏場景驗證。Google TPUv5用了光互連,但那是自研自用,不對外銷售。
英偉達的優勢在于生態鎖定。CUDA、NVLink、InfiniBand,三層網絡捆住客戶。光互連是第四層,而且是最難替換的一層——一旦部署,光模塊的接口標準、協議棧、軟件優化全是英偉達定義。
這也是為什么黃仁勛敢在供應鏈上砸錢。他知道競爭對手跟不起:AMD的現金流只有英偉達的1/10,Intel還在扭虧,Google沒有賣芯片的動機。
但風險也在。CPO的可靠性還沒經過大規模驗證,硅光子的良率波動大,激光器的壽命在高溫環境下是未知數。2026年的Vera Rubin如果翻車,英偉達的路線圖會亂。
更隱蔽的風險是地緣政治。Coherent和Lumentum的激光器芯片,部分產能在東南亞,部分在美國本土。如果出口管制收緊,中國客戶的訂單可能拿不到光互連版本,只能用銅的降級方案。
從"銅背板"到"光織物":一場工程哲學的轉變
NVL72的銅背板是機械時代的巔峰。 miles of cables,手工編織,像瑞士鐘表一樣精密。但這也是瓶頸——每個機架都是定制件,量產慢、成本高、難維護。
光互連的承諾是標準化。光纖可以預制,連接器可以熱插拔,機架設計模塊化。理論上,1000塊GPU的系統可以像搭積木一樣組裝,而不是像造航母一樣焊接。
這個轉變的代價是復雜度轉移。銅的問題在物理層,光的問題在協議層。光信號需要調諧、均衡、糾錯,軟件棧要重寫。英偉達的NVLink 5.0已經為此埋下伏筆,支持自適應鏈路訓練和動態路由。
一個細節:NVL72的銅線纜有5000多根,每根都要在工廠里測試、標號、按順序插接。光時代,這個數字可能降到幾百根光纖,但每根光纖要承載100倍的流量,一根壞了就是災難。
所以英偉達在投資光電公司的同時,也在買測試設備公司。光模塊的出廠測試、現場監測、預測性維護,整套基礎設施要重建。
黃仁勛的賭注:2028年會發生什么
GTC 2024上,黃仁勛展示了一張路線圖:2024年Blackwell,2025年Blackwell Ultra,2026年Vera Rubin,2027年Rubin Ultra,2028年"X"。
2028年的那個問號,現在填上了:光互連的"超級集群"。超過1000塊GPU,可能用3nm工藝,功耗奔向兆瓦級,需要液冷甚至浸沒式冷卻。
這個系統的應用場景很窄:訓練萬億參數模型、實時推理超大規模推薦系統、科學計算模擬。但正是這些場景,撐起英偉達3萬億美元的市值。
黃仁勛的打法一貫如此:用硬件定義軟件,用規模碾壓對手。CUDA是這樣,NVLink是這樣,光互連也會是這樣。等競爭對手反應過來,標準已經定了,客戶已經綁定了,產能已經鎖死了。
但這一次,物理定律的阻力更大。銅到光不是制程升級,是介質革命。激光器會壞,光纖會彎,連接器會臟。數據中心的光纖故障率目前比銅線高一個數量級,英偉達要在3年內把這個差距抹平。
Gilad Shainer 跟我說,他們已經在實驗室里跑CPO原型,"可靠性數據讓我們有信心"。但他沒給數字。
2026年的Vera Rubin會是第一次大考。如果光互連按時交付、性能達標、故障率可控,英偉達的護城河再深一層。如果延期或翻車,AMD和Intel會有窗口期,雖然很小。
更深遠的影響在行業層面。光互連的普及會重塑數據中心架構,交換機廠商、光模塊廠商、測試設備廠商的座次要重排。Marvell、Coherent、Lumentum只是第一批上船的,接下來還會有更多。
黃仁勛在GTC keynote的最后說:"我們需要所有人和我們一起建設。"這句話的潛臺詞是:不跟我走的,會被甩下。
銅的時代,英偉達用NVL72證明了機械工程的極限。光的時代,他們要證明光子和電子可以一樣可靠。問題是,當1000塊GPU被光纖縫成一塊芯片時,如果其中一塊壞了,你怎么知道是哪根光纖出了問題?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.