文/黃海峰的通信生活
當(dāng)下在AI領(lǐng)域,大規(guī)模輸入數(shù)據(jù)進(jìn)行高效、低成本處理的問題,成為關(guān)注熱點(diǎn)。AI大模型處理百萬(wàn)行代碼、生成小時(shí)級(jí)視頻等長(zhǎng)上下文任務(wù)時(shí),算力需求與成本壓力呈指數(shù)級(jí)增長(zhǎng)。這導(dǎo)致計(jì)算基礎(chǔ)設(shè)施面臨性能瓶頸與性價(jià)比失衡的雙重挑戰(zhàn)。
行業(yè)如何應(yīng)對(duì)挑戰(zhàn)?網(wǎng)絡(luò)作為連接計(jì)算節(jié)點(diǎn)的關(guān)鍵紐帶,是解決該挑戰(zhàn)的關(guān)鍵,且正站在Scale Out(橫向擴(kuò)展,指增加服務(wù)器節(jié)點(diǎn),構(gòu)成分布式架構(gòu))與Scale Up(縱向擴(kuò)展,指增強(qiáng)單個(gè)服務(wù)器系統(tǒng)資源)兩條路線的十字路口。
然而,我們看到AI基礎(chǔ)設(shè)施巨頭給出了不一樣的答案。近日,英偉達(dá)Rubin CPX系列GPU以“百萬(wàn)級(jí)令牌上下文處理”和“30至50倍投資回報(bào)”的亮眼數(shù)據(jù)亮相,宣告專為長(zhǎng)上下文推理優(yōu)化的新路徑:它果斷取消Scale Up設(shè)計(jì),直言行業(yè)已從“唯性能論”轉(zhuǎn)向“性價(jià)比最優(yōu)解”。
這讓不少人好奇,當(dāng)下不是有觀點(diǎn)認(rèn)為,超節(jié)點(diǎn)發(fā)展迅猛,Scale Up依靠提升單節(jié)點(diǎn)硬件性能(如增加顯存、算力),可以應(yīng)對(duì)長(zhǎng)上下文任務(wù),或成發(fā)展方向,甚至將替代Scale Out。
英偉達(dá)這是反其道而行之,還是說行業(yè)走向異構(gòu)集群時(shí)Scale Up已無價(jià)值?Scale Out與Scale Up難道注定就是“非此即彼”的關(guān)系?
![]()
撥開技術(shù)迷霧,我們不難發(fā)現(xiàn),隨著異構(gòu)集群逐漸成為未來AI基礎(chǔ)設(shè)施的主流形態(tài),Scale Out網(wǎng)絡(luò)絕非可被替代的“備選方案”,而是支撐整個(gè)AI集群運(yùn)轉(zhuǎn)的“通信底座”,與Scale Up網(wǎng)絡(luò)更將形成相輔相成的協(xié)同關(guān)系,與Scale Up攜手發(fā)展才是正確方向。
從性能崇拜到性價(jià)比為王:Rubin CPX折射智算產(chǎn)業(yè)新趨勢(shì)
縱觀AI智算產(chǎn)業(yè)的發(fā)展歷程,其本質(zhì)上是計(jì)算資源從集中到分布式,再到精準(zhǔn)分工的演進(jìn)史。早期AI任務(wù)依賴單卡單服務(wù)器即可完成,網(wǎng)絡(luò)僅需承擔(dān)基礎(chǔ)的數(shù)據(jù)傳輸功能。
![]()
隨著深度學(xué)習(xí)模型參數(shù)從百萬(wàn)級(jí)躍升至萬(wàn)億級(jí),單節(jié)點(diǎn)算力捉襟見肘,服務(wù)器集群成為主流。此時(shí),網(wǎng)絡(luò)開始需要支撐多節(jié)點(diǎn)間的協(xié)同計(jì)算。
而超節(jié)點(diǎn)架構(gòu)的出現(xiàn),通過在單一機(jī)架內(nèi)集成數(shù)十甚至上百塊GPU,將計(jì)算密度推向新高度。比如英偉達(dá)推出的GB200 NVL72超節(jié)點(diǎn),由72張英偉達(dá)GB200 GPU互聯(lián)組成。在采用同樣GPU的情況下,相比于把8卡服務(wù)器通過網(wǎng)絡(luò)互連的傳統(tǒng)方式,NVL72這個(gè)超節(jié)點(diǎn)的吞吐量可以比非超節(jié)點(diǎn)提升3倍以上。
但隨著超節(jié)點(diǎn)內(nèi)GPU數(shù)量激增,節(jié)點(diǎn)內(nèi)部的互聯(lián)網(wǎng)絡(luò)帶寬與時(shí)延性能,成為制約單節(jié)點(diǎn)計(jì)算效率的關(guān)鍵瓶頸。
英偉達(dá)Rubin CPX系列的發(fā)布,標(biāo)志著產(chǎn)業(yè)進(jìn)入“精準(zhǔn)優(yōu)化”的新階段。與追求全能性能的傳統(tǒng)GPU不同,Rubin CPX采用成本高效的單片晶圓設(shè)計(jì),集成128GB GDDR7顯存與專用視頻編解碼硬件,在長(zhǎng)上下文推理場(chǎng)景中實(shí)現(xiàn)3倍于GB300 NVL72的注意力機(jī)制加速,單機(jī)架即可提供8 exaFLOPS的NVFP4計(jì)算能力。
更關(guān)鍵的是,Rubin CPX通過“分解式基礎(chǔ)設(shè)施”理念,將計(jì)算與內(nèi)存資源高效分配,其1億美元資本支出可帶來高達(dá)50億美元收入,徹底打破了“高性能必然高成本”的固有認(rèn)知。
這種變革背后,折射出產(chǎn)業(yè)對(duì)AI全生命周期成本的深刻反思。訓(xùn)練階段需要處理PB級(jí)數(shù)據(jù)與萬(wàn)億次參數(shù)更新,推理階段則面臨高并發(fā)、低延遲的實(shí)時(shí)響應(yīng)需求,單一架構(gòu)難以適配全場(chǎng)景需求。
筆者認(rèn)為,Rubin CPX的出現(xiàn),不僅以“分解式基礎(chǔ)設(shè)施”理念和場(chǎng)景化硬件設(shè)計(jì),直觀證明行業(yè)已跳出“一味追求高性能”的誤區(qū),更印證了“聚焦最優(yōu)性價(jià)比”的發(fā)展新趨勢(shì)。
這一變化表明,通過硬件專業(yè)化分工與資源精準(zhǔn)匹配,實(shí)現(xiàn)性價(jià)比最優(yōu)已成為行業(yè)共識(shí)。這種異構(gòu)化、分工化的架構(gòu)趨勢(shì),正從根本上重塑網(wǎng)絡(luò)的角色定位。
網(wǎng)絡(luò)演進(jìn)的雙軌制:Scale Out與Scale Up是協(xié)同而非替代
計(jì)算側(cè)的架構(gòu)變革必然驅(qū)動(dòng)網(wǎng)絡(luò)技術(shù)同步演進(jìn)。早期,AI訓(xùn)練需要“十萬(wàn)級(jí)GPU一起干活”,計(jì)算任務(wù)像城市里分散在各個(gè)區(qū)域的人流,對(duì)網(wǎng)絡(luò)的“覆蓋廣度”和“節(jié)點(diǎn)連接能力”要求陡增。
此時(shí),Scale Out網(wǎng)絡(luò)以“集團(tuán)軍”模式登場(chǎng)。它就像城市里的普通交通路網(wǎng),不依賴單條“主干道”,而是通過增加道路條數(shù)(即網(wǎng)絡(luò)設(shè)備數(shù)量)來提升整體通行能力,就算某幾條路臨時(shí)擁堵,整個(gè)交通系統(tǒng)依然能正常運(yùn)轉(zhuǎn)。
在AI訓(xùn)練中,Scale Out網(wǎng)絡(luò)依靠?jī)?yōu)化,將數(shù)據(jù)并行(DP)、模型并行(TP)等技術(shù)所需的“十萬(wàn)級(jí)GPU大軍”連接起來,確保All-Reduce等關(guān)鍵指令高效傳達(dá)。
這種網(wǎng)絡(luò)的核心優(yōu)勢(shì)很明顯,就像不斷拓寬路網(wǎng)一樣,加幾臺(tái)中低端設(shè)備就能讓集群規(guī)模“線性擴(kuò)張”,成本不高還靈活,完美適配訓(xùn)練階段“人多力量大”“規(guī)模決定效率”的需求。
可隨著AI技術(shù)深入,推理等場(chǎng)景對(duì)網(wǎng)絡(luò)的要求變了,需要數(shù)據(jù)“分秒必達(dá)”。這就對(duì)帶寬和時(shí)延的要求嚴(yán)苛到“微秒級(jí)”。這時(shí),Scale Up 網(wǎng)絡(luò)以“特種部隊(duì)”模式橫空出世。
它不像 Scale Out那樣的“人海戰(zhàn)術(shù)”,而是專注升級(jí)“單個(gè)精英設(shè)備”的能力。這就好比為城市打造專屬“快車道”,不僅把車道從“雙向兩車道”(10G 帶寬)拓寬到“雙向十車道”(100G、400G 帶寬),還優(yōu)化信號(hào)系統(tǒng)(硬件加速技術(shù)),讓車輛(數(shù)據(jù))通行時(shí)延降到微秒級(jí)。
筆者認(rèn)為,兩者的本質(zhì)差異決定了其適配場(chǎng)景的互補(bǔ)性。從技術(shù)特性看,Scale Out以“廣度”取勝,可擴(kuò)展性強(qiáng)、成本低。Scale Up以“深度”見長(zhǎng),性能突出、架構(gòu)簡(jiǎn)單但擴(kuò)展受限且成本高昂。
從應(yīng)用場(chǎng)景看,Scale up是訓(xùn)練階段及推理decode階段的重要支撐,負(fù)責(zé)連接海量GPU 節(jié)點(diǎn)完成大規(guī)模并行計(jì)算;Scale Out則更適合推理prefill階段的高性價(jià)比需求。英偉達(dá)本次發(fā)布的CPX系列就是針對(duì)推理prefill階段的高性價(jià)比,取消scale up。這種針對(duì)特定場(chǎng)景的取舍,并不能印證兩者誰(shuí)更有價(jià)值。
當(dāng)談及兩種網(wǎng)絡(luò)模式,我們就不得不提業(yè)界廣為流傳的“Scale Up會(huì)取代Scale Out”的觀點(diǎn)。
在筆者看來,這種觀點(diǎn)如同在談及“城市交通”時(shí),只認(rèn)為城市需要快車道,不需要普通路網(wǎng)。這顯然不全面。
從技術(shù)特性看,Scale Out是“廣度選手”,像普通路網(wǎng)一樣覆蓋廣、能容下大量節(jié)點(diǎn);Scale Up是“深度選手”,像快車道一樣速度快、性能強(qiáng),但能覆蓋的范圍有限,成本也高。
此時(shí)再看兩者關(guān)系,大家自然很容易發(fā)現(xiàn)二者根本不是“替代關(guān)系”,而是“搭檔關(guān)系”。
![]()
比如英偉達(dá)Vera Rubin NVL144 Rubin CPX機(jī)架,就像一座規(guī)劃合理的“交通樞紐”,用Scale Out鋪好“普通路網(wǎng)”,讓大量服務(wù)器能順暢連接,再靠Scale Up建“快車道”,讓核心節(jié)點(diǎn)的數(shù)據(jù)能高速傳輸,兩者缺一不可。
未來,隨著計(jì)算側(cè)需求越來越精細(xì),這兩種網(wǎng)絡(luò)會(huì)繼續(xù)各司其職,Scale Out當(dāng)“大管家”,管好AI訓(xùn)練的“大規(guī)模連接”;Scale Up當(dāng)“急先鋒”,滿足AI推理對(duì)數(shù)據(jù)低時(shí)延的需求。
所以,我們可以肯定的是,兩種網(wǎng)絡(luò)攜手,可以將網(wǎng)絡(luò)架構(gòu)打造成更高效的“交通系統(tǒng)”,而不是走向“非此即彼”的死胡同。
產(chǎn)業(yè)共識(shí)下的底座價(jià)值:Scale Out網(wǎng)絡(luò)不可替代
隨著異構(gòu)集群成為AI基礎(chǔ)設(shè)施的主流形態(tài),Scale Out網(wǎng)絡(luò)的底座地位愈發(fā)穩(wěn)固。無論是技術(shù)特性與架構(gòu)需求的匹配度,還是全球廠商的戰(zhàn)略布局,都印證了其無法被Scale Up網(wǎng)絡(luò)替代的核心價(jià)值。
首先,從技術(shù)本質(zhì)看,異構(gòu)集群的分布式特性與Scale Out網(wǎng)絡(luò)天然契合。異構(gòu)集群通過CPU、GPU、DPU等不同硬件的分工協(xié)作實(shí)現(xiàn)效率最優(yōu),這種架構(gòu)要求網(wǎng)絡(luò)必須具備靈活連接、負(fù)載均衡與故障冗余能力。
Scale Out網(wǎng)絡(luò)的分布式架構(gòu)恰好滿足這些需求。其通過動(dòng)態(tài)路由技術(shù)可實(shí)現(xiàn)計(jì)算節(jié)點(diǎn)的靈活組網(wǎng),通過負(fù)載分擔(dān)機(jī)制避免單點(diǎn)壓力過大,通過多路徑冗余確保某一設(shè)備故障時(shí)業(yè)務(wù)不中斷。
相比之下,Scale Up網(wǎng)絡(luò)依賴單節(jié)點(diǎn)性能提升,一旦核心設(shè)備出現(xiàn)故障,可能導(dǎo)致整個(gè)子集群癱瘓,難以適配異構(gòu)集群的可靠性要求。
其次,從廠商實(shí)踐看,全球主流玩家均將Scale Out網(wǎng)絡(luò)作為戰(zhàn)略核心。英偉達(dá)在推廣Rubin CPX的同時(shí),同步強(qiáng)化Spectrum-X以太網(wǎng)的Scale Out能力,通過ConnectX-9 SuperNIC與Dynamo平臺(tái)編排,實(shí)現(xiàn)百萬(wàn)級(jí)GPU集群的高效互聯(lián)。
Mellanox的InfiniBand網(wǎng)絡(luò)雖以高性能著稱,但仍通過Fat-Tree等拓?fù)浣Y(jié)構(gòu)強(qiáng)化Scale Out擴(kuò)展能力。
再將視線轉(zhuǎn)回國(guó)內(nèi),華為推出CloudEngine XH系列交換機(jī),通過iMaster NCE智能管理系統(tǒng)實(shí)現(xiàn)萬(wàn)級(jí)節(jié)點(diǎn)的Scale Out部署。
我們不難發(fā)現(xiàn),這些布局共同印證了一個(gè)結(jié)論,Scale Out網(wǎng)絡(luò)是構(gòu)建大規(guī)模AI集群的基礎(chǔ)前提。
最后,從成本效益看,Scale Out網(wǎng)絡(luò)是平衡性能與成本的最優(yōu)解。AI產(chǎn)業(yè)的爆發(fā)式增長(zhǎng)帶來算力需求的指數(shù)級(jí)提升,單純依賴Scale Up網(wǎng)絡(luò)的高端設(shè)備升級(jí),將導(dǎo)致成本隨規(guī)模呈幾何級(jí)增長(zhǎng) 。
Scale Out網(wǎng)絡(luò)通過標(biāo)準(zhǔn)化以太網(wǎng)設(shè)備與分布式架構(gòu),實(shí)現(xiàn)“按需擴(kuò)展、線性成本”,在支撐集群規(guī)模從千級(jí)向萬(wàn)級(jí)跨越的同時(shí),將單位算力的網(wǎng)絡(luò)成本降低60%以上。對(duì)于追求性價(jià)比的AI企業(yè)而言,Scale Out網(wǎng)絡(luò)的成本優(yōu)勢(shì)使其成為無法替代的選擇。
筆者觀察:攜手同行,才能把握AI時(shí)代新機(jī)遇
如今,AI智算產(chǎn)業(yè)正站在從“規(guī)模擴(kuò)張”向“質(zhì)量提升”轉(zhuǎn)型的關(guān)鍵節(jié)點(diǎn),英偉達(dá)Rubin CPX的發(fā)布只是這場(chǎng)變革的縮影。
在異構(gòu)集群成為主流的未來,Scale Out網(wǎng)絡(luò)將如同城市的基礎(chǔ)設(shè)施路網(wǎng),支撐起整個(gè)AI生態(tài)的高效運(yùn)轉(zhuǎn),而Scale Up網(wǎng)絡(luò)則如同專屬快車道,為關(guān)鍵場(chǎng)景提供性能加速。兩者的協(xié)同共存將是網(wǎng)絡(luò)架構(gòu)的必然選擇。
產(chǎn)業(yè)需要明確的是,Scale Out網(wǎng)絡(luò)作為通信底座的核心地位,始終不可或缺。對(duì)于AI從業(yè)者而言,認(rèn)清這一趨勢(shì),才能在基礎(chǔ)設(shè)施建設(shè)中實(shí)現(xiàn)性能與成本的最優(yōu)平衡,把握AI產(chǎn)業(yè)的下一波機(jī)遇。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.