![]()
【摘要】一場(chǎng)由大模型引爆的算力革命,正從單芯片的物理極限走向超節(jié)點(diǎn)的系統(tǒng)級(jí)創(chuàng)新,AI基礎(chǔ)設(shè)施的競(jìng)爭(zhēng)法則迎來新一輪重構(gòu)。
從華為的全對(duì)等互聯(lián)、壁仞科技的光互連突破,到浪潮信息的“元腦”商用部署,再到無問芯穹的生態(tài)共建,一場(chǎng)由硬件到軟件、由單點(diǎn)突破到系統(tǒng)協(xié)同的智算革命,正在全面加速。
以下為正文:
01
超節(jié)點(diǎn)興起
近年來,DeepSeek-R1、Qwen3、MiniMax-VL-01、GLM 4.5等開源模型頻繁涌現(xiàn),各廠商開啟大模型競(jìng)賽,算力需求走向新高,AI基礎(chǔ)正面臨前所未有的挑戰(zhàn)。
麥肯錫研究報(bào)告預(yù)測(cè),到2030年,全球數(shù)據(jù)中心投資規(guī)模或達(dá)6.7萬億美元,其中5.2萬億美元將用于支持人工智能算力需求,推動(dòng)數(shù)據(jù)中心總裝機(jī)容量增至219GW。
與此同時(shí),單芯片的顯存與帶寬愈發(fā)難以支撐萬億參數(shù)大模型,大模型推理的實(shí)時(shí)性要求又與多卡互聯(lián)長(zhǎng)鏈路的延遲性產(chǎn)生沖突,由此,超節(jié)點(diǎn)架構(gòu)成為應(yīng)對(duì)性能瓶頸、響應(yīng)市場(chǎng)需求的關(guān)鍵。
當(dāng)前,超節(jié)點(diǎn)技術(shù)可突破單服務(wù)器限制,并通過NVLink/UB等高速互聯(lián)技術(shù),將GPU間通信時(shí)延壓縮至百納秒級(jí),極大提升資源調(diào)度效率。
在2025世界人工智能大會(huì)上,華為、中興、新華三、超聚變等中國(guó)企業(yè)紛紛推出智算超節(jié)點(diǎn)方案。
![]()
其中,華為昇騰384超節(jié)點(diǎn)(Atlas 900 A3 SuperPoD)是這一架構(gòu)的典型代表,其集成了384個(gè)昇騰 910C 神經(jīng)網(wǎng)絡(luò)處理單元(NPU)和192個(gè)鯤鵬920中央處理器(CPU),采用華為自研的MatrixLink高速互聯(lián)技術(shù),實(shí)現(xiàn)全對(duì)等互聯(lián)。
根據(jù)官方數(shù)據(jù),在昇騰超節(jié)點(diǎn)集群上,LLaMA 3等千億稠密模型性能相比傳統(tǒng)集群提升2.5倍以上,在通信占比更高的Qwen、DeepSeek等多模態(tài)、MoE模型上,可以達(dá)到3倍以上的提升。
2025年,超節(jié)點(diǎn)已成為智算中心的核心架構(gòu),從互聯(lián)網(wǎng)巨頭到電信運(yùn)營(yíng)商,從創(chuàng)業(yè)公司到芯片龍頭,無不在這場(chǎng)變革中重新尋找自己的位置。
02
從傳輸?shù)缴?/strong>
技術(shù)實(shí)現(xiàn)角度,想要擴(kuò)大超節(jié)點(diǎn)規(guī)模,首先需要增加機(jī)柜與服務(wù)器連接數(shù)量。
而與傳統(tǒng)的銅纜相比,光纜具有遠(yuǎn)距離傳輸優(yōu)勢(shì),可實(shí)現(xiàn)數(shù)據(jù)交付與機(jī)柜解耦與萬卡級(jí)彈性拓展,兼容現(xiàn)有機(jī)房設(shè)施降低部署成本,并按算力需求動(dòng)態(tài)調(diào)整超節(jié)點(diǎn)規(guī)模,實(shí)現(xiàn)分階段建設(shè)。
基于此,業(yè)內(nèi)頭部公司正在合作解決這一問題。
今年7月,曦智科技、壁仞科技、中興通訊聯(lián)合推出光躍LightSphere X,成為全球首個(gè)分布式光互連光交換GPU超節(jié)點(diǎn)解決方案,并獲得2025 WAIC SAIL大獎(jiǎng)。
據(jù)悉,該超節(jié)點(diǎn)基于曦智科技全球首創(chuàng)的分布式光交換技術(shù),采用硅光技術(shù)的光互連光交換芯片,搭配壁仞科技自主原創(chuàng)架構(gòu)的大算力通用GPU液冷模組與全新載板,并搭載中興通訊高性能AI國(guó)產(chǎn)服務(wù)器及儀電智算云平臺(tái)軟件。
目前,曦智科技已與國(guó)內(nèi)領(lǐng)先的光/電晶圓廠、光/電封裝廠、算力/交換芯片廠商、系統(tǒng)廠商等建立起全方位、多層次的戰(zhàn)略合作關(guān)系。
通過產(chǎn)業(yè)鏈上下游的深度協(xié)同與聯(lián)合技術(shù)攻關(guān),公司在超節(jié)點(diǎn)建設(shè)、CPO等關(guān)鍵領(lǐng)域?qū)崿F(xiàn)多項(xiàng)突破。這一緊密協(xié)作的體系不僅顯著提升了產(chǎn)品兼容性與系統(tǒng)效能,也實(shí)現(xiàn)了從核心器件到算力基礎(chǔ)設(shè)施的全鏈路協(xié)同優(yōu)化,也為構(gòu)建高效、開放、安全的新一代算力生態(tài)奠定了堅(jiān)實(shí)基礎(chǔ)。
整個(gè)系統(tǒng)中,壁仞科技承擔(dān)關(guān)鍵的動(dòng)力引擎角色,其產(chǎn)品不是普通的顯卡GPU,而是用于AI訓(xùn)練、高性能計(jì)算等領(lǐng)域的超級(jí)計(jì)算芯片,計(jì)算能力非常強(qiáng)大,加上業(yè)內(nèi)伙伴的加持,計(jì)算單元性能效率極高,特別適用于需要處理海量數(shù)據(jù)的場(chǎng)景。光躍LightSphere X方案也即將于上海儀電智算中心落地,計(jì)劃實(shí)現(xiàn)數(shù)千卡規(guī)模商業(yè)化部署。
此前壁仞科技相關(guān)負(fù)責(zé)人透露,從光直連技術(shù)到光互連光交換OCS GPU超節(jié)點(diǎn),這已經(jīng)是壁仞和曦智兩家合作實(shí)現(xiàn)的第三代產(chǎn)品。據(jù)悉,壁仞在第一代產(chǎn)品上便已實(shí)現(xiàn)真正意義上的超節(jié)點(diǎn)。
針對(duì)包含Deepseek的大模型訓(xùn)練與推理需求,該方案可顯著縮短訓(xùn)練時(shí)間、提升算力利用率并降低算力成本。與此同時(shí),作為上海的標(biāo)桿項(xiàng)目,該方案將有效推動(dòng)上海本地光芯片、液冷技術(shù)、GPU模組等產(chǎn)業(yè)的協(xié)同發(fā)展,迅速形成“技術(shù)-產(chǎn)品-服務(wù)”的閉環(huán)生態(tài)。
此外,光交換芯片的低功耗特性及液冷技術(shù)的應(yīng)用,能夠助力數(shù)據(jù)中心綠色轉(zhuǎn)型,也符合國(guó)家“雙碳”目標(biāo)。
這一案例也可看出,超節(jié)點(diǎn)的散熱正逐漸從傳統(tǒng)風(fēng)冷走向液冷。
IDC數(shù)據(jù)顯示,中國(guó)液冷服務(wù)器市場(chǎng)在2024年市場(chǎng)規(guī)模達(dá)到23.7億美元,同比增長(zhǎng)67.0%,預(yù)計(jì)2024-2029年,中國(guó)液冷服務(wù)器市場(chǎng)年復(fù)合增長(zhǎng)率將達(dá)到46.8%,2029年市場(chǎng)規(guī)模將達(dá)到162億美元。
![]()
從2024年數(shù)據(jù)來看,浪潮信息、超聚變和寧暢占據(jù)了液冷服務(wù)器市場(chǎng)七成左右的銷售份額,傳統(tǒng)服務(wù)器廠商正依托其硬件設(shè)計(jì)經(jīng)驗(yàn)與全鏈條方案加速融入AI服務(wù)器協(xié)同場(chǎng)景。
2025年開放計(jì)算技術(shù)大會(huì)上,浪潮信息發(fā)布面向萬億參數(shù)大模型的“元腦SD200”,可運(yùn)行1.2萬億參數(shù)的Kimi K2,并支持DeepSeek、Qwen、Kimi、GLM等多模型并行,目前已投入商用。
不過,浪潮信息的該款超節(jié)點(diǎn)產(chǎn)品采用了電互聯(lián)和風(fēng)冷技術(shù),并未采用新興的光互聯(lián)與液冷技術(shù),公司也表示在未來面向更高密度部署時(shí)將推進(jìn)高壓直流供電、液冷散熱等方案。
03
硬件加碼與生態(tài)競(jìng)爭(zhēng)
國(guó)產(chǎn)AI芯片與服務(wù)器廠商紛紛擁抱超節(jié)點(diǎn)的同時(shí),一個(gè)典型特征是集體作戰(zhàn)。
據(jù)《科創(chuàng)板日?qǐng)?bào)》報(bào)道,燧原科技云燧ESL超節(jié)點(diǎn)系統(tǒng)正在測(cè)試中,單節(jié)點(diǎn)最高64卡全帶寬互聯(lián),采用液冷方案,可實(shí)現(xiàn)9216GB單節(jié)點(diǎn)存儲(chǔ)容量、230TB/s單節(jié)點(diǎn)存儲(chǔ)帶寬、51.2TB/s單節(jié)點(diǎn)聚合帶寬、單節(jié)點(diǎn)可支持PD分離優(yōu)化。
沐曦集成則在WAIC大會(huì)上發(fā)布旗艦GPU曦云C600,首發(fā)訓(xùn)推一體技術(shù)全棧方案,該芯片可支持MetaXLink超節(jié)點(diǎn)擴(kuò)展技術(shù)。
與之共同沖刺科創(chuàng)板的摩爾線程首次提出AI工廠理念,其自研KUAE計(jì)算集群通過5D大規(guī)模分布式并行計(jì)算技術(shù),可實(shí)現(xiàn)上千節(jié)點(diǎn)的高效協(xié)作。
此外,超節(jié)點(diǎn)競(jìng)爭(zhēng)不僅拼硬件性能,也拼生態(tài)。
尤其是在CUDA生態(tài)差距之下,本土芯片企業(yè)正通過合縱連橫與開放生態(tài)加速追趕。
面對(duì)大模型的底層應(yīng)用,階躍星辰聯(lián)合近10家芯片及基礎(chǔ)設(shè)施廠商,共同發(fā)起“模芯生態(tài)創(chuàng)新聯(lián)盟”,首批成員包括華為昇騰、沐曦、壁仞科技、燧原科技、天數(shù)智芯、無問芯穹、寒武紀(jì)、摩爾線程、硅基流動(dòng)等。
其中,無問芯穹與模速空間、華為昇騰開啟百億生態(tài)共建合作,華為昇騰910B加速卡已上線模速空間算力生態(tài)平臺(tái),無穹AI云總算力規(guī)模超25000P。
與此同時(shí),壁仞科技聯(lián)合創(chuàng)始人、CTO洪洲強(qiáng)調(diào)了一個(gè)現(xiàn)實(shí),即兼容CUDA生態(tài)也很重要,而且不會(huì)妨礙創(chuàng)新,但不要把GPGPU和DSA對(duì)立起來,英偉達(dá)新的智算GPU也在不斷增加低比特精度矩陣運(yùn)算,動(dòng)態(tài)量化和數(shù)據(jù)搬運(yùn)DSAs。
作為AI芯片企業(yè)中身段、戰(zhàn)略相對(duì)靈活的一家,壁仞除了關(guān)注芯片架構(gòu)創(chuàng)新之外,尤其關(guān)注軟硬結(jié)合的系統(tǒng)級(jí)優(yōu)化,這對(duì)其打造萬卡集群解決方案,實(shí)現(xiàn)了超大規(guī)模算力的高效利用具有重要作用。
此外,浪潮信息的元腦SD200也基于OCM(開放算力模組)與OAM(開放加速模塊)兩大架構(gòu)打造,在開放架構(gòu)下支持多樣化芯片、開放AI框架及主流開發(fā)工具,實(shí)現(xiàn)跨平臺(tái)兼容與擴(kuò)展。
從硬件兼容到軟件適配,生態(tài)完善度對(duì)超節(jié)點(diǎn)方案的最終競(jìng)爭(zhēng)力起著至關(guān)重要的作用。
04
尾聲
超節(jié)點(diǎn)架構(gòu)的興起正在重塑整個(gè)AI算力產(chǎn)業(yè)鏈,從芯片制造、先進(jìn)封裝到光互連技術(shù)、液冷散熱,再到系統(tǒng)集成與解決方案,每個(gè)環(huán)節(jié)都需要有企業(yè)頂上。
這一新技術(shù)的興起也標(biāo)志著AI算力競(jìng)爭(zhēng)從單芯片性能比拼進(jìn)入系統(tǒng)級(jí)能力較量階段,既提高了競(jìng)爭(zhēng)門檻,又創(chuàng)造了新的價(jià)值分配模式。
當(dāng)前,華為、壁仞、浪潮信息、曦智、無問芯穹等企業(yè)已率先起跑,但超節(jié)點(diǎn)之戰(zhàn)才剛剛開始。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.