從北京到昆山
站在這一排機器面前,我人整個傻了
這是我有生第一次見到
國產(chǎn)超萬卡集群的真身
不是PPT,不是照片,活生生擺在我面前
![]()
家人們,這就是
中科曙光scaleX萬卡超集群
![]()
它今天現(xiàn)身在昆山
光合組織2025人工智能創(chuàng)新大會上
(HAIC2025)
成為最亮眼的打卡點
![]()
我繞著這個“巨物”轉(zhuǎn)了三圈
又找技術(shù)專家打聽了半天
總算搞清楚了這個大家伙的架構(gòu)

據(jù)了解,scaleX萬卡超集群部分技術(shù)能力
已超越海外將于2027年發(fā)布的NVL576
接下來,我就給大家講一講
這套國產(chǎn)萬卡超集群
到底有多兇猛?
01、scaleX萬卡超集群如何構(gòu)成?
這套萬卡超集群
包含16個scaleX640超節(jié)點
單個超節(jié)點=最大640個AI加速卡

02、萬卡超集群“戰(zhàn)力”有多強?
那是相當“能打”
10240張AI加速卡,同時開工
總算力輸出逆天,超過5EFLOPS

這么多AI加速卡組團全力輸出
是一種怎樣的體驗?
HBM 總?cè)萘浚?50TB
HBM 總帶寬>18PB/s
HBM是高端AI加速卡的專用顯存
好比是離加速核心最近的“高速倉庫”
容量大、帶寬大,加速核心才不會餓著空轉(zhuǎn)

片間互連總帶寬> 4.5PB/s
柜間互連總帶寬> 500TB/s
這里的路足夠?qū)挘f卡協(xié)同才不會堵車
計算性能才能拉滿

03、萬卡超集群為何種場景設(shè)計?
主要是兩大類場景
①萬億參數(shù)級大模型訓推
②科學計算 、AI for Science

![]()
不過在現(xiàn)場
我遇到的更多專業(yè)人士
他們更關(guān)心的問題是
這么超強的萬卡超集群
曙光到底是怎么“聯(lián)”起來的?
我們從四個維度,來拆解
計算節(jié)點、網(wǎng)絡(luò)、存儲、管理調(diào)度
01、每一個單體超節(jié)點都超強
曙光scaleX640超節(jié)點
是全球首個單機柜級640卡超節(jié)點
單機柜算力密度,是普通超節(jié)點的20倍

除了算力密度高
在性能方面也是王者的存在
各個維度都很能打
異構(gòu)計算、HBM 容量與帶寬,片間互聯(lián)帶寬..
![]()
上面是一個單機柜
正常出街的形態(tài)是【一拖二】
中間1個液冷單元,拖左右2個單機柜
兩個柜組成1280卡千卡級計算單元
總算力超過600PFlops

中間液冷單元是幫助兩側(cè)機柜散熱的
最高提供1.7MW散熱能力
再加上高壓直流供電等手段
直接把PUE干到了1.04

02、萬卡集群,網(wǎng)絡(luò)怎么聯(lián)?
聯(lián)網(wǎng)相當于給萬卡、十萬卡
修一套超大規(guī)模的“高速路網(wǎng)”
曙光的修路大法
自主研發(fā)原生RDMA高速網(wǎng)絡(luò)
名喚:曙光scaleFabric網(wǎng)絡(luò)
![]()
它從設(shè)計之初就瞄準更大集群
一套scaleFabric網(wǎng)絡(luò)就能做到10萬卡互連
而同類IB網(wǎng)絡(luò)最大只能支持4萬余張卡
總體成本還能比同類IB低約 30%
![]()
再說速度,這張網(wǎng)底層用的是
RDMA(遠程直接內(nèi)存訪問)技術(shù)
端到端延遲壓縮到亞微秒級(~1us)

同時單鏈路帶寬可達400Gbps,路夠?qū)?/p>
再配上無阻塞拓撲,立交橋修得夠聰明
一旦遇到車流巨猛的場景
比如世界大模型訓推
它比RoCE方式效率更高

還有一條也很重要:無損
用類似IB的信用流控+鏈路層重傳
讓車流更可控,路上不丟包,少抖動

最后說可靠性
路網(wǎng)越大,事故越常見
不怕!基于scaleFabric組網(wǎng)
斷路事故恢復(fù)時間可低至毫秒級

03、萬卡集群,存儲怎么做?
很多人聊「萬卡」,只聊算不聊存
但真上萬卡,瓶頸常常出現(xiàn)在存儲
數(shù)據(jù)喂不動、checkpoint寫不動/讀不回
在存儲方面,曙光有絕招
第一招叫超級隧道
相當于給數(shù)據(jù)修一條直達專線
把存儲→網(wǎng)絡(luò)→計算三塊打通
讓數(shù)據(jù)走最短路,減少CPU空轉(zhuǎn)
把萬卡訓推的效率榨出來

構(gòu)建這條超級隧道靠三級強協(xié)同
芯片級、系統(tǒng)級、應(yīng)用級
最終,大模型訓推效率提高30-40%
GPU利用率最大提高55%

第二招是讓存儲深度介入AI業(yè)務(wù)流水線
把存儲從倉庫升級成「AI數(shù)據(jù)工廠」
不光存,還要算,要加速

曙光基于多年的技術(shù)積累
再疊加以HG為首的全國產(chǎn)芯片
面向萬卡集群拿出了硬核存儲產(chǎn)品
ParaStor F9000分布式全閃
能把GPT4級模型訓練周期大幅壓縮

04、萬卡集群,怎么管理和調(diào)度?
業(yè)內(nèi)萬卡有一個現(xiàn)實:故障是常態(tài)
但是曙光scaleX萬卡超集群
能做到長期可用性99.99%
即使節(jié)點故障,業(yè)務(wù)側(cè)也幾乎無感知
做到這點,曙光同樣用了兩招
一、先用「數(shù)字孿生」把集群看清楚
搭建一個與物理集群對應(yīng)的鏡像世界
實現(xiàn)全域狀態(tài)透明、故障定位準確、自動修復(fù)及時、問題自主復(fù)盤、動態(tài)仿真推演

二、再用智能化運維平臺去“自動處理”
這么大規(guī)模,靠人肉運維不現(xiàn)實,得借力AI
平臺上的「AI運維助手」
可以一口氣跑完整個流程
實時分析→智能診斷→根因定位→故障恢復(fù)

接下來,曙光靠一套「智能調(diào)度引擎」
把集群利用率拉滿
在一個萬級節(jié)點的超大集群
面對10萬級用戶的超智融合任務(wù)
實現(xiàn)每秒萬級作業(yè)的調(diào)度

站在HAIC2025現(xiàn)場
我突然想明白一件事
萬卡超集群固然震撼,但更有價值的
其實是它背后的一套理念
做AI計算開放架構(gòu)
左邊,把底座做強,萬卡、十萬卡
右邊,把鏈路打通,拉更多伙伴加入
簡單說:不把算力做成單一品牌或產(chǎn)品,而是做成能兼容、能組合、能迭代的開放體系
![]()
大會現(xiàn)場,我聊了兩類人
第一類是以甲方為代表算力用戶
他們這樣說
![]()
第二類是以乙方為代表的算力企業(yè)
他們這樣說
![]()
到底有多開放啊?
我給你一張截圖,你品品就知道了
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.