哈嘍,大家好,今天小墨這篇評論,主要來分析國產(chǎn)萬卡集群真機震撼亮相,拆解其碾壓海外旗艦的硬核實力。
![]()
在光合組織2025人工智能創(chuàng)新大會(HAIC2025)的展區(qū)核心位置,這套萬卡集群成了全場最火的打卡點。更讓人振奮的是,它的部分技術(shù)能力已經(jīng)超越了海外將于2027年發(fā)布的NVL576旗艦產(chǎn)品。這份來自中國的AI基建底氣,屬實讓人熱血沸騰。
![]()
圍著這個“巨物”轉(zhuǎn)了三圈,再加上技術(shù)專家的講解,我總算摸清了它的基本架構(gòu)。這套萬卡超集群由16個scaleX640超節(jié)點組成,單個超節(jié)點最多可搭載640個AI加速卡,整套系統(tǒng)足足有10240張AI加速卡同時開工。
![]()
它的“戰(zhàn)力”有多兇猛?總算力輸出超過5EFLOPS,這樣的性能放在全球都處于第一梯隊。支撐這份性能的,是一系列亮眼的核心參數(shù):HBM總?cè)萘砍?50TB,總帶寬突破18PB/s,作為AI加速卡的“高速倉庫”,充足的顯存和帶寬能讓計算核心時刻“吃飽”不空轉(zhuǎn)。
除此之外,片間互連總帶寬超4.5PB/s,柜間互連總帶寬超500TB/s,寬闊的“數(shù)據(jù)公路”確保萬卡協(xié)同不會出現(xiàn)擁堵,讓計算性能全程拉滿。據(jù)中國經(jīng)濟網(wǎng)報道,這套集群還實現(xiàn)了對超過400個主流大模型、世界模型的適配優(yōu)化,直接覆蓋萬億參數(shù)級大模型訓推和科學計算兩大核心場景。
![]()
![]()
現(xiàn)場的專業(yè)人士最關(guān)心的,不是單純的參數(shù)堆砌,而是這么多節(jié)點如何順暢“聯(lián)動”。這就需要從計算節(jié)點、網(wǎng)絡(luò)、存儲、管理調(diào)度四個維度逐一拆解,才能看懂曙光的技術(shù)底氣。
在計算節(jié)點方面,曙光scaleX640超節(jié)點是全球首個單機柜級640卡超節(jié)點,單機柜算力密度是普通超節(jié)點的20倍。
它的常規(guī)形態(tài)是“一拖二”布局,中間一個液冷單元帶動左右兩個單機柜,組成1280卡的千卡級計算單元,總算力超過600PFlops。中間的液冷單元最高能提供1.7MW的散熱能力,再加上高壓直流供電技術(shù),直接把PUE干到了1.04,達到行業(yè)頂尖的節(jié)能水平。
![]()
網(wǎng)絡(luò)連接更是這套集群的“殺手锏”。曙光自主研發(fā)的scaleFabric原生RDMA高速網(wǎng)絡(luò),就像為萬卡集群修了一套超大規(guī)模“高速路網(wǎng)”。
這套網(wǎng)絡(luò)能支持10萬卡互連,而同類IB網(wǎng)絡(luò)最大只能支持4萬余張卡,總體成本還低了約30%。它的端到端延遲壓縮到亞微秒級,單鏈路帶寬可達400Gbps,再加上無損傳輸和毫秒級故障恢復能力,就算是世界大模型訓推這樣的高負載場景,也能順暢運行。
![]()
存儲環(huán)節(jié)的創(chuàng)新同樣關(guān)鍵。很多超算集群都會卡在“數(shù)據(jù)喂不動”的瓶頸上,曙光靠“超級隧道”和“AI數(shù)據(jù)工廠”兩大絕招解決了這個問題。
超級隧道打通了存儲、網(wǎng)絡(luò)、計算三大環(huán)節(jié),讓數(shù)據(jù)走最短路徑,通過芯片級、系統(tǒng)級、應(yīng)用級三級協(xié)同,把大模型訓推效率提高30-40%,GPU利用率最大提高55%。
而AI數(shù)據(jù)工廠則讓存儲不再只做“倉庫”,還能參與計算加速,搭配全自研的ParaStor F9000分布式全閃存儲和HG全國產(chǎn)芯片,能大幅壓縮GPT4級模型的訓練周期。
![]()
在管理調(diào)度上,萬卡集群的故障是常態(tài),但曙光能做到99.99%的長期可用性。
秘訣就是“數(shù)字孿生”和“AI運維助手”:先搭建一個和物理集群對應(yīng)的鏡像世界,實現(xiàn)故障精準定位;再靠AI運維助手自動完成實時分析、智能診斷、根因定位、故障恢復的全流程。再加上智能調(diào)度引擎,就算是萬級節(jié)點集群、10萬級用戶任務(wù),也能實現(xiàn)每秒萬級作業(yè)的調(diào)度。
![]()
![]()
在大會現(xiàn)場,我還遇到了不少來自算力用戶和企業(yè)的從業(yè)者,他們討論最多的,是曙光萬卡集群背后的開放架構(gòu)理念。
這種理念不是把算力做成單一品牌的“封閉產(chǎn)品”,而是打造能兼容、能組合、能迭代的開放體系,一邊做強萬卡、十萬卡的核心底座,一邊打通鏈路拉更多伙伴加入。
![]()
有個細節(jié)很有說服力,某頭部AI企業(yè)的技術(shù)負責人現(xiàn)場透露,他們基于曙光開放架構(gòu),僅用兩周時間就完成了自有大模型與萬卡集群的適配調(diào)試,目前已經(jīng)進入實際訓練階段。
中國經(jīng)濟網(wǎng)的報道也提到,這套集群可支持多品牌加速卡及主流計算生態(tài),正在推動整個AI算力行業(yè)從“單點競爭”走向“協(xié)同共贏”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.