哈嘍,大家好,今天小墨這篇評論,主要來分析國產萬卡集群真機震撼亮相,拆解其碾壓海外旗艦的硬核實力。
![]()
在光合組織2025人工智能創新大會(HAIC2025)的展區核心位置,這套萬卡集群成了全場最火的打卡點。更讓人振奮的是,它的部分技術能力已經超越了海外將于2027年發布的NVL576旗艦產品。這份來自中國的AI基建底氣,屬實讓人熱血沸騰。
![]()
圍著這個“巨物”轉了三圈,再加上技術專家的講解,我總算摸清了它的基本架構。這套萬卡超集群由16個scaleX640超節點組成,單個超節點最多可搭載640個AI加速卡,整套系統足足有10240張AI加速卡同時開工。
![]()
它的“戰力”有多兇猛?總算力輸出超過5EFLOPS,這樣的性能放在全球都處于第一梯隊。支撐這份性能的,是一系列亮眼的核心參數:HBM總容量超650TB,總帶寬突破18PB/s,作為AI加速卡的“高速倉庫”,充足的顯存和帶寬能讓計算核心時刻“吃飽”不空轉。
除此之外,片間互連總帶寬超4.5PB/s,柜間互連總帶寬超500TB/s,寬闊的“數據公路”確保萬卡協同不會出現擁堵,讓計算性能全程拉滿。據中國經濟網報道,這套集群還實現了對超過400個主流大模型、世界模型的適配優化,直接覆蓋萬億參數級大模型訓推和科學計算兩大核心場景。
![]()
![]()
現場的專業人士最關心的,不是單純的參數堆砌,而是這么多節點如何順暢“聯動”。這就需要從計算節點、網絡、存儲、管理調度四個維度逐一拆解,才能看懂曙光的技術底氣。
在計算節點方面,曙光scaleX640超節點是全球首個單機柜級640卡超節點,單機柜算力密度是普通超節點的20倍。
它的常規形態是“一拖二”布局,中間一個液冷單元帶動左右兩個單機柜,組成1280卡的千卡級計算單元,總算力超過600PFlops。中間的液冷單元最高能提供1.7MW的散熱能力,再加上高壓直流供電技術,直接把PUE干到了1.04,達到行業頂尖的節能水平。
![]()
網絡連接更是這套集群的“殺手锏”。曙光自主研發的scaleFabric原生RDMA高速網絡,就像為萬卡集群修了一套超大規模“高速路網”。
這套網絡能支持10萬卡互連,而同類IB網絡最大只能支持4萬余張卡,總體成本還低了約30%。它的端到端延遲壓縮到亞微秒級,單鏈路帶寬可達400Gbps,再加上無損傳輸和毫秒級故障恢復能力,就算是世界大模型訓推這樣的高負載場景,也能順暢運行。
![]()
存儲環節的創新同樣關鍵。很多超算集群都會卡在“數據喂不動”的瓶頸上,曙光靠“超級隧道”和“AI數據工廠”兩大絕招解決了這個問題。
超級隧道打通了存儲、網絡、計算三大環節,讓數據走最短路徑,通過芯片級、系統級、應用級三級協同,把大模型訓推效率提高30-40%,GPU利用率最大提高55%。
而AI數據工廠則讓存儲不再只做“倉庫”,還能參與計算加速,搭配全自研的ParaStor F9000分布式全閃存儲和HG全國產芯片,能大幅壓縮GPT4級模型的訓練周期。
![]()
在管理調度上,萬卡集群的故障是常態,但曙光能做到99.99%的長期可用性。
秘訣就是“數字孿生”和“AI運維助手”:先搭建一個和物理集群對應的鏡像世界,實現故障精準定位;再靠AI運維助手自動完成實時分析、智能診斷、根因定位、故障恢復的全流程。再加上智能調度引擎,就算是萬級節點集群、10萬級用戶任務,也能實現每秒萬級作業的調度。
![]()
![]()
在大會現場,我還遇到了不少來自算力用戶和企業的從業者,他們討論最多的,是曙光萬卡集群背后的開放架構理念。
這種理念不是把算力做成單一品牌的“封閉產品”,而是打造能兼容、能組合、能迭代的開放體系,一邊做強萬卡、十萬卡的核心底座,一邊打通鏈路拉更多伙伴加入。
![]()
有個細節很有說服力,某頭部AI企業的技術負責人現場透露,他們基于曙光開放架構,僅用兩周時間就完成了自有大模型與萬卡集群的適配調試,目前已經進入實際訓練階段。
中國經濟網的報道也提到,這套集群可支持多品牌加速卡及主流計算生態,正在推動整個AI算力行業從“單點競爭”走向“協同共贏”。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.