2025年12月18日,在昆山舉行的光合組織2025人工智能創新大會(HAIC2025)上,中科曙光發布并展出了全球領先的大規模智能計算系統——scaleX萬卡超集群,這也是國產萬卡級AI集群系統首次以真機形式亮相。
![]()
“scaleX萬卡超集群,是曙光發揮大型計算機系統研制經驗優勢,面向萬億參數大模型、科學智能等復雜任務場景打造的大規模智能算力基礎設施方案”。中科曙光高級副總裁李斌表示,面對人工智能基礎設施對性能、效率、可靠性、可擴展性等方面的極致需求,scaleX萬卡超集群在超節點架構、高速互連網絡、存儲性能優化、系統管理調度等方面實現了多項創新突破,部分技術與能力已超越海外同類產品研發路線圖的2027年NVL576里程節點,其核心技術優勢如下:
優勢1:全球首創單機柜級640卡超節點。scaleX萬卡超集群由16個曙光scaleX640超節點通過scaleFabric高速網絡互連而成,可實現10240塊AI加速卡部署,總算力規模超5EFlops。作為世界首個單機柜級640卡超節點,scaleX640采用超高密度刀片、浸沒相變液冷等技術,將單機柜算力密度提升20倍,PUE值低至1.04。
優勢2:自主研發原生RDMA高速網絡。曙光scaleFabric網絡,基于國內首款400G 類InfiniBand的原生RDMA網卡與交換芯片,可實現400Gb/s超高帶寬、低于1微秒端側通信延遲,超節點間的通信性能達到業內領先水平,充分釋放萬卡超集群算力,并可將超集群規模輕松擴展至10 萬卡以上,相比傳統IB網絡提升2.33倍,同時網絡總體成本降低 30%。
優勢3:存、算、傳緊耦合深度優化。通過“超級隧道”、AI數據加速等設計,實現從芯片級、系統級到應用級的三級數據傳輸協同優化,使存力平臺高效應對大模型訓練時萬卡并發讀寫帶寬極致需求挑戰,提升高通量AI推理時的響應速度與結果精準度,并可將AI加速卡資源利用率提高55%。
優勢4:超集群數字孿生與智能調度。通過物理集群數字孿生,實現故障定位、修復等全流程可視化智能管理;智能化運維平臺可支撐集群長期可用性達99.99%;智能調度引擎可管理萬級節點、服務十萬級用戶,支持每秒萬級作業調度。
![]()
作為“AI計算開放架構”最新重磅成果,scaleX萬卡超集群可支持多品牌加速卡以及主流計算生態,并實現400+主流大模型、世界模型等適配優化。在實際應用中,該超集群可覆蓋大模型訓練、金融風控、地質能源勘探及科學智能等多元場景。
“AI計算開放架構” 由中科曙光協同20多家AI產業鏈企業共同推出,以共享若干關鍵共性技術能力,依托系統工程思維推進智算集群創新。通過scaleX萬卡超集群,AI企業可降低智算集群研發門檻,并從技術“單點突圍”走向產業“生態共進”,將開放理念轉化為可落地普惠算力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.