話說算力江湖,有兩大主流門派
高性能計算派,位列武林之巔
通用計算派,遍布市井四方
![]()
而在高性能計算派中
有兩位絕世高手
一位叫「超算」一位叫「智算」
![]()
超算,德高望重
科學嚴謹,高精度要求高
![]()
智算,后起之秀
專注學習,主打低精度
![]()
兩位高手
一重【算力之巔】,一走【算法之鋒】
各有所長,共掌高算江湖半壁江山
怎料,AI攪動天下風云突變
客戶的需求,越發(fā)復雜
有“豪門”客戶貼出招賢榜
我既要做AI大模型,還要跑科學仿真,既要算得快,還要算得準。
![]()
這招賢榜,智算看了沒敢接
它雖然算得快,但多是低精度招式
無法滿足科學仿真的嚴謹要求
![]()
另一邊,超算看著也皺眉頭
它雖然高精度,算得準
但訓練AI大模型成本高、不劃算
性價比上不去,只好放棄
![]()
放棄一次不要緊,麻煩的是
江湖上這種「招賢榜」越來越多
多模態(tài)大模型、AI for Science、物理AI、工業(yè)仿真AI…
偏偏個個都難搞
![]()
只可嘆,兩大高手長期以來
固守本門武功,鮮有交流合作
更不用說聯(lián)手出擊、共克難題
![]()
然而,門戶之見擋不住江湖大勢
一場算力內(nèi)功的重構勢在必行
忽一日,兩位高手相逢燕山之巔
靈光乍現(xiàn)
“你有深算之力,我有智能之法,何不聯(lián)手闖蕩江湖”
于是江湖誕生新流派:超智融合
![]()
新派初成:融合難于上青天
超智融合
并非簡單將“超算+智算”強行拼接
而是一場從底到頂、由表及里的系統(tǒng)重構
要從芯片到計算、從存儲到網(wǎng)絡、
從調(diào)度到運維、再到平臺與應用
全線打通,實現(xiàn)全方位融合
數(shù)據(jù)融合丨算法融合丨業(yè)務融合丨設施融合

這條融合之路
需要翻越六道險關
一險|精度難全,架構割裂
現(xiàn)在客戶需要1套融合算力系統(tǒng)
而不是N套,來滿足多樣化算力需求
科學計算要FP64,AI訓練用FP32/BF16
推理又追求INT8/INT4極致壓縮
![]()
不同精度對處理器的要求不同
CPU、GPU都做不到“一芯通吃”
想融合它們,既要硬件異構協(xié)同
又要打通軟件系統(tǒng)全精度調(diào)度鏈
這,正是超智融合面臨的首要險關

二險|硬件失衡,強中拖弱
融合系統(tǒng)想要強悍
必須做到幾大核心硬件高度協(xié)同
現(xiàn)實是它們各個功法不一,快慢不同
丨計算端:GPU飛天遁地,CPU還在原地修行
丨存儲端:Cache如疾風,NVMe、HDD卻慢如蝸行
丨通信端:專用總線、PCIe、IB、RoCE各懷心事,配合失調(diào)
![]()
三險|軟件混亂,各自為戰(zhàn)
如今的算力江湖
軟件生態(tài)山頭林立,碎片化嚴重
![]()
四險|陣法更新,算法難契
過去“陣法”修煉并行之術
多是張量并行、數(shù)據(jù)并行

當今大模型訓練之道愈發(fā)深奧
流水線并行、專家并行紛紛登場
需要與分布式算法高度匹配

五險丨能耗如山,電力告急
修煉AI神功,動輒萬卡集群
功耗從千瓦躍至兆瓦
未來甚至飆到數(shù)吉瓦
此乃真正的算力之困,能耗之險

六險|系統(tǒng)不穩(wěn),修行易斷
如今大模型訓練,往往持續(xù)數(shù)月
若中途宕機,Checkpoint失敗,功虧一簣
系統(tǒng)穩(wěn)定性,已成破局之關鍵
![]()
六重險關橫在面前
超算與智算始終無法突破
誰能橫掃六險,開山立派?
兩位高手想到一位絕世宗師
此人低調(diào)內(nèi)斂,卻鋒芒內(nèi)藏
早年便打通超算、智算兩脈內(nèi)功
在科研工業(yè)氣象等實戰(zhàn)中
斬六險、破重圍

這位絕世宗師,便是中科曙光
曙光一出山
就拿出秘籍《超智融合六脈神劍》
即,曙光超智融合解決方案
![]()
以此秘籍為筑根基
曙光構建了
首個行業(yè)標準化的超智融合算力平臺
![]()
Nebula 800貫通算力全棧四大層
資源層丨平臺層丨服務層丨應用層
其中,曙光深度融合底部三層
資源→平臺→服務,層層貫通
真正做到「融合有術,算力無界」

具體來看
Nebula 800如何解六困、破六難?
一破異構架構之險:主流架構,算力精度全面
曙光不走偏鋒,踏的是主流正道
堅持x86 CPU + GPGPU技術路線
既能兼容當前國際主流AI/HPC生態(tài)
又能承接「國產(chǎn)化」演進趨勢
一套系統(tǒng)雙精、單精、半精、整型、混合精度俱全

二破硬件效率之困:存、算、傳緊耦合協(xié)同設計
為了提高融合效率
曙光下重手修煉硬件協(xié)同「心法」
讓每個硬件都能合縱連橫、出招有力
![]()
最終實現(xiàn)“存算傳”一體高效協(xié)同
真正做到“組件雖異,協(xié)力同心”
數(shù)據(jù)I/O最快加速20倍,GPU提效30-40%

①GPU為中心,采用GPU直連架構,減少中間鏈路損耗
②層次化高速互聯(lián),在芯片內(nèi)、集群間都構建高帶寬互聯(lián)結(jié)構
③軟硬兼修,從硬件到協(xié)議再到軟件,層層打通
三破軟件生態(tài)之裂:軟件全棧完備,大模型適配
曙光以算法-硬件協(xié)同設計為核心
構建起一整套超智算全棧基礎軟件
從底層的設備驅(qū)動、運行時、編譯器
到中間的數(shù)學庫、通信庫、算子庫
再到上層編程接口、工具鏈,一應俱全

更聯(lián)合20+家AI門派深度打通
適配30+主流大模型
算法與算力高度適配
軟硬貫通,一氣呵成
![]()
四破并行之陣:融合管理調(diào)度大模型
面對集群資源調(diào)度和運維管理
曙光研發(fā)了管理調(diào)度大模型
讓資源調(diào)度不再靠拍腦袋
有據(jù)可循,智者當先

哪些資源適合哪個任務;哪些時段高峰,哪些地方堵點;如何削峰填谷,實現(xiàn)資源預判;在任務運行時,還能動態(tài)重排座次,提升并行效率;同時不斷做智能分析與優(yōu)化,把運行瓶頸揪出來。
五破電力能耗之限:液冷神功,節(jié)能術深
Nebula 800修得曙光獨門“功耗輕功”
外修液冷玄法,內(nèi)練能源動態(tài)優(yōu)化之術
實現(xiàn)高密部署、精準控電
能耗削減高達30%,PUE低至1.04
堪稱現(xiàn)代算力江湖中的“冰心訣”再現(xiàn)

六破穩(wěn)定之痛:全生命周期服務
曙光縱橫高性能算力江湖30載
淬煉二十余座超大規(guī)模算力中心
精于實戰(zhàn),妙于部署
![]()
從安裝調(diào)試,到監(jiān)測運維,再到故障閉環(huán)
可視化運維,瓶頸功耗,一目了然
任務自追蹤,失敗可重試,續(xù)算免返工
![]()
為廣大用戶奉上
可定制、一站式、全程相伴的頂級專業(yè)服務
![]()
客戶口碑為佐證,江湖實戰(zhàn)煉真章
曙光Nebula 800以一套平臺
打通超智融合“任督二脈”相關技術
已在新材料、氣象、能源、制造、生物醫(yī)藥、教育科研等三十余“江湖豪門”中遍地開花
![]()
![]()
![]()
![]()
![]()
![]()
超智融合,大勢所趨
超智融合,既能為AI所用(for AI)
亦能由AI驅(qū)動(by AI)
最終,它將邁向更高境界—內(nèi)生融合
為推動超智融合新派崛起,曙光正在持續(xù)努力
曙光牽頭參與編寫國內(nèi)首部行業(yè)標準《超智融合集群能力要求》,聯(lián)合中國信息通信研究院、中國智能計算產(chǎn)業(yè)聯(lián)盟等,重點解決跨廠商設備兼容性差、集群協(xié)同效率低等痛點。
![]()
并成功當選
ICCPA“超智融合”工作組組長
定標準、掌航向,率四十家名門共筑新生態(tài)

讓超智融合一統(tǒng)高端算力江湖
多精好省,讓客戶盡享融合之利
超智同啟云霄震,六劍縱橫舞巔峰!
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.