“我現(xiàn)在真想磕一個(gè)!”
老汪站在展位前,看著眼前的展示方案,激動(dòng)地差點(diǎn)脫口而出。
![]()
為啥他這么激動(dòng),事情得從前陣子說起——
老汪所在的研究所,要新上一套HPC高性能計(jì)算集群。
![]()
老汪都搞過好幾輪HPC了,按說不稀奇,但這一次,他犯難了。
有三個(gè)大難點(diǎn)↓
第1難:HPC集群必須純國(guó)產(chǎn)
無論是軟件還是硬件,上級(jí)單位有明確合規(guī)要求:
從HPC服務(wù)器硬件(GPU、CPU)、到HPC軟件平臺(tái)(操作系統(tǒng)、集群管理、基礎(chǔ)套件),甚至配套的存儲(chǔ)、網(wǎng)絡(luò),通通要國(guó)產(chǎn)化。
![]()
第2難:性能必須很能打
不光要純國(guó)產(chǎn),而且還要性能強(qiáng)悍的純國(guó)產(chǎn)!
老汪他們所,干的都是大活兒,對(duì)性能要求極高。
而且老汪知道,這HPC不能光看服務(wù)器裸算力,集群搭起來,要進(jìn)行調(diào)優(yōu),這是個(gè)系統(tǒng)工程。
![]()
第3難:應(yīng)用必須全部能遷移
很多軟件都沒在國(guó)產(chǎn)HPC上跑過,還沒有源碼,怎么能迅速跑起來?
光有集群,軟件都跑不動(dòng)跑不好,精度也上不來,那這鍋誰背?
![]()
誰能搞定這樣的純國(guó)產(chǎn)HPC交鑰匙工程?
老汪想破腦袋也沒想出來,愁啊……
![]()
直到幾天前,他收到一張邀請(qǐng)函:
2025全國(guó)高性能計(jì)算學(xué)術(shù)大會(huì)(CCF HPC China 2025)
![]()
這個(gè)會(huì)老汪以前就知道,還挺有干貨的,于是他決定去參會(huì)碰碰運(yùn)氣,看有沒有新方案能解眼前的燃眉之急。
那天,老汪在會(huì)場(chǎng)展區(qū)上溜達(dá),猛然看到一份方案,太驚喜了,仿佛是為他們單位量身打造的。
![]()
![]()
這是怎樣一份讓老汪恨不得“磕一個(gè)”的方案呢?
這套「KunLun高性能計(jì)算解決方案」,是以KunLun服務(wù)器為核心算力單元 ,集結(jié)了算、存、網(wǎng)、集群軟件全套產(chǎn)品,并支持完整的科學(xué)應(yīng)用軟件生態(tài)。
![]()
這其中的「雙生態(tài)兼容」,是指兼容全國(guó)產(chǎn)化算力生態(tài),又兼容“西方”算力生態(tài)。
這個(gè)特點(diǎn)讓老汪眼前一亮,畢竟自家單位這些年已經(jīng)建了不少老集群,過去的投入也不少,如果新方案還能向前兼容,那敢情好。

老汪再細(xì)品方案,這套方案包含了三大核心組件↓
①KunLun服務(wù)器:
這是集群中,提供高性能算力的核心單元,包含多種規(guī)格。
有高密度整機(jī)柜液冷服務(wù)器,也有適用于超智融合的AI服務(wù)器,NPU型和GPU型的按需選擇。

也有不同規(guī)格的通用算力服務(wù)器,雙路、四路,搭配國(guó)產(chǎn)化高性能處理器,滿足計(jì)算節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)的需求。
老汪盤了盤,這些可選的服務(wù)器,無論從算力指標(biāo)和國(guó)產(chǎn)化合規(guī)角度,都?jí)蛴昧恕?/p>
![]()
②KunLun DFS:高性能并行文件存儲(chǔ)系統(tǒng)
老汪知道,在HPC場(chǎng)景,如果把算力比作重機(jī)槍、數(shù)據(jù)比作子彈,那么并行文件存儲(chǔ)系統(tǒng)就好比彈夾和高速上彈器。
機(jī)槍火力再牛逼,子彈要是續(xù)不上,也得啞火。

而這套KunLun DFS就相當(dāng)給力,具備行業(yè)領(lǐng)先的存儲(chǔ)性能,高聚合帶寬、大IOPS,支持多協(xié)議互通,數(shù)據(jù)訪問效率極高。
部署方式也很靈活,針對(duì)海量小文件場(chǎng)景可以非對(duì)稱式部署,遇到高帶寬需求,可以對(duì)稱式部署,確保“彈藥充足、供應(yīng)及時(shí)”。
![]()
③KunLun Center:HPC&AI集群管理軟件
基礎(chǔ)平臺(tái)軟件包含兩部分。
第一部分是集群Portal,負(fù)責(zé)作業(yè)調(diào)度、數(shù)據(jù)管理、應(yīng)用與權(quán)限管理。
KunLun的HPC Portal不僅支持HPC作業(yè),還支持一站式AI模型開發(fā)訓(xùn)練部署,為超智融合提供基本盤,這是老汪很看重的一點(diǎn)。
![]()
第二部分是KunLun Center,負(fù)責(zé)一站式部署、可視化管理、健康檢測(cè)和巡檢。
老汪平常在單位就是主管基礎(chǔ)設(shè)施運(yùn)維的,他知道這些功能看著輕描淡寫,卻是保障集群不出幺蛾子的關(guān)鍵。
![]()
難道就憑這些,就讓老汪徹底服氣了嗎?
不,接下來,老汪講出了他的真正的「磕點(diǎn)」——
第一、軟硬件全棧自主創(chuàng)新,而且支持超智融合一體化
KunLun這套HPC方案,算、網(wǎng)、存、軟件全棧國(guó)產(chǎn),完美契合老汪這次選型的合規(guī)要求。
全棧到什么程度呢?
不只是算力服務(wù)器、存儲(chǔ)系統(tǒng)、無損網(wǎng)絡(luò)、集群管理和AI軟件這些基礎(chǔ)設(shè)施,還包括了服務(wù)器的操作系統(tǒng)、編譯器、數(shù)學(xué)庫(kù)、通信庫(kù)、開發(fā)套件…
這么說吧,這個(gè)國(guó)產(chǎn)化“全家桶”,是沒有短板的全家桶。

同時(shí),老汪對(duì)計(jì)算芯片用ARM處理器也很放心,因?yàn)楫?dāng)今超算TOP500排名第一的富岳(Fugaku),就是基于ARM架構(gòu)。
KunLun這套ARM架構(gòu),具備永久授權(quán),100%自研源代碼,完全掌握CPU指令集,是真正的自主可控。
![]()
在自主可控的基礎(chǔ)上,KunLun還支持多元算力共生,融合東西方算力生態(tài),ARM、x86、NPU、GPU可以組成混合集群,發(fā)揮各自優(yōu)勢(shì)。
這對(duì)老汪來講,是個(gè)意外驚喜,他可以考慮把單位原來的x86集群加入進(jìn)來,平滑過渡,也可以在集群中引入GPU、NPU,提升AI處理能力。

更讓老汪驚喜的是,KunLun這套方案支持Slurm與K8S協(xié)同調(diào)度,一套算力資源池,靈活滿足科學(xué)計(jì)算和AI訓(xùn)推需求,實(shí)現(xiàn)超智融合一體化。

第二、調(diào)優(yōu)能力業(yè)界領(lǐng)先,集群性能拉滿,應(yīng)用快速遷移
之前,老汪還有兩個(gè)擔(dān)心,一是整體集群性能優(yōu)化的問題,二是擔(dān)心那些HPC熱門應(yīng)用,在國(guó)產(chǎn)化環(huán)境下跑不起來。
但看罷KunLun的調(diào)優(yōu)和應(yīng)用遷移實(shí)力,老汪不由暗暗點(diǎn)贊↓
首先,KunLun已經(jīng)完成了400+行業(yè)主流應(yīng)用的深度適配,覆蓋教科研、制造、石油、氣象等行業(yè)場(chǎng)景。

也就是說,大部分主流HPC應(yīng)用的國(guó)產(chǎn)化適配和優(yōu)化都已經(jīng)搞定了。
這個(gè)基本盤,完全不需要擔(dān)心,從x86到ARM的遷移障礙,已被KunLun掃除。

如果遇到新的HPC應(yīng)用(無論有源碼還是無源碼),KunLun均可以實(shí)現(xiàn)2天完成遷移,2周性能優(yōu)化,3周精度調(diào)優(yōu),整體性能大幅飆升。
看這嘎嘎的性能:材料Lammps提升12%,氣象WRF提升35%,生信GATK提升87%…

到這里,老汪剛開始開始發(fā)愁的那幾點(diǎn),全棧國(guó)產(chǎn)、性能優(yōu)化、應(yīng)用遷移,全部都找到了滿意答案。
但他還有一點(diǎn)不放心:這KunLun團(tuán)隊(duì)是什么來頭,憑啥這么牛?
![]()
仔細(xì)一打聽,老汪算徹底明白了。
這是一群深耕計(jì)算產(chǎn)業(yè)20+年的老司機(jī)(核心團(tuán)隊(duì)是鯤鵬+昇騰原班人馬),繼承了國(guó)產(chǎn)化算力20多年的研發(fā)、市場(chǎng)和生態(tài)能力。
40+HPC&AI方案研發(fā)專家,提供專業(yè)咨詢和方案設(shè)計(jì)能力,100+HPC&AI PAE/FAE團(tuán)隊(duì),保障項(xiàng)目實(shí)施和應(yīng)用遷移調(diào)優(yōu)。
![]()
正是有這樣的資深團(tuán)隊(duì)做保障,KunLun才可以成為國(guó)產(chǎn)化HPC領(lǐng)域的“扛把子”,深入業(yè)務(wù)場(chǎng)景,攜手100+客戶完成測(cè)試、調(diào)優(yōu)與項(xiàng)目落地。
說起實(shí)戰(zhàn)經(jīng)驗(yàn)來,那是相當(dāng)豐富,無論是氣象預(yù)測(cè)、有限元分析,還是分子動(dòng)力學(xué)分析、生物信息分析,性能全部拉滿!

![]()
![]()
![]()
![]()
老汪意猶未盡,繼續(xù)在展區(qū)逛起來,突然,他看到一個(gè)熟悉的身影——
省氣象局主管信息化的老季,自己多年的老朋友。
![]()
老朋友見面,分外親切,于是兩個(gè)人交流起HPC的國(guó)產(chǎn)化選型問題。
沒想到,老季是這方面的行家,他們氣象局已經(jīng)用KunLun在干超智融合的事了,現(xiàn)在有三個(gè)氣象大模型都跑在KunLun國(guó)產(chǎn)化HPC上,效果非常棒。
![]()
接下來,老季興致勃勃地給老汪分享了他們的使用經(jīng)驗(yàn),對(duì)KunLun的產(chǎn)品和服務(wù)更是贊不絕口。
按老季的說法,他們氣象局的雨量監(jiān)測(cè)、時(shí)間序列預(yù)測(cè)等幾個(gè)大模型,是典型的AI for Science的項(xiàng)目,需要定制化開發(fā)才能搞妥。
![]()
推進(jìn)過程中,遇到了很多挑戰(zhàn),幸虧KunLun團(tuán)隊(duì)幫他們做遷移調(diào)優(yōu),重構(gòu)關(guān)鍵算子、優(yōu)化推理性能。
最終兩周搞定,模型推理性能提升了40%,算子時(shí)延降低25%,讓他們氣象局的AI for Science項(xiàng)目成了同行標(biāo)桿。

跟老季聊完,老汪心里更有譜了。
KunLun這么深的底蘊(yùn),還有這么多同行都在用,還猶豫個(gè)啥?放心上就好。
建設(shè)純國(guó)產(chǎn)化HPC集群,遷移無風(fēng)險(xiǎn),性能有保障,雙生態(tài)兼容,一站式服務(wù),選KunLun準(zhǔn)沒錯(cuò)!
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.