![]()
2026年2月5日,農(nóng)歷臘月十八,在鄭州,國(guó)家超算互聯(lián)網(wǎng)核心節(jié)點(diǎn)正式上線試運(yùn)行,在這個(gè)節(jié)點(diǎn)上,部署了3套由中科曙光提供的scaleX萬(wàn)卡超集群,最大可對(duì)外提供超過(guò)3萬(wàn)張AI加速卡的算力。
通過(guò)該核心節(jié)點(diǎn)的上線試運(yùn)行,驗(yàn)證了國(guó)產(chǎn)算力基礎(chǔ)設(shè)施的工程化能力,行業(yè)已從早期的單點(diǎn)突破轉(zhuǎn)向了集群創(chuàng)新,并實(shí)現(xiàn)大規(guī)模的落地部署。
過(guò)去幾年,人工智能產(chǎn)業(yè)的發(fā)展對(duì)算力提出了極其苛刻的要求,大模型的參數(shù)量從億級(jí)向萬(wàn)億級(jí)躍升,帶來(lái)的直接后果是計(jì)算量的指數(shù)級(jí)增長(zhǎng)。
然而,在很長(zhǎng)一段時(shí)間里,國(guó)內(nèi)算力產(chǎn)業(yè)面臨著結(jié)構(gòu)性的矛盾,需求側(cè)急需大規(guī)模、穩(wěn)定的算力,供給側(cè)卻呈現(xiàn)出嚴(yán)重的碎片化特征。
各家廠商在硬件設(shè)計(jì)、軟件棧和互連協(xié)議上自成體系。
這種封閉的技術(shù)路線導(dǎo)致了算力資源難以跨平臺(tái)調(diào)度,用戶的遷移成本居高不下。這不符合算力作為新型公共基礎(chǔ)設(shè)施的屬性,就像電力系統(tǒng),如果不同電廠發(fā)出的電無(wú)法并入同一張網(wǎng),電力就無(wú)法成為驅(qū)動(dòng)工業(yè)化的通用能源。
市場(chǎng)需要的是高效、安全、穩(wěn)定的智能計(jì)算基礎(chǔ)設(shè)施。
中科曙光在2025年明確提出了“AI計(jì)算開放架構(gòu)”的戰(zhàn)略方向,這一戰(zhàn)略的核心邏輯在于分工與協(xié)作。
我們主張建立一個(gè)開放的產(chǎn)業(yè)格局,讓國(guó)產(chǎn)芯片、整機(jī)、軟件和大模型等產(chǎn)業(yè)鏈上下游的企業(yè)能夠解耦協(xié)作。
在鄭州上線的scaleX萬(wàn)卡超集群,正是這一戰(zhàn)略落地的產(chǎn)物。而這套系統(tǒng)的工程化落地需要攻克一系列技術(shù)難關(guān),包括軟硬件協(xié)同優(yōu)化、高密度集成、高效供電與散熱、高速互連擴(kuò)展、智能運(yùn)維管理等。
例如,scaleX萬(wàn)卡超集群采用了超高密度刀片、浸沒相變液冷等技術(shù),將單機(jī)柜的算力密度提升了20倍,同時(shí)將PUE值(電源使用效率)降低到了1.04,在同樣的空間內(nèi),我們能夠部署更多的計(jì)算資源,同時(shí)大幅降低運(yùn)行成本。
為實(shí)現(xiàn)集群系統(tǒng)的綜合性能,進(jìn)行了存、算、傳一體化協(xié)同設(shè)計(jì)優(yōu)化,通過(guò)“超級(jí)隧道”、AI數(shù)據(jù)加速等設(shè)計(jì),實(shí)現(xiàn)從芯片級(jí)、系統(tǒng)級(jí)到應(yīng)用級(jí)的三級(jí)數(shù)據(jù)傳輸協(xié)同優(yōu)化,以高效應(yīng)對(duì)大模型訓(xùn)練時(shí)萬(wàn)卡并發(fā)讀寫對(duì)帶寬的極致需求,提升高通量AI推理時(shí)的響應(yīng)速度與結(jié)果精準(zhǔn)度,并可將AI加速卡資源利用率提高55%。
更為關(guān)鍵的是,這套系統(tǒng)基于開放架構(gòu)設(shè)計(jì)。
它能夠支持不同品牌的國(guó)產(chǎn)加速卡進(jìn)行異構(gòu)部署,并在軟件層面兼容CUDA等主流計(jì)算生態(tài)。目前,該系統(tǒng)已經(jīng)實(shí)現(xiàn)了超過(guò)400個(gè)主流大模型和世界模型的適配優(yōu)化。
這種兼容性降低了開發(fā)者的使用門檻,讓用戶擁有了更多的選擇權(quán),而不必被單一的技術(shù)路線所綁定。
算力設(shè)施建設(shè)的最終目的,是服務(wù)于實(shí)體產(chǎn)業(yè),算力的價(jià)值,取決于它能否融入產(chǎn)業(yè)的作業(yè)流程,解決實(shí)際問(wèn)題。
針對(duì)超大規(guī)模模型訓(xùn)練,萬(wàn)卡超集群可以支持萬(wàn)億參數(shù)模型的整機(jī)訓(xùn)練與容錯(cuò)恢復(fù)。
面向高通量推理場(chǎng)景,超集群已服務(wù)于多家頭部互聯(lián)網(wǎng)用戶的核心智能化業(yè)務(wù),并通過(guò)聯(lián)合深度優(yōu)化持續(xù)提升推理效能。
在AI for Science領(lǐng)域,我們支撐國(guó)內(nèi)某材料研發(fā)大模型登頂國(guó)際權(quán)威榜單,并助力國(guó)內(nèi)頂級(jí)科研團(tuán)隊(duì)將蛋白質(zhì)研究效率提升3—6個(gè)數(shù)量級(jí)。
同時(shí)搭配OneScience科學(xué)大模型一站式開發(fā)平臺(tái),超集群還能夠大幅降低多學(xué)科交叉研究的創(chuàng)新門檻。
這些表明,當(dāng)算力、數(shù)據(jù)和應(yīng)用場(chǎng)景真正結(jié)合時(shí),技術(shù)才能轉(zhuǎn)化為推動(dòng)經(jīng)濟(jì)發(fā)展的動(dòng)能。
展望2026年,智能化的浪潮將推動(dòng)計(jì)算產(chǎn)業(yè)進(jìn)入一個(gè)新的發(fā)展周期。
中科曙光將繼續(xù)堅(jiān)持“開放”的技術(shù)路線。我們認(rèn)為,在當(dāng)前的產(chǎn)業(yè)環(huán)境下,只有基于開放的架構(gòu)、統(tǒng)一的標(biāo)準(zhǔn),才能有效聯(lián)動(dòng)起產(chǎn)業(yè)鏈上下游的企業(yè)、高校及科研院所,開展協(xié)同技術(shù)攻關(guān),構(gòu)建起具有國(guó)際競(jìng)爭(zhēng)力的產(chǎn)業(yè)生態(tài)。
為此,我們將重點(diǎn)關(guān)注核心部件、整機(jī)系統(tǒng)、軟件生態(tài)及應(yīng)用服務(wù)的全鏈條創(chuàng)新,致力于解決異構(gòu)算力的適配難題,提升算力資源的利用效率。無(wú)論是面對(duì)萬(wàn)億參數(shù)的大模型訓(xùn)練,還是科學(xué)計(jì)算的復(fù)雜場(chǎng)景,我們都將提供成熟、可靠的解決方案。
積力之所舉,則無(wú)不勝。
2026年,中科曙光將繼續(xù)以務(wù)實(shí)的態(tài)度,推動(dòng)國(guó)產(chǎn)智能計(jì)算基礎(chǔ)設(shè)施向著開放、高效、安全的方向演進(jìn)。
(經(jīng)濟(jì)觀察報(bào)記者 鄭晨燁)
(作者 鄭晨燁)
免責(zé)聲明:本文觀點(diǎn)僅代表作者本人,供參考、交流,不構(gòu)成任何建議。
![]()
鄭晨燁
資深記者。關(guān)注新能源、半導(dǎo)體、智能汽車等新產(chǎn)業(yè)領(lǐng)域,有線索歡迎聯(lián)系:zhengchenye@eeo.com.cn,微信:zcy096x。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.