![]()
當(dāng)千行萬(wàn)業(yè)全面邁向智能化,AI從試點(diǎn)一步步擴(kuò)展到生產(chǎn)系統(tǒng),出現(xiàn)了一個(gè)無(wú)法回避的現(xiàn)實(shí)挑戰(zhàn):
大模型的參數(shù)量從千億級(jí)躍升至萬(wàn)億級(jí),推理時(shí)延卻要從50ms壓縮到15ms。在“越大越快”的悖論下,傳統(tǒng)服務(wù)器集群的堆卡模式,已無(wú)法滿足算力的線性增長(zhǎng),對(duì)算力、通信和存儲(chǔ)的協(xié)同提出了前所未有的挑戰(zhàn)。
相對(duì)應(yīng)的是“超節(jié)點(diǎn)”概念的走紅,華為、百度、中科曙光等先后發(fā)布了“超節(jié)點(diǎn)服務(wù)器”:在超大帶寬、超低時(shí)延、內(nèi)存統(tǒng)一編址等技術(shù)的賦能下,打破了算力協(xié)同瓶頸,讓計(jì)算集群像一臺(tái)計(jì)算機(jī)一樣高效工作。
物理上的“硬件孤島”被打破后,還需要一個(gè)匹配的“神經(jīng)中樞”。對(duì)下承接硬件、對(duì)上承載應(yīng)用的操作系統(tǒng),被推向舞臺(tái)中央。
比如在11月14號(hào)的操作系統(tǒng)大會(huì)2025上,openEuler協(xié)同數(shù)十家產(chǎn)業(yè)伙伴向外界釋放了一個(gè)積極信號(hào):共筑面向智能時(shí)代的超節(jié)點(diǎn)操作系統(tǒng),讓AI能力深度融入系統(tǒng)底層,加速AI的創(chuàng)新落地。
01 面向超節(jié)點(diǎn)的操作系統(tǒng),需要有哪些能力?
在算力基礎(chǔ)設(shè)施的拼圖里,操作系統(tǒng)歷來(lái)是承上啟下的“中樞層”,扮演了底層硬件和上層應(yīng)用溝通的橋梁。
正如中國(guó)工程院院士倪光南在操作系統(tǒng)大會(huì)2025的主題演講中所提到的:“超節(jié)點(diǎn)已成為算力基礎(chǔ)設(shè)施建設(shè)和部署的主流形態(tài)。智能時(shí)代的操作系統(tǒng)將銜接智能時(shí)代的硬件和應(yīng)用,成為釋放算力潛能的核心基石。”
由此產(chǎn)生的一個(gè)問(wèn)題是:當(dāng)超節(jié)點(diǎn)成為下一代算力基礎(chǔ)設(shè)施的主流形態(tài),操作系統(tǒng)需要具備哪些能力?
華為公司董事、ICT BG CEO楊超斌在致辭中列出了來(lái)自產(chǎn)業(yè)端的“需求清單”:操作系統(tǒng)需要使能超節(jié)點(diǎn)硬件,向上層應(yīng)用提供大帶寬、低時(shí)延、內(nèi)存統(tǒng)一編址和池化等核心能力,例如在大模型訓(xùn)練和推理、搜推廣等場(chǎng)景中,讓計(jì)算不再等待通信,從而釋放超節(jié)點(diǎn)集群的算力潛能。
![]()
我們來(lái)翻譯下這段“行話”。
大模型訓(xùn)練、實(shí)時(shí)推理、搜推廣等極度依賴時(shí)延的場(chǎng)景下,通信延遲可能占到任務(wù)耗時(shí)的60%以上,計(jì)算單元已經(jīng)處理完了“手頭的活”,發(fā)現(xiàn)下一批數(shù)據(jù)“還堵在路上”,或者在遙遠(yuǎn)的另一塊內(nèi)存里。
通過(guò)內(nèi)存統(tǒng)一編址、超大帶寬、超低時(shí)延等能力,超節(jié)點(diǎn)將過(guò)去分散在不同物理節(jié)點(diǎn)上的資源,“整合”到了一臺(tái)計(jì)算機(jī)里。但硬件協(xié)同只是“半程”,另一半的落在了操作系統(tǒng):通信調(diào)度要“像內(nèi)存訪問(wèn)一樣快”,資源視圖要足夠統(tǒng)一,內(nèi)存池化要做到可控、可見(jiàn)、可信……同樣是決定算力是否可用的“樞紐”。
產(chǎn)業(yè)端的需求已經(jīng)明確,操作系統(tǒng)該怎么進(jìn)化?
開(kāi)放原子開(kāi)源歐拉委員會(huì)主席熊偉提出了“供給側(cè)”的解題思路,認(rèn)為面向超節(jié)點(diǎn)的操作系統(tǒng),應(yīng)該具備三個(gè)關(guān)鍵特征:
![]()
第一,全局資源抽象、內(nèi)存統(tǒng)一編址、設(shè)備池化管理。不再像管家一樣只管自己的“一畝三分地”(單臺(tái)服務(wù)器),而是作為“集群總司令”把所有算力、內(nèi)存、設(shè)備等看作一個(gè)統(tǒng)一的資源池。
第二,異構(gòu)資源融合、大帶寬低時(shí)延通信,實(shí)現(xiàn)平等互聯(lián)。操作系統(tǒng)需要將GPU、CPU、NPU等不同算力“融合”起來(lái),利用大帶寬、低時(shí)延的通信能力,將不同計(jì)算單元“平等互聯(lián)”、協(xié)同作戰(zhàn)。
第三,全局資源視圖,以及兼容性接口、原生接口等。對(duì)上層的AI框架和大模型開(kāi)發(fā)者來(lái)說(shuō),操作系統(tǒng)提供的是一個(gè)清爽的“全局資源視圖”,包括兼容性接口和原生接口,進(jìn)一步降低適配門檻。
不應(yīng)該忽略的,還有一個(gè)確切的時(shí)間表:全球首個(gè)面向超節(jié)點(diǎn)的操作系統(tǒng)openEuler 24.03 LTS SP3,將于2025年12月30日在社區(qū)上線。也就是說(shuō),2026年將是“超節(jié)點(diǎn)”操作系統(tǒng)的商業(yè)化元年。
02 “超節(jié)點(diǎn)+大模型”時(shí)代,國(guó)產(chǎn)操作系統(tǒng)越級(jí)
不管是“超節(jié)點(diǎn)”架構(gòu)的出現(xiàn),還是面向超節(jié)點(diǎn)的操作系統(tǒng)創(chuàng)新,都是產(chǎn)業(yè)需求驅(qū)動(dòng)的“果”。
就在操作系統(tǒng)大會(huì)2025現(xiàn)場(chǎng),開(kāi)放原子開(kāi)源基金會(huì)、華為與中國(guó)電信天翼云公布了聯(lián)合發(fā)展倡議,將聯(lián)手促進(jìn)技術(shù)共建、生態(tài)共筑和業(yè)務(wù)共贏,共同構(gòu)建操作系統(tǒng)在AI和超節(jié)點(diǎn)等前沿技術(shù)領(lǐng)域的競(jìng)爭(zhēng)力,推進(jìn)天翼云和開(kāi)源歐拉生態(tài)繁榮發(fā)展。
![]()
在openEuler社區(qū),像中國(guó)電信這樣的產(chǎn)業(yè)參與者還有很多,某種程度上已成為一股股產(chǎn)業(yè)級(jí)力量的匯聚點(diǎn)。
可以佐證的一組數(shù)據(jù)是:目前openEuler社區(qū)已吸引2100多家頭部企業(yè)、研究機(jī)構(gòu)和高校加入,擁有超過(guò)2.3萬(wàn)名開(kāi)源貢獻(xiàn)者,全球下載量突破550萬(wàn),在全球部署42個(gè)鏡像節(jié)點(diǎn),為178個(gè)國(guó)家和地區(qū)提供服務(wù)。到2025年底,openEuler系操作系統(tǒng)的累計(jì)裝機(jī)量預(yù)計(jì)將超過(guò)1600萬(wàn)套。
嗅覺(jué)敏銳的產(chǎn)業(yè)參與者,用行動(dòng)揭示了——“超節(jié)點(diǎn)”改變的不單單是計(jì)算架構(gòu),潛移默化地重構(gòu)了算力新秩序。
一是企業(yè)獲取智能算力的方式。
很長(zhǎng)一段時(shí)間里,企業(yè)要想訓(xùn)練大模型,面臨的是一種“手工作坊式”的困境——需要花費(fèi)數(shù)月的時(shí)間去調(diào)試,試圖讓一堆昂貴的硬件協(xié)同工作。而通信墻、內(nèi)存墻、復(fù)雜度墻等像一道道閘門,截?cái)嗔藬?shù)據(jù)的流動(dòng)。
兩個(gè)月前的HC 2025上,華為宣布將開(kāi)放靈衢2.0技術(shù)規(guī)范、開(kāi)放超節(jié)點(diǎn)參考架構(gòu)、開(kāi)放超節(jié)點(diǎn)基礎(chǔ)硬件、開(kāi)源操作系統(tǒng)靈衢組件等等,允許產(chǎn)業(yè)界基于技術(shù)規(guī)范自研相關(guān)產(chǎn)品或部件,自主設(shè)計(jì)基于靈衢的各種產(chǎn)品。
面向超節(jié)點(diǎn)的操作系統(tǒng)openEuler 24.03 LTS SP3,則在操作系統(tǒng)層面實(shí)現(xiàn)了內(nèi)存統(tǒng)一編址、資源池化、異構(gòu)協(xié)同等能力,原本只有頂級(jí)科技公司才能掌握的復(fù)雜系統(tǒng)調(diào)優(yōu)能力,變成了一種“普惠技術(shù)”。
企業(yè)不需要關(guān)心底層插的是A廠的卡還是B廠的卡,不需要擔(dān)心跨節(jié)點(diǎn)的通信延遲,操作系統(tǒng)自動(dòng)完成了資源的全局抽象和調(diào)度。大模型訓(xùn)練與推理的效率提升,智能化的普及周期將被大幅縮短。
二是“國(guó)產(chǎn)操作系統(tǒng)”的越級(jí)式崛起。
提到國(guó)產(chǎn)操作系統(tǒng),不少人腦海里冒出來(lái)的可能是安全、“備胎”等詞匯,為了自主可控,往往需要犧牲一部分性能或易用性。
但在操作系統(tǒng)大會(huì)2025上, Intel、Arm、 AMD三大芯片企業(yè)均成為openEuler社區(qū)的捐贈(zèng)人,數(shù)十家操作系統(tǒng)廠商成為開(kāi)源歐拉社區(qū)的首批全球化先鋒伙伴,openEuler的全球化進(jìn)程如火如荼。
![]()
原因并不難解釋:超節(jié)點(diǎn)架構(gòu)天然需要CPU/GPU/NPU的多架構(gòu)協(xié)同,全球芯片企業(yè)和產(chǎn)業(yè)客戶在openEuler上找到了統(tǒng)一的接口層。背后折射出了一個(gè)關(guān)鍵的產(chǎn)業(yè)信號(hào),即以openEuler為代表的國(guó)產(chǎn)操作系統(tǒng)生態(tài),已經(jīng)走過(guò)追求“替代”的階段,進(jìn)入“基礎(chǔ)設(shè)施創(chuàng)新”的新周期。
在超節(jié)點(diǎn)、大模型等前沿領(lǐng)域,openEuler和伙伴們正在無(wú)人區(qū)探索,去解決產(chǎn)業(yè)需要的難題,不僅僅是為了“安全兜底”,正在對(duì)高性能計(jì)算、資源管理方式、數(shù)智底座等進(jìn)行系統(tǒng)性重構(gòu)。
就像我們所看到的:在數(shù)千家企業(yè)、數(shù)萬(wàn)開(kāi)發(fā)者的共同推動(dòng)下,openEuler已經(jīng)成為“算力新范式的制定者”。
03 寫在最后
把視角拉得更長(zhǎng)遠(yuǎn)一些,openEuler完成了一次又一次身份躍遷。
2019年末剛開(kāi)源時(shí),在外界眼中還是CentOS的一個(gè)替代選項(xiàng);
四年前演進(jìn)到社區(qū)自治,openEuler躋身中國(guó)操作系統(tǒng)市場(chǎng)的主流玩家;
到了2024年底,在中國(guó)新增服務(wù)器操作系統(tǒng)領(lǐng)域,openEuler的市場(chǎng)份額已達(dá)50%。
現(xiàn)在,openEuler正向全世界示范——在物理邊界被打破、智能無(wú)處不在的新世界里,操作系統(tǒng)應(yīng)該長(zhǎng)什么樣。甚至可以篤定:未來(lái)五年,面向超節(jié)點(diǎn)的操作系統(tǒng)將成為智能算力競(jìng)爭(zhēng)的分水嶺。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.