1、萬卡,并不是一個(gè)數(shù)字。 過去一年,國內(nèi)算力行業(yè)頻繁出現(xiàn)一個(gè)詞:萬卡。它常常被寫進(jìn)新聞標(biāo)題,被放在發(fā)布會(huì)的第一頁,被當(dāng)作某種階段性勝利的標(biāo)志。但在行業(yè)內(nèi)部,真正參與過大模型訓(xùn)練的人都清楚:萬卡不是規(guī)模的炫耀,而是一道門檻。越過它,意味著一種能力;沒越過,它只是堆疊。
在多數(shù)場合,國內(nèi)的“萬卡”更多服務(wù)于推理,或者是低并發(fā)、低耦合的計(jì)算任務(wù)。它們對(duì)系統(tǒng)的要求,更多在部署與成本,而不在持續(xù)協(xié)同。
真正的分水嶺在訓(xùn)練。AI大模型的訓(xùn)練要求長時(shí)間、高同步、強(qiáng)通信。模型不會(huì)等待某一張卡恢復(fù)狀態(tài),參數(shù)也不會(huì)為網(wǎng)絡(luò)抖動(dòng)停下來。一旦進(jìn)入萬卡規(guī)模,問題不再是“單卡算力夠不夠”,而是系統(tǒng)是否還能像一臺(tái)機(jī)器那樣工作。這正是摩爾線程 S5000 萬卡集群被反復(fù)提及的原因。不是因?yàn)樗白龅搅巳f卡”,而是因?yàn)樗?b>把萬卡真正用在了訓(xùn)練上。
![]()
2、訓(xùn)練型萬卡,是一個(gè)系統(tǒng)工程
如果我們往回看大模型的發(fā)展路徑,很容易發(fā)現(xiàn)一個(gè)被忽略的事實(shí):算力瓶頸從來不只存在于芯片上。在千卡以內(nèi),問題往往是單卡性能、顯存容量、算子效率。而一旦進(jìn)入萬卡,決定效率的因素迅速轉(zhuǎn)移:
芯片之間能否高速、穩(wěn)定通信
通信是否會(huì)侵占計(jì)算資源
系統(tǒng)是否能在數(shù)周訓(xùn)練周期中保持一致性
出現(xiàn)“慢節(jié)點(diǎn)”“靜默錯(cuò)誤”時(shí),是否能被感知與隔離
這些問題,無法通過堆更多卡解決。
這也是為什么全球范圍內(nèi),真正能交付訓(xùn)練型萬卡集群的企業(yè)屈指可數(shù)。英偉達(dá)是一個(gè);云廠商依賴它的生態(tài)是另一個(gè);而在國產(chǎn)體系內(nèi),能走到這一層的路徑并不多。
![]()
摩爾線程選擇了一條相對(duì)“重”的路線。如果只看參數(shù),摩爾線程的S5000并不是一張“追逐峰值”的卡。它的意義,在于設(shè)計(jì)之初就假設(shè)自己要進(jìn)入集群。這體現(xiàn)在三個(gè)層面:
第一,通信不再是附屬能力。在大規(guī)模訓(xùn)練中,通信不是配角,而是節(jié)拍器。
S5000在架構(gòu)層面引入了通信卸載機(jī)制,把All-Reduce等高頻通信任務(wù)從計(jì)算核心中分離出來,使計(jì)算與通信可以并行進(jìn)行。這不是為了某一個(gè)benchmark,而是為了長期訓(xùn)練過程中算力利用率的穩(wěn)定性。
結(jié)果是,在Dense模型訓(xùn)練中,萬卡規(guī)模下仍能維持較高的 MFU;在通信壓力更大的 MoE 模型中,也沒有出現(xiàn)系統(tǒng)性塌陷。
這類指標(biāo)的價(jià)值,不在于“好看”,而在于“可持續(xù)”。
第二,Scale-up 與 Scale-out 同時(shí)成立許多集群在scale-out(跨節(jié)點(diǎn))時(shí)依賴專有網(wǎng)絡(luò),成本高、風(fēng)險(xiǎn)集中。
S5000 在保持高帶寬片間互聯(lián)的同時(shí),選擇兼容標(biāo)準(zhǔn)以太網(wǎng)與 RoCE 協(xié)議,構(gòu)建大規(guī)模無阻塞拓?fù)洹_@不是技術(shù)上的“退而求其次”,而是工程上的現(xiàn)實(shí)選擇。
當(dāng)集群規(guī)模進(jìn)入萬卡,供應(yīng)鏈、部署周期、運(yùn)維復(fù)雜度都會(huì)成為系統(tǒng)的一部分。可擴(kuò)展性,本身就是算力的一部分。
第三,訓(xùn)練結(jié)果而非單項(xiàng)性能
在一些聯(lián)合訓(xùn)練驗(yàn)證中,S5000 萬卡集群的 Loss 曲線與國際主流訓(xùn)練集群高度重合,誤差控制在可接受范圍內(nèi)。這一點(diǎn)往往被外界低估。實(shí)驗(yàn)結(jié)果顯示,在全程訓(xùn)練中,S5000集群與英偉達(dá)H100平臺(tái)的訓(xùn)練曲線幾乎重合,最終訓(xùn)練損失(loss)差異僅為0.62%。甚至在CrossPoint、Q-Spatial、VABench-V任務(wù)上,算法效果表現(xiàn)更優(yōu)。
![]()
在行業(yè)內(nèi)部,對(duì)一套訓(xùn)練系統(tǒng)是否“站得住”,有一個(gè)比性能更苛刻的標(biāo)準(zhǔn):結(jié)果是否一致。
2026年1月,北京智源研究院基于MTT S5000 千卡集群完成RoboBrain 2.5的完整端到端訓(xùn)練與對(duì)齊驗(yàn)證。公開數(shù)據(jù)顯示,在全程訓(xùn)練中,S5000集群與H100集群的訓(xùn)練曲線幾乎重合,最終損失差異控制在0.62%以內(nèi)。
![]()
這意味著模型從預(yù)訓(xùn)練到收斂的全過程沒有出現(xiàn)大規(guī)模偏移或異常震蕩。在大模型訓(xùn)練中,這種一致性往往比峰值算力更難獲得。
如果說損失曲線是“是否能跑對(duì)”的答案,那么算力利用率則是“是否跑得有效”。
基于S5000 構(gòu)建的萬卡集群,在Dense 模型訓(xùn)練中模型算力利用率達(dá)到60%,在通信壓力更大的MoE模型中維持在40%左右;從64卡擴(kuò)展至1024卡,系統(tǒng)仍保持90%以上的線性擴(kuò)展效率。這組數(shù)據(jù)意味著,規(guī)模擴(kuò)大時(shí),并沒有因?yàn)橥ㄐ呕蛘{(diào)度瓶頸而讓算力被大量浪費(fèi)。
來自互聯(lián)網(wǎng)廠商場景的另一組反饋,則更接近真實(shí)業(yè)務(wù)。在端到端訓(xùn)練與推理任務(wù)中,單卡1000 TFLOPS 的計(jì)算能力與1.6TB/s 的顯存帶寬為高密度算子提供了底層支撐。但更關(guān)鍵的差異,并不體現(xiàn)在某一次峰值測(cè)試上,而是在長時(shí)間高負(fù)載運(yùn)行時(shí)——系統(tǒng)更少進(jìn)入等待狀態(tài),通信與計(jì)算可以并行推進(jìn)。
它沒有試圖在某一個(gè)指標(biāo)上“跑得最快”。而是在真實(shí)工作負(fù)載下,讓更多算力被真正用上。
因?yàn)閷?duì)訓(xùn)練而言,“能跑”和“跑對(duì)”之間,隔著系統(tǒng)穩(wěn)定性、精度一致性與調(diào)度能力的鴻溝。萬卡訓(xùn)練不是展示性能的舞臺(tái),而是驗(yàn)證工程能力的壓力測(cè)試。
如果說 RoboBrain 2.5的0.62% 訓(xùn)練差異證明了“能跑對(duì)”,那么最近的一次適配節(jié)奏,則體現(xiàn)了“能跟上”。
2月12日,智譜發(fā)布GLM-5。當(dāng)天,基于SGLang推理框架,MTT S5000完成了對(duì) GLM-5 的全流程適配與驗(yàn)證。業(yè)內(nèi)通常把這種同步響應(yīng)稱為 Day-0適配——模型發(fā)布當(dāng)天即可完成運(yùn)行與驗(yàn)證。
![]()
在大模型快速迭代的當(dāng)下,訓(xùn)練能力只是第一道門檻。真正的挑戰(zhàn)在于,架構(gòu)是否足夠通用,軟件棧是否足夠成熟,使得新模型的計(jì)算圖、算子組合與精度策略可以被快速吸收,而無需大規(guī)模重構(gòu)。
S5000之所以能夠在GLM-5發(fā)布當(dāng)天完成適配,一方面得益于其原生FP8 精度與全功能GPU架構(gòu);另一方面,則來自MUSA 軟件棧與主流框架的兼容能力。此前在RoboBrain 2.5千卡訓(xùn)練中,其Loss曲線與H100集群高度重合,最終差異控制在0.62%以內(nèi),這種工程穩(wěn)定性,為后續(xù)模型遷移提供了基礎(chǔ)。
換句話說,萬卡訓(xùn)練解決的是“是否具備底層能力”,Day-0 適配解決的是“是否進(jìn)入主流節(jié)奏”。這兩者疊加,才構(gòu)成真正的產(chǎn)業(yè)能力。
3、為什么是“全功能 GPU”路線
摩爾線程堅(jiān)持全功能GPU,而非專用訓(xùn)練ASIC,這一選擇在早期并不討巧。
專用芯片更容易在單一指標(biāo)上做得極致,也更容易在短期內(nèi)交付。但訓(xùn)練范式并不穩(wěn)定,從 CNN 到Transformer,從Dense到MoE,再到多模態(tài)與世界模型,算子形態(tài)持續(xù)變化。
在這種背景下,通用性是一種風(fēng)險(xiǎn)對(duì)沖。全功能GPU并不保證在每一次迭代中都領(lǐng)先,但它保證了系統(tǒng)可以被持續(xù)改造。
MUSA架構(gòu)的統(tǒng)一性,使得軟件棧、通信機(jī)制、調(diào)度系統(tǒng)可以圍繞同一底座演進(jìn),而不是在不同產(chǎn)品線上反復(fù)重建。
這是一種偏長期主義的選擇。
4、萬卡之后,問題并未結(jié)束
萬卡不是終點(diǎn)。當(dāng)訓(xùn)練規(guī)模繼續(xù)擴(kuò)大,功耗、能效、低精度計(jì)算、系統(tǒng)級(jí)可靠性都會(huì)成為新的瓶頸。摩爾線程已經(jīng)公開討論下一代架構(gòu)對(duì)十萬卡級(jí)別的支持,但這條路仍然充滿不確定性。
更重要的是,算力的競爭最終不在發(fā)布會(huì)上完成。它發(fā)生在開發(fā)者是否愿意遷移,模型是否愿意適配,系統(tǒng)是否在真實(shí)訓(xùn)練任務(wù)中被反復(fù)使用。
萬卡集群的意義,不在于“證明可以”,而在于“是否有人愿意長期依賴”。這一點(diǎn),對(duì)所有國產(chǎn)GPU廠商都是未完成的問題。
至少摩爾線程已經(jīng)跨出了第一步。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.