網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

當(dāng)所有人都在說萬卡，真正的差距才剛剛出現(xiàn)

2026-02-13 07:08:46　來源: 老虎說芯

廣東舉報(bào)

分享至

1、萬卡，并不是一個(gè)數(shù)字。過去一年，國內(nèi)算力行業(yè)頻繁出現(xiàn)一個(gè)詞：萬卡。它常常被寫進(jìn)新聞標(biāo)題，被放在發(fā)布會(huì)的第一頁，被當(dāng)作某種階段性勝利的標(biāo)志。但在行業(yè)內(nèi)部，真正參與過大模型訓(xùn)練的人都清楚：萬卡不是規(guī)模的炫耀，而是一道門檻。越過它，意味著一種能力；沒越過，它只是堆疊。

在多數(shù)場合，國內(nèi)的“萬卡”更多服務(wù)于推理，或者是低并發(fā)、低耦合的計(jì)算任務(wù)。它們對(duì)系統(tǒng)的要求，更多在部署與成本，而不在持續(xù)協(xié)同。

真正的分水嶺在訓(xùn)練。AI大模型的訓(xùn)練要求長時(shí)間、高同步、強(qiáng)通信。模型不會(huì)等待某一張卡恢復(fù)狀態(tài)，參數(shù)也不會(huì)為網(wǎng)絡(luò)抖動(dòng)停下來。一旦進(jìn)入萬卡規(guī)模，問題不再是“單卡算力夠不夠”，而是系統(tǒng)是否還能像一臺(tái)機(jī)器那樣工作。這正是摩爾線程 S5000 萬卡集群被反復(fù)提及的原因。不是因?yàn)樗白龅搅巳f卡”，而是因?yàn)樗?b>把萬卡真正用在了訓(xùn)練上。

2、訓(xùn)練型萬卡，是一個(gè)系統(tǒng)工程

如果我們往回看大模型的發(fā)展路徑，很容易發(fā)現(xiàn)一個(gè)被忽略的事實(shí)：算力瓶頸從來不只存在于芯片上。在千卡以內(nèi)，問題往往是單卡性能、顯存容量、算子效率。而一旦進(jìn)入萬卡，決定效率的因素迅速轉(zhuǎn)移：

芯片之間能否高速、穩(wěn)定通信
通信是否會(huì)侵占計(jì)算資源
系統(tǒng)是否能在數(shù)周訓(xùn)練周期中保持一致性
出現(xiàn)“慢節(jié)點(diǎn)”“靜默錯(cuò)誤”時(shí)，是否能被感知與隔離

這些問題，無法通過堆更多卡解決。

這也是為什么全球范圍內(nèi)，真正能交付訓(xùn)練型萬卡集群的企業(yè)屈指可數(shù)。英偉達(dá)是一個(gè)；云廠商依賴它的生態(tài)是另一個(gè)；而在國產(chǎn)體系內(nèi)，能走到這一層的路徑并不多。

摩爾線程選擇了一條相對(duì)“重”的路線。如果只看參數(shù)，摩爾線程的S5000并不是一張“追逐峰值”的卡。它的意義，在于設(shè)計(jì)之初就假設(shè)自己要進(jìn)入集群。這體現(xiàn)在三個(gè)層面：

第一，通信不再是附屬能力。在大規(guī)模訓(xùn)練中，通信不是配角，而是節(jié)拍器。

S5000在架構(gòu)層面引入了通信卸載機(jī)制，把All-Reduce等高頻通信任務(wù)從計(jì)算核心中分離出來，使計(jì)算與通信可以并行進(jìn)行。這不是為了某一個(gè)benchmark，而是為了長期訓(xùn)練過程中算力利用率的穩(wěn)定性。

結(jié)果是，在Dense模型訓(xùn)練中，萬卡規(guī)模下仍能維持較高的 MFU；在通信壓力更大的 MoE 模型中，也沒有出現(xiàn)系統(tǒng)性塌陷。

這類指標(biāo)的價(jià)值，不在于“好看”，而在于“可持續(xù)”。

第二，Scale-up 與 Scale-out 同時(shí)成立許多集群在scale-out（跨節(jié)點(diǎn)）時(shí)依賴專有網(wǎng)絡(luò)，成本高、風(fēng)險(xiǎn)集中。

S5000 在保持高帶寬片間互聯(lián)的同時(shí)，選擇兼容標(biāo)準(zhǔn)以太網(wǎng)與 RoCE 協(xié)議，構(gòu)建大規(guī)模無阻塞拓?fù)洹＿@不是技術(shù)上的“退而求其次”，而是工程上的現(xiàn)實(shí)選擇。

當(dāng)集群規(guī)模進(jìn)入萬卡，供應(yīng)鏈、部署周期、運(yùn)維復(fù)雜度都會(huì)成為系統(tǒng)的一部分。可擴(kuò)展性，本身就是算力的一部分。

第三，訓(xùn)練結(jié)果而非單項(xiàng)性能

在一些聯(lián)合訓(xùn)練驗(yàn)證中，S5000 萬卡集群的 Loss 曲線與國際主流訓(xùn)練集群高度重合，誤差控制在可接受范圍內(nèi)。這一點(diǎn)往往被外界低估。實(shí)驗(yàn)結(jié)果顯示，在全程訓(xùn)練中，S5000集群與英偉達(dá)H100平臺(tái)的訓(xùn)練曲線幾乎重合，最終訓(xùn)練損失（loss）差異僅為0.62%。甚至在CrossPoint、Q-Spatial、VABench-V任務(wù)上，算法效果表現(xiàn)更優(yōu)。

在行業(yè)內(nèi)部，對(duì)一套訓(xùn)練系統(tǒng)是否“站得住”，有一個(gè)比性能更苛刻的標(biāo)準(zhǔn)：結(jié)果是否一致。

2026年1月，北京智源研究院基于MTT S5000 千卡集群完成RoboBrain 2.5的完整端到端訓(xùn)練與對(duì)齊驗(yàn)證。公開數(shù)據(jù)顯示，在全程訓(xùn)練中，S5000集群與H100集群的訓(xùn)練曲線幾乎重合，最終損失差異控制在0.62%以內(nèi)。

這意味著模型從預(yù)訓(xùn)練到收斂的全過程沒有出現(xiàn)大規(guī)模偏移或異常震蕩。在大模型訓(xùn)練中，這種一致性往往比峰值算力更難獲得。

如果說損失曲線是“是否能跑對(duì)”的答案，那么算力利用率則是“是否跑得有效”。

基于S5000 構(gòu)建的萬卡集群，在Dense 模型訓(xùn)練中模型算力利用率達(dá)到60%，在通信壓力更大的MoE模型中維持在40%左右；從64卡擴(kuò)展至1024卡，系統(tǒng)仍保持90%以上的線性擴(kuò)展效率。這組數(shù)據(jù)意味著，規(guī)模擴(kuò)大時(shí)，并沒有因?yàn)橥ㄐ呕蛘{(diào)度瓶頸而讓算力被大量浪費(fèi)。

來自互聯(lián)網(wǎng)廠商場景的另一組反饋，則更接近真實(shí)業(yè)務(wù)。在端到端訓(xùn)練與推理任務(wù)中，單卡1000 TFLOPS 的計(jì)算能力與1.6TB/s 的顯存帶寬為高密度算子提供了底層支撐。但更關(guān)鍵的差異，并不體現(xiàn)在某一次峰值測(cè)試上，而是在長時(shí)間高負(fù)載運(yùn)行時(shí)——系統(tǒng)更少進(jìn)入等待狀態(tài)，通信與計(jì)算可以并行推進(jìn)。

它沒有試圖在某一個(gè)指標(biāo)上“跑得最快”。而是在真實(shí)工作負(fù)載下，讓更多算力被真正用上。

因?yàn)閷?duì)訓(xùn)練而言，“能跑”和“跑對(duì)”之間，隔著系統(tǒng)穩(wěn)定性、精度一致性與調(diào)度能力的鴻溝。萬卡訓(xùn)練不是展示性能的舞臺(tái)，而是驗(yàn)證工程能力的壓力測(cè)試。

如果說 RoboBrain 2.5的0.62% 訓(xùn)練差異證明了“能跑對(duì)”，那么最近的一次適配節(jié)奏，則體現(xiàn)了“能跟上”。

2月12日，智譜發(fā)布GLM-5。當(dāng)天，基于SGLang推理框架，MTT S5000完成了對(duì) GLM-5 的全流程適配與驗(yàn)證。業(yè)內(nèi)通常把這種同步響應(yīng)稱為 Day-0適配——模型發(fā)布當(dāng)天即可完成運(yùn)行與驗(yàn)證。

在大模型快速迭代的當(dāng)下，訓(xùn)練能力只是第一道門檻。真正的挑戰(zhàn)在于，架構(gòu)是否足夠通用，軟件棧是否足夠成熟，使得新模型的計(jì)算圖、算子組合與精度策略可以被快速吸收，而無需大規(guī)模重構(gòu)。

S5000之所以能夠在GLM-5發(fā)布當(dāng)天完成適配，一方面得益于其原生FP8 精度與全功能GPU架構(gòu)；另一方面，則來自MUSA 軟件棧與主流框架的兼容能力。此前在RoboBrain 2.5千卡訓(xùn)練中，其Loss曲線與H100集群高度重合，最終差異控制在0.62%以內(nèi)，這種工程穩(wěn)定性，為后續(xù)模型遷移提供了基礎(chǔ)。

換句話說，萬卡訓(xùn)練解決的是“是否具備底層能力”，Day-0 適配解決的是“是否進(jìn)入主流節(jié)奏”。這兩者疊加，才構(gòu)成真正的產(chǎn)業(yè)能力。

3、為什么是“全功能 GPU”路線

摩爾線程堅(jiān)持全功能GPU，而非專用訓(xùn)練ASIC，這一選擇在早期并不討巧。

專用芯片更容易在單一指標(biāo)上做得極致，也更容易在短期內(nèi)交付。但訓(xùn)練范式并不穩(wěn)定，從 CNN 到Transformer，從Dense到MoE，再到多模態(tài)與世界模型，算子形態(tài)持續(xù)變化。

在這種背景下，通用性是一種風(fēng)險(xiǎn)對(duì)沖。全功能GPU并不保證在每一次迭代中都領(lǐng)先，但它保證了系統(tǒng)可以被持續(xù)改造。

MUSA架構(gòu)的統(tǒng)一性，使得軟件棧、通信機(jī)制、調(diào)度系統(tǒng)可以圍繞同一底座演進(jìn)，而不是在不同產(chǎn)品線上反復(fù)重建。

這是一種偏長期主義的選擇。

4、萬卡之后，問題并未結(jié)束

萬卡不是終點(diǎn)。當(dāng)訓(xùn)練規(guī)模繼續(xù)擴(kuò)大，功耗、能效、低精度計(jì)算、系統(tǒng)級(jí)可靠性都會(huì)成為新的瓶頸。摩爾線程已經(jīng)公開討論下一代架構(gòu)對(duì)十萬卡級(jí)別的支持，但這條路仍然充滿不確定性。

更重要的是，算力的競爭最終不在發(fā)布會(huì)上完成。它發(fā)生在開發(fā)者是否愿意遷移，模型是否愿意適配，系統(tǒng)是否在真實(shí)訓(xùn)練任務(wù)中被反復(fù)使用。

萬卡集群的意義，不在于“證明可以”，而在于“是否有人愿意長期依賴”。這一點(diǎn)，對(duì)所有國產(chǎn)GPU廠商都是未完成的問題。

至少摩爾線程已經(jīng)跨出了第一步。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.