網易首頁 > 網易號 > 正文申請入駐

摩爾線程S5000實現Qwen3-0.6B端到端無中斷訓練，精度超越基線

2026-03-27 21:18:35　來源: 愛集微

江蘇舉報

分享至

近日，北京智源人工智能研究院（簡稱：智源研究院）正式發布重磅驗證成果：六款AI芯片、三大模型、同構+異構千卡——眾智FlagOS以統一技術棧完成AI訓練“全要素”驗證。

作為本次驗證的核心參與廠商之一，摩爾線程基于旗艦級AI訓推一體全功能GPU智算卡MTT S5000，完整適配了FlagOS訓練全要素軟件棧——包括FlagScale系統調度決策框架、Megatron-LM分布式訓練框架、Transformer Engine加速庫、FlagGems與Triton算子庫，以及FlagCX通信庫。

在此次嚴苛的驗證中，MTT S5000面向Qwen3-0.6B語言模型完成了1T Tokens從頭訓練驗證，實現連續6天以上、超過14000步的無中斷穩定訓練。訓練所得模型 Loss 曲線與基線高度一致，平均相對誤差控制在0.82%以內；在標準下游任務評測中，較行業標桿基線提升1.65個百分點，充分驗證了全功能GPU算力在大模型端到端訓練中的穩定性與有效性。

長周期高負載驗證：

4機32卡無中斷，6+天穩定訓練

此次FlagOS全要素適配與驗證工作，旨在檢驗多元AI算力在統一軟件棧下的端到端訓練能力。摩爾線程與智源團隊緊密協作，高效完成了底層適配與系統調優，并于春節前正式啟動全流程訓練驗證。

在實際訓練中，摩爾線程采用4機32卡配置，面向 Qwen3-0.6B語言模型開展訓練。在超過6天的連續訓練周期內，系統穩定完成 1T Tokens 數據量的超過14000步迭代，期間未發生任何軟硬件中斷。這一結果回應了業界對國產算力大規模訓練穩定性的核心關切，也進一步證明了基于MTT S5000構建的訓練集群在長時間、高負載場景下的可靠性，充分驗證國產算力已具備支撐企業級大模型預訓練任務的能力。

精度穩定對齊：

Loss曲線高度一致，評測效果優于基線

大模型訓練的核心訴求，不僅在于算力規模與性能，更在于訓練過程中的穩定性、收斂效果和最終模型質量。其中，訓練精度是基石，下游任務評測效果則是檢驗訓練成效的關鍵指標。

在FlagOS統一軟件棧的調度下，采用完全對齊的數據集和訓練參數，基于MTT S5000集群的訓練過程呈現出與國際主流產品基線高度一致的Loss收斂曲線，平均相對誤差控制在0.82%以內。與此同時，在標準的下游任務評測中，基于MTT S5000訓練的模型，取得了比行業標桿基線高出1.65個百分點的結果表現。

與基線評測偏差的計算方法（后面的計算方式類似）：

Qwen3-0.6B評測結果（正數是優于基線）

這一結果表明，開發者基于公開的模型結構與數據集，即可在摩爾線程MTT S5000算力平臺上，獲得與國際主流平臺精度相當，并在部分評測指標上實現更優表現的大模型訓練效果。

此外，摩爾線程基于MTT S5000的訓練能力已在更大規模場景中得到驗證。今年1月，依托摩爾線程MTT S5000千卡智算集群，FlagOS成功完成智源自研具身大腦模型RoboBrain 2.5的全流程訓練與優化驗證。結果顯示，其Loss曲線與國際主流產品基線高度一致，最終結果相對誤差小于0.62%；在64卡至1024卡規模區間內，多組實驗均實現超過90%的線性擴展效率。該案例表明，摩爾線程基于MTT S5000的訓練能力不僅可支撐長周期端到端驗證，也具備向更大規模、更復雜模型場景持續延展的能力。

RoboBrain2.5模型評測效果

端到端訓練Loss曲線

軟硬創新協同：

打造高質量大模型訓練底座

此次驗證成績的取得，離不開摩爾線程在芯片架構、通信能力、計算單元協同以及FP8訓練支持等方面的持續打磨。基于MTT S5000，摩爾線程正不斷完善面向大模型訓練的軟硬件能力，為訓練穩定性、精度表現和規模擴展提供堅實支撐。

▼架構級精度優化：深入打磨矩陣乘法（GEMM）算子

矩陣乘法（GEMM）是大模型訓練中的核心算子之一，其數值精度直接影響Loss曲線的收斂表現與最終模型效果。圍繞這一關鍵環節，摩爾線程團隊在MTT S5000的架構設計階段，便針對浮點運算的舍入模式、累加路徑等關鍵計算鏈路進行了精細化優化。這種來自架構層面的持續打磨，使得MTT S5000在長時間訓練過程中保持更穩定的數值表現，為模型訓練精度對齊及下游評測效果提升提供了堅實的底層保障。

▼ACE異步通信引擎：讓計算與通信更高效并行

在大規模分布式并行訓練中，卡間通信往往會與計算任務爭搶帶寬及核心資源，成為制約擴展效率的瓶頸。MTT S5000創新性地內置了ACE（Asynchronous Communication Engine，異步通信引擎），作為獨立的硬件通信單元，能夠在不占用計算核心資源的情況下，高效完成跨卡間的all_reduce、all_gather等集合通信操作。得益于ACE，通信與計算得以更深度地并行協同——當Tensor Core（張量計算核心）在進行繁重的矩陣運算時，ACE已在后臺并行完成梯度同步，為大規模訓練帶來更高的資源利用效率。摩爾線程在千卡規模訓練中能保持超過90%的線性擴展效率，正是這一設計優勢的重要體現。

▼多計算單元協同：Tensor Core與Vector Core高效配合

為了更好適配大模型訓練中多樣化的計算負載，MTT S5000在算力單元的設計上，對Tensor Core與Vector Core（向量計算單元）進行了針對性的配置與協同優化。在實際調度中，密集的矩陣運算交給Tensor Core處理，而LayerNorm、Softmax、激活函數等偏向內存或帶寬密集型算子則交由Vector Core高效執行。基于這一硬件特性，摩爾線程聯合智源團隊對FlagOS進行了深度的軟件棧調優，最終在FlashAttention等關鍵算子上實現了超過90%的計算資源利用率，進一步釋放了平臺的訓練潛力。

▼原生FP8支持：協同MT-Megatron穩定高效釋放Grouped GEMM潛力

隨著模型參數規模邁入千億甚至萬億級別，低精度訓練已成為提升訓練效率的重要方向。MTT S5000在硬件層面原生支持FP8數據精度，為更高吞吐的大模型訓練提供了基礎能力。通過底層算子庫的高效優化，其FP8 Grouped GEMM性能在實際場景中取得了超過700TFLOPs的性能表現。同時，摩爾線程對MT-Megatron分布式訓練框架進行了深度適配與優化，進一步提升了FP8訓練在主流大模型上的穩定性與可收斂性，能夠為包括DeepSeek-V3在內的大模型訓練提供有效支撐。

從訓練穩定性、收斂精度到下游任務效果，摩爾線程基于 MTT S5000 交出的這份成績單表明，在統一技術棧下，國產全功能GPU不僅驗證了大模型端到端訓練的可用性，也展現出在實際訓練效果上持續提升的潛力。

北京智源人工智能研究院副院長兼總工程師林詠華表示：“長期以來，‘對齊CUDA’只是行業在缺乏替代方案下‘不得已為之’的對齊標準。但如果能獲得比CUDA更優的實際訓練效果，才是產業界共同的期待，才能讓系統架構百花齊放、勇于創新。摩爾線程在訓練實測中超過了國際主流產品的表現，證明了這種期待已經有實現的可能性了。”

未來，摩爾線程將繼續深化與智源研究院及生態伙伴的合作，以自主創新的全功能GPU算力底座，推動多元算力從“普適”走向“普惠”，為中國大模型研發提供開放、高效、可規模化復制的“國產算力訓練范式”。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.