網易首頁 > 網易號 > 正文申請入駐

單卡1000 TFLOPS！摩爾線程旗艦級計算卡首曝，性能逼近Blackwell

2026-02-12 18:38:54　來源: 半導體產業縱橫

北京舉報

分享至

摩爾線程MTT S5000實現了對GLM-5的Day0“發布即適配”。

在國產AI算力領域，硬件性能的堆疊往往只是入場券，而軟硬協同的生態適配才是決定勝負的關鍵。隨著智譜AI最新一代“國模頂流”GLM-5的發布，這一Coding能力位居全球開源第一、總榜第四的模型迅速引發了行業熱議。

與此同時，摩爾線程宣布其AI旗艦級計算卡MTT S5000實現對GLM-5的Day0“發布即適配”，并首次披露了硬件性能參數，不僅單卡算力1000 TFLOPS，并提供原生FP8支持，在顯存容量、互聯帶寬上也與英偉達H100對標。從2024年推出至今，這款專為訓推一體設計的全功能GPU智算卡，不僅在紙面參數上對標國際主流產品，更在智源研究院、硅基流動等頭部機構的實戰檢驗中，展現出挑戰英偉達高端算力的統治力。

摩爾線程究竟做對了什么，使其能夠從GLM-4.6一路無縫銜接到GLM-5，讓“零時差”適配成為國產算力的常態？

生態的飛躍，GLM-5“Day-0”適配背后的全棧協同

此次GLM-5發布即適配的背后，是摩爾線程軟硬協同技術路線的集中爆發。作為定位Agentic Engineering的旗艦模型，GLM-5相較上一代性能提升20%，對長序列推理和復雜系統工程能力提出了極高要求。MTT S5000憑借充沛的算力儲備與對稀疏Attention的架構級支持，在大規模上下文處理中依然保持了高吞吐與低延遲，完美承接了GLM-5在長程Agent任務中的計算需求。

更關鍵的是，MUSA軟件棧的敏捷性成為了實現“Day-0”適配的勝負手。基于MUSA架構的TileLang原生算子單元測試覆蓋率已超過80%，使得絕大多數通用算子可直接復用，極大降低了移植成本。

通過高效算子融合及框架極致優化，MTT S5000在GLM-5的運行中展現了極低的首字延遲（TTFT）和流暢的生成體驗，特別是在函數補全、漏洞檢測等Coding核心場景中表現優異。

硬實力的底氣，S5000性能逼近Blackwell

MTT S5000性能的首次全面曝光，揭示了國產GPU在架構設計與集群擴展上的成熟度。作為摩爾線程第四代MUSA架構“平湖”的集大成者，S5000在單卡規格上能力接近國際一流水平，搭載80GB顯存，顯存帶寬高達1.6TB/s，卡間互聯帶寬達到784GB/s，單卡FP8算力更是飆升至1000 TFLOPS，在顯存、卡間互聯、單卡算力上與英偉達H100基本一致。

此外，MTT S5000對FP8到FP64全精度計算的完整支持，特別是硬件級FP8 Tensor Core的引入，成為了其性能躍升的核心引擎。據接近測試項目的行業人士透露，MTT S5000在產品精度層面已超越H100，技術特性更逼近英偉達下一代Blackwell架構。

來自互聯網廠商場景的實測反饋，進一步印證了其在算力上的優勢。數據顯示，在典型端到端推理及訓練任務中，MTT S5000的性能約為競品H20的2.5倍。分析指出，這主要得益于其高達1000 TFLOPS的單卡算力，在絕大多數計算密集型場景中，該卡不僅能提供更強勁的算力輸出，也在整體性價比上展現出顯著優勢。

基于S5000構建的“夸娥”萬卡集群，其浮點運算能力已達10Exa-Flops級別，標志著國產算力在超大規模集群層面邁入了世界前列。在該集群的實測中，S5000展現了極高的算力利用率（MFU），Dense模型訓練中MFU達60%，MoE模型維持在40%左右，Flash Attention算力利用率更是超過95%。這得益于摩爾線程獨創的ACE技術，該技術通過將復雜的通信任務從計算核心卸載，實現了物理級的“通信計算重疊”，從而釋放了15%的被占算力。

實測數據顯示，從64卡擴展至1024卡，系統始終保持90%以上的線性擴展效率，這意味著訓練速度隨算力增加幾乎實現了同步倍增，有效訓練時間占比超過90%。

頂尖模型訓練與推理中的實戰中，對標H100

參數之外，真實的落地案例是檢驗算力成色的唯一標準。摩爾線程S5000在訓練與推理兩大核心場景中，均交出了令人信服的答卷。在訓練端，2026年1月，智源研究院利用S5000千卡集群完成了前沿具身大腦模型RoboBrain 2.5的端到端訓練與對齊驗證。結果顯示，其訓練過程與英偉達H100集群高度重合，訓練損失值（loss）的差異僅為0.62%，這證明了S5000在復現頂尖大模型訓練流程上的精準度與穩定性。用戶依托MUSA全棧軟件平臺，能夠原生適配PyTorch、Megatron-LM等主流框架，實現“零成本”的代碼遷移，真正做到了兼容國際主流CUDA生態。

在推理端，S5000的表現同樣刷新了國產GPU的紀錄。2025年12月，摩爾線程聯合硅基流動，針對DeepSeek-V3 671B滿血版進行了深度適配與性能測試。得益于S5000原生FP8能力與SGLang-MUSA推理引擎的深度優化，在PD分離的部署中，單卡Prefill（預填充）吞吐量超過4000 tokens/s，Decode（解碼）吞吐量超過1000 tokens/s。這一成績不僅大幅降低了顯存占用，更在高并發場景下保證了極低的響應延遲。配合首創的細粒度重計算技術，S5000將開銷降至原有的1/4，全方位提升了系統吞吐量，證明了其作為高性能在線推理服務底座的卓越實力。

從GLM-4.6、GLM-4.7到如今的GLM-5，摩爾線程通過一次次“發布即適配”的實戰，證明了國產全功能GPU及MUSA軟件棧已具備極高的成熟度。這種對前沿模型結構與新特性的快速響應能力，不僅為開發者提供了第一時間觸達最新模型能力的通道，也為行業筑牢了一個堅實、易用且具備高度兼容性的國產算力底座。

*聲明：本文系原作者創作。文章內容系其個人觀點，我方轉載僅為分享與討論，不代表我方贊成或認同，如有異議，請聯系后臺。

想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析，關注我們！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.