![]()
摩爾線程MTT S5000實現了對GLM-5的Day0“發布即適配”。
在國產AI算力領域,硬件性能的堆疊往往只是入場券,而軟硬協同的生態適配才是決定勝負的關鍵。隨著智譜AI最新一代“國模頂流”GLM-5的發布,這一Coding能力位居全球開源第一、總榜第四的模型迅速引發了行業熱議。
與此同時,摩爾線程宣布其AI旗艦級計算卡MTT S5000實現對GLM-5的Day0“發布即適配”,并首次披露了硬件性能參數,不僅單卡算力1000 TFLOPS,并提供原生FP8支持,在顯存容量、互聯帶寬上也與英偉達H100對標。從2024年推出至今,這款專為訓推一體設計的全功能GPU智算卡,不僅在紙面參數上對標國際主流產品,更在智源研究院、硅基流動等頭部機構的實戰檢驗中,展現出挑戰英偉達高端算力的統治力。
![]()
摩爾線程究竟做對了什么,使其能夠從GLM-4.6一路無縫銜接到GLM-5,讓“零時差”適配成為國產算力的常態?
生態的飛躍,GLM-5“Day-0”適配背后的全棧協同
此次GLM-5發布即適配的背后,是摩爾線程軟硬協同技術路線的集中爆發。作為定位Agentic Engineering的旗艦模型,GLM-5相較上一代性能提升20%,對長序列推理和復雜系統工程能力提出了極高要求。MTT S5000憑借充沛的算力儲備與對稀疏Attention的架構級支持,在大規模上下文處理中依然保持了高吞吐與低延遲,完美承接了GLM-5在長程Agent任務中的計算需求。
更關鍵的是,MUSA軟件棧的敏捷性成為了實現“Day-0”適配的勝負手。基于MUSA架構的TileLang原生算子單元測試覆蓋率已超過80%,使得絕大多數通用算子可直接復用,極大降低了移植成本。
通過高效算子融合及框架極致優化,MTT S5000在GLM-5的運行中展現了極低的首字延遲(TTFT)和流暢的生成體驗,特別是在函數補全、漏洞檢測等Coding核心場景中表現優異。
![]()
硬實力的底氣,S5000性能逼近Blackwell
MTT S5000性能的首次全面曝光,揭示了國產GPU在架構設計與集群擴展上的成熟度。作為摩爾線程第四代MUSA架構“平湖”的集大成者,S5000在單卡規格上能力接近國際一流水平,搭載80GB顯存,顯存帶寬高達1.6TB/s,卡間互聯帶寬達到784GB/s,單卡FP8算力更是飆升至1000 TFLOPS,在顯存、卡間互聯、單卡算力上與英偉達H100基本一致。
![]()
此外,MTT S5000對FP8到FP64全精度計算的完整支持,特別是硬件級FP8 Tensor Core的引入,成為了其性能躍升的核心引擎。據接近測試項目的行業人士透露,MTT S5000在產品精度層面已超越H100,技術特性更逼近英偉達下一代Blackwell架構。
![]()
來自互聯網廠商場景的實測反饋,進一步印證了其在算力上的優勢。數據顯示,在典型端到端推理及訓練任務中,MTT S5000的性能約為競品H20的2.5倍。分析指出,這主要得益于其高達1000 TFLOPS的單卡算力,在絕大多數計算密集型場景中,該卡不僅能提供更強勁的算力輸出,也在整體性價比上展現出顯著優勢。
基于S5000構建的“夸娥”萬卡集群,其浮點運算能力已達10Exa-Flops級別,標志著國產算力在超大規模集群層面邁入了世界前列。在該集群的實測中,S5000展現了極高的算力利用率(MFU),Dense模型訓練中MFU達60%,MoE模型維持在40%左右,Flash Attention算力利用率更是超過95%。這得益于摩爾線程獨創的ACE技術,該技術通過將復雜的通信任務從計算核心卸載,實現了物理級的“通信計算重疊”,從而釋放了15%的被占算力。
![]()
實測數據顯示,從64卡擴展至1024卡,系統始終保持90%以上的線性擴展效率,這意味著訓練速度隨算力增加幾乎實現了同步倍增,有效訓練時間占比超過90%。
![]()
頂尖模型訓練與推理中的實戰中,對標H100
參數之外,真實的落地案例是檢驗算力成色的唯一標準。摩爾線程S5000在訓練與推理兩大核心場景中,均交出了令人信服的答卷。在訓練端,2026年1月,智源研究院利用S5000千卡集群完成了前沿具身大腦模型RoboBrain 2.5的端到端訓練與對齊驗證。結果顯示,其訓練過程與英偉達H100集群高度重合,訓練損失值(loss)的差異僅為0.62%,這證明了S5000在復現頂尖大模型訓練流程上的精準度與穩定性。用戶依托MUSA全棧軟件平臺,能夠原生適配PyTorch、Megatron-LM等主流框架,實現“零成本”的代碼遷移,真正做到了兼容國際主流CUDA生態。
![]()
在推理端,S5000的表現同樣刷新了國產GPU的紀錄。2025年12月,摩爾線程聯合硅基流動,針對DeepSeek-V3 671B滿血版進行了深度適配與性能測試。得益于S5000原生FP8能力與SGLang-MUSA推理引擎的深度優化,在PD分離的部署中,單卡Prefill(預填充)吞吐量超過4000 tokens/s,Decode(解碼)吞吐量超過1000 tokens/s。這一成績不僅大幅降低了顯存占用,更在高并發場景下保證了極低的響應延遲。配合首創的細粒度重計算技術,S5000將開銷降至原有的1/4,全方位提升了系統吞吐量,證明了其作為高性能在線推理服務底座的卓越實力。
![]()
從GLM-4.6、GLM-4.7到如今的GLM-5,摩爾線程通過一次次“發布即適配”的實戰,證明了國產全功能GPU及MUSA軟件棧已具備極高的成熟度。這種對前沿模型結構與新特性的快速響應能力,不僅為開發者提供了第一時間觸達最新模型能力的通道,也為行業筑牢了一個堅實、易用且具備高度兼容性的國產算力底座。
*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯系后臺。
想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析,關注我們!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.