金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
上市后的僅15天,摩爾線程
在這次首屆、也是國內首個聚焦全功能GPU的開發(fā)者大會中,圍繞著MUSA這個關鍵詞,新品可謂是目接不暇:
- 一個全新GPU架構:花港,密度提升50%,效能提升10倍。
- 三款新芯片:華山、廬山、長江,分別聚焦AI訓推一體、圖形渲染和智能SoC。
- 一個智算集群:夸娥萬卡集群(KUAE2.0),定位國產自主研發(fā)的AI Foundry。
- 兩款硬件產品:專為開發(fā)者打造的AIBOOK和AICube。
這并非零散的產品更新,而是摩爾線程用一套從云到端、從算力到生態(tài)的組合拳。
![]()
在長達2個多小時的發(fā)布中,最直觀的感受就是,摩爾線程,已經把國產GPU推向了下一個level。
接下來,我們就從最最最核心的全新GPU架構花港為起點,對此次開發(fā)者大會一探究竟。
MUSA,已經成了全功能GPU架構的代名詞
什么是MUSA?
它的全名叫做Meta-computing Unified System Architecture,是摩爾線程自主研發(fā)的元計算統(tǒng)一計算架構。
該怎么理解?可以說,從芯片架構、指令集、編程模型,到軟件運行庫及驅動程序框架,都屬于MUSA的范疇。
![]()
歷經五年的發(fā)展,MUSA已經完整定義了全功能GPU從芯片設計到軟件生態(tài)的統(tǒng)一技術標準,并且支持AI計算、圖形渲染、物理仿真和科學計算、超高清視頻編解碼等全場景高性能計算。
若是縱觀MUSA硬件架構這幾年的迭代,從蘇堤、春曉、曲院,再到平湖,每一次的升級都是在探索著GPU算力的邊界。
![]()
最新發(fā)布的第五代全功能GPU架構花港,亦是如此:
- 算力密度提升50%:在同等芯片面積下,可部署更多計算單元;
- 計算能效提升10倍:單位瓦特性能大幅優(yōu)化,為大規(guī)模智算集群提供綠色底座;
- 新增FP4計算:從FP4、FP6、FP8到FP16、BF16乃至FP64,實現(xiàn)全精度端到端計算,覆蓋AI、HPC、圖形等全場景需求;
- 支持十萬卡集群:通過MTLink高速互聯(lián),為超大規(guī)模模型訓練鋪平道路。
尤為值得關注的是,花港在低精度計算上的深度優(yōu)化。架構新增了MTFP6/MTFP4及混合低精度端到端加速技術,專為未來AI主流場景——低比特訓練與推理而生。
在Attention機制的關鍵路徑上,花港原生支持矩陣rowmax計算,大幅提升混合精度SIMT吞吐量,并內置在線量化/反量化、隨機舍入等硬件加速能力,為下一代Transformer引擎(如MT Transformer Engine)提供底層支撐。
![]()
如果說硬件架構是能力的基石,那么軟件棧,就是將這些能力交到開發(fā)者手中的具體路徑。
除了架構本身之外,摩爾線程這次還同步推出了MUSA軟件棧5.0,構建從編譯器、算子庫到AI框架的全棧工具鏈:
- AI框架廣泛適配:除PyTorch、PaddlePaddle外,新增對JAX、TensorFlow的支持;
- 訓練生態(tài)擴展:在Megatron、DeepSpeed基礎上,新增強化學習訓練框架MT VeRL;
- 推理引擎豐富:深度優(yōu)化自研MTT推理引擎與TensorX,同時適配SGLang、vLLM、Ollama等新興推理框架;
- 核心庫極致優(yōu)化:muDNN實現(xiàn)GEMM/FlashAttention效率超98%,通信效率達97%,編譯器性能提升3倍;
- 編程語言創(chuàng)新:推出面向AI+渲染融合的muLang,兼容TileLang、Triton,原生支持MUSA C,并發(fā)布GPU中間表示語言MTX 1.0,提升開發(fā)者調優(yōu)自由度。
更關鍵的是,摩爾線程宣布將逐步開源MATE算子庫、MUTLASS、MT DeepEP通信庫、KUAE云原生工具包等核心組件,向開發(fā)者社區(qū)開放底層能力,加速生態(tài)構建。
不難看出,MUSA并未將自身定位為單純的AI加速器,而是以“全功能 GPU”為錨點,將 AI 能力深度嵌入圖形渲染、物理仿真、量子計算等高價值垂直場景。
這種從通用底座向產業(yè)縱深延伸的架構哲學,使其區(qū)別于純粹的大模型訓練卡,而更接近英偉達 CUDA 生態(tài)早期“以通用可編程性撬動多元應用”的戰(zhàn)略路徑。
可以說,MUSA 不僅是中國首個全功能GPU架構,更是對“下一代 AI 基礎設施應長什么樣”的一次系統(tǒng)性回答——
它不再只是算力的提供者,而是多模態(tài)智能、具身智能乃至物理AI時代的關鍵使能平臺。在這一意義上,摩爾線程的架構創(chuàng)新,已不僅是技術突破,更是對未來 AI 產業(yè)格局的一次主動定義。
而圍繞著新升級的MUSA,摩爾線程這次還祭出了更多重磅產品。
三個新芯片,兩個新硬件,一個萬卡集群
首先基于花港架構,摩爾線程發(fā)布了兩款芯片路線。
第一個便是聚焦在AI訓推一體及高性能計算的GPU——華山
![]()
它的核心亮點可以總結為:
- 全精度支持:從 FP4 到 FP64,覆蓋低精度訓練與高精度科學計算;
- MTFP4/MTFP6 混合低精度加速:Attention 計算從 BF16 向 FP8 甚至 FP6 演進,大幅提升 Transformer 吞吐;
- 硬件級優(yōu)化:原生支持矩陣 rowmax 計算、在線量化/反量化、隨機舍入等算法,專為大模型訓練定制;
- 新一代異步編程模型:支持常駐核函數(shù)、線程束特化,極大提升并行效率。
并且從浮點算力、訪存寬帶、訪存容量和高速互聯(lián)寬帶等維度來看,華山正在追趕英偉達的系列產品。
![]()
華山的推出,標志著摩爾線程正式具備支撐萬億參數(shù)大模型訓練的能力,為國產AI基礎設施補上關鍵一環(huán)。
如果說華山主攻A 算力,那么接下來的GPU——廬山,則專為圖形計算而生。
![]()
相比上一代產品,其AI計算性能提升了驚人的64倍,3A游戲渲染性能提升15倍。
廬山引入了AI生成式渲染架構(AGR)和硬件光追引擎,支持DirectX 12 Ultimate。這意味著,國產顯卡正式邁入“光追+AI渲染”的新范式,不僅僅是“算”畫面,更是“生成”畫面。
除此之外,在端側,摩爾線程還首次推出了智能SoC芯片——長江
![]()
據(jù)了解,長江芯片不局限于傳統(tǒng)PC或服務器,而是面向具身智能、車載、AI計算終端等端側場景,提供50 TOPS的異構AI算力。
有了芯片,自然要有承載的載體。
基于長江芯片,摩爾線程這次還發(fā)布了兩個非常亮眼的硬件產品。
首先就是MTT AIBOOK
這個算力本是專門為AI學習與開發(fā)者打造的個人智算平臺,運行基于Linux內核的MT AIOS操作系統(tǒng),具備多系統(tǒng)兼容能力,并預置完整AI開發(fā)環(huán)境與工具鏈,通過虛擬化和安卓容器,可無縫運行Windows與安卓應用。
如此一來,你就可以直接在上面跑大模型、搞Agent開發(fā)。
![]()
MTT AIBOOK內置的智能體小麥,還支持2K高清渲染、本地大模型(如 MUSAChat-72B)、端側 ASR/TTS,這就讓它從工具變成了超級個體助手。
![]()
并且MTT AIBOOK還預裝了智源悟界Emu3.5多模態(tài)模型,開箱即可文本生圖、編輯圖像。
除此之外,針對端側場景,摩爾線程還推出了桌面上的AI小鋼炮——AICube
它更像是一個高性能的AI計算魔方,讓開發(fā)者在桌面上就能輕松獲取算力支持,處理復雜的推理任務。
![]()
最后,也是最重磅的——夸娥(KUAE 2.0)萬卡智算集群;畢竟在大模型領域,萬卡集群是公認的入場券。
摩爾線程此次宣布,其萬卡集群在Dense大模型上的算力利用率(MFU)達60%,在MOE大模型上達40%,有效訓練時間占比超過90%。
最硬核的消息是:摩爾線程已完整復現(xiàn)了DeepSeek V3的FP8訓練。 依靠S5000對低精度算子的優(yōu)化,其自研FP8 GEMM算力利用率高達90%。
![]()
在這次大會上,摩爾線程還前瞻性地披露了下一代高密硬件基石——MTT C256超節(jié)點。
這款產品采用了計算與交換一體化的高密設計。它的出現(xiàn),是為了系統(tǒng)性地提升萬卡集群在超大規(guī)模智算中心里的能效比和訓練效能。
![]()
這個量級的表現(xiàn),意味著它已經具備了正面硬剛國際主流Hopper架構AI GPU的底氣,是未來超大規(guī)模大模型訓練和實時推理的國產標準答案
并且就在最近,摩爾線程還和硅基流動(SiliconFlow)聯(lián)合宣布:
基于硅基流動高性能推理引擎,雙方已在摩爾線程MTT S5000 GPU上成功完成對DeepSeek V3 671B滿血版大模型的深度適配與性能驗證。
在FP8低精度推理技術加持下,MTT S5000單卡實測Prefill吞吐突破4000 tokens/s,Decode吞吐超1000 tokens/s,創(chuàng)下當前國產GPU在大模型推理場景下的新高。
這一成果不僅刷新了國產GPU的推理性能基準,更傳遞出一個關鍵信號:
在成熟軟件工程體系(如MUSA架構與硅基流動推理引擎)的協(xié)同優(yōu)化下,國產算力硬件正從“能跑”邁向“跑得快、跑得穩(wěn)、跑得值”。
換句話說:單位算力的有效利用率,正在成為國產AI芯片真正落地的關鍵指標——而摩爾線程,這次交出了一份高分答卷。
生態(tài),生態(tài),還得看生態(tài)
在全球算力競爭日益白熱化的今天,單一芯片的性能優(yōu)勢已不足以構建護城河。
真正的壁壘,在于軟件生態(tài)、硬件協(xié)同、場景落地與開發(fā)者信任的綜合能力。
摩爾線程深諳此道,它的選擇也非常清晰:不走局部替代路線,而是以“MUSA架構+國產GPU+全場景產品”三位一體,打造一個從底層指令集到上層應用的完整生態(tài)閉環(huán)。
這不僅包括人才生態(tài),更涵蓋繁榮的軟件開發(fā)生態(tài)——從自研編譯器、高性能算子庫,到對主流AI框架的廣泛適配,摩爾線程提供了釋放算力所需的全套軟件工具鏈;同時,通過AIBOOK等面向開發(fā)者的硬件入口產品,讓開發(fā)者能夠隨時隨地接入并高效使用MUSA算力,真正實現(xiàn)軟硬協(xié)同、端云一體的全場景覆蓋。
但除此之外,開發(fā)者和開發(fā)生態(tài),亦是其中非常關鍵的一環(huán)。
這便是摩爾線程打造摩爾學院(MUSA開發(fā)者的成長平臺)的原因了。
![]()
截止2025年12月,摩爾學院已經匯聚了20萬名開發(fā)者。摩爾線程的目標更宏大:培育百萬規(guī)模的MUSA開發(fā)者社群。
為此,他們不僅提供了從入門到大師的專業(yè)課程,還把根扎到了人才源頭——走進全國200所高校。通過產教融合、聯(lián)合實驗室以及“繁星計劃”等競賽,摩爾線程正在從象牙塔開始,培養(yǎng)屬于自己的、懂國產架構的原生代開發(fā)者。
這也印證了中國工程院院士、清華大學計算機系教授鄭偉民的觀點:“國產GPU的關鍵,在于要從能跑到愿意用。”
整體來看,當別人還在爭論“國產 GPU 能不能用”時,摩爾線程已經通過從軟件棧工具、硬件入口到人才培育的全鏈路布局,讓開發(fā)者問出另一個問題:“我的下一個項目,能不能全在 MUSA 生態(tài)里完成?”
這,或許才是真正的突破。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.