
作者 | 凌敏
周末的北京,寒風(fēng)凜冽,但在摩爾線程首屆 MUSA 開發(fā)者大會(huì)(簡稱:MDC 2025)上,卻熱得讓人忘記寒意。
2000 多名來自產(chǎn)學(xué)研的專業(yè)人士和開發(fā)者齊聚在這里,迎接上市剛滿 15 天的摩爾線程一個(gè)又一個(gè)大招:全功能 GPU 架構(gòu)“花港”、夸娥萬卡智算集群、推理性能實(shí)現(xiàn)跨越、超節(jié)點(diǎn)架構(gòu)前瞻、全新個(gè)人智算平臺以及圖形進(jìn)化與前沿探索。
摩爾線程一口氣展示了 以自主 MUSA 統(tǒng)一架構(gòu)為核心的全棧技術(shù)成果,與其說是“秀肌肉”,不如說是回應(yīng)了市場最關(guān)心的問題:摩爾線程如何撐起一個(gè) 3000 億的故事?
與大模型、AI 應(yīng)用的敘事邏輯不同,GPU 是一個(gè)更強(qiáng)調(diào)長期主義的賽道。在國際市場中,英偉達(dá)憑借 CUDA 生態(tài)保持絕對的領(lǐng)先,AMD 依托 CPU+GPU 產(chǎn)品布局緊隨其后。但在國產(chǎn)算力加速崛起、AI 大模型需求持續(xù)爆發(fā)的今天,國產(chǎn) GPU 廠商們也站到了舞臺中央。從 12 月 5 日正式登陸科創(chuàng)板,開盤拿下 3000 億市值,到 20 日召開 MDC 2025,摩爾線程用一份高分答卷,回應(yīng)了市場的期待。
但正如摩爾線程創(chuàng)始人、董事長兼 CEO 張建中在主題演講中所說,生態(tài)體系才是 GPU 行業(yè)的核心護(hù)城河與價(jià)值所在。這一判斷,在整場 MDC 2025 中被不斷重復(fù)和強(qiáng)化,生態(tài)作為一個(gè)高頻出現(xiàn)的關(guān)鍵詞,幾乎構(gòu)成了本次 MDC 2025 的隱性主線。
1 開發(fā)者是絕對的“C 位”
開發(fā)者作為生態(tài)建設(shè)的關(guān)鍵,自然在這場以開發(fā)者為名的大會(huì)中穩(wěn)居“C 位”——MUSA 架構(gòu)以開發(fā)者為中心進(jìn)行了全面升級,從編程生態(tài)、計(jì)算效能、開源生態(tài)再到前沿特性,本質(zhì)上都是在降低開發(fā)與遷移成本。此外,無論是訓(xùn)推一體 GPU 產(chǎn)品路線的明確,還是圍繞異步編程、軟硬件協(xié)同等能力的持續(xù)推進(jìn),指向的都是為開發(fā)者構(gòu)建友好、易用的開發(fā)環(huán)境。
摩爾線程看似出了一步“險(xiǎn)招”,以宏大的開發(fā)者生態(tài)建設(shè)藍(lán)圖,劍指英偉達(dá) CUDA 的生態(tài)護(hù)城河。實(shí)則,這幾乎是國產(chǎn) GPU 廠商繞不開的必選項(xiàng)——畢竟,圍繞芯片的競爭從來不只是技術(shù)層面的比拼,真正的勝負(fù)手,是背后的生態(tài)體系。
從生態(tài)體系來看,GPU 的軟件棧通常由上層算法庫、中間層接口與驅(qū)動(dòng)、低層編譯器與硬件架構(gòu)共同構(gòu)成。真正的難點(diǎn),往往不在于單一能力的突破,而是硬件架構(gòu)設(shè)計(jì)及通用計(jì)算軟件體系的長期建設(shè)。這意味著,GPU 廠商不僅需要在硬件架構(gòu)上保持迭代,還要在軟件棧和核心 IP 上持續(xù)投入,才能逐步沉淀出一個(gè)穩(wěn)定、具備黏性的開發(fā)者社區(qū)。
英偉達(dá) CUDA 生態(tài)的建設(shè)也曾經(jīng)歷過這樣一個(gè)漫長的歷程。自 2006 年推出以來,其生態(tài)體系在長期積累中不斷擴(kuò)張,吸引了全球范圍內(nèi)的大量開發(fā)者參與,也由此構(gòu)筑起兼容性與完備度兼具的技術(shù)護(hù)城河。
摩爾線程技術(shù)團(tuán)隊(duì)在此前接受 InfoQ 采訪時(shí),也強(qiáng)調(diào)了構(gòu)建自主可控的軟件生態(tài)的重要性:“如果希望在全球市場上挑戰(zhàn)英偉達(dá)的 CUDA 生態(tài),國產(chǎn) GPU 廠商需要從多個(gè)方面尋找突破口。一是構(gòu)建自主可控的軟件生態(tài)是關(guān)鍵,其次,兼容與創(chuàng)新并行的策略也至關(guān)重要。此外,抓住新技術(shù)的機(jī)遇也是一個(gè)重要方向,比如 DeepSeek 的爆火,它的核心突破在于算法優(yōu)化和計(jì)算效率的提升,這種低算力需求模型對國產(chǎn)芯片的發(fā)展是一個(gè)重要機(jī)遇。再有,通過開源和合作,吸引開發(fā)者參與,加速技術(shù)迭代,以及硬件層面的優(yōu)化也非常重要。”
目前,摩爾線程正圍繞硬件、算力、軟件、終端工具與學(xué)習(xí)平臺,構(gòu)建一個(gè)以開發(fā)者為中心、覆蓋全場景的 MUSA 生態(tài)體系。
在人才培養(yǎng)方面,摩爾線程以摩爾學(xué)院為平臺,專為 GPU 開發(fā)者、科研人員以及產(chǎn)業(yè)實(shí)踐者設(shè)計(jì),提供從入門到精通的全方位培訓(xùn),課程內(nèi)容廣泛覆蓋人工智能、數(shù)字孿生、加速計(jì)算等多個(gè)前沿技術(shù)領(lǐng)域。目前,該平臺匯聚了近 20 萬名開發(fā)者和學(xué)習(xí)者,并通過“國產(chǎn)計(jì)算生態(tài)與 AI 教育共建行動(dòng)”將前沿技術(shù)與產(chǎn)業(yè)實(shí)踐帶入全國 200 多所高校,吸引了超過 10 萬名青年學(xué)子參與。
![]()
此外,摩爾線程正在加速建設(shè) MUSA 生態(tài)中心,首個(gè) MUSA 生態(tài)中心將落地北京海淀區(qū)。作為整個(gè) MUSA 生態(tài)的核心運(yùn)營基地與公共服務(wù)平臺,MUSA 生態(tài)中心將為所有開發(fā)者提供核心技術(shù)支撐、展示成果和交流創(chuàng)新、人才培養(yǎng)與創(chuàng)新孵化等多重職能。摩爾線程同時(shí)發(fā)布了 MUSA 開發(fā)者計(jì)劃,面向從 AI 學(xué)習(xí)探索到科研創(chuàng)新的各類開發(fā)者提供算力和技術(shù)支持,確保每個(gè)參與者都能在生態(tài)中找到成長通道。
整體來看,MDC 2025 傳遞出的信號十分明確:摩爾線程不僅在技術(shù)上推進(jìn)全功能 GPU 的能力邊界,更在生態(tài)建設(shè)上形成了系統(tǒng)化布局。這也解釋了,為什么上市后的摩爾線程,選擇將第一場會(huì)定義為 MUSA 開發(fā)者大會(huì)。
“生態(tài)體系是 GPU 行業(yè)的核心護(hù)城河與價(jià)值所在,依托 MUSA 架構(gòu)的優(yōu)勢,我們持續(xù)加大研發(fā)投入,致力于攻克從硬件到軟件的核心技術(shù)挑戰(zhàn),以開放創(chuàng)新不斷深化與生態(tài)伙伴的協(xié)同,共同構(gòu)建自立自強(qiáng)的國產(chǎn)計(jì)算產(chǎn)業(yè)生態(tài)。此次大會(huì)是行業(yè)首個(gè)聚焦全功能 GPU 的開發(fā)者盛會(huì),大家的熱情令我們備受鼓舞,期待與更多開發(fā)者聚力共創(chuàng),推動(dòng) MUSA 生態(tài)繁榮發(fā)展。”摩爾線程創(chuàng)始人、董事長兼 CEO 張建中在主題演講中說道。
2 歷時(shí)近 3 年重投入,摩爾線程自研 MUSA 又祭出大招
正如前文所言,生態(tài)構(gòu)成了本次 MDC 2025 的隱性主線,除了系統(tǒng)性展示 MUSA 生態(tài)體系,MUSA 還以開發(fā)者為中心進(jìn)行了全面升級。
MUSA(Meta-computing Unified System Architecture)是摩爾線程自主研發(fā)的元計(jì)算統(tǒng)一計(jì)算架構(gòu),也是國內(nèi)首個(gè)在單芯片上同時(shí)支持 AI 智算、圖形加速、科學(xué)計(jì)算、物理仿真以及超高清視頻編解碼的全功能 GPU 架構(gòu),并覆蓋從芯片架構(gòu)、指令集、編程模型到軟件運(yùn)行庫及驅(qū)動(dòng)程序框架等的全棧技術(shù)體系。
真正值得關(guān)注的,是全功能 GPU,這也是摩爾線程能撐起一個(gè) 3000 億故事的關(guān)鍵。做芯片有很多條路,摩爾線程從 2020 年成立之初,就選擇了最難的那一條——以全功能 GPU 為核心,從最底層構(gòu)建一套全棧自主技術(shù)體系。
所謂全功能 GPU,是指既能處理圖形圖像、AI 張量計(jì)算、物理仿真和超高清視頻編解碼等多種任務(wù),又支持 FP64、FP32、TF32、FP16/BF16、FP8、INT8、FP6、FP4 等多種計(jì)算精度的 GPU。與普通 GPU 相比,全功能 GPU 在工作效率、生態(tài)完整性與多樣性以及兼容性方面更具優(yōu)勢,也能更好地滿足未來新興與前沿計(jì)算加速應(yīng)用的需求。
![]()
MUSA 為全功能 GPU 奠定了堅(jiān)實(shí)的技術(shù)根基,也是摩爾線程所有產(chǎn)品和技術(shù)迭代的統(tǒng)一基礎(chǔ),并且持續(xù)在進(jìn)化。從 2022 年發(fā)布至今,MUSA 已經(jīng)升級到第五代。
2022 年 3 月,摩爾線程基于第一代 MUSA 架構(gòu)推出 GPU“蘇堤”,其內(nèi)置了現(xiàn)代圖形渲染、智能多媒體、AI 計(jì)算加速、科學(xué)計(jì)算與物理仿真四大引擎。同年 11 月,摩爾線程推出第二代基于 MUSA 架構(gòu)的 GPU“春曉”,四大引擎均實(shí)現(xiàn)了全面升級:現(xiàn)代圖形渲染引擎性能最高提升 3-5 倍;AI 計(jì)算加速引擎性能最高提升 4 倍;智能多媒體引擎性能最高提升 4 倍;物理仿真引擎性能最高提升 2.5 倍。
2023 年 9 月,摩爾線程推出第三代 GPU 芯片“曲院”,并加強(qiáng)了 AI 訓(xùn)練和推理能力,相比前代產(chǎn)品性能提升 3 至 5 倍。2024 年,摩爾線程推出第四代 GPU 芯片“平湖”,增加了 FP8 精度支持,大幅提升 AI 算力,并可支撐面向 DeepSeek 類前沿大模型預(yù)訓(xùn)練的萬卡集群智算中心解決方案。
本次 MDC 2025 全新升級的 MUSA 5.0,以全功能 GPU 的四大引擎為底座,MUSA 軟件棧提供了一整套支持 AI 計(jì)算加速、圖形計(jì)算、物理仿真與科學(xué)計(jì)算、智能多媒體以及端側(cè)智能的開發(fā)工具。
在 AI 框架方面,MUSA 兼容 PyTorch、Paddle,同時(shí)新增對 Jax 和 TensorFlow 的支持。訓(xùn)練套件在已有分布式訓(xùn)練框架 Megatron 和 DeepSpeed 的基礎(chǔ)上,新增了強(qiáng)化學(xué)習(xí)訓(xùn)練框架 MT VeRL;推理套件在深度優(yōu)化大模型的 MTT 推理引擎和深度學(xué)習(xí)模型 TensorX 的基礎(chǔ)上,新增了對 SGLang、VLLM 和 Ollama 等新興推理框架的適配。對于開發(fā)者來說,這意味著能夠在更豐富的工具鏈下優(yōu)化算法和應(yīng)用,同時(shí)加快模型實(shí)驗(yàn)和迭代效率。
MUSA SDK 作為加速 AI 和科學(xué)計(jì)算的基礎(chǔ)軟件,在原有功能基礎(chǔ)上進(jìn)一步深度優(yōu)化了計(jì)算和通信能力,同時(shí)提供了 MATE 算子庫和 MT DeepEP,并新增了對 TileLang 語言生態(tài)的兼容。此外,MUSA SDK 還提供了 muLang,用于 AI 與渲染的快捷編程。為了讓開發(fā)者能夠更深入地調(diào)優(yōu) GPU 性能,MUSA 還發(fā)布了 GPU 中間表示語言 MTX 1.0。
在圖形計(jì)算方面,MUSA 集成了硬件級光線追蹤引擎與自研 AI 生成式渲染,融合“圖形 +AI”能力提供給開發(fā)者,并在底層驅(qū)動(dòng)上深入支持渲染框架。按照計(jì)劃,后續(xù)還將實(shí)現(xiàn)對 DirectX 12 Ultimate 的完整支持。
![]()
此外,MUSA 的編程生態(tài)得到全面優(yōu)化,原生支持 MUSA C,并兼容 TileLang、Triton 等語言,為開發(fā)者提供靈活的全棧開發(fā)體驗(yàn)。核心計(jì)算庫 muDNN 在 GEMM 和 FlashAttention 上效率超過 98%,通信效率達(dá)到 97%,編譯器性能提升 3 倍,并集成算子庫加速訓(xùn)練與推理。開源生態(tài)方面,計(jì)算加速庫、通信庫和系統(tǒng)管理框架等核心組件將逐步向開發(fā)者社區(qū)開放。前沿特性方面,即將推出兼容跨代 GPU 指令架構(gòu)的中間語言 MTX、面向渲染 +AI 融合計(jì)算的編程語言 muLang、量子計(jì)算融合框架 MUSA-Q,以及計(jì)算光刻庫 muLitho,進(jìn)一步拓展全功能 GPU 的算力邊界。
整體來看,MUSA 在編程生態(tài)、計(jì)算效能、開源生態(tài)以及前沿特性上的全面升級,邏輯是以開發(fā)者為中心進(jìn)行設(shè)計(jì)的,開發(fā)者作為生態(tài)建設(shè)的關(guān)鍵力量,其使用和反饋將直接影響工具鏈優(yōu)化、算子庫迭代和新特性的落地。
3 全功能 GPU 架構(gòu)“花港”上新,兩款芯片即將亮相
基于 MUSA 統(tǒng)一體系,摩爾線程還揭曉了新一代全功能 GPU 架構(gòu)“花港”,與“前代”們相比,“花港”可以說是升級幅度最大的一代 GPU 架構(gòu)。這也是本次 MDC 2025 帶來的最大驚喜。
與蘇堤、春曉、曲院、平湖相比,“花港”在計(jì)算密度、能效、精度支持、互聯(lián)能力及圖形技術(shù)等方面實(shí)現(xiàn)了全面突破。
![]()
在計(jì)算性能方面,“花港”基于新一代指令集,算力密度提升 50%,并大幅優(yōu)化能效,支持從 FP4 到 FP64 的全精度端到端計(jì)算,同時(shí)新增 MTFP6/MTFP4 及混合低精度支持。 這意味著,無論是高精度科學(xué)計(jì)算,還是低精度 AI 推理和訓(xùn)練,都能在同一芯片上高效完成。
在編程能力與互聯(lián)方面,“花港”集成了新一代異步編程模型,對任務(wù)調(diào)度和并行機(jī)制進(jìn)行了優(yōu)化,并通過自研 MTLink 高速互聯(lián)技術(shù),支持十萬卡以上的智算集群擴(kuò)展。在圖形與 AI 的深度融合方面,“花港”內(nèi)置 AI 生成式渲染引擎,同時(shí)增強(qiáng)了硬件光線追蹤能力,并完整支持 DirectX 12 Ultimate,實(shí)現(xiàn)圖形渲染與智能計(jì)算的高度協(xié)同。
在安全與自主可控方面,“花港”完全基于全棧自主研發(fā)。數(shù)據(jù)顯示,截至 2025 年 6 月 30 日,摩爾線程累計(jì)授權(quán)專利 514 項(xiàng),其中發(fā)明專利 468 項(xiàng),能通過四層硬件安全架構(gòu),提供從芯片到系統(tǒng)的可驗(yàn)證安全保障。
基于“花港”架構(gòu),摩爾線程公布了未來將發(fā)布的兩款芯片技術(shù)路線。
其一是專注 AI 訓(xùn)推一體與超大規(guī)模智能計(jì)算的 GPU 產(chǎn)品“華山”。
![]()
“華山”集成了異步編程模型、高效線程同步、線程束特化以及常駐核函數(shù),為大規(guī)模并行計(jì)算和復(fù)雜任務(wù)調(diào)度提供硬件與軟件協(xié)同支持。在計(jì)算精度方面,“華山”引入新一代高性能 MTFP4 技術(shù),支持從 FP4 到 FP64 的全精度計(jì)算。針對未來 AI 低精度訓(xùn)練和推理的主流需求,“華山”在下一代 MT Transformer Engine 中進(jìn)一步利用 MTFP8 和 MTFP4 優(yōu)化 Attention 模塊,實(shí)現(xiàn)從 BF16 向 FP8 甚至 FP6 的演進(jìn)。
為適配更高密度的 Tensor Core,在“花港”架構(gòu)硬件創(chuàng)新中,Attention 模塊的 SIMT 部分進(jìn)行了革新升級:原生支持矩陣 rowmax 計(jì)算,大幅提升混合精度 SIMT 吞吐量,同時(shí)增強(qiáng)在線量化與反量化能力,并在低精度訓(xùn)練中提供隨機(jī)舍入等硬件支持。
其二是專攻高性能圖形渲染的 GPU 產(chǎn)品“廬山”。
![]()
“廬山”實(shí)現(xiàn)了高性能圖形計(jì)算的全面跨越:AI 計(jì)算性能提升 64 倍,幾何處理性能提升 16 倍,光線追蹤性能提升 50 倍,并顯著增強(qiáng)紋理填充、原子訪存能力及顯存容量。集成 AI 生成式渲染、UniTE 統(tǒng)一渲染架構(gòu)及全新硬件光追引擎,為 3A 游戲、高端圖形創(chuàng)作提供強(qiáng)大算力支持。
“華山”和“廬山”的雙芯片路線,傳遞出了一個(gè)十分清晰的信號:摩爾線程正瞄準(zhǔn) AI 與圖形兩個(gè)關(guān)鍵領(lǐng)域,以組合拳的形式保持底層架構(gòu)的統(tǒng)一,為跨場景協(xié)同計(jì)算奠定基礎(chǔ)。實(shí)際上,圖形本身也是摩爾線程四大產(chǎn)品矩陣(AI 智算、專業(yè)圖形、 桌面級 GPU 與智能 SoC)之一,根據(jù)公司招股說明書,2025 H1 摩爾線程 AI 智算和專業(yè)圖形加速兩項(xiàng)業(yè)務(wù)營收合計(jì)占比達(dá) 99%,構(gòu)成了公司的主要收入來源。
不過,搭載“華山”和“廬山”芯片的全新硬件產(chǎn)品明年才會(huì)亮相。在 GPU 競爭愈發(fā)依賴軟件與生態(tài)協(xié)同的背景下,硬件的成敗或許需要時(shí)間來驗(yàn)證,開發(fā)者生態(tài)建設(shè)才是更具現(xiàn)實(shí)意義的觀察窗口。畢竟,開發(fā)者是否愿意留下來、用下去,才是決定這條路線能走多遠(yuǎn)的長期關(guān)鍵變量。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.