12月20日,摩爾線程舉辦的首屆MUSA開發者大會(MUSA Developer Conference,簡稱 MDC 2025)正式召開。這是國內首個聚焦全功能GPU的開發者大會。本次大會以“創造·鏈接·匯聚(Create,Connect,Converge)”為核心理念,直面了當前技術自立自強與產業升級的時代主題。摩爾線程創始人、董事長兼 CEO 張建中首次系統闡述了以MUSA為核心的全棧發展戰略。同時,摩爾線程重磅發布了全新一代GPU架構“花港”,以及基于“花港”架構的兩款芯片技術路線。此外,支撐萬億參數模型訓練的夸娥萬卡集群、面向下一代超大規模智算中心的MTT C256超節點架構規劃,搭載智能SoC芯片“長江”的AI算力本MTT AIBOOK,可實現硬件級光線追蹤加速與自研AI生成式渲染技術等一大批新技術新產品集中亮相,將年終我國AI芯片產業熱潮推向了一個新高峰。
當前全球AI產業進入爆發式增長階段,AI 芯片賽道競爭日趨激烈。一方面,大模型訓練、科學計算、圖形渲染等高端場景對算力的需求持續激增,要求芯片具備更強性能、更高能效與更廣泛的生態兼容性;另一方面,技術自主可控成為國產芯片產業的核心訴求,打破海外技術壟斷、構建自主計算生態,已成為行業發展的必然趨勢。摩爾線程作為國產全功能 GPU 領域的領軍企業,自成立以來便聚焦核心技術研發,深耕 MUSA 統一系統架構的迭代與完善,在硬件設計、軟件生態、場景適配等方面積累了深厚實力,逐步形成了從技術研發到產業落地的完整布局,為國產 GPU 技術的突破與生態構建奠定了堅實基礎。
以MUSA為錨,構建全棧自主算力體系
MUSA是摩爾線程自主研發的元計算統一計算架構,覆蓋從芯片架構、指令集、編程模型到軟件運行庫及驅動程序框架等的全棧技術體系。MUSA不僅完整定義了從芯片設計到軟件生態的統一技術標準,也是摩爾線程堅持底層創新、踐行長期主義的戰略核心,并為全功能GPU奠定了堅實的技術根基,可高效支持AI計算、圖形渲染、物理仿真和科學計算、超高清視頻編解碼等全場景高性能計算。
![]()
本次大會上,張建中首次系統闡述了以MUSA為核心的全棧發展戰略,涵蓋架構、芯片、集群、超節點、智算平臺、產業生態等多個方面。摩爾線程將以MUSA架構為錨點,以全功能GPU筑牢算力長城,構建全棧算力體系。張建中表示,這一戰略的核心邏輯在于打破技術壁壘,通過全棧能力的協同發力,滿足千行百業在數智化轉型中對多元算力的差異化需求,同時為國產GPU技術的自主創新奠定堅實基礎。
張建中還正式發布了全棧軟件升級的MUSA 5.0版本。歷經五年深度研發與持續迭代,MUSA實現了軟件性能的指數級跨越。在編程生態上,原生MUSA C深度兼容TileLang、Triton等編程語言,為開發者提供靈活高效的全棧開發體驗;在計算效能上進行極致的優化,核心計算庫muDNN實現GEMM/FlashAttention效率超98%,通信效率達97%,編譯器性能提升3倍,并集成高性能算子庫,顯著加速訓練與推理全流程;在開源生態上持續擴大,逐步開源計算加速庫、通信庫及系統管理框架在內的核心組件,向開發者社區開放深度優化的底層能力;同時極力拓展前沿特性邊界,即將推出兼容跨代GPU指令架構的中間語言MTX、面向渲染+AI融合計算的編程語言muLang、量子計算融合框架MUSA-Q,以及計算光刻庫muLitho等,持續拓展全功能GPU的算力邊界。
新一代“花港”架構實現全維度革新
本次大會的核心亮點之一,是摩爾線程重磅發布的新一代GPU架構“花港”。作為驅動千行百業數智化轉型的核心引擎,新架構在計算密度、能效、精度支持、圖形技術等方面實現了全面突破,相較于前代產品展現出顯著的技術優勢。
張建中在演講中詳細介紹了架構的核心創新點。在計算性能上,“花港”架構采用了新一代指令集,算力密度提升50%,能效大幅優化,可以支持從FP4到FP64的全精度端到端計算,并新增MTFP6/MTFP4及混合低精度支持。
![]()
異步編程與超大規模互聯是當前AI芯片發展的關鍵,對提升單芯片/單節點的算力利用率,以及突破單芯片算力上限,支撐集群化協同計算有著關鍵作用。“花港”集成新一代異步編程模型,有效優化了任務調度與并行機制,并通過自研MTLink高速互聯技術,可支持十萬卡以上規模的智算集群擴展。
在圖形與AI深度融合方面,“花港”內置了AI生成式渲染架構,增強硬件光線追蹤加速引擎,完整支持DirectX 12 Ultimate,實現圖形渲染與智能計算的高度協同。在全棧自研與安全可信方面,架構基于全棧自主研發,擁有扎實的專利壁壘,具備全棧自研與自主可控的核心能力,通過四層硬件安全架構,提供從芯片到系統的可驗證安全守護。
雙芯片路線持續推進技術演進
基于“花港”架構,張建中公布了未來將發布的兩款芯片技術路線——華山系列與廬山系列。華山系列將專注AI訓推一體與超大規模智能計算,集成新一代異步編程與全精度張量計算單元,支持從FP4至FP64的全精度計算,為萬卡級智算集群提供穩定高效的算力支撐,將成為構建下一代“AI工廠”的堅實底座。
廬山系列專攻高性能圖形渲染,其圖形性能實現全面跨越:AI計算性能提升64倍,幾何處理性能提升16倍,光線追蹤性能提升50倍,并顯著增強紋理填充、原子訪存能力及顯存容量。此外,其還將集成AI生成式渲染、UniTE統一渲染架構及全新硬件光追引擎,為3A游戲、高端圖形創作提供強大算力支持。
![]()
從2022年開始,摩爾線程已經經歷了MUSA架構的5次迭代升級。S10基于蘇堤S10架構,為摩爾線程首款全功能 GPU,重點解決信創市場 PC GPU 的國產化問題;其他還有面向桌面級顯卡的S60,和數據中心級計算卡的S2000。S80基于第二代春曉架構, 為國內首款消費級國形GPU,S3000服務器級云端渲染卡。S4000采用第三代曲院架構,實現更高性能的訓推一體能力,可實現千卡集群。S5000采用第四代平湖架構,支持萬卡級集群。
萬卡集群加速國產智算基礎設施布局
除芯片之外,摩爾線程還在本次大會上正式發布了夸娥萬卡智算集群。大規模智算集群的建設面臨的挑戰很多:一是在大規模訓練中如何高效并行訓練,如何高精度仿真,如何大規模訓線調度等;二是在高性能訓練中,如何實現FP8/FP4低精度訓練,如何實現高性能算子/通算掩蓋等;三是如何保證大規模集群訓練的高容錯性,如何實現自動故障分析等。
經過摩爾線程的深入開發,目前夸娥萬卡智算集群有效解決了上述難題,具備了全精度、全功能通用計算能力,在萬卡規模下實現高效穩定的AI訓練與推理。根據張建中的介紹,夸娥萬卡智算集群取得多個核心突破:浮點運算能力達到10Exa-Flops,訓練算力利用率(MFU)在Dense大模型上達60%,MOE大模型上達40%,有效訓練時間占比超過90%,訓練線性擴展效率達95%,與國際主流生態高度兼容,并在多項指標上具備顯著能效優勢。
![]()
在訓練側,基于原生FP8能力完整復現頂尖大模型訓練流程,并在多項關鍵精度指標上達到國際主流水平。Flash Attention算力利用率超過95%,并突破FP8累加精度等關鍵技術瓶頸,充分釋放國產GPU在大模型訓練中的性能潛力。
在推理側,摩爾線程聯合硅基流動,經過系統級工程優化與FP8精度加速,在DeepSeek R1 671B全量模型上實現性能突破:MTT S5000單卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s,樹立國產推理性能新標桿。
面向未來,摩爾線程還發布了MTT C256超節點的架構規劃。該產品采用計算與交換一體化的高密設計,旨在系統性提升萬卡集群的訓練效能與推理能力,為下一代超大規模智算中心構建兼具超高密度與極致能效的硬件基石。
從AI大模型到具身智能多元化場景適配
在推出一系列重點技術產品的基礎上,摩爾線程還積極推進產品技術的應用與場景落地。本次大會中就設立了超過20 場技術分論壇,議題覆蓋智能計算、圖形計算、科學計算、AI 基礎設施(AI Infra)、端側智能、具身智能、開發者工具與平臺等關鍵領域,促進了前沿技術與產業實踐的深度融合。
在AI計算領域,摩爾線程的技術已成功應用于AI大模型訓練與推理、端側智能、具身智能等場景,為相關企業提升研發效率、降低算力成本提供了有力支撐。例如,摩爾線程與玻色量子合作,打造量子原生AI新型生成式模型QBM-VAE,結合深度學習與量子計算優勢,用于數據生成、數據降維與映射、異常檢測等。在6G加速方面,摩爾線程與ZGC-XNET合作,打造AI+6G通信的邊緣智能算力平臺,實現AI與通信的雙向賦能。
![]()
在圖形計算領域,摩爾線程持續推動國產GPU向兼容性更廣、技術更深的方向發展。其產品已全面支持DirectX 12、OpenGL 4.6、Vulkan 1.3等主流圖形與計算API,并與國產主流CPU及操作系統完成了全棧適配,持續擴展游戲及專業應用的兼容覆蓋。在核心渲染技術上,摩爾線程實現兩項關鍵突破:一是基于“花港”架構的強化硬件光線追蹤加速引擎,可實現對DirectX Raytracing (DXR)的支持,使實時、逼真的光影效果在國產GPU上成為可能。二是推出全自研MTAGR 1.0技術,推動渲染技術范式從“計算”走向“生成”,為下一代數字內容創作及數字孿生等場景構建國產技術基座。
在具身智能領域,摩爾線程發布了MT Lambda具身智能仿真訓練平臺,深度融合物理、渲染與AI三大引擎,構建了開發、仿真、訓練的高效統一環境。同時推出基于智能SoC芯片“長江”、AI模組MTT E300和夸娥智算集群“端云結合”的MT Robot具身智能解決方案,并宣布將于2026年第一季度開源關鍵仿真加速組件Mujoco-warp-MUSA,以開放協作助力機器人產業研發效率提升。
在前沿融合計算探索方面,MUSA生態已與合作伙伴在科學智能(AI for Science)、量子科技、AI for 6G等前沿交叉領域展開探索工作,持續拓展全功能GPU作為通用算力底座的技術邊界與應用價值。
此外,在工業智造、智慧醫療等熱門領域,摩爾線程的技術與解決方案也已實現深度融合,切實推動了行業生產效率與服務質量的提升。
展覽區解鎖摩爾線程技術應用價值
為更加真實地展示應用場景,本次大會上摩爾線程聯合眾多生態伙伴打造了超過1000㎡的展覽展示區,通過豐富的案例分享與現場展示,全面呈現了摩爾線程在多領域的落地實踐成效。
AI大模型&Agent展區展示了摩爾線程開發的突破訓練容錯瓶頸的零中斷容錯方案。大規模智算集群常因節點故障導致訓練中斷。傳統容錯方案需要中斷任務、移除故障節點、接入備機并回滾至最近檢查點再重啟,整個過程會造成大量計算資源與訓練時間的浪費。摩爾線程創新推出KUAE集群零中斷容錯方案,通過DP組級故障隔離機制,在發生故障時僅隔離受影響節點所在的DP組,其余組別繼續訓練;備機或修復節點接入后,僅需重建對應DP組通信鏈路,全程無需整體訓練中斷,顯著提升了集群有效算力利用率與訓練連續性,從根本上解決了因節點故障導致訓練中斷和資源浪費的問題,為大規模AI訓練任務提供了穩定高效的運行保障。
![]()
在具身智能展區展示了摩爾線程聯手景業智能打造VR遙操作機器人系統。該方案可依托摩爾線程MTT E300 AI模組與MTT S80顯卡的協同算力,操作人員通過佩戴VR眼鏡,即可遠程精準控制特種機器人,在實際輻射等高風險環境中完成精細任務。
在數字人展區,依托摩爾線程全功能GPU,在端側即可流暢渲染高精度數字人,兼容多種主流大語言模型,支持觸控、文本、知識庫、語音等多模態交互。
在視頻多媒體展區,摩爾線程開發的端側實時視頻超分技術MTVSR,可提供2倍-4倍的實時視頻超分,并提供多檔質量設定,能夠顯著提升低分辨率視頻在高分辨率屏幕下的播放清晰度。MTVSR還將以SDK形式支持播放器、瀏覽器等App集成調用,可為終端用戶提供無縫的實時視頻超分體驗。
構建國產GPU應用生態閉環
為推動國產GPU應用生態的可持續發展,摩爾學院也正式亮相。其是摩爾線程創立的專業GPU技術培訓與交流平臺,專為GPU開發者、科研人員以及產業實踐者設計,提供從入門到精通的全方位培訓。學院匯聚行業頂尖專家和生態合作伙伴資源,課程內容廣泛覆蓋人工智能、數字孿生、加速計算等多個前沿技術領域,可幫助學員掌握尖端技術知識,拓展創新視野。截止2025年12月,摩爾學院已經匯聚了20萬名先行者和探索者。
目前,摩爾學院正在加速建設MUSA生態中心,為所有開發者提供多方面的支持,包括核心技術支撐,展示成果和交流創新,人才培養基地,創新孵化和服務平臺。為此,摩爾學院精心設計了一系列“開發者計劃”,如星火未來、啟航大賽、精英開發者、燈塔科學家等,通過開放算力資源與深度的技術支持,推動產業生態的繁榮發展。
![]()
摩爾線程還特別推出了,為AI學習與開發者設計打造的個人智算平臺——MTT AIBOOK AI算力本。其搭載摩爾線程的“長江”智能SoC芯片,集成了CPU、GPU、NPU、VPU、DPU、DSP、ISP等計算單元,提供50TOPS異構AI算力,支持混合精度計算,將成為開發者的最佳開發工具。
總之,通過本次大會上的一系列成果發布,標志著摩爾線程已成功構建起一套以自主統一架構為根基、貫穿“芯-邊-端-云”的完整技術棧,實現了從底層硬件到上層應用的系統化閉環。該體系可以為國產智能計算生態的持續演進與產業融合,提供堅實、開放且可持續的平臺級支撐。
談及未來發展,張建中表示,摩爾線程將持續深耕全功能GPU核心技術,不斷完善以MUSA 為核心的全棧生態布局,進一步提升產品性能與行業適配能力。同時摩爾線程也將繼續攜手全球合作伙伴,深化技術與場景的融合創新,加速推動國產 GPU 技術在千行百業的落地應用,助力產業數智化轉型提速增效。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.