![]()
編輯|澤南、+0
這就是摩爾線程最新 AI 計算卡 S5000,單卡跑滿血 DeepSeek 大模型的成績。

每秒 1024 token 的流暢解碼,超過 4000 token 的峰值吞吐,只需要搭載在通用服務器上。這個成績不僅刷新了國產 GPU 的推理性能記錄,更以穩定的低延遲,驗證了其 AI 算力的高效與可用性,成為了國產算力的一個里程碑。
上周六,國產 GPU 第一股摩爾線程,首次完整揭幕了其新一代統一計算架構 MUSA 的路線圖。從芯片設計、AI 基礎設施、基礎軟件到生態,MUSA 架構旨在為各種形態的 AI 與圖形計算需求,提供全方位的支持。

這是摩爾線程的首屆 MUSA 開發者大會,也是其上市后技術體系的首次集中亮相。在長達兩個半小時的 Keynote 中,摩爾線程創始人、董事長兼 CEO 張建中系統總結了過去五年的技術沉淀與研究成果,密集發布了一系列新產品,并對未來的發展路徑進行了展望。
整場發布會,從底層架構到具體芯片,從整機到萬卡集群,再到對具身智能、科學智能(AI4S)與量子計算等前沿領域的布局 —— 信息量巨大,新產品應接不暇,看起來已經有點 GTC 大會的樣子了。
技術之根
MUSA 架構全面進化
在這其中,最先被介紹的是其技術底座:MUSA,元計算統一系統架構。
MUSA(Meta-computing Unified System Architecture)是摩爾線程自主研發的、覆蓋從芯片架構、指令集、編程模型到軟件運行庫及驅動程序框架等的全棧技術體系。它是貫穿摩爾線程全棧產品體系的技術基石,相當于從軟件到硬件所有產品的設計藍圖。
張建中將 MUSA 架構分為幾個層級進行了介紹,其最底層是全功能 GPU 架構,其上為硬件產品與系統(從單卡到大規模集群),最上層為全套軟件棧開發者生態
![]()
在硬件層,本次發布的全功能 GPU 架構「花港」,標志著國產 GPU 在核心技術上的突破。
![]()
據介紹,「花港」在處理器架構、指令集層面進行了重新設計,旨在實現算力密度與能效比的飛躍。數據顯示,相比上代,花港架構在同芯片面積下的算力密度提升了 50%,能效提升了 10 倍
作為全功能 GPU 的載體,花港在原有 MTFP8 的技術下,新增 MTFP6/MTFP4 及混合低精度支持,支持從 FP4 到 FP64 的全精度端到端計算加速,覆蓋了從低精度 AI 推理到高精度科學計算的廣泛場景。MUSA 支持國際主流 GPU 生態,同時還支持國際通用的 CPU 系統,也支持所有國產主流 CPU、操作系統和國內開發環境。在安全層面,該架構采用了全硬件設計的安全保護機制,從底層筑牢了算力設施的安全防線,實現自主可控。
異步編程超大規模互聯是新架構突出的特點。「花港」帶來了新一代的異步編程模型加速技術,全面優化異步編程模型、任務與資源調度機制,提升并行執行效率,這一能力能夠大幅提升大模型訓練的效率。與此同時,其自研MTLink 互聯技術實現了速度高達 1314GB/s 的片間互聯,支持十萬卡以上規模的智能集群擴展,為未來「AI 工廠」的建設奠定了基礎。
圖形處理方面,新架構集成了AI 生成式渲染架構(AGR),增強的硬件光線追蹤加速引擎(光線追蹤性能比上一代提升 50 倍),并完整支持了 DirectX 12 Ultimate,這是國產 GPU 首次實現對行業頂級圖形標準的完整支持
與硬件架構同步升級的,是基礎軟件層 MUSA 5.0 軟件棧。
![]()
張建中表示,MUSA 在 AI 框架上適配 PyTorch、Paddle 并新增了對 Jax、TensorFlow 的框架支持;訓練套件在分布式訓練框架 Megatron、DeepSpeed 的基礎上,新增了強化學習訓練框架 MT VeRL;推理套件在 MTT 推理引擎和深度學習模型 TensorX 的基礎上,新增了對 SGLang、VLLM、Ollama 等推理框架的適配。
摩爾線程特別強調了在計算與通訊效率上的突破:其核心計算庫在 GEMM(通用矩陣乘法)上的效率據稱超過 98%,通訊效率達到 97%,這極大地降低了開發者在國產硬件上移植和優化應用的成本。
為了降低開發門檻,加速生態建設,摩爾線程計劃逐步開源一系列高性能算子庫。與此同時,摩爾線程準備推出四大基礎庫:
- MTX—— 兼容跨帶 GPU 硬件指令架構、中間語言開發者可以更細力度的調度和優化 GPU 任務;
- muLang—— 面向全功能 GPU 全場景的編程語言渲染 + AI 場景統一語言,易于編程;
- MUSA-Q—— 量子計算 GPU 融合框架,可以加速量子計算模擬仿真;
- muLitho——MUSA 光刻計算加速庫,可用于加速 OPC 光刻計算。
這些工具計劃在明年陸續提供給開發者們使用。
通過 MUSA 基礎架構的升級,摩爾線程可以實現芯片性能指數級的提升,與此同時也大幅降低了基于國產芯片的開發門檻。
下一代芯片
「華山」與「廬山」
有了新架構,下個問題就是:即將量產的產品是什么?
基于「花港」架構,摩爾線程公布了未來兩款芯片的路線圖,分別對應 AI 計算與專業圖形渲染兩大主戰場。
在 AI 計算領域,新一代芯片「華山」被定位為對標國際頂尖水平的 AI 訓推一體芯片。張建中在演講中透露,「華山」在浮點計算能力上處于 NVIDIA Hopper 與 Blackwell 芯片產品之間。
![]()
除了繼承新架構的異步編程與超大規模互聯能力,「華山」在訪存帶寬與容量設計上向國際一流產品看齊,并集成了新一代張量計算單元(TCE)。通過獨特的 TCE-PAIR 模式,兩個計算單元可共享數據,從而大幅減少數據調用開銷,提升計算效率。
新一代芯片還內置了大語言模型專用加速引擎,可對 LLM 計算的全流程進行硬件加速。
此外,為滿足萬卡級集群需求,「華山」內置了支持多種協議的 MTLink 4.0,單節點即支持 1024 卡高速互聯。
從列出的數據上可以看到,作為高端 AI 芯片,「華山」的綜合能力已經躋身第一梯隊水平,已經可以承接目前科技公司對于領先大模型的訓練和推理需求。
在圖形渲染領域,代號「廬山」的芯片則聚焦于解決國產顯卡在游戲與專業設計領域的性能瓶頸。數據顯示,相比上一代 S80 顯卡,「廬山」的 3A 游戲性能提升了 15 倍。
摩爾線程還列出了一系列更加細化的數據提升:
![]()
在游戲玩家、專業用戶關注的圖形處理領域,「廬山」GPU 給出了具有說服力的水平。張建中表示:「據我們所知,廬山具有目前全球最高的幾何能力。它不光能用來打 3A 游戲,所有的 CAD、CAE 等各種應用場景都能勝任。」
「廬山」的核心亮點在于引入了AI 生成式渲染架構(AGR)第二代硬件光線追蹤引擎。除此之外,它搭載的統一任務引擎可以極致優化任務分配、平衡和同步,無論計算核心數量是多少,都能實現高效調度,,大幅提升運行效率。
從「花港」、「華山」到「廬山」,摩爾線程提供的新一代體系,可以帶來開發者們渴望已久的一流計算速度與圖形性能。
秀出肌肉
萬卡集群正式上線
單卡性能之上,高性能芯片面向 AI 計算等場景還要面臨大規模互聯(Scale-up)的挑戰。
摩爾線程展示了當前產品的落地實測數據,以此回應市場對國產算力「實際效能」的關切,并給大家看了看姱娥(KUAE)萬卡智算集群的樣子。

摩爾線程正式發布了夸娥萬卡智算集群(KUAE2.0)。作為中國自主研發的超級 AI 基礎設施,其擁有 10 Exa-FLOPS 算力,可以支持萬億參數大模型的訓練。它在 Dense 大模型上的訓練算力利用率(MFU)超過 60%,線性加速比達到 95%,訓練線性擴展效率達 95%,證明了國產算力已具備承接超大規模模型訓練工程化落地的卓越穩定性。
摩爾線程還計劃推出超級節點產品 MTT C256,它能夠以一層 scale up 網絡實現兩柜 256GPU 全互聯,規避兩層以上網絡帶來的帶寬損失和額外延遲,大幅提高新型智算中心 GPU 部署密度。
![]()
當前,AI 算力競賽正在進入「系統級對決」時代,單卡性能的比拼正在轉向「系統升維」,通過對通信能力、負載效率的優化,摩爾線程正在將國產芯片的集群效應推向極致。
前瞻布局
不止于大模型
面向未來,摩爾線程展開了其在前沿計算場景的廣闊布局,其著眼的方面不僅在于大模型、圖形技術,還包括具身智能、AI for Science、量子計算、AI For 6G 等融合創新計算領域。
它們是一系列 AI 算力生態構建的探索與成果,也是未來國產算力更大規模應用的開始。
![]()
在圖形計算方面,摩爾線程的 GPU 架構已邁入實時光線追蹤時代,基于花港架構的硬件光線追蹤加速引擎可實現對 DirectX Raytracing 的支持,同時推出的全自研的 AI 生成式渲染技術 MTAGR 1.0,推動渲染技術范式從「計算」走向「生成」。
在具身智能領域,摩爾線程發布了 MT Lambda 具身智能仿真訓練平臺,深度融合物理、渲染與 AI 三大引擎,其還推出了基于智能 SoC 芯片「長江」、AI 模組 MTT E300 和夸娥智算集群「端云結合」的 MT Robot 具身智能解決方案。
更多領域上,更廣泛的前沿融合計算探索也已展開,MUSA 生態已與合作伙伴在科學智能、量子科技、AI for 6G 等前沿交叉領域開展工作,持續拓展全功能 GPU 作為通用算力底座的技術邊界與應用價值。
構建生態
從開發者到終端產品
一切技術的最終價值,在于生態的繁榮。
為此,摩爾線程發起了「摩爾學院」,它專為 GPU 開發者、科研人員以及產業實踐者設計,提供從入門到精通的全方位培訓。摩爾線程表示,這項行動已經走進了全國 200 多所高校,吸引了超過 10 萬名青年學子參與。面向更廣泛開發者的「MUSA 開發者計劃」也已啟動。
最后,還有一款普通人最容易接觸得到的產品。
摩爾線程在大會上發布了 AI 算力筆記本 MTT AIBOOK,作為連接開發者與 MUSA 生態的核心入口,旨在讓先進算力賦予每一個創作者和開發者。
![]()
MTT AIBOOK 是專為 AI 學習與開發的個人智算平臺,搭載了自主研發的智能 SoC 芯片「長江」,其中集成了 CPU、GPU、NPU、VPU、DPU、DSP、ISP 等 IP 核心,異構 AI 算力達 50TOPS,可以在本地運行 30B 參數的端側大模型,承載多種任務負載,并配置了可以自由構建 Agent 的「工具集」,大幅降低 AI 開發的門檻。
同時,AIBOOK 還支持 Windows 虛擬機、Linux、安卓容器以及所有國產操作系統,實現了從芯片、驅動到開發環境的全棧整合,還內置了智能體「小麥」及多種 AI 應用,在保留傳統 PC 的完整功能上,實現了「開箱即用」的一站式 AI 開發體驗
目前 AIBOOK 已經可以在京東上下單,明年一月就會發貨。面向 AI 開發者和專業用戶市場,甚至 AI 愛好者與初學者也能使用。估計過不了多久,就會出現不少有關 AIBOOK 算力本的第三方評測了。
從 MTT AIBOOK 上,我們可以看到摩爾線程打造「全功能」計算產品的決心,它面向所有的數據類型與應用場景,可以解決各個領域、行業的不同需求,也是最普遍意義上計算能力的體現。
在當前 AI 爆發與計算范式變革的關鍵節點,摩爾線程用一系列扎實的技術突破與清晰的生態藍圖,有力宣告了國產算力自主化的時代,正加速到來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.