在半導體行業(yè),有一種共識:做出一顆芯片可能需要三年,但讓開發(fā)者愿意在這顆芯片上寫代碼,往往需要十年。英偉達CUDA的成功,本質(zhì)上是軟件棧與開發(fā)者生態(tài)的勝利。對于國產(chǎn)GPU而言,單純對標算力參數(shù)已不足以維系長期的競爭力,真正的挑戰(zhàn)在于如何建立起一套軟硬深度融合、且能讓全球開發(fā)者無感遷移的統(tǒng)一架構(gòu)。
在12月20日舉行的摩爾線程2025 MUSA開發(fā)者大會上,我們清晰地感受到了這種對生態(tài)突圍的共鳴。這不是一場閉門造車的技術(shù)發(fā)布,而是一場千人規(guī)模的“MUSA嘉年華”。 在大約1000平米的沉浸式展區(qū)內(nèi),從AI大模型與 Agent 的智能交互,到具身智能的物理演進,再到空間智能與科學計算的深度融合,MUSA 生態(tài)的觸角已經(jīng)延伸至工業(yè)智造、智慧醫(yī)療、數(shù)字文娛等每一個真實的應用場景。
![]()
支撐這場“嘉年華”的,是摩爾線程過去五年交出的硬核成績單:5顆芯片,超43億元研發(fā)投入,高達77%的研發(fā)人員占比,超20萬的活躍開發(fā)者生態(tài)。這些數(shù)字共同印證了其在全功能GPU領(lǐng)域的技術(shù)厚度、產(chǎn)品完整度與生態(tài)影響力,不僅凸顯了摩爾線程在國內(nèi)該賽道中的稀缺地位,也為其持續(xù)引領(lǐng)自主算力進化奠定了扎實的體系化基礎(chǔ)。
MUSA:不止是一個軟件
很多人誤把MUSA僅僅認為是“一個軟件”,這其實低估了它的定位。
如同英偉達的CUDA一樣,CUDA 是英偉達圍繞自家GPU 打造的一整套并行計算平臺 + 編程模型 + 軟件棧 + 生態(tài)體系,它長得像軟件,但它和硬件能力是強綁定的。
MUSA也不僅僅是一個軟件包,MUSA(Meta-computing Unified System Architecture)是摩爾線程自主研發(fā)的元計算統(tǒng)一系統(tǒng)架構(gòu),覆蓋從芯片架構(gòu)、指令集、編程模型到軟件運行庫及驅(qū)動程序框架等的全棧技術(shù)體系。這是一個可以讓開發(fā)者在摩爾線程 GPU 上“寫代碼、遷移代碼、跑框架、做調(diào)優(yōu)、規(guī)模化落地”的整套平臺。
![]()
再直觀一點的對比是,你不能把Android理解成“一個APK安裝器”;也不能把Windows 理解成“一個EXE啟動器”。它們都是平臺,生態(tài)在平臺之上長出來。
摩爾線程的所有軟硬件產(chǎn)品,均基于MUSA架構(gòu),MUSA完整定義了從芯片設(shè)計到軟件生態(tài)的統(tǒng)一技術(shù)標準。
全功能GPU:
跨越范式更迭的“萬能算力底座”
回望過去三十年,GPU的創(chuàng)新史本質(zhì)上是一部算力范式的進化史。從上世紀末的圖形加速,到本世紀初可編程GPU的出現(xiàn),走向通用計算,并推動我國“天河一號”超級計算機的誕生,再到深度學習浪潮中的AI爆發(fā)。今天,我們正從感知AI邁向生成式AI、Agentic AI,再到物理AI,在所有這些進化過程中,GPU始終處于計算革命的風暴眼。
![]()
這正是摩爾線程堅持“全功能GPU”的初衷——既踏攀登路,必闖最高峰。所謂“全功能GPU”,并非僅具備圖形渲染或AI訓練能力,而是同時實現(xiàn)圖形圖像處理、AI張量計算、物理仿真和超高清視頻編解碼等多種任務協(xié)同處理能力。這種架構(gòu)的芯片,不僅面向AI模型訓練、智算中心部署,也能支撐游戲圖形、視頻渲染等大眾級應用場景,具備高度通用性與生態(tài)承載力。
![]()
在計算范式的每一次迭代中——從CNN到Transformer,再到未來的世界模型,GPU始終能夠立于不敗之地,因為它是一個性能和靈活度的“甜點”。我們正處于一個高速發(fā)展的創(chuàng)新試驗場里,底層架構(gòu)哪怕大框架沒變,新型算子也在不斷出現(xiàn)。我們需要足夠的靈活度讓技術(shù)繼續(xù)演進。
全功能GPU的優(yōu)勢在于“圖算結(jié)合”。未來的世界將是多模態(tài)的,既需要AI計算理解世界,又需通過圖形渲染構(gòu)建世界,甚至需要支持超高清視頻傳輸。全功能GPU正是能夠跨域支持這些多樣化計算需求的核心技術(shù)。無論計算范式如何變遷,所有創(chuàng)新都將在GPU的靈活性中誕生。
五年五代架構(gòu),
算力進化的“步進器”
自2022年起,摩爾線程保持著每年發(fā)布一代新架構(gòu)的驚人節(jié)奏:從解決信創(chuàng)PC GPU國產(chǎn)化關(guān)鍵問題的“蘇堤”S10,到首款國產(chǎn)消費級顯卡架構(gòu)“春曉”MTT S80,再到助力大規(guī)模AI訓推一體的智算卡、千卡集群的“曲院”S4000,乃至支持萬億參數(shù)規(guī)模的“平湖”MTT S5000。
![]()
而今,最新一代的“花港”架構(gòu)正式登場。
“花港”架構(gòu)基于新一代指令集架構(gòu)及MUSA處理器架構(gòu),算力密度提升50%,計算能效實現(xiàn)10倍提升。在原有MTFP8的技術(shù)下,新增MTFP6/MTFP4及混合低精度端到端加速技術(shù)。該架構(gòu)提供了新一代的異步編程模型加速技術(shù),全面優(yōu)化異步編程模型、任務與資源調(diào)度機制,提升并行執(zhí)行效率。通過自研高速互聯(lián)MTLink技術(shù),可支持十萬卡以上規(guī)模智算集群。圖形方面,“花港”提供一種全新的AI生成式渲染架構(gòu)AGR,用AI加速圖形渲染流水線,集成全新光追硬件加速引擎,能夠完美支持DirectX 12 Ultimate。
![]()
摩爾線程在過去的5年中,持續(xù)不斷深耕架構(gòu)自研,“花港”架構(gòu)也是全棧自研,安全可控。截至今年6月30日,摩爾線程已經(jīng)申請專利1000余件,其中授權(quán)專利高達500余件,發(fā)明專利468件,專利數(shù)量在國內(nèi) GPU 企業(yè)中排名領(lǐng)先。
另外,“花港”架構(gòu)中,摩爾線程也自研并集成了完善的安全策略,通過4層安全架構(gòu)(安全域、信任域、保護域和功能域),時刻為芯片提供安全守護。
拳頭產(chǎn)品:
華山練AI,廬山繪世界
“一個好的架構(gòu)要有好的產(chǎn)品才能夠為更多的開發(fā)者服務。”張建中表示,基于“花港”架構(gòu),摩爾線程正在研發(fā)兩款GPU芯片。
(一)華山,AI訓推一體芯片
第一款芯片——華山,是一款AI訓推一體、智算融合的GPU產(chǎn)品。華山芯片對標國外頂尖廠商的BXXX和HXXX芯片,在算力、通信和訪存帶寬等方面具有明顯優(yōu)勢。
為了解決傳統(tǒng)GPU任務分配不均導致的算力閑置問題,“華山”集成了新一代異步編程模型:通過 Persistent Kernel 及自動化調(diào)度機制,將負載智能平衡到每一個計算單元,同時賦予了開發(fā)者近乎“無感”的高效開發(fā)體驗。
此外,華山還集成了新一代Tensor Core,專為AI應用中的Tensor計算優(yōu)化。特別是在FP8、FP6和FP4等低精度設(shè)計單元的改良上,華山為特定應用場景創(chuàng)造了新的技術(shù)解決方案——TCE-PAIR。這種技術(shù)允許兩個Tensor計算引擎共享數(shù)據(jù),避免重復數(shù)據(jù)調(diào)度,大幅提高算力效率。
更重要的是,華山芯片內(nèi)部集成了專為大語言模型(LLM)定制的加速引擎,針對 Transformer架構(gòu)及LLM的各個環(huán)節(jié),摩爾線程將核心算法邏輯固化至硬件單元中。這種設(shè)計確保了每一個軟件模塊都有對應的硬件引擎驅(qū)動,使大模型訓練和推理的速度與效率達到極致。
為了滿足用戶對超大規(guī)模算力的需求,華山提供了超十萬卡級別的“AI工廠”技術(shù),專注于Scale-up和Scale-out的擴展能力。在提升算力規(guī)模的同時,通過本地支持Scale-up,確保多GPU協(xié)同工作時的高效性能。
華山不僅支持摩爾線程的MTLink 4.0,同時開放支持多種以太網(wǎng)協(xié)議,使其能夠兼容國內(nèi)外各種硬件生態(tài)。通過對不同協(xié)議的支持,華山能夠適配更多的Scale-up Switch和應用場景,并通過支持SHARP協(xié)議,提高通信效率,確保數(shù)據(jù)傳輸?shù)母咚俸头€(wěn)定。
在集群能力方面,華山的Scale-up系統(tǒng)使得單個超節(jié)點能夠支持高達1024個GPU的擴展,為大規(guī)模計算提供了強大的帶寬和處理能力。此外,華山內(nèi)置的RAS2.0技術(shù)(包括ECC和SRAM校驗)保障了芯片底層的準確性與穩(wěn)定性。自動檢測、上報與隔離機制確保在集群中任何芯片出現(xiàn)問題時能夠及時處理,保證集群整體的安全性和穩(wěn)定性。
尤為值得一提的是,華山集成了ACE2.0異步通信引擎,這也是摩爾線程的一項獨特創(chuàng)新。與ACE1.0相比,ACE2.0通過在每個計算單元內(nèi)設(shè)計小型ACE引擎,實現(xiàn)通信與計算的高度并行化,大幅提升了整體效率。這一技術(shù)的引入,配合RAS2.0和新一代Scale-up系統(tǒng),使得華山在大模型訓練中的集群能力更加出色,能夠滿足超大規(guī)模和高參數(shù)量的用戶訓練需求。
(二)廬山,高性能圖形渲染芯片
廬山,是一款專為專業(yè)圖形計算設(shè)計的芯片。得益于“花港”架構(gòu),廬山在圖形計算和AI能力上展現(xiàn)了極大的優(yōu)勢。與S80相比,廬山在3A游戲性能上提升了15倍,AI計算性能提升64倍,幾何處理性能提升16倍,讓更復雜的圖形細節(jié)得以完美呈現(xiàn)。此外,廬山在紋理填充、光線追蹤和原子訪存方面分別提升了4倍、50倍和8倍,顯存容量也提升了4倍,這使得廬山不僅能夠應對3A級游戲,還能完美支持CAD、CAE等專業(yè)應用場景。
![]()
一個重要的創(chuàng)新是廬山內(nèi)置的AI生成式渲染功能,從幾何與網(wǎng)格著色、像素著色、光線追蹤、后處理乃至 MTSS 等環(huán)節(jié),每一步渲染都由AI計算加速引擎支持,提升了圖形處理效率。此外,廬山獨創(chuàng)的統(tǒng)一任務引擎管理框架,使得GPU的每個計算單元都能實現(xiàn)高度并行計算。無論有多少核心或GPU,任務都能得到最優(yōu)分配,從而大幅提升整體工作效率。
夸娥十萬卡集群:
打造AGI時代的“AI工廠”
有了頂尖芯片,如何應對超大規(guī)模算力需求?在AI智算領(lǐng)域,摩爾線程正實現(xiàn)從千卡、萬卡向十萬卡集群的跨越。
![]()
如中國工程院院士、清華大學計算機系教授鄭緯民所說,打造國產(chǎn)萬卡或十萬卡系統(tǒng)非常困難,它不僅是將卡片連接起來并通電,更是要確保系統(tǒng)既能用,又好用。實現(xiàn)十萬卡系統(tǒng)面臨三大難題:一是如何連接這么多卡;二是如何保證系統(tǒng)在卡出現(xiàn)故障時仍能持續(xù)運行;三是如何解決大規(guī)模集群的能耗和散熱問題。
為此,摩爾線程推出了超十萬卡級AI工廠技術(shù),突破了傳統(tǒng)GPU集群的瓶頸,支持Scale-up系統(tǒng),可以擴展至1024個GPU,滿足大規(guī)模AI計算任務的需求:
新一代MTLink 4.0技術(shù)支持多種協(xié)議與設(shè)備的兼容,具備1314 GB/s的片間互聯(lián)帶寬,極大提升了數(shù)據(jù)傳輸效率;同時,ACE 2.0(異步通信引擎)進一步優(yōu)化了GPU之間的協(xié)同工作,提升了計算與通信的并行效率,支持更高效的任務調(diào)度與資源分配;RAS 2.0則增強了芯片的容錯能力和可靠性,提供了更強的錯誤檢測、調(diào)試能力以及ECC內(nèi)存保護,確保超大規(guī)模集群的高穩(wěn)定性和高可用性;此外,超節(jié)點解決方案MTT C256,支持256個GPU的超節(jié)點集群,能夠在億級拓撲互聯(lián)層下高效互通,進一步提升大規(guī)模訓練集群的效率。
MUSA 5.0:
全棧軟件棧的全面升級
如果說硬件是算力的骨架,軟件棧則是算力的靈魂。摩爾線程本次大會正式宣布MUSA 5.0 全面升級,這不僅是版本的更迭,更是其軟件棧邁向成熟期、全場景覆蓋的重要里程碑。MUSA 5.0通過對全功能GPU四大引擎的深度適配,實現(xiàn)了從AI訓練、3D圖形渲染到科學計算的無縫支撐,為全場景應用提供了統(tǒng)一的技術(shù)底座。
MUSA 5.0 的核心競爭力在于其“無邊界”的適配能力。它不僅完美兼容國際主流 CPU 操作系統(tǒng),更實現(xiàn)了對國產(chǎn) CPU 及開發(fā)環(huán)境的深度優(yōu)化,這種“雙輪驅(qū)動”的策略,確保了 MUSA 能夠充分吸納國內(nèi)外生態(tài)優(yōu)勢,助力“云-邊-端”系列產(chǎn)品在統(tǒng)一的軟件棧下獲得一致的性能表現(xiàn)。
具體來說,MUSA 5.0的升級包括三個主要部分:
編程模型:MUSA C是核心編程模型,除了兼容擴展,還引入了TileLang,以支持更廣泛的AI軟件開發(fā)。此外,還集成了北京智源研究院的FlagOS和Triton框架,進一步提升開發(fā)效率。
性能優(yōu)化:在計算方面,MUSA 5.0大幅提升了芯片設(shè)計的集成效率,在HGEMM算子效率中達到了98%,通信效率達97%。這些優(yōu)化使得開發(fā)者能夠更加高效地利用GPU資源,獲得顯著的性能提升。
開源支持與工具:MUSA 5.0推出了多個開源工具,包括MT DeePEP(用于并行策略的自由搭建)、夸娥管理軟件(用于更高效的管理與調(diào)度),并計劃在明年上半年開放MTX,讓開發(fā)者能精細操作GPU資源。此外,特別為3D圖形與AI結(jié)合的應用場景推出了muLang編程語言,支持開發(fā)者更靈活地進行跨域編程。
MUSA 5.0的觸角正在向更前沿的領(lǐng)域延伸。針對量子計算,MUSA-Q 框架通過經(jīng)典計算與量子框架的耦合,探索混合計算的商業(yè)化落地;在半導體制造端,muLitho致力于通過 GPU加速OPC計算,為國產(chǎn)半導體工藝的迭代提速。
這一系列升級計劃于明年上半年正式規(guī)模化落地。MUSA 5.0 正在通過這種“全棧化、高性能、開放式”的軟件哲學,不僅大幅提升開發(fā)者的工程效率,更在加速補齊國產(chǎn) GPU 生態(tài)最后一塊拼圖。
入局具身智能:
以“長江”AI SoC構(gòu)筑物理AI基石
具身智能是摩爾線程開辟的又一戰(zhàn)略高地。據(jù)預測,到2050年全球機器人數(shù)量將達10億部,而這場變革的核心挑戰(zhàn)在于:如何構(gòu)建一套大型物理AI基礎(chǔ)設(shè)施,確保智能體能夠在復雜現(xiàn)實中安全、可靠地與人類交互。
在具身智能的開發(fā)邏輯中,Sim to Real(仿真到現(xiàn)實)的遷移效率決定了智能體的進化速度。對此,摩爾線程正式發(fā)布具身智能仿真訓練平臺 MT Lambda,它深度整合了物理、渲染與AI三大核心引擎,旨在為開發(fā)者提供一套從場景構(gòu)建、數(shù)據(jù)合成到仿真訓練的高效工作流。
此外,具身智能還需要一個強悍的邊緣側(cè)內(nèi)核。摩爾線程首顆AI SoC芯片“長江”正式亮相,這標志著摩爾線程算力布局從 GPU 延伸到了高度集成的芯片系統(tǒng)。“長江”集成了 CPU、GPU、NPU、VPU、DPU、DSP 和 ISP 等多維算力核心。無論是具身智能機器人,還是下一代 AIBOOK、AICube,均可通過“長江”獲得原生 AI 算力。
![]()
為了打通具身智能的最后一公里,摩爾線程推出了完整解決方案——MT Robot。其中,基于KUAE智算集群提供的強大云端算力作為“大腦”,處理大規(guī)模訓練與復雜決策;依托內(nèi)置“長江”芯片的 MTT E300模組作為敏捷“小腦”,實現(xiàn)端側(cè)的低延遲響應與實時避障。
![]()
摩爾線程在具身智能領(lǐng)域的入局,本質(zhì)上是其全功能GPU能力的向下延伸與橫向拓撲。通過MT Lambda仿真平臺解決“虛實遷移”的效率難題,憑借“長江”AI SoC在邊緣側(cè)構(gòu)筑強大的計算內(nèi)核,再通過MT Robot方案實現(xiàn)“云端大腦”與“端側(cè)小腦”的無縫協(xié)同——摩爾線程不僅提供了算力,更提供了一套從虛擬訓練到物理落地的全棧自主路徑,讓AI真正具備了行走于物理世界的行動力。
![]()
開發(fā)者,
才是國產(chǎn)GPU生態(tài)的“壓艙石”
英偉達CUDA的成功史證明了一個鐵律:真正決定芯片廠商生死存亡的,不是單純的算力參數(shù),而是是否有足夠多的開發(fā)者愿意在你的架構(gòu)上寫代碼。
對于國產(chǎn)GPU而言,要跨越“生態(tài)鴻溝”,必須解決三大痛點:遷移成本高、工具鏈不夠成熟、社區(qū)與文檔不夠完善。但目標路徑也很清晰——從“能用”到“好用”,再到“愿意用”。開發(fā)者體驗做順了,生態(tài)才會自發(fā)增長。摩爾線程的MUSA,本質(zhì)上就是面向CUDA生態(tài)的一次國產(chǎn)化實踐。
摩爾線程的MUSA軟件棧也是圍繞“如何讓GPU既‘好用’又‘用得好’出發(fā)”。在圓桌論壇中,摩爾線程聯(lián)合創(chuàng)始人、CTO張鈺勃提到,“好用”和“用得好”看起來天然有張力:好用意味著更高層、更標準化、更貼近主流抽象;而要用得好、要突破,就必須把底層微架構(gòu)的創(chuàng)新發(fā)揮出來。對此,MUSA的思路是:先對齊主流生態(tài)的使用習慣——編程模型、編程方式、加速庫能力盡量與國際主流保持一致,讓開發(fā)者以最低學習成本、最低遷移成本把國產(chǎn) GPU 先“用起來”。同時,AIBOOK作為MUSA生態(tài)的核心入口,通過深度集成統(tǒng)一架構(gòu)和開發(fā)者工具鏈,為開發(fā)者提供了從本地開發(fā)到云端擴展的無縫體驗,進一步降低了生態(tài)參與門檻。
![]()
而真正的突破點在下一步:底層架構(gòu)創(chuàng)新怎么“露出來、用起來”。他們提出兩條路徑:
01
用更高層抽象的 DSL/編譯技術(shù),把底層優(yōu)勢顯性化。例如通過支持 Triton,甚至未來基于 TAL 的編程方式,讓編譯器把細粒度的硬件創(chuàng)新轉(zhuǎn)化為開發(fā)者可直接獲得的性能收益;
02
生態(tài)共建。軟硬協(xié)同不是單打獨斗,僅靠一家廠商的軟件棧不夠,需要與開發(fā)者與平臺型伙伴深度協(xié)作。比如與硅基流動在平臺上做聯(lián)合優(yōu)化,通過通用 AI 基礎(chǔ)平臺推進軟硬件協(xié)同設(shè)計,形成“1+1>2”的效果。這一協(xié)同已初見成效,例如在推理側(cè)。與硅基流動對MTT S5000深度優(yōu)化后,在DeepSeek 671B全量模型的實際推理中,MTT S5000單卡Prefill吞吐突破4000 tokens/s,Decode吞吐突破1000 tokens/s,樹立國產(chǎn)推理在低延遲和高吞吐的新標桿。
結(jié)語
“算力就是國力。” 在這場關(guān)于通用算力的長跑中,沒有捷徑可走。從MUSA架構(gòu)的底層深耕,到十萬卡集群的布局,再到具身智能的入局,摩爾線程正以全功能GPU為筆,在國產(chǎn)算力的長卷上,勾勒出一座屬于未來的“算力長城”。這座長城,不僅由硬核的半導體晶體管筑就,更由數(shù)十萬活躍開發(fā)者手中的每一行代碼匯聚而成。在這場AGI時代的進擊中,全棧自研的底氣,正是我們通往算力自由的最強脊梁。
*免責聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點,半導體行業(yè)觀察轉(zhuǎn)載僅為了傳達一種不同的觀點,不代表半導體行業(yè)觀察對該觀點贊同或支持,如果有任何異議,歡迎聯(lián)系半導體行業(yè)觀察。
今天是《半導體行業(yè)觀察》為您分享的第4268期內(nèi)容,歡迎關(guān)注。
加星標??第一時間看推送,小號防走丟


求推薦

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.