作者:毛爍
“在AI進(jìn)入物理世界的今天,我們到底需要什么樣的算力底座?”這一問題背后,是算力的路線之爭。
如果說2024年大家還在為Scaling Law(規(guī)模定律)下的顯存容量而焦慮,那么到了2025年底,真正的焦慮變成了——如何讓AI理解并改變物理世界。
事實(shí)上,2025年是算力范式裂變的一年。
隨著人工智能向Agentic AI(智能體AI)乃至物理AI(Physical AI)演進(jìn),單純的算力堆砌已經(jīng)無法滿足日益復(fù)雜的應(yīng)用需求。
具體而言,其一是物理AI的崛起。具身智能、工業(yè)機(jī)器人、自動駕駛等應(yīng)用,不僅需要AI理解意圖,還要實(shí)時(shí)感知物理規(guī)則(物理仿真),并實(shí)時(shí)構(gòu)建出高保真的視覺反饋(圖形渲染)。
其二是本土化創(chuàng)新的戰(zhàn)略選擇。通用性與靈活度的平衡在本土算力演進(jìn)的過程中,存在“通才”與“專才”的選擇問題。
例如,谷歌的TPU是全棧整合的“專才”典型,其在閉環(huán)生態(tài)內(nèi)具有極高的性價(jià)比,但大多數(shù)本土企業(yè)并不具備垂直整合的能力。相比之下,GPU分工合作的機(jī)制,從CNN到Transformer再到未來的“世界模型”,其能在每次計(jì)算范式的更迭中,始終保證性能與靈活度。
其三是“圖算結(jié)合”。AI的未來方向,一定是多模態(tài)的。這就需要其既能“理解世界”(AI計(jì)算),還能用三維去“構(gòu)建世界”(圖形渲染),并能通過超高清視頻進(jìn)行傳輸。這種能力在AI for Science、工業(yè)數(shù)字化轉(zhuǎn)型中具有重要價(jià)值。
12月20日,在首屆MUSA開發(fā)者大會(MDC 2025)上,摩爾線程創(chuàng)始人張建中,帶著過去五年的成績單走向臺前。基于對計(jì)算范式的深度洞察,摩爾線程從底層的MUSA架構(gòu)開始,就在為“全功能”蓄力。
01 全精度“大滿貫” “花港”開啟訓(xùn)推渲染“雙升路線”
這次,摩爾線程正式發(fā)布了代號為“花港”的第五代全功能GPU架構(gòu)。
從指標(biāo)上看,“花港”基于完全本土創(chuàng)新的一代指令集架構(gòu)與處理器微架構(gòu),其算力密度提升50%,計(jì)算能效實(shí)現(xiàn)了10 倍級跨越式提升。值得注意的是,這一提升并非單純依賴工藝,更深層的變化,來自對并行計(jì)算組織方式本身的重寫。
在傳統(tǒng)GPU并行模型中,算力瓶頸并不在于“核心不夠多”,更多是來自核心之間長期存在的調(diào)度失衡——任務(wù)分配不均導(dǎo)致部分計(jì)算單元閑置,另一部分卻持續(xù)擁塞,硬件峰值難以轉(zhuǎn)化為有效的算力吞吐。
但是,“花港”架構(gòu)引入了新一代異步編程模型,通過重構(gòu)任務(wù)調(diào)度與資源分配機(jī)制,結(jié)合高效線程同步、線程束特化等技術(shù),讓成千上萬的計(jì)算核心可以在更細(xì)粒度、更高并發(fā)的節(jié)奏下協(xié)同運(yùn)轉(zhuǎn),從而顯著提升算力的“實(shí)際可用率”。
這種對硬件潛力的極限釋放,使得其GPU在面對億級參數(shù)級模型時(shí),不再只是“能跑”,更能提升有效產(chǎn)出比。
如果說并行模型決定了算力是否“用得滿”,那么精度完整性則決定了芯片能否覆蓋真實(shí)世界中復(fù)雜多樣的計(jì)算需求。“花港”架構(gòu)實(shí)現(xiàn)了從科學(xué)計(jì)算所需的FP64,到主流大模型訓(xùn)練的FP32 / TF32,再到可顯著壓縮推理成本的FP8、FP6、FP4的原生全精度支持。
在此基礎(chǔ)上,摩爾線程對Tensor Core進(jìn)行了新一輪的深度設(shè)計(jì)升級。通過TCE-PAIR技術(shù),讓兩個(gè)張量計(jì)算引擎在計(jì)算過程中共享數(shù)據(jù)通路,將算力效率與數(shù)據(jù)復(fù)用深度耦合。在大量算子密集的應(yīng)用場景中,這種內(nèi)部結(jié)構(gòu)的優(yōu)化,往往比單純堆疊算力更能撬動整體性能。
這也是“花港”作為第五代“全功能 GPU”架構(gòu)的原因——既能承擔(dān)高精度的科學(xué)模擬(AI4S),也能下沉到低精度的大規(guī)模推理,覆蓋物理AI與多模態(tài)計(jì)算的完整圖譜。
在完成底層架構(gòu)統(tǒng)一之后,摩爾線程并沒有選擇“一顆芯片打天下”,而是基于“花港”架構(gòu),明確分化出兩條面向不同范式的產(chǎn)品路線。
其中,“華山”系列,面向AI訓(xùn)推一體與超大規(guī)模智能計(jì)算場景。該系列完整集成了新一代異步編程技術(shù),并引入高性能MTFP4計(jì)算能力,目標(biāo)是為萬卡級智算集群提供穩(wěn)定、可持續(xù)擴(kuò)展的算力底座。其浮點(diǎn)計(jì)算能力對標(biāo)行業(yè)的較高水平,指向的是構(gòu)建下一代“AI 工廠”所需的系統(tǒng)級算力。
“廬山”系列,則集中在高性能圖形渲染領(lǐng)域,其性能提升近乎“暴力”——AI 計(jì)算性能提升64倍,幾何處理性能提升16倍,光線追蹤性能提升50倍。
在摩爾線程的判斷中,圖形能力并非是游戲的專屬,更是物理AI的“五感系統(tǒng)”。沒有高保真、實(shí)時(shí)的渲染能力,具身智能就無法在仿真環(huán)境中學(xué)習(xí)真實(shí)世界的物理反饋、光影變化與空間關(guān)系。通過集成AI 生成式渲染架構(gòu)(AGR)與UniTE 渲染架構(gòu),“廬山”不僅能夠支撐3A級實(shí)時(shí)渲染,更成為工業(yè)數(shù)字化仿真與具身智能訓(xùn)練中的關(guān)鍵基礎(chǔ)設(shè)施。
02 跨越“萬卡壁壘” 摩爾線程的本土算力“成人禮”
如果把芯片看作“個(gè)體”,那么萬卡集群則是高度協(xié)同的龐大軍團(tuán)。
在未來幾年的算力戰(zhàn)場上,真正決定上限的,是能否在數(shù)萬乃至十萬顆芯片的規(guī)模下,保持系統(tǒng)的穩(wěn)定性、可用性與持續(xù)吞吐。這是一道典型的工程題——規(guī)模一旦放大,任何一次硬件失效、通信抖動,都會被指數(shù)級放大為系統(tǒng)性風(fēng)險(xiǎn)。
這便是在超大規(guī)模訓(xùn)練場景中,業(yè)界長期被困擾的問題——“萬卡壁壘”。
摩爾線程本次推出的“夸娥(KUAE)2.0萬卡智算集群”,正是針對這一工程痛點(diǎn)給出的解法,其關(guān)鍵在于DP組級的故障隔離與自愈機(jī)制。
![]()
例如,當(dāng)某一GPU或計(jì)算節(jié)點(diǎn)發(fā)生異常時(shí),系統(tǒng)只隔離受影響的數(shù)據(jù)并行組,其余絕大多數(shù)GPU保持訓(xùn)練態(tài)繼續(xù)運(yùn)行,備機(jī)接入后,僅對局部通信拓?fù)溥M(jìn)行重建,無需整體停機(jī)或全量重啟,這種設(shè)計(jì)思路,本質(zhì)上是將“容錯(cuò)”前移到調(diào)度與通信層,避免“斷點(diǎn)”影響擴(kuò)散到訓(xùn)練任務(wù)本身。
按照摩爾線程官方披露的數(shù)據(jù),在萬卡規(guī)模下,有效訓(xùn)練時(shí)間占比可維持在90%以上,大規(guī)模訓(xùn)練的線性擴(kuò)展效率接近95%。更重要的是,這意味著,萬億參數(shù)模型在本土化算力體系上,具備了“工程可持續(xù)性”——不再只是跑得動,而是能穩(wěn)定、連續(xù)地跑完。
![]()
如果說集群能力驗(yàn)證的是“系統(tǒng)工程”,那么模型實(shí)測考驗(yàn)的則是軟硬件協(xié)同的真實(shí)水位。
現(xiàn)場,摩爾線程展示了在MTT S5000單卡上運(yùn)行DeepSeek R1 671B全量模型的優(yōu)化實(shí)測結(jié)果。
坦白講,這一選擇本身就具有現(xiàn)實(shí)意義——MoE架構(gòu)因其不規(guī)則計(jì)算、專家調(diào)度與通信壓力,被公認(rèn)為對系統(tǒng)最“挑剔”的模型形態(tài)之一。
在現(xiàn)場測試下,單卡Prefill吞吐突破4000tokens/s;單卡Decode吞吐突破1000 tokens/s。這些結(jié)果意味著兩點(diǎn):其一,目前本土GPU在MoE場景下的算子調(diào)度、顯存管理與通信協(xié)同已進(jìn)入可用區(qū)間。其二,MUSA軟件棧對復(fù)雜模型結(jié)構(gòu)的適配,已經(jīng)從“能跑”邁入“跑得好”。
![]()
某種意義上,這更像是一次工程意義上的“成人禮”——標(biāo)志著本土化算力體系,開始進(jìn)入全球高端模型訓(xùn)練與推理的現(xiàn)實(shí)博弈中。
硬件規(guī)模化之后,真正拉開差距的,往往是軟件系統(tǒng)的成熟度。在MUSA 5.0中,摩爾線程繼續(xù)向“效率升級”的方向推進(jìn)底層能力:核心計(jì)算庫muDNN在GEMM、FlashAttention等關(guān)鍵算子上,效率逼近理論上限(官方披露為98%+);編譯器整體性能較上一代實(shí)現(xiàn)數(shù)倍級的提升;針對大模型高頻路徑,持續(xù)做算子融合與訪存優(yōu)化。
相比單純性能指標(biāo),更值得注意的是開發(fā)范式的變化。摩爾線程同步即將推出的MUSACode 代碼生成大模型,用于解決長期的生態(tài)摩擦問題——將通用CUDA /主流框架代碼,低成本遷移到MUSA體系。
按照官方目前披露的階段性成果,自動代碼轉(zhuǎn)換的可編譯率已超過90%,在主流算子與模型結(jié)構(gòu)上的準(zhǔn)確率保持在較高水平。
更前沿的探索,則是摩爾線程的Text to MUSA路線,開發(fā)者只需通過自然語言描述計(jì)算邏輯,系統(tǒng)即可生成面向MUSA 架構(gòu)的高性能算子。這一方向指向的,是算力平臺從“程序驅(qū)動”向“意圖驅(qū)動”的演進(jìn)趨勢。
在軟件能力之外,摩爾線程還選擇了一條更“更穩(wěn)”的路線——逐步開放底層能力。包括計(jì)算加速庫(MATE、MUTLASS)與通信相關(guān)組件(MT DeepEP),均已明確了開源或規(guī)劃開源的路徑。
誠然,這一選擇并不指向立竿見影的商業(yè)回報(bào),而是通過開放工程,將更多開發(fā)者真正拉進(jìn)體系之中。
與此同時(shí),摩爾線程也通過其“摩爾學(xué)院”,在高校與開發(fā)者社區(qū)中形成持續(xù)滲透。官方披露數(shù)據(jù)顯示,其已覆蓋20萬量級的用戶規(guī)模,并與全國200余所高校建立合作關(guān)系。
![]()
![]()
或許,這一投入短期內(nèi)難以在賬面上量化,卻構(gòu)成其本土算力生態(tài)難以被復(fù)制的護(hù)城河——真正重要的,從來不是某一代芯片,而是可持續(xù)的工程體系。
03 端側(cè)“造身 ”補(bǔ)上下一塊“物理AI”拼圖
當(dāng)全功能 GPU 架構(gòu)、持續(xù)演進(jìn)的硬件性能,以及逐步成型的軟件工具鏈被拉到同一條技術(shù)主線上,物理 AI開始從概念的驗(yàn)證,進(jìn)入可被工程驗(yàn)證的階段。
具身智能是AI從“認(rèn)知智能”走向“行動智能”的關(guān)鍵路徑,而摩爾線程的選擇,并沒有從模型出發(fā),而是從物理世界的可計(jì)算性切入。
此次,摩爾線程發(fā)布的MT Lambda仿真訓(xùn)練平臺,正是這一選擇的直接落地。該平臺構(gòu)建在摩爾線程自研的AlphaCore物理仿真引擎之上,針對剛體動力學(xué)、柔體、流體與碰撞等多物理場聯(lián)合計(jì)算進(jìn)行了底層并行化重構(gòu)。
在典型工業(yè)與自動駕駛仿真負(fù)載下,其整體仿真吞吐效率相較傳統(tǒng)CPU或“圖算割裂”方案,達(dá)到了約30倍的提升。具體而言,其通過在GPU上統(tǒng)一調(diào)度物理求解與圖形渲染,減少數(shù)據(jù)在不同計(jì)算單元間的頻繁搬運(yùn)。
更具現(xiàn)實(shí)意義的是,摩爾線程對 3DGS(3D Gaussian Splatting)重建技術(shù)的工程化應(yīng)用。開發(fā)者可直接利用普通相機(jī)采集的照片或視頻,快速重建出厘米級精度、帶語義標(biāo)簽的數(shù)字孿生環(huán)境。相比傳統(tǒng)基于CAD、高精地圖的建模方式,這一流程大幅降低了場景構(gòu)建成本,也顯著縮短了機(jī)器人控制策略與自動駕駛算法的“仿真—驗(yàn)證—迭代”周期。
同步亮相的,還有摩爾線程新一代AI SoC芯片——“長江”。這是一顆將CPU、GPU、NPU與VPU 集成于單一芯片的全智能計(jì)算核心,面向端側(cè)推理與多模態(tài)處理場景,提供50 TOPS的異構(gòu)算力。其設(shè)計(jì)目標(biāo)便是讓模型調(diào)試、推理驗(yàn)證與邊緣部署具備獨(dú)立運(yùn)行能力。
基于“長江”SoC打造的MTT AIBOOK,被定位為端側(cè)AI開發(fā)工作站。開發(fā)者可以在本地離線環(huán)境中直接運(yùn)行DeepSeek、MiniCPM-V等主流基礎(chǔ)模型,以完成推理調(diào)試與應(yīng)用驗(yàn)證,同時(shí)還能與云端的“夸娥”算力集群協(xié)同工作,形成“小腦在端側(cè)、大腦在云端”的分層算力結(jié)構(gòu)。
在此基礎(chǔ)上,其推出的迷你型計(jì)算設(shè)備 MTT AICube進(jìn)一步補(bǔ)齊了個(gè)人算力中心的形態(tài),使端側(cè)智能不再停留在Demo,更具備持續(xù)部署與運(yùn)行的現(xiàn)實(shí)條件。
發(fā)布現(xiàn)場,摩爾線程還展示了其與 51SIM 聯(lián)合打造的自動駕駛仿真引擎。該方案在復(fù)雜交通參與體、高頻傳感器仿真以及動態(tài)環(huán)境交互中,驗(yàn)證了全功能GPU架構(gòu)在物理環(huán)境模擬上的優(yōu)勢——不是“單幀更快”,而是能夠在更高并發(fā)、更高保真的環(huán)境下持續(xù)運(yùn)行,從而讓大規(guī)模仿真訓(xùn)練成為可負(fù)擔(dān)的工程選項(xiàng)。
04 寫在最后
在MDC 2025上,一個(gè)最強(qiáng)烈的行業(yè)體感是:在國產(chǎn)算力的牌桌上,圖形渲染能力,在物理AI時(shí)代正在變成下一張“王牌”。
一方面,是對“算力提純論”的有力反擊。在過去幾年本土自研芯片的演進(jìn)中,存在“去圖形化”的論調(diào)——為了追求極致的AI理論峰值(FLOPS),許多廠商選擇了NPU(神經(jīng)網(wǎng)絡(luò)處理器)路線,砍掉了圖形渲染單元。這種策略在處理純文本大模型(LLM)時(shí)固然高效,但在面對Physical AI時(shí)卻顯露疲態(tài)。
摩爾線程堅(jiān)持的“全功能GPU”路線,看似在單點(diǎn)能效上不如專用ASIC極致,但其背后的邏輯是——物理世界的智能,必須建立在“感”與“知”的閉環(huán)之上。具身智能不僅需要Transformer來預(yù)測下一個(gè)Token,更需要實(shí)時(shí)渲染來預(yù)測下一幀畫面、模擬物理碰撞。而“花港”則通過統(tǒng)一的顯存和計(jì)算單元,消弭了圖形渲染與AI計(jì)算之間的數(shù)據(jù)搬運(yùn)延遲(Data Movement),更在硬件底層為“世界模型”預(yù)埋了最高效的物理通路。
另一方面,從“能跑”到“敢跑”,工程化成熟度是隱形的護(hù)城河。業(yè)界對于本土算力較大的顧慮,在于萬卡集群的MTBF(平均故障間隔時(shí)間)。DeepSeek R1 671B等MoE(混合專家)模型對通信帶寬和負(fù)載均衡的苛刻要求,是檢驗(yàn)集群“成色”的試金石。
“夸娥2.0”的“DP組級故障隔離”,則將容錯(cuò)機(jī)制下沉到通信層的設(shè)計(jì),標(biāo)志著本土算力已經(jīng)走出了“堆料”階段,進(jìn)入了精細(xì)化運(yùn)維的深水區(qū)。
在MDC 2025所展示的,或許是對“計(jì)算范式回歸”的押注。
在如今這個(gè)范式劇變的時(shí)代,對“全功能”的執(zhí)著,正逐漸顯現(xiàn)出摩爾線程的遠(yuǎn)見卓識。本土創(chuàng)新不應(yīng)只是對標(biāo)與替代,更應(yīng)是對未來的定義。
構(gòu)筑自研基座,共赴智能未來。這場硬核突圍,已至中場。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.