![]()
半個月前的HDC 2025上,華為云全面上線了基于CloudMatrix384超節點的昇騰AI云服務,在行業內外掀起了不小的轟動。
讓我們印象最為深刻的是一組數據:與非超節點相比,CloudMatrix384超節點的單卡吞吐量從600Tokens/s提升到了2300Tokens/s;增量Token的輸出時延,也從原來的100ms降低到了50ms以下。
為了探究指標背后的技術密碼,我們找到了華為聯合硅基流動發表的一篇論文,詳細介紹了CloudMatrix的架構創新和CloudMatrix384的生產級實踐,并在測試結果中寫道——運行DeepSeek-R1時的單卡吞吐,已經超過英偉達H100。
在大模型的產業敘事從訓練轉向推理局面下,新一代昇騰AI云服務刷新紀錄的單卡吞吐能力,對整個算力行業意味著什么?
01 怎么做到的?一場“系統工程的勝利”
需要回答的第一個問題是:單卡吞吐量近乎4倍的性能躍升,CloudMatrix384超節點到底是怎么做到的?
答案在于工程創新。
為了提高大模型的推理性能,傳統的做法集中在單點優化:增加更多的節點數量,通過堆疊算力來提升推理能力;對模型進行量化與剪枝,減少不必要的計算量;對KV Cache進行優化,加速增量推理;以及利用自動圖優化工具將多個算子融合為一個高效核函數,減少中間內存拷貝……
可大模型的參數量仍在增長、MoE架構被廣泛采用、上下文長度急劇擴展,單點優化暴露出了越來越多的局限性:比如多卡并行推理的通信瓶頸、芯片與內存之間的耦合差、“整卡”調度的資源浪費等等,無論是吞吐性能,還是推理成本,均已經滿足不了快速增長的應用部署需求。
CloudMatrix384超節點提出了新的設計架構,不同于簡單的“算力疊加”,進一步實現了一切可池化、一切皆對等、一切可組合。
理解了三個“一切”,也就讀懂了工程創新的價值。
一切可池化:通過統一的、超高性能的網絡(MatrixLink),將NPU、CPU、內存、網絡等資源解耦,形成可獨立擴展的資源池。
一切皆對等:有別于傳統GPU為中心的計算范式,資源池里的所有資源不再是“主從式”關系,而是更高效、更靈活的對等架構。
一切可組合:意思是CloudMatrix384超節點池化的所有資源,可以根據不同的任務需求,像搭積木一樣進行靈活調配組合。
用一句話來總結:CloudMatrix384超節點將384顆昇騰NPU和192顆鯤鵬CPU通過全新高速網絡MatrixLink全對等互聯,形成了一臺擁有超大帶寬、超大內存、超高算力的超級“AI服務器”。
之所以采用全對等互聯的架構,目的是為了匹配大模型的訓推任務,特別是MoE混合架構的大模型。
傳統集群模式下進行推理,要在每張單卡上分配所有“專家”,將所有問題都計算一遍,導致每個“專家”只能獲得少量的計算和通信能力。
而一個CloudMatrix384超節點可以支持數百個專家并行推理,實現“一卡一專家”模式,即每張卡只部署一個“專家”,集中處理所有相關問題,增加單次推理的批量大小,減少單位計算的調度開銷,大幅提升推理效率。同時,超節點還可以支持“一卡一算子任務”,靈活分配資源,提升任務并行處理,減少等待,將算力有效使用率(MFU)提升50%以上。
再比如大模型的推理過程分為Prefill和Decode兩個階段,Prefill生成KV Cache,Decode使用和更新KV Cache。CloudMatrix384超節點的解耦式共享內存池,可以保存更多的KV Cache,讓Prefill和Decode任務更快、更均衡地訪問KV Cache,大幅降低系統延遲。
![]()
也就是說,2300Tokens/s的單卡推理吞吐量和50ms以下的輸出延遲,可以歸結為一場“系統工程的勝利”。在摩爾定律逐漸放緩,單卡算力提升有限的背景下,通過重構計算互聯架構,實現了整體系統級最優,完成了國產算力從“能用”到“好用”的跨越。
02 改變了什么?大模型落地“越過山丘”
進入2025年后,大模型的角色快速蛻變,走出了實驗室,在政務、金融、醫療、能源等領域加速落地。
但在落地過程中,響應慢、吞吐低、成本高等現實問題,成了不少企業在部署大模型時難以繞開的“瓶頸”,不僅拖慢了業務節奏,還拉高了技術回報的門檻。如果說“訓得好”是一場軍備競賽,“用得起”則是產業拐點。
華為在工程創新上的“彎道超車”,為大模型落地部署的挑戰,提供了一種經過驗證的解題范式。
先從大模型訓練來看。
萬億、十萬億參數的大模型訓練任務,催生了萬卡乃至十萬卡的集群需求,也帶來了算力緊缺的“危機”。
一個樂觀的消息在于,在云數據中心,CloudMatrix384超節點最高可以將432個超節點級聯成16萬卡的超大集群,提供10萬PFlops的算力。其中一個關鍵指標是線性度,即節點數量增加后,性能是否能“按比例提升”。目前CloudMatrix384萬卡集群的線性度已經超過95%,實現了性能提升與資源擴展的比例接近1:1,可同時支持1300個千億參數大模型訓練。
![]()
為了幫助客戶最優使用資源,CloudMatrix384超節點昇騰AI云服務還支持訓推算力一體部署,比如“日推夜訓”模式,白天推理,晚上訓練;以及“40天長穩訓練、10分鐘快速恢復”能力,保障長周期訓練的穩定性和中斷后的快速恢復。
更深刻的影響在于推理層面。
正如前面所提到的,CloudMatrix384超節點的單卡吞吐量提升到了2300Tokens/s,一同被改變的還有推理成本。
根據一位知乎網友的方式推算:單卡吞吐量2300Tokens/s,每小時可以產出828萬Token,每小時租金按照15元計算,百萬Token的成本約為1.8元,推理成本比英偉達的GPU方案還要低。
在大模型推理領域,有一個著名的“不可能三角”——推理成本低、響應速度快、輸出準確性高幾乎不可能同時滿足。
CloudMatrix384超節點給出了否定的答案,以DeepSeek-R1為例,有256個固定專家、32個共享專家,CloudMatrix384超節點的“一卡一專家”模式完美契合了DeepSeek-R1的推理需求,保障推理性能的同時,仍可以實現高吞吐、低時延的目標。
在“推理成本決定最終勝利”的大模型競賽中,CloudMatrix384超節點可以說是現階段的“最優解”,在技術上攻克了響應速度、吞吐能力與輸出準確性的三重矛盾,為千行萬業搬開了大模型落地的“大山”。
可以佐證的案例有很多。
新浪基于CloudMatrix384昇騰AI云服務,為“智慧小浪”智能服務體系構建了統一的推理平臺,推理的交付效率提升超過50%。
面壁智能使用CloudMatrix384昇騰AI云服務,讓“小鋼炮”模型的推理業務性能得到了2.7倍的提升。
360正在開啟與昇騰AI云服務的全面合作,納米AI搜索已經實現了上百款大模型的高效協作,為用戶提供超級AI搜索服務。
03 寫在最后
巴克萊銀行曾在2025年初的研報中表示:AI推理計算需求將快速提升,預計將占到通用人工智能總計算需求的70%以上,推理計算的需求甚至將大幅超過訓練,達到后者的4.5倍。
誰解決了推理效率,誰就掌握了大模型落地的主導權。
由此再來審視CloudMatrix384超節點昇騰AI云服務,不僅僅是技術指標的躍升,而是系統級工程創新的深度驗證,重新定義了未來的算力范式:“芯片性能”不再是唯一的衡量尺度,以“整體系統效率”“推理成本”“模型結構適配性”構建新的競爭標準,為整個AI產業打開了一條更加高效、普惠、可持續的技術道路。
截止到目前,基于CloudMatrix384超節點的昇騰AI云服務已經在蕪湖、貴安、烏蘭察布、和林格爾等地的華為云數據中心上線,依托百TB級帶寬的光纖骨干網,10毫秒時延圈覆蓋了全國19個城市群。正在通過工程創新的勝利,承接大模型時代的產業落點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.