網易首頁 > 網易號 > 正文申請入駐

單卡推理吞吐2300Tokens/s，昇騰AI云服務正在改寫算力法則

2025-07-03 14:35:46　來源: Alter聊科技

浙江舉報

分享至

半個月前的HDC 2025上，華為云全面上線了基于CloudMatrix384超節點的昇騰AI云服務，在行業內外掀起了不小的轟動。

讓我們印象最為深刻的是一組數據：與非超節點相比，CloudMatrix384超節點的單卡吞吐量從600Tokens/s提升到了2300Tokens/s；增量Token的輸出時延，也從原來的100ms降低到了50ms以下。

為了探究指標背后的技術密碼，我們找到了華為聯合硅基流動發表的一篇論文，詳細介紹了CloudMatrix的架構創新和CloudMatrix384的生產級實踐，并在測試結果中寫道——運行DeepSeek-R1時的單卡吞吐，已經超過英偉達H100。

在大模型的產業敘事從訓練轉向推理局面下，新一代昇騰AI云服務刷新紀錄的單卡吞吐能力，對整個算力行業意味著什么？

01 怎么做到的？一場“系統工程的勝利”

需要回答的第一個問題是：單卡吞吐量近乎4倍的性能躍升，CloudMatrix384超節點到底是怎么做到的？

答案在于工程創新。

為了提高大模型的推理性能，傳統的做法集中在單點優化：增加更多的節點數量，通過堆疊算力來提升推理能力；對模型進行量化與剪枝，減少不必要的計算量；對KV Cache進行優化，加速增量推理；以及利用自動圖優化工具將多個算子融合為一個高效核函數，減少中間內存拷貝……

可大模型的參數量仍在增長、MoE架構被廣泛采用、上下文長度急劇擴展，單點優化暴露出了越來越多的局限性：比如多卡并行推理的通信瓶頸、芯片與內存之間的耦合差、“整卡”調度的資源浪費等等，無論是吞吐性能，還是推理成本，均已經滿足不了快速增長的應用部署需求。

CloudMatrix384超節點提出了新的設計架構，不同于簡單的“算力疊加”，進一步實現了一切可池化、一切皆對等、一切可組合。

理解了三個“一切”，也就讀懂了工程創新的價值。

一切可池化：通過統一的、超高性能的網絡（MatrixLink），將NPU、CPU、內存、網絡等資源解耦，形成可獨立擴展的資源池。

一切皆對等：有別于傳統GPU為中心的計算范式，資源池里的所有資源不再是“主從式”關系，而是更高效、更靈活的對等架構。

一切可組合：意思是CloudMatrix384超節點池化的所有資源，可以根據不同的任務需求，像搭積木一樣進行靈活調配組合。

用一句話來總結：CloudMatrix384超節點將384顆昇騰NPU和192顆鯤鵬CPU通過全新高速網絡MatrixLink全對等互聯，形成了一臺擁有超大帶寬、超大內存、超高算力的超級“AI服務器”。

之所以采用全對等互聯的架構，目的是為了匹配大模型的訓推任務，特別是MoE混合架構的大模型。

傳統集群模式下進行推理，要在每張單卡上分配所有“專家”，將所有問題都計算一遍，導致每個“專家”只能獲得少量的計算和通信能力。

而一個CloudMatrix384超節點可以支持數百個專家并行推理，實現“一卡一專家”模式，即每張卡只部署一個“專家”，集中處理所有相關問題，增加單次推理的批量大小，減少單位計算的調度開銷，大幅提升推理效率。同時，超節點還可以支持“一卡一算子任務”，靈活分配資源，提升任務并行處理，減少等待，將算力有效使用率（MFU）提升50%以上。

再比如大模型的推理過程分為Prefill和Decode兩個階段，Prefill生成KV Cache，Decode使用和更新KV Cache。CloudMatrix384超節點的解耦式共享內存池，可以保存更多的KV Cache，讓Prefill和Decode任務更快、更均衡地訪問KV Cache，大幅降低系統延遲。

也就是說，2300Tokens/s的單卡推理吞吐量和50ms以下的輸出延遲，可以歸結為一場“系統工程的勝利”。在摩爾定律逐漸放緩，單卡算力提升有限的背景下，通過重構計算互聯架構，實現了整體系統級最優，完成了國產算力從“能用”到“好用”的跨越。

02 改變了什么？大模型落地“越過山丘”

進入2025年后，大模型的角色快速蛻變，走出了實驗室，在政務、金融、醫療、能源等領域加速落地。

但在落地過程中，響應慢、吞吐低、成本高等現實問題，成了不少企業在部署大模型時難以繞開的“瓶頸”，不僅拖慢了業務節奏，還拉高了技術回報的門檻。如果說“訓得好”是一場軍備競賽，“用得起”則是產業拐點。

華為在工程創新上的“彎道超車”，為大模型落地部署的挑戰，提供了一種經過驗證的解題范式。

先從大模型訓練來看。

萬億、十萬億參數的大模型訓練任務，催生了萬卡乃至十萬卡的集群需求，也帶來了算力緊缺的“危機”。

一個樂觀的消息在于，在云數據中心，CloudMatrix384超節點最高可以將432個超節點級聯成16萬卡的超大集群，提供10萬PFlops的算力。其中一個關鍵指標是線性度，即節點數量增加后，性能是否能“按比例提升”。目前CloudMatrix384萬卡集群的線性度已經超過95%，實現了性能提升與資源擴展的比例接近1:1，可同時支持1300個千億參數大模型訓練。

為了幫助客戶最優使用資源，CloudMatrix384超節點昇騰AI云服務還支持訓推算力一體部署，比如“日推夜訓”模式，白天推理，晚上訓練；以及“40天長穩訓練、10分鐘快速恢復”能力，保障長周期訓練的穩定性和中斷后的快速恢復。

更深刻的影響在于推理層面。

正如前面所提到的，CloudMatrix384超節點的單卡吞吐量提升到了2300Tokens/s，一同被改變的還有推理成本。

根據一位知乎網友的方式推算：單卡吞吐量2300Tokens/s，每小時可以產出828萬Token，每小時租金按照15元計算，百萬Token的成本約為1.8元，推理成本比英偉達的GPU方案還要低。

在大模型推理領域，有一個著名的“不可能三角”——推理成本低、響應速度快、輸出準確性高幾乎不可能同時滿足。

CloudMatrix384超節點給出了否定的答案，以DeepSeek-R1為例，有256個固定專家、32個共享專家，CloudMatrix384超節點的“一卡一專家”模式完美契合了DeepSeek-R1的推理需求，保障推理性能的同時，仍可以實現高吞吐、低時延的目標。

在“推理成本決定最終勝利”的大模型競賽中，CloudMatrix384超節點可以說是現階段的“最優解”，在技術上攻克了響應速度、吞吐能力與輸出準確性的三重矛盾，為千行萬業搬開了大模型落地的“大山”。

可以佐證的案例有很多。

新浪基于CloudMatrix384昇騰AI云服務，為“智慧小浪”智能服務體系構建了統一的推理平臺，推理的交付效率提升超過50%。

面壁智能使用CloudMatrix384昇騰AI云服務，讓“小鋼炮”模型的推理業務性能得到了2.7倍的提升。

360正在開啟與昇騰AI云服務的全面合作，納米AI搜索已經實現了上百款大模型的高效協作，為用戶提供超級AI搜索服務。

03 寫在最后

巴克萊銀行曾在2025年初的研報中表示：AI推理計算需求將快速提升，預計將占到通用人工智能總計算需求的70%以上，推理計算的需求甚至將大幅超過訓練，達到后者的4.5倍。

誰解決了推理效率，誰就掌握了大模型落地的主導權。

由此再來審視CloudMatrix384超節點昇騰AI云服務，不僅僅是技術指標的躍升，而是系統級工程創新的深度驗證，重新定義了未來的算力范式：“芯片性能”不再是唯一的衡量尺度，以“整體系統效率”“推理成本”“模型結構適配性”構建新的競爭標準，為整個AI產業打開了一條更加高效、普惠、可持續的技術道路。

截止到目前，基于CloudMatrix384超節點的昇騰AI云服務已經在蕪湖、貴安、烏蘭察布、和林格爾等地的華為云數據中心上線，依托百TB級帶寬的光纖骨干網，10毫秒時延圈覆蓋了全國19個城市群。正在通過工程創新的勝利，承接大模型時代的產業落點。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.