<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      單卡推理吞吐2300Tokens/s,昇騰AI云服務正在改寫算力法則

      0
      分享至



      半個月前的HDC 2025上,華為云全面上線了基于CloudMatrix384超節點的昇騰AI云服務,在行業內外掀起了不小的轟動。

      讓我們印象最為深刻的是一組數據:與非超節點相比,CloudMatrix384超節點的單卡吞吐量從600Tokens/s提升到了2300Tokens/s;增量Token的輸出時延,也從原來的100ms降低到了50ms以下。

      為了探究指標背后的技術密碼,我們找到了華為聯合硅基流動發表的一篇論文,詳細介紹了CloudMatrix的架構創新和CloudMatrix384的生產級實踐,并在測試結果中寫道——運行DeepSeek-R1時的單卡吞吐,已經超過英偉達H100。

      在大模型的產業敘事從訓練轉向推理局面下,新一代昇騰AI云服務刷新紀錄的單卡吞吐能力,對整個算力行業意味著什么?

      01 怎么做到的?一場“系統工程的勝利”

      需要回答的第一個問題是:單卡吞吐量近乎4倍的性能躍升,CloudMatrix384超節點到底是怎么做到的?

      答案在于工程創新。

      為了提高大模型的推理性能,傳統的做法集中在單點優化:增加更多的節點數量,通過堆疊算力來提升推理能力;對模型進行量化與剪枝,減少不必要的計算量;對KV Cache進行優化,加速增量推理;以及利用自動圖優化工具將多個算子融合為一個高效核函數,減少中間內存拷貝……

      可大模型的參數量仍在增長、MoE架構被廣泛采用、上下文長度急劇擴展,單點優化暴露出了越來越多的局限性:比如多卡并行推理的通信瓶頸、芯片與內存之間的耦合差、“整卡”調度的資源浪費等等,無論是吞吐性能,還是推理成本,均已經滿足不了快速增長的應用部署需求。

      CloudMatrix384超節點提出了新的設計架構,不同于簡單的“算力疊加”,進一步實現了一切可池化、一切皆對等、一切可組合。

      理解了三個“一切”,也就讀懂了工程創新的價值。

      一切可池化:通過統一的、超高性能的網絡(MatrixLink),將NPU、CPU、內存、網絡等資源解耦,形成可獨立擴展的資源池。

      一切皆對等:有別于傳統GPU為中心的計算范式,資源池里的所有資源不再是“主從式”關系,而是更高效、更靈活的對等架構。

      一切可組合:意思是CloudMatrix384超節點池化的所有資源,可以根據不同的任務需求,像搭積木一樣進行靈活調配組合。

      用一句話來總結:CloudMatrix384超節點將384顆昇騰NPU和192顆鯤鵬CPU通過全新高速網絡MatrixLink全對等互聯,形成了一臺擁有超大帶寬、超大內存、超高算力的超級“AI服務器”。

      之所以采用全對等互聯的架構,目的是為了匹配大模型的訓推任務,特別是MoE混合架構的大模型。

      傳統集群模式下進行推理,要在每張單卡上分配所有“專家”,將所有問題都計算一遍,導致每個“專家”只能獲得少量的計算和通信能力。

      而一個CloudMatrix384超節點可以支持數百個專家并行推理,實現“一卡一專家”模式,即每張卡只部署一個“專家”,集中處理所有相關問題,增加單次推理的批量大小,減少單位計算的調度開銷,大幅提升推理效率。同時,超節點還可以支持“一卡一算子任務”,靈活分配資源,提升任務并行處理,減少等待,將算力有效使用率(MFU)提升50%以上。

      再比如大模型的推理過程分為Prefill和Decode兩個階段,Prefill生成KV Cache,Decode使用和更新KV Cache。CloudMatrix384超節點的解耦式共享內存池,可以保存更多的KV Cache,讓Prefill和Decode任務更快、更均衡地訪問KV Cache,大幅降低系統延遲。



      也就是說,2300Tokens/s的單卡推理吞吐量和50ms以下的輸出延遲,可以歸結為一場“系統工程的勝利”。在摩爾定律逐漸放緩,單卡算力提升有限的背景下,通過重構計算互聯架構,實現了整體系統級最優,完成了國產算力從“能用”到“好用”的跨越。

      02 改變了什么?大模型落地“越過山丘”

      進入2025年后,大模型的角色快速蛻變,走出了實驗室,在政務、金融、醫療、能源等領域加速落地。

      但在落地過程中,響應慢、吞吐低、成本高等現實問題,成了不少企業在部署大模型時難以繞開的“瓶頸”,不僅拖慢了業務節奏,還拉高了技術回報的門檻。如果說“訓得好”是一場軍備競賽,“用得起”則是產業拐點。

      華為在工程創新上的“彎道超車”,為大模型落地部署的挑戰,提供了一種經過驗證的解題范式。

      先從大模型訓練來看。

      萬億、十萬億參數的大模型訓練任務,催生了萬卡乃至十萬卡的集群需求,也帶來了算力緊缺的“危機”。

      一個樂觀的消息在于,在云數據中心,CloudMatrix384超節點最高可以將432個超節點級聯成16萬卡的超大集群,提供10萬PFlops的算力。其中一個關鍵指標是線性度,即節點數量增加后,性能是否能“按比例提升”。目前CloudMatrix384萬卡集群的線性度已經超過95%,實現了性能提升與資源擴展的比例接近1:1,可同時支持1300個千億參數大模型訓練。



      為了幫助客戶最優使用資源,CloudMatrix384超節點昇騰AI云服務還支持訓推算力一體部署,比如“日推夜訓”模式,白天推理,晚上訓練;以及“40天長穩訓練、10分鐘快速恢復”能力,保障長周期訓練的穩定性和中斷后的快速恢復。

      更深刻的影響在于推理層面。

      正如前面所提到的,CloudMatrix384超節點的單卡吞吐量提升到了2300Tokens/s,一同被改變的還有推理成本。

      根據一位知乎網友的方式推算:單卡吞吐量2300Tokens/s,每小時可以產出828萬Token,每小時租金按照15元計算,百萬Token的成本約為1.8元,推理成本比英偉達的GPU方案還要低。

      在大模型推理領域,有一個著名的“不可能三角”——推理成本低、響應速度快、輸出準確性高幾乎不可能同時滿足。

      CloudMatrix384超節點給出了否定的答案,以DeepSeek-R1為例,有256個固定專家、32個共享專家,CloudMatrix384超節點的“一卡一專家”模式完美契合了DeepSeek-R1的推理需求,保障推理性能的同時,仍可以實現高吞吐、低時延的目標。

      在“推理成本決定最終勝利”的大模型競賽中,CloudMatrix384超節點可以說是現階段的“最優解”,在技術上攻克了響應速度、吞吐能力與輸出準確性的三重矛盾,為千行萬業搬開了大模型落地的“大山”。

      可以佐證的案例有很多。

      新浪基于CloudMatrix384昇騰AI云服務,為“智慧小浪”智能服務體系構建了統一的推理平臺,推理的交付效率提升超過50%。

      面壁智能使用CloudMatrix384昇騰AI云服務,讓“小鋼炮”模型的推理業務性能得到了2.7倍的提升。

      360正在開啟與昇騰AI云服務的全面合作,納米AI搜索已經實現了上百款大模型的高效協作,為用戶提供超級AI搜索服務。

      03 寫在最后

      巴克萊銀行曾在2025年初的研報中表示:AI推理計算需求將快速提升,預計將占到通用人工智能總計算需求的70%以上,推理計算的需求甚至將大幅超過訓練,達到后者的4.5倍。

      誰解決了推理效率,誰就掌握了大模型落地的主導權。

      由此再來審視CloudMatrix384超節點昇騰AI云服務,不僅僅是技術指標的躍升,而是系統級工程創新的深度驗證,重新定義了未來的算力范式:“芯片性能”不再是唯一的衡量尺度,以“整體系統效率”“推理成本”“模型結構適配性”構建新的競爭標準,為整個AI產業打開了一條更加高效、普惠、可持續的技術道路。

      截止到目前,基于CloudMatrix384超節點的昇騰AI云服務已經在蕪湖、貴安、烏蘭察布、和林格爾等地的華為云數據中心上線,依托百TB級帶寬的光纖骨干網,10毫秒時延圈覆蓋了全國19個城市群。正在通過工程創新的勝利,承接大模型時代的產業落點。

      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗稱其補充武器能力在停火期間超過戰前水平

      伊朗稱其補充武器能力在停火期間超過戰前水平

      新華社
      2026-04-19 18:49:07
      浙江女子稱花近24萬買理想i6后

      浙江女子稱花近24萬買理想i6后

      新浪財經
      2026-04-19 11:05:34
      孫中山曾說:中國要想在亞洲當大國,必須把首都設在這三個地方

      孫中山曾說:中國要想在亞洲當大國,必須把首都設在這三個地方

      棠棣分享
      2026-04-18 15:39:18
      孫中山長子孫科 1949 年拒隨蔣介石赴臺,這位爭議人物結局如何

      孫中山長子孫科 1949 年拒隨蔣介石赴臺,這位爭議人物結局如何

      磊子講史
      2025-12-23 17:43:11
      巴基斯坦總理和伊朗總統通話

      巴基斯坦總理和伊朗總統通話

      財聯社
      2026-04-20 01:54:04
      親哥去世弟弟請假未獲批去奔喪被辭,公司:喪假主要適用于直系親屬,且其未經同意請假;法院判了

      親哥去世弟弟請假未獲批去奔喪被辭,公司:喪假主要適用于直系親屬,且其未經同意請假;法院判了

      極目新聞
      2026-02-08 23:54:17
      2-1擊敗阿森納,曼城近4場比賽對BIG6對手取得4連勝

      2-1擊敗阿森納,曼城近4場比賽對BIG6對手取得4連勝

      懂球帝
      2026-04-20 02:23:04
      奪命電飯煲已被曝光!米飯進去秒變毒藥,內膽是肝癌催化劑?

      奪命電飯煲已被曝光!米飯進去秒變毒藥,內膽是肝癌催化劑?

      岐黃傳人孫大夫
      2026-03-16 18:47:19
      馬斯克來抖音賣老干媽了??

      馬斯克來抖音賣老干媽了??

      量子位
      2026-04-19 12:48:21
      馬斯克發布新芯片,性能狂飆4000%

      馬斯克發布新芯片,性能狂飆4000%

      林子說事
      2026-04-19 18:00:38
      爆料!全紅嬋網暴案真正的目的,原來是這個!

      爆料!全紅嬋網暴案真正的目的,原來是這個!

      藝利森
      2026-04-18 09:19:15
      張豆豆曝孫楊干涉自己交友:他被好幾個朋友重創過

      張豆豆曝孫楊干涉自己交友:他被好幾個朋友重創過

      懂球帝
      2026-04-17 10:55:07
      英超一夜變天!謝爾基神仙球哈蘭德制勝,曼城2-1阿森納劍指冠軍

      英超一夜變天!謝爾基神仙球哈蘭德制勝,曼城2-1阿森納劍指冠軍

      釘釘陌上花開
      2026-04-20 01:28:21
      歐文:全世界都認為曼城會贏下天王山之戰,但我看好阿森納

      歐文:全世界都認為曼城會贏下天王山之戰,但我看好阿森納

      懂球帝
      2026-04-19 22:36:59
      價格大漲650%,國產光纖全球爆單,年內誕生3只翻倍股

      價格大漲650%,國產光纖全球爆單,年內誕生3只翻倍股

      21世紀經濟報道
      2026-04-19 08:51:17
      43歲賈玲近況:退出春晚、淡出綜藝,解散公司,她把自己作沒了?

      43歲賈玲近況:退出春晚、淡出綜藝,解散公司,她把自己作沒了?

      夢錄的西方史話
      2025-12-22 18:47:01
      【深圳故事】龍崗業主:千萬身家,被小區熟人4個月騙走3200萬。

      【深圳故事】龍崗業主:千萬身家,被小區熟人4個月騙走3200萬。

      美中融合
      2026-04-19 17:49:50
      夠中國用2萬年!我國攻克世界級難題,搶先美國建造"無限能源"

      夠中國用2萬年!我國攻克世界級難題,搶先美國建造"無限能源"

      蜉蝣說
      2026-04-13 10:13:30
      朝鮮想買中國的殲10CE戰斗機,結果被拒絕了

      朝鮮想買中國的殲10CE戰斗機,結果被拒絕了

      安安說
      2026-04-19 14:59:08
      1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

      1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

      干史人
      2026-04-14 21:10:03
      2026-04-20 03:12:49
      Alter聊科技 incentive-icons
      Alter聊科技
      探究產業興衰,專注商業解讀。
      1499文章數 168126關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內娛隔空掀桌第一人

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      本地
      健康
      藝術
      時尚
      公開課

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      干細胞抗衰4大誤區,90%的人都中招

      藝術要聞

      超模施特洛耶克寫真曝光,簡直美到窒息,別錯過!

      裝修“精神角落”,就是這么上癮

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版