<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      不換GPU,性能飆升2.8倍!英偉達用軟件暴打摩爾定律

      0
      分享至


      新智元報道

      編輯:peter東

      【新智元導讀】MoE模型的稀疏激活本是優勢,卻常陷通信瓶頸。NVIDIA以軟件為利劍,通過程序化依賴啟動和全對全通信革新,在三個月內將GB200的單GPU吞吐提升2.8倍,真正釋放Blackwell硬件潛力。

      2026年1月8日,NVIDIA再次用硬核數據刷新AI推理的性能上限。

      英偉達官網披露:基于Blackwell架構的推理軟件棧升級,讓混合專家模型(MoE)的推理效率迎來「階躍式」突破——

      單GPU吞吐飆升2.8倍,顯著降低了推理成本。

      GB200 NVL72:為MoE而生

      英偉達為何這次能只使用軟件升級就實現如此顯著的性能提升,這歸因于MoE模型的特殊性。

      以DeepSeek-R1為例,這個6710億參數的稀疏MoE模型,每次推理僅激活370億參數(「稀疏激活」),看似「輕量」,實則暗藏算力挑戰:專家模塊間的動態路由需要高頻數據交換,預填充(prefill)與解碼(decode)階段的計算負載差異大,傳統架構極易因通信瓶頸或精度損失陷入「性能墻」。同時MoE架構中的多個模型需要頻繁通信。

      英偉達給出的應對之法,是在本身的硬件基礎上,通過軟件針對性升級,從而發揮出硬件的潛力。


      圖1:GB200 NVL72機柜

      GB200 NVL72機架級平臺是本次突破的「物理基石」。

      它通過第五代NVLink互連72塊Blackwell GPU,GPU之間具有1800GB/s雙向帶寬高速連接——這一設計是基于稀疏 MoE 架構模型專門進行的優化,相當于給72個「專家大腦」裝上了「超高速神經突觸」,讓專家間的數據交換告別「擁堵」。

      軟件層面的更新,首先是NVFP4四比特浮點格式。

      相比傳統FP4,NVFP4通過NVIDIA自研的數值分布優化,在壓縮數據量的同時,最大限度保留了模型精度(這對MoE的稀疏激活至關重要,避免因精度損失導致路由錯誤)。

      配合硬件級NVFP4加速單元,Blackwell讓模型使用低精度計算,但卻能夠相比其他 FP4 格式,具有更高的準確性。


      圖2:在 HGX B200 上,開啟NVFP4與FP8時的吞吐量與交互性曲線對比

      此外,「分解服務」(disaggregated serving)策略進一步釋放了GB200的潛力:將預填充(計算密集型)與解碼(內存密集型)分配到不同GPU組,利用NVLink Switch的靈活拓撲實現「計算-內存」解耦,避免單一資源成為瓶頸。

      軟件引擎

      TensorRT-LLM三個月狂飆2.8倍吞吐

      如果說硬件是「基礎」,軟件則是「引擎調校」。NVIDIA TensorRT-LLM開源庫的近期優化,讓GB200 NVL72在DeepSeek-R1上的單GPU吞吐,過去三個月直接飆升2.8倍。

      具體來看,三大優化堪稱「性能催化劑」:

      1、程序化依賴啟動(PDL)

      通過減少內核啟動延遲,讓GPU「時刻待命」,尤其在低交互性(高吞吐)場景下,顯著降低「空轉」損耗;

      2、底層內核優化

      針對Blackwell Tensor Core的微架構特性,重構計算流水線,讓每一份算力都用在「刀刃」上;

      3、全對全通信原語革新

      消除接收端中間緩沖區,直接減少數據傳輸的「繞路成本」——這對MoE的專家間高頻通信而言,相當于減少了延遲。

      上述三項創新,使得GB200在運行DeepSeek R1時,相比2025年10月的軟件版本,獲得更高的吞吐量。


      圖3:軟件更新給GB200帶來的性能提升

      隨著AI從「能用」走向「好用」,用戶對交互性的要求激增——聊天機器人要「秒回」,代碼助手要「實時補全」,而吞吐量的上升,意味著更低的延遲。

      小機柜也適用,

      HGX B200也能跑滿足DeepSeek

      并非所有場景都需要GB200 NVL72這樣的包含72塊顯卡的「巨無霸」。

      對于風冷部署的企業或云服務商,NVIDIA HGX B200(8卡Blackwell)同樣交出了驚艷答卷——其核心武器是多token預測(MTP)NVFP4的組合拳。

      傳統推理中,模型逐token生成,每一步都要等待前一步完成;而MTP通過預測多個候選token(而非單個),讓GPU在一次計算中覆蓋更多生成步驟,相當于在解碼任務時批量處理,一次思考,多步輸出


      圖4:MTP及不同精度帶來的性能提升

      實測顯示,在1K/1K、8K/1K、1K/8K等多種輸入輸出序列組合下,MTP均顯著提升了吞吐量,且交互性越高(延遲要求越嚴),收益越明顯。

      當MTP遇上NVFP4,性能增益被進一步放大。NVFP4不僅通過四比特壓縮降低內存帶寬壓力,更依托Blackwell的張量核心實現高效計算。

      結合TensorRT-LLM與TensorRT Model Optimizer的全棧支持,HGX B200在保持精度的前提下,吞吐曲線隨MTP+NVFP4的啟用持續右移——意味著在相同交互性下能服務更多用戶,或在相同用戶數下提供更流暢的體驗。

      對企業與云服務商而言,現有Blackwell GPU通過軟件升級即可獲得2.8倍吞吐提升,相當于「免費擴容」,大幅延長硬件生命周期;對模型開發者,TensorRT-LLM 提供了一個高級的API。

      原生PyTorch架構給開發者提供了兼具易用性與擴展性的結果,這降低了優化門檻,讓更多人能聚焦模型創新而非底層調優

      這種「不依賴換硬件就能升級性能」的能力,讓英偉達在專業顯卡領域的護城河相比AMD,英特爾等競爭者更深。

      Blackwell架構+TensorRT-LLM的組合,在MoE推理問題上,做到了在「高精度、低延遲、高吞吐、低成本」間的既要又要。英偉達的護城河不止是芯片,更是那套能「從石頭里榨出血來」的軟件生態。

      參考資料:

      https://developer.nvidia.com/blog/delivering-massive-performance-leaps-for-mixture-of-experts-inference-on-nvidia-blackwell/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      如今回歸上海申花的他,已順利入選國足名單,未婚妻身份不一般

      如今回歸上海申花的他,已順利入選國足名單,未婚妻身份不一般

      科學發掘
      2026-04-27 11:00:37
      李嘉欣美貌不再,和許晉亨一同看演唱會,近照疑醫美過度缺點盡顯

      李嘉欣美貌不再,和許晉亨一同看演唱會,近照疑醫美過度缺點盡顯

      娛樂團長
      2026-04-27 20:27:36
      85 歲何守信回港!TVB 頂級飯局曝光,港圈半壁江山齊聚

      85 歲何守信回港!TVB 頂級飯局曝光,港圈半壁江山齊聚

      橙星文娛
      2026-04-27 13:23:53
      4月27日人民幣對美元中間價調升95個基點

      4月27日人民幣對美元中間價調升95個基點

      證券時報
      2026-04-27 09:44:06
      你的星座咋定的?12個比內娛還狗血的故事

      你的星座咋定的?12個比內娛還狗血的故事

      混知
      2026-04-21 16:17:16
      51歲周迅變樣:滿頭白發臉松垮,癟嘴像老奶奶,無兒無女成遺憾

      51歲周迅變樣:滿頭白發臉松垮,癟嘴像老奶奶,無兒無女成遺憾

      悅君兮君不知
      2026-03-20 12:19:00
      太瘆人!男子曬小區電梯圖,網友調侃豪華火化爐,評論區毛骨悚然

      太瘆人!男子曬小區電梯圖,網友調侃豪華火化爐,評論區毛骨悚然

      譚談社會
      2026-04-23 01:58:02
      克魯斯堡不眠夜!世界前二領跑,吳宜澤壓著塞爾比打

      克魯斯堡不眠夜!世界前二領跑,吳宜澤壓著塞爾比打

      羅納爾說個球
      2026-04-27 10:53:31
      民進黨高層竟敢偷偷離臺,大陸火速行動!美國不仁,鄭麗文就不義

      民進黨高層竟敢偷偷離臺,大陸火速行動!美國不仁,鄭麗文就不義

      潮鹿逐夢
      2026-04-27 16:00:04
      兵敗如山倒!國產新能源或已經證明:中國壓根不需要二線豪華品牌

      兵敗如山倒!國產新能源或已經證明:中國壓根不需要二線豪華品牌

      詩酒趁的年華
      2026-04-24 18:12:26
      張雪峰離世一個月,多位愛將接連離職,真相扎心:情懷不能當飯吃

      張雪峰離世一個月,多位愛將接連離職,真相扎心:情懷不能當飯吃

      天馬幸福的人生
      2026-04-27 00:16:15
      馬加爵死刑背后:女同學透露一個難以啟齒的秘密

      馬加爵死刑背后:女同學透露一個難以啟齒的秘密

      深度報
      2026-04-27 22:10:57
      4個去中國化最徹底的國家,一個已全盤西化,一個正試圖恢復漢字

      4個去中國化最徹底的國家,一個已全盤西化,一個正試圖恢復漢字

      你是我心中最美星空
      2026-04-26 07:15:09
      國家電網第二批錄了10500人,清華才7個,一所你沒聽過的學校進了444人

      國家電網第二批錄了10500人,清華才7個,一所你沒聽過的學校進了444人

      老滿說高考
      2026-04-24 20:13:49
      美光科技、閃迪、西部數據、希捷科技等美股存儲股,盤前均漲約2%

      美光科技、閃迪、西部數據、希捷科技等美股存儲股,盤前均漲約2%

      每日經濟新聞
      2026-04-27 18:35:09
      綠軍128-96狂勝76人,恩比德該被交易!東部懸念不大,騎士很絕望

      綠軍128-96狂勝76人,恩比德該被交易!東部懸念不大,騎士很絕望

      毒舌NBA
      2026-04-27 09:47:46
      寶媽花近20萬,住月子中心,月子餐是油炸食品,嬰兒床很多小蟲子

      寶媽花近20萬,住月子中心,月子餐是油炸食品,嬰兒床很多小蟲子

      川渝視覺
      2026-04-27 22:30:05
      一個正處級干部退休后的真實生活:落差比想象中大

      一個正處級干部退休后的真實生活:落差比想象中大

      細說職場
      2026-04-27 14:11:52
      6月新規來了!3類常見病三甲不再接診,今后看病別再跑錯地方

      6月新規來了!3類常見病三甲不再接診,今后看病別再跑錯地方

      復轉這些年
      2026-04-26 18:48:03
      亞冠冠軍次數榜:新月4冠歷史第一;韓國球隊共12次奪冠最多

      亞冠冠軍次數榜:新月4冠歷史第一;韓國球隊共12次奪冠最多

      懂球帝
      2026-04-27 12:29:18
      2026-04-27 23:16:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15077文章數 66815關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4上線三天,第一批實測出來了

      頭條要聞

      水庫放水21人被困下游河灘 有人讓家人踩肩頭爬樹避險

      頭條要聞

      水庫放水21人被困下游河灘 有人讓家人踩肩頭爬樹避險

      體育要聞

      最抽象的天才,正在改變瓜迪奧拉

      娛樂要聞

      黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

      財經要聞

      Meta 140億收購Manus遭中國發改委否決

      汽車要聞

      不那么小眾也可以 smart的路會越走越寬

      態度原創

      房產
      藝術
      教育
      時尚
      家居

      房產要聞

      信號!海南商業版圖,迎來大變局!

      藝術要聞

      你絕對想不到,攝影能讓她成為女神!

      教育要聞

      京雄學子共探一日科技營

      絲巾的10種系法,愛美的女人必看

      家居要聞

      江景風格 流動的秩序

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久精品国产99精品亚洲| 日本精品极品视频在线| 99热色| 内射中出高清晰| 日韩91| 中文字幕熟女一区二区三区| 男人的天堂无码动漫av| 亚洲熟女av一区激情| 摸丰满大乳奶水www免费| 中文字幕亚洲综合第一页| 成人无码小视频在线观看| 亚洲国产精彩中文乱码av| 大香伊蕉在人线国产网站首页| 97香蕉碰碰人妻国产欧美| 99在线免费观看| 亚洲精品成人av久久久| 亚洲精品久久久蜜桃| 特级欧美成人性a片| 免费av网站| 中文字幕午夜福利片午夜福利片97| 18禁真人抽搐一进一出在线| 青青草视频在线观看播放| 麻豆妓女爽爽一区二区三| www.成人网| 人妻熟女av一区二区三区| 日本人妻中文| 人妻中文系列| 老色鬼在线精品视频在线观看| 麻豆国产精品视频| 国产精品疯狂输出jk草莓视频| 少妇宾馆粉嫩10p| 亚洲AV在线观看| 欧美日韩中文字幕久久伊人| 亚洲国产精品久久精品| 亚洲人成网站18禁止无码| 欧美自拍嘿咻内射在线观看 | 久久中文字幕无码不卡一二区| 黄页网站视频| 亚洲av中文久久精品国内| 无码国产精品一区二区色情男同| 韩国福利一区二区美女视频|