<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek的深度推理創新,用DualPath為智能體壓榨帶寬 | 筆記

      0
      分享至

      在智能體拼多輪交互、推理速度和極長上下文的時代,受限于芯片的DeepSeek,轉向從架構層面對推理系統進行深度創新。

      DeepSeek的最新論文,又為智能體添了一把火。它聯合北大、清華,提出了一個名為“DualPath”的推理系統。

      這引發了AI與半導體行業專業人士的關注。因為它嘗試解決行業如今普遍面臨的痛點:在Agentic AI場景下,系統瓶頸撞上了另一堵內存帶寬墻,GPU大部分時間并不是在算,而是在等。


      不同的推理場景,對應不同的工作負載,也對應不同的軟硬件協同需求。隨著智能體進入多輪交互范式,上下文長度隨著輪次迅速膨脹,但新增需要計算的token卻極少。論文給出的真實世界智能體交互軌跡數據顯示,KV Cache(鍵值緩存,一種存儲歷史注意力機制計算結果的技術)命中率通常超過95%。換句話說,每一輪推理,模型幾乎都在重復加載已經計算過的上下文。

      據DeepSeek給出的基于真實的編程任務的智能體交互軌跡,它單次任務平均交互157輪,平均上下文長度約為32.7k tokens,其中,平均追加長度(Append length)僅429tokens。即,KV Cache命中率=1-(429/32700)=98.7%。

      這意味著,在目前主流的預填充與解碼相互解耦(PD-disaggregated)的架構中,負責預填充(Prefill,傳統上的計算密集)的GPU,雖然增量token計算不高,但仍需重建完整注意力輸入狀態,忙著從外部存儲反復加載海量KV Cache,存儲NIC帶寬被長期擠爆;而負責解碼的(Decode,傳統上的內存密集)那一側,資源尚未被榨干。

      而且,當下算力增長速度快于網絡與存儲帶寬的不對稱演進,使得這種負載失衡被進一步放大;類似的不匹配,曾在標準自注意力的二階復雜度下放大了單卡的內存墻。


      為了刻畫Agentic AI的這一負載特性,DeepSeek還提出了緩存計算比(Cache-Compute Ratio)的指標。這個比值越高,系統越偏向帶寬受限而非算力受限。

      其中,對于DeepSeek-V3.2這樣的模型,在這個真實世界任務場景下,緩存算力比約為22GB/PFLOP。即,每進行1 PFLOP 的計算,需要搬運22GB的KV Cache數據。事實上,論文對比的其他大模型中,OpenAI旗下開源模型GPT-OSS-120B的“帶寬不足”壓力更大,這一指標在47-95左右。

      DualPath的核心思路,是把原本集中在單點的存儲讀取壓力,變成整個集群可調度的資源。DualPath允許KV Cache既可以直接讀入Prefill引擎,也可以先加載到Decode引擎,再通過高帶寬RDMA計算網絡轉發至Prefill引擎;Prefill 引擎拿到完整的KV Cache后,立刻開始計算。

      但是,重塑數據移動,又會帶來新的工程問題。包括細粒度數據傳輸,以與計算無縫重疊,最大程度提升吞吐量;額外的KV-Cache流與集合通信流的隔離,以減少相互影響;以及自適應的動態負載均衡,以迅速決定使用哪條路徑。為此,DeepSeek通過推理引擎 (Inference Engines)、流量管理器 (Traffic Manager)、請求調度器 (Request Scheduler)三大組件,共同配合完成DualPath推理系統的“減負”任務。

      這不是一次實驗,而是生產驗證,技術可以很快復制到其他模型或版本上。論文介紹,DualPath基于DeepSeek內部推理框架構建,底層CUDA技術棧與主流開源體系對齊,核心改動約5000行代碼,沒有新增任何新的硬件。而且,論文也嘗試驗證了這一推理系統可以線性擴展。DeepSeek并沒有公開這些代碼。

      DeepSeek在一個InfiniBand互連的Hopper架構GPU集群上驗證。最終,DualPath將離線推理的端到端吞吐量,最高提升1.87倍,并于在線服務場景中,實現平均1.96倍的吞吐提升。這顯示DualPath對帶寬瓶頸的緩解,在延遲敏感場景下尤為顯著。

      大模型的智能體時代,當模型規模(上下文長度)的增長速度超過了硬件(顯存容量、網絡帶寬)的進化速度,單純堆砌算力已不再高效。系統的性能瓶頸正從計算轉向數據(I/O)。

      未來的競爭核心,在于如何設計更聰明的系統架構——像Engram那樣優化內存使用,像DualPath那樣重塑數據流動路徑——來巧妙地繞開硬件限制,榨干現有資源的每一分潛力。這標志著LLM的發展重點,正從追求單一的模型規模,轉向對推理系統整體架構的深度創新。

      DeepSeek開始針對Agentic AI優化基礎設施了,DeepSeek-V4還會遠嗎?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      哈梅內伊開會時遭襲身亡,細節披露!美媒:伊朗防長等約40名官員在襲擊中死亡!伊方:總統等將領導國家

      哈梅內伊開會時遭襲身亡,細節披露!美媒:伊朗防長等約40名官員在襲擊中死亡!伊方:總統等將領導國家

      每日經濟新聞
      2026-03-01 12:09:04
      華為2款重磅新機定檔:3月23日,即將發布

      華為2款重磅新機定檔:3月23日,即將發布

      科技堡壘
      2026-03-02 12:09:50
      耶倫警告:伊朗局勢或阻礙美聯儲降息步伐

      耶倫警告:伊朗局勢或阻礙美聯儲降息步伐

      證券時報
      2026-03-03 08:55:03
      哪一刻意識到自己沒見過世面?網友:從此再沒喝過茶

      哪一刻意識到自己沒見過世面?網友:從此再沒喝過茶

      另子維愛讀史
      2025-12-13 21:53:50
      涉嫌嚴重違紀違法,賈文軍被查!

      涉嫌嚴重違紀違法,賈文軍被查!

      中國基金報
      2026-03-02 12:47:49
      斯塔默慫了?從吸取伊拉克教訓到對美開綠燈,英國主權還剩多少?

      斯塔默慫了?從吸取伊拉克教訓到對美開綠燈,英國主權還剩多少?

      幾人盡棄
      2026-03-03 14:53:55
      美軍公布最新陣亡人數

      美軍公布最新陣亡人數

      觀察者網
      2026-03-03 08:10:12
      燒高香了!網傳珠海一工廠漲工資,一線崗位一個月能多拿近1000元

      燒高香了!網傳珠海一工廠漲工資,一線崗位一個月能多拿近1000元

      火山詩話
      2026-03-03 08:48:42
      已經過氣,深居簡出的內賈德,怎么也成了斬首目標?

      已經過氣,深居簡出的內賈德,怎么也成了斬首目標?

      阿紿聊社會
      2026-03-03 14:13:18
      寧德塔吊司機 22 年駕齡 33 萬持有寧德時代八載,身家翻超十倍

      寧德塔吊司機 22 年駕齡 33 萬持有寧德時代八載,身家翻超十倍

      真實人物采訪
      2026-03-02 10:20:03
      《妻子的浪漫旅行2026》四對夫妻已確定,竟全員自帶“熱度”

      《妻子的浪漫旅行2026》四對夫妻已確定,竟全員自帶“熱度”

      楚楚號
      2026-03-03 06:47:23
      1964年錢學森被人投毒,毛主席得知后大怒,破例批準一項特殊待遇

      1964年錢學森被人投毒,毛主席得知后大怒,破例批準一項特殊待遇

      小莜讀史
      2026-02-28 11:13:03
      美以伊最新發聲

      美以伊最新發聲

      看看新聞Knews
      2026-03-02 16:59:09
      特朗普稱將很快宣布報復措施

      特朗普稱將很快宣布報復措施

      財聯社
      2026-03-03 09:19:23
      東契奇慶祝27歲生日!德約科維奇到場意義重大 他被盧卡稱為GOAT

      東契奇慶祝27歲生日!德約科維奇到場意義重大 他被盧卡稱為GOAT

      羅說NBA
      2026-03-03 06:52:20
      今日!CCTV5直播中國女足亞洲杯首秀+NBA+中國女排,網絡轉亞冠等

      今日!CCTV5直播中國女足亞洲杯首秀+NBA+中國女排,網絡轉亞冠等

      晚池
      2026-03-03 00:17:36
      洗草莓時,有人放食鹽,有人放面粉,果農:都不對,教你正確做法

      洗草莓時,有人放食鹽,有人放面粉,果農:都不對,教你正確做法

      阿龍美食記
      2026-02-28 10:49:43
      女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

      女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

      丫頭舫
      2026-02-10 22:18:05
      伊朗外長致電中國,對華作出承諾,王毅表態細微“差別”信號強烈

      伊朗外長致電中國,對華作出承諾,王毅表態細微“差別”信號強烈

      知法而形
      2026-03-03 14:58:07
      陳若琳終于等到了 夢想成真的好歸宿!喜上加喜幸福來得太突然了

      陳若琳終于等到了 夢想成真的好歸宿!喜上加喜幸福來得太突然了

      阿廢冷眼觀察所
      2026-03-03 10:52:56
      2026-03-03 15:55:00
      未盡研究 incentive-icons
      未盡研究
      新能源、人工智能、合成生物、地緣X
      319文章數 62關注度
      往期回顧 全部

      科技要聞

      擁抱AI的"牛馬":邊提效邊自嘲"自費"上班

      頭條要聞

      斯塔默:我們都記得伊拉克戰爭所犯的錯誤

      頭條要聞

      斯塔默:我們都記得伊拉克戰爭所犯的錯誤

      體育要聞

      35輪后積分-7,他們遭遇史上最早的降級

      娛樂要聞

      謝娜霸氣護夫:喊話薛之謙給張杰道歉

      財經要聞

      借殼上市納斯達克?小楊哥海外"洗白"之路

      汽車要聞

      長安汽車2月銷量151922輛 環比逆勢增長12.8%

      態度原創

      教育
      游戲
      家居
      旅游
      公開課

      教育要聞

      小升初簡算:98x98÷99,必考題

      《魔獸世界》至暗之夜現已全球同步上線!

      家居要聞

      萬物互聯 享科技福祉

      旅游要聞

      千米草龍騰飛!超10萬游客共赴歷山火把節

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版