<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek深夜發(fā)論文,V4前奏來了?聯手清北破GPU難題,智能體大爆炸

      0
      分享至


      新智元報道

      編輯:KingHZ Aeneas

      【新智元導讀】一夜之間,AI圈再次地震!這次不是DepSeek V4,而是DeepSeek直接換了推理架構。GPU空轉的問題,被他們硬生生砍掉了一半。

      昨天,DeepSeek-V4要來的消息紛紛揚揚,整個AI圈都被攪動得心緒不寧,隔壁的美國同行們都快崩了。

      結果就在昨晚,DeepSeek突然又雙叒叕更新了!他們聯手北大、清華的團隊,發(fā)布了針對智能體的推理框架DualPath。

      這個框架的核心目標,就是緩解因大規(guī)模KV-Cache從外部存儲讀取而帶來的I/O瓶頸問題,避免算力資源因數據加載速度受限而被閑置。


      鏈接:https://arxiv.org/abs/2602.21548

      具體來說,此次架構升級引入了「Storage-to-Decode」的第二條加載通路,通過「雙路徑KV-Cache加載」機制,有效改善了PD分離架構下的讀取瓶頸和資源失衡問題。

      可以說,這個框架直接劍指多輪AI智能體(agentic)場景下的大語言模型推理性能瓶頸——

      以后,DeepSeek+OpenClaw的玩法兒不遠了!

      還是熟悉的味道,DeepSeek在AI基礎設施上的提升一如既往的出色,如今邁入智能體與強化學習時代——

      離線推理吞吐量最高提升1.87倍,在線場景下每秒智能體運行次數提升1.96倍。


      論文一出,學界直呼:如此極致的算力管理,如此精準的調控,DeepSeek團隊是真正的經濟學大師!

      網友直評:這正是贏得AI大戰(zhàn)的關鍵基礎設施思維。


      可以說,這篇論文充分體現出DeepSeek的野心——把AI做成像水氣電一樣的基礎設施!


      OpenClaw引爆智能體

      DeepSeek窺天機

      Claude Code\Cowork、OpenClaw等智能體的爆火,毫無爭議地點燃了Agent黃金時代的開年熱潮!

      DeepSeek發(fā)現,在智能體推理任務期間,GPU存在嚴重的利用率不足問題。

      一個Agent任務有多長?幾十分鐘,有時幾小時。它要寫代碼、查文檔、 跑測試,再回來改代碼。上下文幾百萬token,每一步都要快。

      這就帶來了一個巨大的技術債——KVCache(鍵值緩存)

      KV Cache是什么?一句話,它是AI的草稿紙。

      模型每生成一個token,都會把「思考痕跡」存下來;下次繼續(xù)寫,它要翻草稿;草稿越厚,占用顯存越多。

      為了讓AI記得上下文,我們必須把這些龐大的數據一直存在GPU的顯存(HBM)里。

      然而,HBM供不應求,死死卡住了AI行業(yè)的脖子。


      AI模型推理正演變?yōu)橐粓鰞却娓傎悺?/p>

      因為AI對HBM需求激增,消費級內存被停產,導致在短短幾個月內主流的內存DRAM價格漲了7倍!


      所以,把不需要立刻用到的記憶暫時挪到便宜的SSD或主內存里,下次要用時,再把它搬回來,這成了行業(yè)的出路。

      矛盾就在這里爆發(fā)了:傳統的推理架構是串行的。

      當AI需要調取舊記憶時,計算單元(Compute Unit)必須停下來,眼巴巴地等著數據通過帶寬有限的PCIe總線慢慢爬進顯存。

      DeepSeek的研究指出,在多輪智能體推理(Agentic Inference)的場景下,GPU竟然有大量時間是在「空轉」等待數據!

      他們發(fā)布了一些關于智能體編碼的真實世界數據,并定義了一個「緩存-計算比率」指標:該比例取決于模型類型、上下文和追加長度。

      他們從代表性編碼任務中收集的軌跡顯示,平均交互輪數為157,表明LLMs傾向于進行多輪交互。

      平均上下文長度為32.7k,而每次追加長度的平均值僅為429,這意味著KV緩存命中率高達98.7%。

      在此場景下,緩存-計算比(定義為KV緩存加載量與所需計算量之比)對于DeepSeek-V3.2約為22GB/PFLOP。


      由于每個節(jié)點上單塊存儲網卡的帶寬有限,KV緩存加載速度成為了瓶頸。


      近年來,網絡帶寬和HBM容量的增長落后于GPU FLOPS的增長,I/O計算比率下降了14.4倍。

      此外,較小的HBM容量限制了GPU內核可同時計算的token批次大小,阻礙了張量核心等計算單元被充分利用。

      第三,現有的LLM推理系統在不同引擎類型之間表現出嚴重的存儲網絡利用率不均衡。

      DeepSeek的黑科技:DualPath

      DeepSeek的DualPath架構,做了一件聽起來簡單、實現起來卻極具顛覆性的事:它把「思考」和「回憶」這兩件事,從串行變成了并行。

      在計算機科學中,這被稱為「計算與存儲訪問的解耦」(Decoupling Compute and Memory Access)。

      讓我們換個通俗的比喻。

      傳統架構是串行的:先把數據讀進顯存,讀完后,GPU才開始算。像下載電影,必須等100%,才能播放。

      而DualPath做了一件事:邊下載,邊播放。

      SemiAnalysis的技術團隊成員、高級工程師Jordan Nanos認為:

      DeepSeek在DualPath 論文中提出了一個超酷的點子!


      在目前流行的預填充-解碼分離系統中,命中token的KV緩存完全由預填充引擎直接從遠程存儲加載。這種設計將所有存儲I/O壓力集中在預填充端的網卡上,而解碼引擎端的網卡則基本處于空閑狀態(tài)。

      因此,無法充分利用聚合的存儲網絡帶寬。

      DeepSeek則另辟蹊徑:

      與其直接從本地NVMe(或 DRAM)將所有KV加載到 GPU 上并受限于本地PCIe總線帶寬,不如先將KV暫存到解碼 GPU服務器的DRAM 中,再通過GDRDMA將KV傳輸至預填充(prefill)GPU。


      DeepSeek設計了兩條獨立的流水線:

      1. 存儲路徑(Access Path):負責瘋狂地從SSD/DRAM中搬運KV Cache數據塊。

      2. 計算路徑(Compute Path):負責利用已經搬運好的數據塊立刻開始計算。


      他們將Prefill GPU定義為PE(Prefill Engines,預填充引擎),Decode同理;而SNIC表示存儲網卡,CNIC表示計算型網卡

      就像你看網劇一樣,不需要等電影下完,只要緩沖好前5秒,你就可以開始看了。

      后臺的下載和前臺的播放同時進行,互不干擾。


      Inter-Engine PE調度示意圖。八張GPU均屬于同一個PE引擎組,調度器會從中選擇最優(yōu)的一個(或一組)進行調度


      Intra-Engine Schedule示意圖。左:基于計算配額的批次選擇。右:應用計算配額前后的 GPU 時間線對比

      在技術實現上,DualPath利用了Chunk-based Streaming(塊式流處理)技術,將龐大的KV Cache切分成一個個小塊。


      當計算單元在處理「第N塊」記憶時,存儲單元已經悄悄地把「第N+1塊」預加載好了。


      DRAM緩沖區(qū)(PE緩沖區(qū)和DE緩沖區(qū))用于從層塊構建完整塊

      具體而言,DeepSeek的GPU顯存只需容納單層的KV向量即可處理一個請求,內部是這樣進行推理的:

      你發(fā)送一個請求(并緩存命中了一堆token),在推理過程中,當執(zhí)行LLM的一層時:下一層的KV向量從CPU加載,以滑動窗口的方式從磁盤加載之后那一層的KV。

      而且,該架構專為適配其基礎設施而設計。

      他們分析網絡接口卡(NIC)與DRAM帶寬,以找出實際可行的Prefill:Decode配置范圍。


      P表示預填充節(jié)點數;D表示解碼節(jié)點;g表示每個節(jié)點的GPU數量;B表示網卡的帶寬;s表示每臺機器的存儲網卡數量;M表示每臺機器的DRAM帶寬

      最佳結果是所有P:D從1:7到7:2。

      效果驚人:近2倍效果提升!

      在標準的代理推理基準測試中,DualPath將系統的吞吐量直接提升了1.96倍


      請注意,這不是10%或20%的微調,而是近乎200%的性能暴漲。

      在半導體日益逼近物理極限的今天,純軟件架構的優(yōu)化能帶來這種幅度的提升,堪稱神跡。

      這意味著,同樣的硬件成本,Agent的反應速度快了一倍;或者說,維持同樣的體驗,推理成本腰斬。

      他們使用一個智能體軌跡數據集,對DeepSeek V3.2的660B和27B版本以及Qwen 2.5-32B進行了評估。


      并在其推理框架中對比啟用與未啟用DualPath的性能,以及與SGLang(帶HiCache和Mooncake)的對比。


      基本上,DualPath能帶來近2倍的性能提升;下圖灰色條代表理論上限;JCT是離線場景(即強化學習rollout)下的作業(yè)完成時間。

      結果顯示,在在更大的批大小和更長的MAL下,DualPath的優(yōu)勢更加明顯。圖 7 展示了不同批大小和MAL配置下的JCT。

      在DS 660B上,DualPath相比Basic最高可實現1.87×的加速,并且性能接近 Oracle,表明KV-cache的I/O開銷基本被消除。


      在DS 27B上,DualPath相比Basic最高提升1.78×,但由于1P1D配置下存儲帶寬受限(見圖8),其性能仍比Oracle慢 1.09–1.85×。


      當追加token和生成token較短時,DualPath的優(yōu)勢更加明顯。

      如圖9所示,隨著追加長度增加,Basic的性能逐漸接近DualPath和Oracle。

      與Basic相比,在不同追加比例下,DualPath實現了1.82–1.99×的加速。


      此外,如圖8所示,DualPath在所有配置下平均實現1.64倍的加速(最高可達2.46倍)。

      這進一步驗證了:在智能體場景中,存儲帶寬是主要瓶頸。

      他們還調整了預填充與解碼(P:D)的比例,分別為1:2,1:1,2:1,看起來差別并不大,在這三種場景下性能大約提升了2倍。

      對于在線服務來說,似乎在更大模型上性能提升更顯著:


      APS表示每秒代理到達率;有SLO限制:TTFT<4秒,TPOT<50毫秒;用InferenceX的術語來說,交互性表示1/TPOT;所以50毫秒的TPOT等于每位用戶每秒20個token

      團隊還進行了消融研究,以將TTFT的改進和JCT歸因于所采用的不同技術。

      第一張圖是在不同APS下的堆疊柱狀圖,左側為使用DualPath的情況,右側為未使用的情況。時間按百分比分配給:

      Sch.表示調度

      A.表示分配

      R.表示讀取KV緩存

      PF.表示預填充

      因此你可以看到分配所花費的時間消失了,prefill所花費的時間減少了,而(相對而言)讀取KV和調度所花費的時間增加了


      第二張圖逐次加入三種技術時,對JCT的對比的總性能提升:

      • 分層預填充(layerwise prefill)占45%

      • 雙路徑加載貢獻了39%

      • 而調度算法負責最后的16%


      當這三種技術全部應用時,總體性能提升使得平均作業(yè)完成時間(JCT)加快了45%。

      他們最后提到,其系統在由1,152塊GPU組成的集群上支持4.8萬個并發(fā)智能體,配置為48P:96D。

      這是從2P:4D上的2000個智能體線性擴展而來的;還測試了44P:88D,也觀察到了同樣的線性擴展。


      一個有意義的限制在于未考慮工具調用的延遲。

      如果智能體在工具調用期間處于空閑狀態(tài),理論上你可以提高APS(并發(fā)數)

      但這也會導致工作集(KV緩存的大小)呈平方級增長,由于命中率降低,進一步加大了對DRAM和存儲的壓力

      也讓人質疑他們早前提出的緩存-計算比率,很可能會提高GB:PFLOPs表中的GB數值(再次附上截圖)


      從「算力為王」到「帶寬決勝」

      DualPath的誕生,不僅僅是一個技術優(yōu)化,它是一個信號。它宣告了Pre-filling(預填充)時代的終結,和Agentic Serving(智能體式服務)時代的正式確立。

      在過去,我們迷信算力。仿佛只要堆足夠多的H100、B200,AI就會無限變強。

      但DeepSeek用DualPath狠狠地打醒了行業(yè):當參數量不再是瓶頸,IO(輸入輸出)才是阿喀琉斯之踵。

      實際上,DeepSeek就是在構建AGI的高效「海馬體」。

      通過徹底榨干PCIe 6.0/7.0的帶寬,通過極致的軟硬件協同,DeepSeek正在把AI從「在線計算」的束縛中解放出來。

      如今,我們離真正的AGI,又近了一步。

      參考資料:

      https://arxiv.org/pdf/2602.21548

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      全網慌了!大量調料檢出致癌物,這3種別再往菜里放

      全網慌了!大量調料檢出致癌物,這3種別再往菜里放

      呼呼歷史論
      2026-02-26 14:13:57
      大S一對子女去醫(yī)院探望馬筱梅,11歲玥兒抱小弟弟的畫面好溫馨!

      大S一對子女去醫(yī)院探望馬筱梅,11歲玥兒抱小弟弟的畫面好溫馨!

      娛樂團長
      2026-02-27 12:27:55
      這次荷蘭沒話說了!中方正式宣布:更換國內供應商,從此不再合作

      這次荷蘭沒話說了!中方正式宣布:更換國內供應商,從此不再合作

      滄海旅行家
      2026-02-26 17:10:37
      6604萬元!“張治中公館”經多次法拍最終成交

      6604萬元!“張治中公館”經多次法拍最終成交

      揚子晚報
      2026-02-27 10:41:06
      曝中國擬對“肥宅快樂水”征稅,國外早有先例,既促進健康又增加稅收

      曝中國擬對“肥宅快樂水”征稅,國外早有先例,既促進健康又增加稅收

      知識圈
      2026-02-26 18:51:01
      尷尬!網傳春節(jié)河南老人去世,村里人都不幫忙,兒子請一條龍服務

      尷尬!網傳春節(jié)河南老人去世,村里人都不幫忙,兒子請一條龍服務

      火山詩話
      2026-02-26 09:22:19
      FIBA官方社媒稱“中國男籃偷走勝利”!評論區(qū)翻車

      FIBA官方社媒稱“中國男籃偷走勝利”!評論區(qū)翻車

      體壇周報
      2026-02-27 09:11:45
      杉杉集團破產,事實證明:美女主持人只會排節(jié)目,對管理無能為力

      杉杉集團破產,事實證明:美女主持人只會排節(jié)目,對管理無能為力

      來科點譜
      2026-02-27 07:29:21
      大爆冷!美國男籃僅兩人上雙主場輸多米尼加 吞世預賽首敗

      大爆冷!美國男籃僅兩人上雙主場輸多米尼加 吞世預賽首敗

      醉臥浮生
      2026-02-27 13:14:39
      我的愿望:退休后去俄羅斯服兵役一年

      我的愿望:退休后去俄羅斯服兵役一年

      不主流講話
      2026-02-26 21:19:20
      洗滌公司要求員工每天工作19小時,離職扣1個月工資?公司:收的貨多沒辦法;勞動監(jiān)察:將核實

      洗滌公司要求員工每天工作19小時,離職扣1個月工資?公司:收的貨多沒辦法;勞動監(jiān)察:將核實

      大風新聞
      2026-02-27 11:54:03
      賺大了!網友網購一條32GB DDR5內存 打開包裹目瞪口呆:竟收到十條

      賺大了!網友網購一條32GB DDR5內存 打開包裹目瞪口呆:竟收到十條

      快科技
      2026-02-27 09:37:04
      奔馳、寶馬、奧迪開年集體降價,銷售員:是否考慮新能源?

      奔馳、寶馬、奧迪開年集體降價,銷售員:是否考慮新能源?

      華夏時報
      2026-02-26 16:28:14
      美國剛繳納少量拖欠會費,特朗普妻子將“史無前例”主持聯合國安理會會議

      美國剛繳納少量拖欠會費,特朗普妻子將“史無前例”主持聯合國安理會會議

      紅星新聞
      2026-02-27 12:55:17
      獨生子女家庭一定要立遺囑,而且遺囑里一定要“加上這3句話”

      獨生子女家庭一定要立遺囑,而且遺囑里一定要“加上這3句話”

      娛樂圈見解說
      2026-02-26 19:40:20
      李巖益已任浙江省委常委、宣傳部部長

      李巖益已任浙江省委常委、宣傳部部長

      極目新聞
      2026-02-27 09:04:10
      震驚!網傳廣西某設計院普通員工年終獎144000元,月工資86699元

      震驚!網傳廣西某設計院普通員工年終獎144000元,月工資86699元

      火山詩話
      2026-02-27 12:08:36
      網暴谷愛凌后再出狠招!美國欲沒收其全部收入:這是背叛者的代價

      網暴谷愛凌后再出狠招!美國欲沒收其全部收入:這是背叛者的代價

      風過鄉(xiāng)
      2026-02-27 09:38:48
      女孩被打后續(xù):村民發(fā)聲,打人夫妻更多信息被扒,最高可判10年

      女孩被打后續(xù):村民發(fā)聲,打人夫妻更多信息被扒,最高可判10年

      天天熱點見聞
      2026-02-27 07:01:26
      小卡傷停快船惜敗森林狼吞3連敗 華子31分連中關鍵球蘭德爾10中1

      小卡傷停快船惜敗森林狼吞3連敗 華子31分連中關鍵球蘭德爾10中1

      醉臥浮生
      2026-02-27 13:41:48
      2026-02-27 14:28:49
      新智元 incentive-icons
      新智元
      AI產業(yè)主平臺領航智能+時代
      14602文章數 66644關注度
      往期回顧 全部

      科技要聞

      英偉達業(yè)績亮眼仍跌5% 兩大因素成核心隱憂

      頭條要聞

      牛彈琴:中國的兩個鄰國大打出手 傷亡相當慘重

      頭條要聞

      牛彈琴:中國的兩個鄰國大打出手 傷亡相當慘重

      體育要聞

      一場必須要贏的比賽,男籃何止擊敗了裁判

      娛樂要聞

      繼網暴谷愛凌后 美國欲沒收其全部收入

      財經要聞

      魅族手機,終成棄子?

      汽車要聞

      寶馬X5傳承版發(fā)布:給經典G05的一場體面謝幕?

      態(tài)度原創(chuàng)

      房產
      藝術
      本地
      教育
      公開課

      房產要聞

      巨虧160億后,這家房企巨頭,轉戰(zhàn)海南做貿易!

      藝術要聞

      紫氣東來,好運一整年!

      本地新聞

      津南好·四時總相宜

      教育要聞

      教育部實施學生體質強健計劃,減輕用眼負擔,把體育課還給孩子們

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版