在智能體拼多輪交互、推理速度和極長上下文的時代,受限于芯片的DeepSeek,轉向從架構層面對推理系統進行深度創新。
DeepSeek的最新論文,又為智能體添了一把火。它聯合北大、清華,提出了一個名為“DualPath”的推理系統。
這引發了AI與半導體行業專業人士的關注。因為它嘗試解決行業如今普遍面臨的痛點:在Agentic AI場景下,系統瓶頸撞上了另一堵內存帶寬墻,GPU大部分時間并不是在算,而是在等。
![]()
不同的推理場景,對應不同的工作負載,也對應不同的軟硬件協同需求。隨著智能體進入多輪交互范式,上下文長度隨著輪次迅速膨脹,但新增需要計算的token卻極少。論文給出的真實世界智能體交互軌跡數據顯示,KV Cache(鍵值緩存,一種存儲歷史注意力機制計算結果的技術)命中率通常超過95%。換句話說,每一輪推理,模型幾乎都在重復加載已經計算過的上下文。
據DeepSeek給出的基于真實的編程任務的智能體交互軌跡,它單次任務平均交互157輪,平均上下文長度約為32.7k tokens,其中,平均追加長度(Append length)僅429tokens。即,KV Cache命中率=1-(429/32700)=98.7%。
這意味著,在目前主流的預填充與解碼相互解耦(PD-disaggregated)的架構中,負責預填充(Prefill,傳統上的計算密集)的GPU,雖然增量token計算不高,但仍需重建完整注意力輸入狀態,忙著從外部存儲反復加載海量KV Cache,存儲NIC帶寬被長期擠爆;而負責解碼的(Decode,傳統上的內存密集)那一側,資源尚未被榨干。
而且,當下算力增長速度快于網絡與存儲帶寬的不對稱演進,使得這種負載失衡被進一步放大;類似的不匹配,曾在標準自注意力的二階復雜度下放大了單卡的內存墻。
![]()
為了刻畫Agentic AI的這一負載特性,DeepSeek還提出了緩存計算比(Cache-Compute Ratio)的指標。這個比值越高,系統越偏向帶寬受限而非算力受限。
其中,對于DeepSeek-V3.2這樣的模型,在這個真實世界任務場景下,緩存算力比約為22GB/PFLOP。即,每進行1 PFLOP 的計算,需要搬運22GB的KV Cache數據。事實上,論文對比的其他大模型中,OpenAI旗下開源模型GPT-OSS-120B的“帶寬不足”壓力更大,這一指標在47-95左右。
DualPath的核心思路,是把原本集中在單點的存儲讀取壓力,變成整個集群可調度的資源。DualPath允許KV Cache既可以直接讀入Prefill引擎,也可以先加載到Decode引擎,再通過高帶寬RDMA計算網絡轉發至Prefill引擎;Prefill 引擎拿到完整的KV Cache后,立刻開始計算。
但是,重塑數據移動,又會帶來新的工程問題。包括細粒度數據傳輸,以與計算無縫重疊,最大程度提升吞吐量;額外的KV-Cache流與集合通信流的隔離,以減少相互影響;以及自適應的動態負載均衡,以迅速決定使用哪條路徑。為此,DeepSeek通過推理引擎 (Inference Engines)、流量管理器 (Traffic Manager)、請求調度器 (Request Scheduler)三大組件,共同配合完成DualPath推理系統的“減負”任務。
這不是一次實驗,而是生產驗證,技術可以很快復制到其他模型或版本上。論文介紹,DualPath基于DeepSeek內部推理框架構建,底層CUDA技術棧與主流開源體系對齊,核心改動約5000行代碼,沒有新增任何新的硬件。而且,論文也嘗試驗證了這一推理系統可以線性擴展。DeepSeek并沒有公開這些代碼。
DeepSeek在一個InfiniBand互連的Hopper架構GPU集群上驗證。最終,DualPath將離線推理的端到端吞吐量,最高提升1.87倍,并于在線服務場景中,實現平均1.96倍的吞吐提升。這顯示DualPath對帶寬瓶頸的緩解,在延遲敏感場景下尤為顯著。
大模型的智能體時代,當模型規模(上下文長度)的增長速度超過了硬件(顯存容量、網絡帶寬)的進化速度,單純堆砌算力已不再高效。系統的性能瓶頸正從計算轉向數據(I/O)。
未來的競爭核心,在于如何設計更聰明的系統架構——像Engram那樣優化內存使用,像DualPath那樣重塑數據流動路徑——來巧妙地繞開硬件限制,榨干現有資源的每一分潛力。這標志著LLM的發展重點,正從追求單一的模型規模,轉向對推理系統整體架構的深度創新。
DeepSeek開始針對Agentic AI優化基礎設施了,DeepSeek-V4還會遠嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.