網易首頁 > 網易號 > 正文申請入駐

Token洪流的轉向：當AI Agent成為Token消耗的主宰，什么樣的推理服務基礎設施才是剛需

2026-01-26 15:21:14　來源: AI前線

北京舉報

分享至

作者 | 章明星，清華大學副教授，Mooncake 社區聯合發起人、

車漾，阿里云容器服務高級技術專家，Fluid 社區聯合發起人

Token 消耗量的結構性轉移正在重塑大模型推理服務基礎設施的底層邏輯。一個不容忽視的事實是：AI Agent 正從人類手中接過 Token 消耗的指揮棒，背后是大模型從 Chatbot 轉化為新質生產力。這不是量的變化，而是質的躍遷——推理基礎設施的使用者正從”偶爾提問的人類用戶”變為”7×24 小時不間斷工作的 Agent”，其單次任務需要幾十次工具調用、輸入輸出比達到 10:1 甚至 100:1、面向圖像和全模態的輸入導致上下文窗口常態性突破 100K，其請求模式、負載特征與成本考量正在發生根本性的變化。

AI Agent 時代的三大范式轉變

1. 從”人機對話”到”Agent 之間的協作”

人類用戶的請求是離散、低頻、不可預測的；而 AI Agent 產生的請求是持續、高頻、結構化的。一個負責數據分析的 Agent 可能同時觸發檢索、計算、可視化等多個子 Agent，形成復雜的計算圖。這種”機機協作”模式要求基礎設施能夠處理毫秒級的級聯調用，而非秒級的單次響應。

2. 從”單次響應”到”狀態化會話”

AI Agent 的核心價值在于持續任務執行。一個寫論文的 Agent 可能要做文獻搜索，內容整理等一系列操作，每個會話包含長達數萬輪的上下文。這導致 KVCache 不再是臨時緩存，而是需要持久化、可遷移的”數字記憶體”。早期推理服務將 KVCache 視為 GPU 上的設計，受限于 GPU 的顯存限制，在 Agent 時代已成為性能枷鎖。

3. 從”規模經濟”到”效率經濟”

當 Token 消耗增長 10 倍、100 倍時，推理服務成本不再是次要考量，如何能夠必須實現”超賣”與”混部”。考慮到實際上 Agent 需要使用 LLM 和多模態的不同模型，應對 Agent 的不同模型需求流量模式呈現更強的潮汐效應，推理服務基礎設施需要像”數字電網”一樣動態調度算力。

AI Agent 對推理基礎設施的

五大核心需求

基于上述范式轉變，面向 AI Agent 的推理基礎設施必須具備以下能力：

需求一：拓撲感知的角色編排

AI Agent 的對于吞吐有非常高的需求，對于 TTFT 和 TPOT 的要求更高了。因此 PD 分離和 KVCache 外置成為了默認的部署架構：Prefill 需要計算密集型資源，Decode 需要內存密集型資源，KVCache 訪問需要低延遲網絡。傳統 Deployment 將不同角色混部在同一 Pod，導致資源錯配。因此要求推理基礎設施能將推理服務拆解為拓撲化的角色有機體，實現 Prefill/Decode/KVCache 等角色的獨立調度、彈性伸縮與協同策略。

需求二：KVCache 為中心的架構

Agent 的長上下文特性使得 KVCache 命中率成為性能關鍵。基礎設施必須實現跨實例、跨節點、甚至跨集群的 KVCache 共享，將離散的記憶碎片整合為全局統一的地址空間。當 Agent 遷移或擴縮容時，KVCache 應能透明地跟隨移動，避免昂貴的重新計算。

需求三：智能差異化調度

不同 Agent 任務對 SLO（服務水平目標）的需求截然不同：實時對話要求低 TTFT，批處理任務要求高吞吐量，工具調用要求確定性延遲。調度器需要理解請求語義，實現 KVCache 感知、優先級隊列、PD 分離等差異化調度，而非簡單的輪詢或加權分配。

需求四：生產級彈性效率

Agent 的規模可能從 10 個實例瞬間擴展到 1000 個，又迅速回縮。而對應的推理基礎設施必須將彈性從”分鐘級”壓縮到”秒級”，并配合反碎片化、潮汐混部等精益運營手段，將 GPU 利用率從 30% 的低位提升至 70% 以上。任何推理服務的彈性延遲都會導致 Agent 任務超時或資源浪費。

需求五：全鏈路可觀測與自優化

當 Agent 自主決策時，人類需要理解其”思維過程”。基礎設施必須提供從 Token 生成到工具調用的全鏈路追蹤，并能基于歷史數據自動優化 PD 比例、批處理策略與緩存預取。配置決策應從”人工調參”轉向”數據驅動”。

這些痛點如同”最后一公里”鴻溝，阻礙著 AI 技術向業務價值的轉化。

AI Serving Stack：

為AI Agent量身打造的推理基礎設施

為此，SGLang 社區、龍蜥社區、Mooncake 社區、清華大學 MADSys 實驗室、南京大學顧榮老師團隊、小紅書、算秩未來、科大訊飛 MaaS 團隊和阿里云容器服務團隊聯合打造了AI Serving Stack，**填補開源社區在”生產級 LLM 推理編排”領域的空白。**

與傳統"全家桶"式方案不同，AI Serving Stack 采用模塊化設計，將部署管理、智能路由、彈性伸縮、深度可觀測等能力解耦為獨立組件。用戶可按需靈活組裝，在避免強制綁定某個特定組件的同時，也有效控制技術棧復雜度。無論是剛剛起步還是已經擁有大規模 AI 業務，AI Serving Stack都能輕松駕馭復雜的云原生 AI 推理場景。

AI Serving Stack 的獲獎絕非偶然，其價值恰在于精準命中了 AI Agent 時代的五大需求。這并非簡單的技術堆砌，而是一次從”面向人類”到”面向智能體”的架構演進。

1. RoleBasedGroup 重新定義推理編排

AI Serving Stack 的重點在于LLM 推理的 Kubernetes 標準 API——RoleBasedGroup（RBG），實現從”離散 Deployment 集合”到”拓撲化有機體”的范式躍遷。

角色原子化將單體 Pod 拆解為 Router、Prefill、Decode、KVCache 等標準角色，每類角色擁有獨立的生命周期與策略。
協同策略化引擎通過聲明式定義四大協同能力：部署協同確保 Prefill 與 Decode 成對調度；升級協同實現”比例協議”式原子更新；故障協同觸發跨角色聯動自愈；伸縮協同基于流量動態調整角色配比。
管理統一化將分散的 5-8 個 YAML 文件收斂為單一 CR，鏡像與配置一處修改、全局生效，運維效率大幅提升。
配置智能化結合 AIConfigurator 根據模型 - 硬件特性自動生成最優配置，Benchmark 一鍵評測，讓架構選擇從"經驗驅動"轉向"數據驅動"。

基于 RBG 的SCOPE 五大核心能力（Stable/Coordination/Orchestration/Performance/Extensible），推理服務被視作”拓撲化、有狀態、可協同的角色有機體”。以小紅書的實際落地為例，新模型的運維耗時從天級大幅縮短至分鐘級，顯著降低線上運維復雜度；同時，成功支撐 PD 分離的分布式推理架構規模化部署，實現資源成本節省超 50%。

2. 智能調度：SMG 網關實現差異化負載優化

在 RBG 編排層之上，AI Serving Stack 引入SMG 推理網關（SGLang Model Gateway ），專為 LLM 負載特性設計的高級調度能力：

KVCache 感知調度：支持近似與精準兩種前綴緩存感知模式。基準測試顯示，全局近似模式下可實現響應速度顯著提升（TTFT 降低 50% 以上）、吞吐量翻番。
請求排隊與優先級調度：多維度狀態評估下自動排隊防過載，顯著提升不同長度請求的響應速度，保障服務穩定性和 SLO；
分離感知調度：支持 PD 分離和 DPLB 負載均衡，智能將預填充與解碼分配至不同 pod，協同提升吞吐、降低延遲，bucket 調度策略下實現 TTFT 降低 20% 以上。

SMG 讓推理調度從"無感知"走向"推理負載感知"，將 RBG 的編排能力轉化為業務級性能優勢。

3. 以 KVCache 為中心的 PD 分離和以存換算架構

AI Serving Stack 深度融合 Mooncake 項目，實現了以 KVCache 為中心的 PD 分離架構。Mooncake 通過計算與存儲解耦，將 KVCache 池化共享，結合 eRDMA、GPUDirect 等高性能傳輸技術，實現跨實例資源復用。

三大創新點助力性能突破：

Transfer Engine：全鏈路零拷貝、多網卡聚合 (8x400Gbps)，支持多傳輸路徑 RDMA/eRDMA/NVLink/CXL/TCP，動態拓撲感知并支持容錯。
KVCache Store：利用閑置 GPU 顯存 / 內存，通過 RDMA 實現透明多級緩存，支持數據下沉到廉價存儲。
生態整合：與 vLLM/SGLang 等主流框架深度適配，TPOT 下降 20%，成本低至 0.2$/1M Token。

在長文本閱讀等多輪對話場景中，該架構使推理吞吐量提升 6 倍，響應時間降低 69.1%，KVCache 命中率最高達 90%。

4. 性能突破：從資源固化到精益彈性

在實際測試中，基于 input:ouput=3500:1500 的數據集，Qwen3-235B 模型單組 PD 分離支持 2.74 QPS，P99 延遲穩定在 80ms 以內；Decode 階段吞吐量較傳統方案提升 3-5 倍。動態 P/D 比例調整使 GPU 利用率穩定在 65%-75%，配合潮汐混部與反碎片化裝箱優化，用戶 GPU 成本減少 30%-40%，年度節約近千萬元。

與此同時，工程效率也實現了飛躍式提升：一鍵部署時間<5 分鐘，發布失敗率從 23% 降至 5%，MTTR 從數十分鐘級降至 2 分鐘內，服務升級中斷時間從 15 分鐘縮短至 10 秒。

5. 生態協同：從開源項目到標準推進

AI Serving Stack 秉持全棧開源理念，100% 開源架構讓企業零成本落地，徹底規避商業鎖定。多框架兼容支持 SGLang、vLLM、TensorRT-LLM、NVIDIA Dynamo、Chitu 等國內外主流推理引擎，并已完成多個國產算力適配。

清華大學 MADSys 實驗室章明星老師指出：

“AI Serving Stack 通過將智能配置算法與 KVCache 彈性存儲能力深度集成至 RBG 項目，實現了從 SLA 需求到大規模推理系統配置的‘一鍵轉化’，有效彌合了 AI 基礎設施在 PD 比例、彈性伸縮、資源分配與并行策略等方面的‘配置鴻溝’。該方案已在真實業務場景中驗證成效，是產學研協同創新、高效落地的典范。其開放、可組合、可拆分的架構，也更能適應大模型技術快速演進的需求。”

AI Serving Stack 由多家產學研機構共同維護，采用開放治理模式：

技術委員會由核心貢獻者組成，定期召開會議，共同決策技術路線；
保持每兩個月發布一個 Minor 版本的快速迭代節奏；
與清華大學、南京大學等高校深度合作，持續將智能配置和調度、動態彈性擴縮容等前沿研究成果融入工程實踐。

前不久，在 InfoQ 攜手模力工場發起的「中國技術力量年度榜單」中，AI Serving Stack 參考架構，憑借其創新性的架構設計，優秀的工程實踐和廣泛的實用價值，獲評“2025 年度 AI 工程與部署卓越獎”。

展望：共同定義下一代 AI 基礎設施

AI Serving Stack 的獲獎，標志著開源協作模式在生產級 AI 基礎設施領域的潛力。其價值不在于"顛覆"，而在于通過標準化 API 和模塊化設計，將學術界的前沿成果與工業界的工程實踐有效結合。

當 AI Native 成為企業核心戰略，AI Serving Stack 正以其全棧開源、架構普適、生產就緒、性能保障、易于集成、生態協同六大核心亮點，為產業提供從”能跑通”到”高可用、高吞吐、高彈性”的躍遷。

未來已來，隨著云原生 AI 推理平臺的需求不斷變化，AI Serving Stack 也會隨之持續迭代，以滿足開發需求。

項目地址：

SGLang：https://github.com/sgl-project/sglang

RBG： https://github.com/sgl-project/rbg

Mooncake：https://github.com/kvcache-ai/Mooncake

會議推薦

InfoQ 2026 全年會議規劃已上線！從 AI Infra 到 Agentic AI，從 AI 工程化到產業落地，從技術前沿到行業應用，全面覆蓋 AI 與軟件開發核心賽道！集結全球技術先鋒，拆解真實生產案例、深挖技術與產業落地痛點，探索前沿領域、聚焦產業賦能，獲取實戰落地方案與前瞻產業洞察，高效實現技術價值轉化。把握行業變革關鍵節點，搶占 2026 智能升級發展先機！

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.