<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Token洪流的轉向:當AI Agent成為Token消耗的主宰,什么樣的推理服務基礎設施才是剛需

      0
      分享至


      作者 | 章明星,清華大學副教授,Mooncake 社區聯合發起人、

      車漾,阿里云容器服務高級技術專家,Fluid 社區聯合發起人

      Token 消耗量的結構性轉移正在重塑大模型推理服務基礎設施的底層邏輯。一個不容忽視的事實是:AI Agent 正從人類手中接過 Token 消耗的指揮棒,背后是大模型從 Chatbot 轉化為新質生產力。這不是量的變化,而是質的躍遷——推理基礎設施的使用者正從”偶爾提問的人類用戶”變為”7×24 小時不間斷工作的 Agent”,其單次任務需要幾十次工具調用、輸入輸出比達到 10:1 甚至 100:1、面向圖像和全模態的輸入導致上下文窗口常態性突破 100K,其請求模式、負載特征與成本考量正在發生根本性的變化。

      AI Agent 時代的三大范式轉變

      1. 從”人機對話”到”Agent 之間的協作”

      人類用戶的請求是離散、低頻、不可預測的;而 AI Agent 產生的請求是持續、高頻、結構化的。一個負責數據分析的 Agent 可能同時觸發檢索、計算、可視化等多個子 Agent,形成復雜的計算圖。這種”機機協作”模式要求基礎設施能夠處理毫秒級的級聯調用,而非秒級的單次響應。

      2. 從”單次響應”到”狀態化會話”

      AI Agent 的核心價值在于持續任務執行。一個寫論文的 Agent 可能要做文獻搜索,內容整理等一系列操作,每個會話包含長達數萬輪的上下文。這導致 KVCache 不再是臨時緩存,而是需要持久化、可遷移的”數字記憶體”。早期推理服務將 KVCache 視為 GPU 上的設計,受限于 GPU 的顯存限制,在 Agent 時代已成為性能枷鎖。

      3. 從”規模經濟”到”效率經濟”

      當 Token 消耗增長 10 倍、100 倍時,推理服務成本不再是次要考量,如何能夠必須實現”超賣”與”混部”。考慮到實際上 Agent 需要使用 LLM 和多模態的不同模型,應對 Agent 的不同模型需求流量模式呈現更強的潮汐效應,推理服務基礎設施需要像”數字電網”一樣動態調度算力。

      AI Agent 對推理基礎設施的

      五大核心需求

      基于上述范式轉變,面向 AI Agent 的推理基礎設施必須具備以下能力:

      需求一:拓撲感知的角色編排

      AI Agent 的對于吞吐有非常高的需求,對于 TTFT 和 TPOT 的要求更高了。因此 PD 分離和 KVCache 外置成為了默認的部署架構:Prefill 需要計算密集型資源,Decode 需要內存密集型資源,KVCache 訪問需要低延遲網絡。傳統 Deployment 將不同角色混部在同一 Pod,導致資源錯配。因此要求推理基礎設施能將推理服務拆解為拓撲化的角色有機體,實現 Prefill/Decode/KVCache 等角色的獨立調度、彈性伸縮與協同策略。

      需求二:KVCache 為中心的架構

      Agent 的長上下文特性使得 KVCache 命中率成為性能關鍵。基礎設施必須實現跨實例、跨節點、甚至跨集群的 KVCache 共享,將離散的記憶碎片整合為全局統一的地址空間。當 Agent 遷移或擴縮容時,KVCache 應能透明地跟隨移動,避免昂貴的重新計算。

      需求三:智能差異化調度

      不同 Agent 任務對 SLO(服務水平目標)的需求截然不同:實時對話要求低 TTFT,批處理任務要求高吞吐量,工具調用要求確定性延遲。調度器需要理解請求語義,實現 KVCache 感知、優先級隊列、PD 分離等差異化調度,而非簡單的輪詢或加權分配。

      需求四:生產級彈性效率

      Agent 的規模可能從 10 個實例瞬間擴展到 1000 個,又迅速回縮。而對應的推理基礎設施必須將彈性從”分鐘級”壓縮到”秒級”,并配合反碎片化、潮汐混部等精益運營手段,將 GPU 利用率從 30% 的低位提升至 70% 以上。任何推理服務的彈性延遲都會導致 Agent 任務超時或資源浪費。

      需求五:全鏈路可觀測與自優化

      當 Agent 自主決策時,人類需要理解其”思維過程”。基礎設施必須提供從 Token 生成到工具調用的全鏈路追蹤,并能基于歷史數據自動優化 PD 比例、批處理策略與緩存預取。配置決策應從”人工調參”轉向”數據驅動”。

      這些痛點如同”最后一公里”鴻溝,阻礙著 AI 技術向業務價值的轉化。

      AI Serving Stack:

      為AI Agent量身打造的推理基礎設施

      為此,SGLang 社區、龍蜥社區、Mooncake 社區、清華大學 MADSys 實驗室、南京大學顧榮老師團隊、小紅書、算秩未來、科大訊飛 MaaS 團隊和阿里云容器服務團隊聯合打造了AI Serving Stack,**填補開源社區在”生產級 LLM 推理編排”領域的空白。**

      與傳統"全家桶"式方案不同,AI Serving Stack 采用模塊化設計,將部署管理智能路由彈性伸縮深度可觀測等能力解耦為獨立組件。用戶可按需靈活組裝,在避免強制綁定某個特定組件的同時,也有效控制技術棧復雜度。無論是剛剛起步還是已經擁有大規模 AI 業務,AI Serving Stack都能輕松駕馭復雜的云原生 AI 推理場景。


      AI Serving Stack 的獲獎絕非偶然,其價值恰在于精準命中了 AI Agent 時代的五大需求。這并非簡單的技術堆砌,而是一次從”面向人類”到”面向智能體”的架構演進。

      1. RoleBasedGroup 重新定義推理編排

      AI Serving Stack 的重點在于LLM 推理的 Kubernetes 標準 API——RoleBasedGroup(RBG),實現從”離散 Deployment 集合”到”拓撲化有機體”的范式躍遷。

      • 角色原子化將單體 Pod 拆解為 Router、Prefill、Decode、KVCache 等標準角色,每類角色擁有獨立的生命周期與策略。

      • 協同策略化引擎通過聲明式定義四大協同能力:部署協同確保 Prefill 與 Decode 成對調度;升級協同實現”比例協議”式原子更新;故障協同觸發跨角色聯動自愈;伸縮協同基于流量動態調整角色配比。

      • 管理統一化將分散的 5-8 個 YAML 文件收斂為單一 CR,鏡像與配置一處修改、全局生效,運維效率大幅提升。

      • 配置智能化結合 AIConfigurator 根據模型 - 硬件特性自動生成最優配置,Benchmark 一鍵評測,讓架構選擇從"經驗驅動"轉向"數據驅動"。

      基于 RBG 的SCOPE 五大核心能力(Stable/Coordination/Orchestration/Performance/Extensible),推理服務被視作”拓撲化、有狀態、可協同的角色有機體”。以小紅書的實際落地為例,新模型的運維耗時從天級大幅縮短至分鐘級,顯著降低線上運維復雜度;同時,成功支撐 PD 分離的分布式推理架構規模化部署,實現資源成本節省超 50%。


      2. 智能調度:SMG 網關實現差異化負載優化

      在 RBG 編排層之上,AI Serving Stack 引入SMG 推理網關(SGLang Model Gateway ),專為 LLM 負載特性設計的高級調度能力:

      • KVCache 感知調度:支持近似與精準兩種前綴緩存感知模式。基準測試顯示,全局近似模式下可實現響應速度顯著提升(TTFT 降低 50% 以上)、吞吐量翻番。

      • 請求排隊與優先級調度:多維度狀態評估下自動排隊防過載,顯著提升不同長度請求的響應速度,保障服務穩定性和 SLO;

      • 分離感知調度:支持 PD 分離和 DPLB 負載均衡,智能將預填充與解碼分配至不同 pod,協同提升吞吐、降低延遲,bucket 調度策略下實現 TTFT 降低 20% 以上。

      SMG 讓推理調度從"無感知"走向"推理負載感知",將 RBG 的編排能力轉化為業務級性能優勢。


      3. 以 KVCache 為中心的 PD 分離和以存換算架構

      AI Serving Stack 深度融合 Mooncake 項目,實現了以 KVCache 為中心的 PD 分離架構。Mooncake 通過計算與存儲解耦,將 KVCache 池化共享,結合 eRDMA、GPUDirect 等高性能傳輸技術,實現跨實例資源復用。

      三大創新點助力性能突破:

      • Transfer Engine:全鏈路零拷貝、多網卡聚合 (8x400Gbps),支持多傳輸路徑 RDMA/eRDMA/NVLink/CXL/TCP,動態拓撲感知并支持容錯。

      • KVCache Store:利用閑置 GPU 顯存 / 內存,通過 RDMA 實現透明多級緩存,支持數據下沉到廉價存儲。

      • 生態整合:與 vLLM/SGLang 等主流框架深度適配,TPOT 下降 20%,成本低至 0.2$/1M Token。

      在長文本閱讀等多輪對話場景中,該架構使推理吞吐量提升 6 倍,響應時間降低 69.1%,KVCache 命中率最高達 90%。


      4. 性能突破:從資源固化到精益彈性

      在實際測試中,基于 input:ouput=3500:1500 的數據集,Qwen3-235B 模型單組 PD 分離支持 2.74 QPS,P99 延遲穩定在 80ms 以內;Decode 階段吞吐量較傳統方案提升 3-5 倍。動態 P/D 比例調整使 GPU 利用率穩定在 65%-75%,配合潮汐混部與反碎片化裝箱優化,用戶 GPU 成本減少 30%-40%,年度節約近千萬元。

      與此同時,工程效率也實現了飛躍式提升:一鍵部署時間<5 分鐘,發布失敗率從 23% 降至 5%,MTTR 從數十分鐘級降至 2 分鐘內,服務升級中斷時間從 15 分鐘縮短至 10 秒。

      5. 生態協同:從開源項目到標準推進

      AI Serving Stack 秉持全棧開源理念,100% 開源架構讓企業零成本落地,徹底規避商業鎖定。多框架兼容支持 SGLang、vLLM、TensorRT-LLM、NVIDIA Dynamo、Chitu 等國內外主流推理引擎,并已完成多個國產算力適配。

      清華大學 MADSys 實驗室章明星老師指出:

      “AI Serving Stack 通過將智能配置算法與 KVCache 彈性存儲能力深度集成至 RBG 項目,實現了從 SLA 需求到大規模推理系統配置的‘一鍵轉化’,有效彌合了 AI 基礎設施在 PD 比例、彈性伸縮、資源分配與并行策略等方面的‘配置鴻溝’。該方案已在真實業務場景中驗證成效,是產學研協同創新、高效落地的典范。其開放、可組合、可拆分的架構,也更能適應大模型技術快速演進的需求。”

      AI Serving Stack 由多家產學研機構共同維護,采用開放治理模式:

      • 技術委員會由核心貢獻者組成,定期召開會議,共同決策技術路線;

      • 保持 每兩個月發布一個 Minor 版本 的快速迭代節奏;

      • 與清華大學、南京大學等高校深度合作,持續將智能配置和調度、動態彈性擴縮容等前沿研究成果融入工程實踐。

      前不久,在 InfoQ 攜手模力工場發起的「中國技術力量年度榜單」中,AI Serving Stack 參考架構,憑借其創新性的架構設計,優秀的工程實踐和廣泛的實用價值,獲評“2025 年度 AI 工程與部署卓越獎”

      展望:共同定義下一代 AI 基礎設施

      AI Serving Stack 的獲獎,標志著開源協作模式在生產級 AI 基礎設施領域的潛力。其價值不在于"顛覆",而在于通過標準化 API 和模塊化設計,將學術界的前沿成果與工業界的工程實踐有效結合。

      當 AI Native 成為企業核心戰略,AI Serving Stack 正以其全棧開源、架構普適、生產就緒、性能保障、易于集成、生態協同六大核心亮點,為產業提供從”能跑通”到”高可用、高吞吐、高彈性”的躍遷。

      未來已來,隨著云原生 AI 推理平臺的需求不斷變化,AI Serving Stack 也會隨之持續迭代,以滿足開發需求。

      項目地址:

      SGLang:https://github.com/sgl-project/sglang

      RBG: https://github.com/sgl-project/rbg

      Mooncake:https://github.com/kvcache-ai/Mooncake

      會議推薦

      InfoQ 2026 全年會議規劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產業落地,從技術前沿到行業應用,全面覆蓋 AI 與軟件開發核心賽道!集結全球技術先鋒,拆解真實生產案例、深挖技術與產業落地痛點,探索前沿領域、聚焦產業賦能,獲取實戰落地方案與前瞻產業洞察,高效實現技術價值轉化。把握行業變革關鍵節點,搶占 2026 智能升級發展先機!

      今日薦文

      你也「在看」嗎?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      洛克希德·馬丁的生產線突然停了,中國凍結了他們在華的全部資產

      洛克希德·馬丁的生產線突然停了,中國凍結了他們在華的全部資產

      百態人間
      2026-02-25 15:33:21
      各取所需!春節期間,張柏芝和謝霆鋒聯手,給王菲上了一課

      各取所需!春節期間,張柏芝和謝霆鋒聯手,給王菲上了一課

      妙知
      2026-03-03 14:34:08
      “天眼”24小時掃描中東,美軍在中國衛星面前,沒有任何秘密可言

      “天眼”24小時掃描中東,美軍在中國衛星面前,沒有任何秘密可言

      我心縱橫天地間
      2026-03-02 14:05:07
      越來越多國家被卷入中東沖突,局勢正顯露出脫軌跡象:是否會由“脈沖式打擊”轉為“持續性對峙”?

      越來越多國家被卷入中東沖突,局勢正顯露出脫軌跡象:是否會由“脈沖式打擊”轉為“持續性對峙”?

      大象新聞
      2026-03-03 13:47:02
      伊朗殺瘋了:美國多項損失數據曝光!特朗普承認:死亡人數會更多

      伊朗殺瘋了:美國多項損失數據曝光!特朗普承認:死亡人數會更多

      混沌錄
      2026-03-03 21:38:07
      手機,正在毀掉中國老人

      手機,正在毀掉中國老人

      LULU生活家
      2026-02-23 18:02:03
      特朗普稱不擔心美國基地甚至美國領土遭受襲擊威脅,并稱“這是戰爭的一部分”;美國國會將就限制總統戰爭權力議案舉行投票

      特朗普稱不擔心美國基地甚至美國領土遭受襲擊威脅,并稱“這是戰爭的一部分”;美國國會將就限制總統戰爭權力議案舉行投票

      大風新聞
      2026-03-03 13:49:03
      拍了一年馬屁,英國終于嘴硬了一下:美國非法

      拍了一年馬屁,英國終于嘴硬了一下:美國非法

      觀察者網
      2026-03-03 14:54:04
      在剛剛,19家公司出現重大利好消息,看看有沒有與你相關的個股?

      在剛剛,19家公司出現重大利好消息,看看有沒有與你相關的個股?

      股市皆大事
      2026-03-03 08:05:18
      國內8美元,國際850美元!106倍差價背后,是中國在下一盤大棋

      國內8美元,國際850美元!106倍差價背后,是中國在下一盤大棋

      涵豆說娛
      2026-03-03 15:00:20
      8年謎團終破!張柏芝三胎生父線索曝光,最大贏家是被冤的謝霆鋒

      8年謎團終破!張柏芝三胎生父線索曝光,最大贏家是被冤的謝霆鋒

      秋姐居
      2026-03-03 17:48:27
      富商馬清鏗67歲生日,情婦高調慶生,兩人5年生4子女,原配很沉默

      富商馬清鏗67歲生日,情婦高調慶生,兩人5年生4子女,原配很沉默

      嫹筆牂牂
      2026-03-03 07:10:52
      銀行內部實話:存款達這個金額,會被系統盯上

      銀行內部實話:存款達這個金額,會被系統盯上

      小陸搞笑日常
      2026-02-10 03:30:26
      法官問為何不交物業費,業主反問:不交稅違法,不交費違法嗎

      法官問為何不交物業費,業主反問:不交稅違法,不交費違法嗎

      蜉蝣說
      2026-02-03 16:31:54
      “時尚果然是個輪回啊!”四季青今年第一批春裝,最流行的是這些款式

      “時尚果然是個輪回啊!”四季青今年第一批春裝,最流行的是這些款式

      都市快報橙柿互動
      2026-03-03 20:21:52
      阿布扎比再遭襲擊,阿聯酋發布全國緊急警報

      阿布扎比再遭襲擊,阿聯酋發布全國緊急警報

      極目新聞
      2026-03-03 07:31:26
      迪麗熱巴被曝滯留迪拜,工作室發文:因不可抗力,確定無法抵達巴黎,不得不缺席時裝周

      迪麗熱巴被曝滯留迪拜,工作室發文:因不可抗力,確定無法抵達巴黎,不得不缺席時裝周

      極目新聞
      2026-03-03 15:04:10
      汪小菲和張蘭矛盾升級!張蘭哭完不敢對鏡頭,大S當年真沒說錯他

      汪小菲和張蘭矛盾升級!張蘭哭完不敢對鏡頭,大S當年真沒說錯他

      夏末moent
      2026-03-02 08:43:40
      這一次,伊朗領導人的慘痛遭遇,再一次印證了毛主席的高瞻遠矚

      這一次,伊朗領導人的慘痛遭遇,再一次印證了毛主席的高瞻遠矚

      夢史
      2026-03-02 11:21:33
      一位馬來西亞人稱:如果中國真的開戰,我要向中國報名加入戰爭!

      一位馬來西亞人稱:如果中國真的開戰,我要向中國報名加入戰爭!

      南權先生
      2026-02-11 15:56:36
      2026-03-03 22:07:00
      AI前線 incentive-icons
      AI前線
      面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
      1335文章數 132關注度
      往期回顧 全部

      科技要聞

      擁抱AI的"牛馬":邊提效邊自嘲"自費"上班

      頭條要聞

      美以伊沖突進入第四日:以軍地面部隊"下場"

      頭條要聞

      美以伊沖突進入第四日:以軍地面部隊"下場"

      體育要聞

      35輪后積分-7,他們遭遇史上最早的降級

      娛樂要聞

      謝娜霸氣護夫:喊話薛之謙給張杰道歉

      財經要聞

      特朗普“不惜一切”!全球股債齊崩

      汽車要聞

      第一梯隊輔助駕駛加持 iCAR V27定檔3月13日上市

      態度原創

      健康
      旅游
      數碼
      教育
      公開課

      轉頭就暈的耳石癥,能開車上班嗎?

      旅游要聞

      曲靖沾益:櫻花海棠競綻放,春日美景引客來

      數碼要聞

      泰坦軍團新品顯示器預約,275Hz 2K屏僅1110元!

      教育要聞

      剛剛!第一批院校復試線公布了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版