<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      vLLM v0.18.0 更新,KV Cache 迎來大升級

      0
      分享至

      上周剛寫完 v0.17.1 的補丁,vLLM v0.17.1 緊急補丁,修了一個讓 Qwen3.5 越跑越蠢的隱形 Bug,v0.18.0 就來了。


      兄弟們總是問這個圖哪來的,就是 vllm 官網 vllm.ai

      不只是功能堆疊,這次有幾個變化會直接影響你的部署配置。

      先看全貌:v0.18.0 改了什么

      變更

      類型

      Ray 從默認依賴中移除

      ?? 破壞性變更

      gRPC 服務支持

      --grpc標志)

      新功能

      GPU-less 渲染服務

      vllm launch render

      新功能

      NGram 投機解碼遷移至 GPU

      ? 性能提升

      KV Cache 智能 CPU 卸載

      ? 性能提升

      FlexKV 卸載后端

      新功能

      彈性專家并行 Milestone 2

      (NIXL-EP)

      新功能

      FlashInfer 升級至 0.6.6

      ?? 依賴升級

      Responses API 流式工具調用

      新功能

      ASR 在線 Beam Search

      新功能

      FA4 用于 MLA Prefill

      (DeepSeek V3)

      ? 性能提升

      新架構

      :Sarvam MoE、OLMo Hybrid、Kimi-Audio-7B 等

      模型支持


      1. Ray 被請出默認依賴

      這是最需要注意的一條。

      從 v0.18.0 開始,Ray 不再作為默認依賴安裝。

      # 以前安裝 vLLM,Ray 會自動裝進來
      pip install vllm


      # 現在如果你需要 Ray(多節點/Ray Cluster),需要顯式安裝
      pip install vllm ray

      為什么移除?Ray 是個重型依賴,安裝慢、體積大,但絕大多數單機部署場景根本用不到它。拆開之后,單機部署的安裝速度和鏡像體積都會明顯改善。

      什么情況下你還需要 Ray?

      • 使用 Ray Cluster 做多節點分布式推理

      • 用 Ray Data Pipeline 做批量推理

      • 依賴ray serve做服務編排

      如果你只是在單機跑 vLLM,這個變化對你透明,什么都不用改。

      2. gRPC 服務支持

      一行 flag 開啟 gRPC:

      vllm serve meta-llama/Llama-3.1-8B-Instruct --grpc

      同時開啟 HTTP 和 gRPC:兩個接口獨立運行,互不干擾。

      為什么 gRPC 比 HTTP/REST 更快?

      HTTP/REST 每次請求需要解析文本格式的 JSON,頭部字段冗余多,長連接復用效率低。gRPC 基于 HTTP/2,用 Protocol Buffers 做二進制序列化,同一連接可以多路復用,延遲和吞吐都有明顯優勢。

      在高并發、低延遲的場景(比如內部微服務互調、Agent Pipeline)里,gRPC 的優勢會被明顯放大。

      目前 gRPC 端口默認是8001,HTTP 保持8000不變。

      3. KV Cache 智能 CPU 卸載 + FlexKV

      這一版對 KV Cache 的卸載邏輯做了兩個升級。

      3.1 只卸載"值得卸載"的 block

      之前的 CPU offloading 是無差別的——只要顯存緊張就往 CPU 搬。

      現在加了一個復用頻率門控(reuse-frequency-gated):只有被多次復用的 block才會寫入 CPU。

      邏輯很直接:一個 block 如果只被用了一次,把它寫到 CPU 再讀回來,開銷比收益大。只有那些在 prefix cache 里高頻命中的 block,才值得花帶寬卸載到 CPU 保留。

      這對長對話、系統 prompt 固定的場景幫助很大——那些高頻復用的 prefix 塊會被優先保留,冷塊直接丟棄,減少無效 CPU?GPU 傳輸。

      3.2 FlexKV:新的卸載后端

      FlexKV 作為全新的 KV Cache 卸載后端引入,支持更靈活的存儲策略(不只是 CPU 內存,還可以擴展到 SSD 等介質)。

      目前是實驗性功能,通過--kv-transfer-config指定:

      vllm serve your-model \
      --kv-transfer-config '{"kv_connector":"FlexKVConnector","kv_role":"kv_both"}'

      配合多 KV group 支持(--kv-groups),對 PD 分離架構的部署有直接幫助。

      4. NGram 投機解碼遷移至 GPU

      NGram 是一種不依賴草稿模型的投機解碼方法——直接從輸入 prompt 里找 n-gram 模式來預測后續 token。

      以前這個匹配邏輯在 CPU 上跑,每一步都需要 CPU→GPU 數據傳輸,開銷抵消了不少收益。

      現在整個 NGram 匹配遷移到 GPU 上,同時兼容 async scheduler,spec decode 的額外開銷大幅下降。

      適合用 NGram 的場景:代碼補全、文檔續寫、固定模板生成——這些場景里 prompt 和輸出之間有大量重復 n-gram,投機命中率高。不需要單獨加載一個草稿模型,只要加一個 flag:

      vllm serve your-model \
      --speculative-model "[ngram]" \
      --num-speculative-tokens 5 \
      --ngram-prompt-lookup-max 4
      5. 彈性專家并行 Milestone 2:NIXL-EP 集成

      這一版是彈性專家并行(Elastic EP)的第二個里程碑,核心變化是引入了NIXL-EP 集成

      對于跑 MoE 大模型(DeepSeek、Qwen3.5 MoE、Mixtral 等)的用戶,這意味著什么?

      之前:EP(Expert Parallelism)的 GPU 數量在啟動時就固定了,擴縮容需要重啟服務。

      現在:通過 NIXL(NVIDIA Interconnect eXtension Library)做專家權重的動態調度,GPU 可以動態加入/移出集群,不需要完全重啟。

      另外新增--enable-ep-weight-filterflag,啟動時只加載本地 GPU 負責的專家權重,跳過不需要的參數:

      vllm serve deepseek-ai/DeepSeek-V3 \
      --tensor-parallel-size 8 \
      --enable-ep-weight-filter

      大模型加載速度會有明顯提升,尤其是 EP 節點數多的時候。

      6. FA4 用于 MLA Prefill

      DeepSeek 系列用了MLA(Multi-head Latent Attention)架構——把 KV cache 壓縮到低秩空間,顯存占用大幅下降,但也帶來了額外的矩陣運算。

      這一版為 MLA 的 prefill 階段引入了FlashAttention 4(FA4)內核,同時還有:

      • Triton MLA decode 的 FP8 KV cache 支持

      • DeepSeek-V3.2 向量化 MLA query concat kernel

      • context parallel 下 FP8 KV cache gather 優化

      對于在生產環境跑 DeepSeek V3/V3.2 的用戶,這些內核優化疊加下來,prefill 吞吐會有可觀的提升。

      7. GPU-less 渲染服務

      這是一個架構解耦的新玩法。

      # 啟動一個純 CPU 的預處理節點,不需要 GPU
      vllm launch render --model your-model

      背后的邏輯:多模態推理(圖像/音頻/視頻)的預處理(圖像解碼、resize、特征提取)和 GPU 推理之間其實是解耦的。

      把預處理從 GPU 節點拆出來,單獨用 CPU 節點跑,GPU 只專注計算:

      • CPU 節點可以水平擴展,處理高并發的媒體上傳

      • GPU 不再被預處理任務占用

      • 有助于降低整體服務成本

      8. Responses API 支持流式工具調用

      OpenAI Responses API 現在支持流式(streaming)的工具/函數調用了。

      這對 Agent 類應用很關鍵——工具調用的結果不再需要等整個響應生成完才返回,可以在生成過程中實時 stream 出來,大幅降低 Agent 的感知延遲。

      模型支持更新

      新增支持

      類型

      Sarvam MoE

      新架構

      OLMo Hybrid

      新架構

      HyperCLOVAX-SEED-Think-32B VLM

      新架構

      Kimi-Audio-7B-Instruct

      音頻模型

      ColPali 延遲交互檢索

      RAG 檢索

      Eagle3 for Qwen3.5

      投機解碼

      Eagle3 for Kimi K2.5 MLA

      投機解碼

      Whisper LoRA

      LoRA

      FP8 LoRA dense kernel

      量化

      另外修了一批國內常用模型的 bug:DeepSeek-V3.2 tokenizer 空格截斷、Qwen3.5 工具調用、Qwen3-VL 時間戳不一致、MiniCPM-V 音頻推理等。

      該不該升?

      跑 MoE 大模型(DeepSeek、Qwen3.5 MoE)+ 多 GPU:建議升。FA4 MLA 內核 + Elastic EP Milestone 2 是實實在在的提升。

      用 NGram 投機解碼的:必須升。GPU 化之后性能質變。

      用 Ray 管多節點集群的:升級前先確認pip install ray已在你的部署腳本里,否則啟動會報找不到 Ray。

      用 KV Cache CPU offloading 的:升級可以順手用上智能門控,省掉無效的 CPU 寫入。

      單機小模型部署:穩定性修復 + FlashInfer 0.6.6,升級無壞處。

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      摧毀海上偷渡鏈!“獴獵”行動68人落網細節曝光

      摧毀海上偷渡鏈!“獴獵”行動68人落網細節曝光

      環球網資訊
      2026-04-19 13:23:28
      一輛20萬的新車,卡扣斷了,修不起;89元的零件 逼人換13萬電池包

      一輛20萬的新車,卡扣斷了,修不起;89元的零件 逼人換13萬電池包

      娛樂圈的筆娛君
      2026-04-20 02:07:08
      主動站出來認罪的紅色高棉頭目----一個劊子手的罪與贖

      主動站出來認罪的紅色高棉頭目----一個劊子手的罪與贖

      通往遠方的路
      2026-04-20 09:57:44
      中國有貨就是不賣!印度這次徹底失算,把全球供應商都惹毛了

      中國有貨就是不賣!印度這次徹底失算,把全球供應商都惹毛了

      一個有靈魂的作者
      2026-04-19 19:40:53
      重要突破,科學家注射一個腫瘤細胞,全身癌細胞竟然消失

      重要突破,科學家注射一個腫瘤細胞,全身癌細胞竟然消失

      心中的麥田
      2026-04-19 18:26:11
      伊朗向中國通報!談判團差點被美軍“團滅”,全程連電話都不敢打

      伊朗向中國通報!談判團差點被美軍“團滅”,全程連電話都不敢打

      荷蘭豆愛健康
      2026-04-19 21:53:37
      越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

      越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

      苗苗情感說
      2026-04-19 12:38:15
      文班亞馬季后賽首秀:傳承開始

      文班亞馬季后賽首秀:傳承開始

      張佳瑋寫字的地方
      2026-04-20 12:23:10
      張蘭暗示兒媳馬筱梅欲望旺盛,汪小菲別墅空調失靈,覬覦婆婆宅邸

      張蘭暗示兒媳馬筱梅欲望旺盛,汪小菲別墅空調失靈,覬覦婆婆宅邸

      樂悠悠娛樂
      2026-04-20 10:47:48
      爺爺生前錄音贈孫女109萬元遺產,六個姑姑不服要求平分,法院:錄音無效,重新分配,患小兒麻痹癥姑姑拿大頭

      爺爺生前錄音贈孫女109萬元遺產,六個姑姑不服要求平分,法院:錄音無效,重新分配,患小兒麻痹癥姑姑拿大頭

      魯中晨報
      2026-04-17 17:00:03
      600年都不倒!天安門這4根重達2萬多公斤的華表,有何特殊含義?

      600年都不倒!天安門這4根重達2萬多公斤的華表,有何特殊含義?

      墨印齋
      2026-04-14 00:57:55
      復雜的黎巴嫩,走投無路的真主黨

      復雜的黎巴嫩,走投無路的真主黨

      寰宇大觀察
      2026-04-17 17:36:11
      靈隱寺砸飯碗!浙江4000寺廟大洗牌,滿街僧人有玄機

      靈隱寺砸飯碗!浙江4000寺廟大洗牌,滿街僧人有玄機

      一口娛樂
      2026-04-20 01:43:39
      解氣!!!來而不往非禮也!中國海軍今天出手了!

      解氣!!!來而不往非禮也!中國海軍今天出手了!

      樂趣紀史
      2026-04-20 08:03:19
      浙江25歲女子深夜跑進急診,疼到臉色發白,醫生:近兩三年這類患者越來越多,嚴重的會造成不可逆傷害

      浙江25歲女子深夜跑進急診,疼到臉色發白,醫生:近兩三年這類患者越來越多,嚴重的會造成不可逆傷害

      環球網資訊
      2026-04-20 09:25:07
      張本兄妹改名風波再升級,韓媒強烈批評,這就是狠毒的創姓改稱

      張本兄妹改名風波再升級,韓媒強烈批評,這就是狠毒的創姓改稱

      有范又有料
      2026-04-19 00:03:10
      張雪機車,全球訂單狂飆

      張雪機車,全球訂單狂飆

      第一財經資訊
      2026-04-18 18:42:46
      張雪回應為何還有6圈提前結束比賽:有事故摩托車橫躺在賽道上

      張雪回應為何還有6圈提前結束比賽:有事故摩托車橫躺在賽道上

      貝殼財經
      2026-04-19 23:56:03
      一伊朗油輪突破美國封鎖進入伊朗水域

      一伊朗油輪突破美國封鎖進入伊朗水域

      每日經濟新聞
      2026-04-20 07:10:32
      “DeepSeek首次融資”傳聞震動市場!寒武紀、沐曦股份、摩爾線程和張雪機車的天使投資人都回應了

      “DeepSeek首次融資”傳聞震動市場!寒武紀、沐曦股份、摩爾線程和張雪機車的天使投資人都回應了

      證券時報
      2026-04-19 22:52:02
      2026-04-20 12:55:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3334文章數 11137關注度
      往期回顧 全部

      科技要聞

      藍色起源一級火箭完美回收 客戶衛星未入軌

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      體育要聞

      七大獎項候選官宣!文班或全票DPOY

      娛樂要聞

      鹿晗生日上熱搜,被關曉彤撕下體面

      財經要聞

      月之暗面IPO迷局

      汽車要聞

      把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態度原創

      家居
      房產
      本地
      手機
      教育

      家居要聞

      自然慢調 慢享時光

      房產要聞

      官宣簽約最強城更!海口樓市,突然殺入神秘房企!

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      手機要聞

      一加Ace6至尊版手機官宣4月28日發布:天璣9500、8600mAh

      教育要聞

      我發現一個殘酷真相:孩子長大后,最怨恨的不是管太嚴的父母……

      無障礙瀏覽 進入關懷版