網易首頁 > 網易號 > 正文申請入駐

vLLM v0.18.0 更新，KV Cache 迎來大升級

2026-03-21 15:45:53　來源: Ai學習的老章

北京舉報

分享至

上周剛寫完 v0.17.1 的補丁，vLLM v0.17.1 緊急補丁，修了一個讓 Qwen3.5 越跑越蠢的隱形 Bug，v0.18.0 就來了。

兄弟們總是問這個圖哪來的，就是 vllm 官網 vllm.ai

不只是功能堆疊，這次有幾個變化會直接影響你的部署配置。

先看全貌：v0.18.0 改了什么

變更

類型

Ray 從默認依賴中移除

?? 破壞性變更

gRPC 服務支持

（--grpc標志）

新功能

GPU-less 渲染服務

（vllm launch render）

新功能

NGram 投機解碼遷移至 GPU

? 性能提升

KV Cache 智能 CPU 卸載

? 性能提升

FlexKV 卸載后端

新功能

彈性專家并行 Milestone 2

（NIXL-EP）

新功能

FlashInfer 升級至 0.6.6

?? 依賴升級

Responses API 流式工具調用

新功能

ASR 在線 Beam Search

新功能

FA4 用于 MLA Prefill

（DeepSeek V3）

? 性能提升

新架構

：Sarvam MoE、OLMo Hybrid、Kimi-Audio-7B 等

模型支持

1. Ray 被請出默認依賴

這是最需要注意的一條。

從 v0.18.0 開始，Ray 不再作為默認依賴安裝。

# 以前安裝 vLLM，Ray 會自動裝進來
pip install vllm


 # 現在如果你需要 Ray（多節點/Ray Cluster），需要顯式安裝
pip install vllm ray

為什么移除？Ray 是個重型依賴，安裝慢、體積大，但絕大多數單機部署場景根本用不到它。拆開之后，單機部署的安裝速度和鏡像體積都會明顯改善。

什么情況下你還需要 Ray？

使用 Ray Cluster 做多節點分布式推理
用 Ray Data Pipeline 做批量推理
依賴ray serve做服務編排

如果你只是在單機跑 vLLM，這個變化對你透明，什么都不用改。

2. gRPC 服務支持

一行 flag 開啟 gRPC：

vllm serve meta-llama/Llama-3.1-8B-Instruct --grpc

同時開啟 HTTP 和 gRPC：兩個接口獨立運行，互不干擾。

為什么 gRPC 比 HTTP/REST 更快？

HTTP/REST 每次請求需要解析文本格式的 JSON，頭部字段冗余多，長連接復用效率低。gRPC 基于 HTTP/2，用 Protocol Buffers 做二進制序列化，同一連接可以多路復用，延遲和吞吐都有明顯優勢。

在高并發、低延遲的場景（比如內部微服務互調、Agent Pipeline）里，gRPC 的優勢會被明顯放大。

目前 gRPC 端口默認是8001，HTTP 保持8000不變。

3. KV Cache 智能 CPU 卸載 + FlexKV

這一版對 KV Cache 的卸載邏輯做了兩個升級。

3.1 只卸載"值得卸載"的 block

之前的 CPU offloading 是無差別的——只要顯存緊張就往 CPU 搬。

現在加了一個復用頻率門控（reuse-frequency-gated）：只有被多次復用的 block才會寫入 CPU。

邏輯很直接：一個 block 如果只被用了一次，把它寫到 CPU 再讀回來，開銷比收益大。只有那些在 prefix cache 里高頻命中的 block，才值得花帶寬卸載到 CPU 保留。

這對長對話、系統 prompt 固定的場景幫助很大——那些高頻復用的 prefix 塊會被優先保留，冷塊直接丟棄，減少無效 CPU?GPU 傳輸。

3.2 FlexKV：新的卸載后端

FlexKV 作為全新的 KV Cache 卸載后端引入，支持更靈活的存儲策略（不只是 CPU 內存，還可以擴展到 SSD 等介質）。

目前是實驗性功能，通過--kv-transfer-config指定：

vllm serve your-model \
  --kv-transfer-config '{"kv_connector":"FlexKVConnector","kv_role":"kv_both"}'

配合多 KV group 支持（--kv-groups），對 PD 分離架構的部署有直接幫助。

4. NGram 投機解碼遷移至 GPU

NGram 是一種不依賴草稿模型的投機解碼方法——直接從輸入 prompt 里找 n-gram 模式來預測后續 token。

以前這個匹配邏輯在 CPU 上跑，每一步都需要 CPU→GPU 數據傳輸，開銷抵消了不少收益。

現在整個 NGram 匹配遷移到 GPU 上，同時兼容 async scheduler，spec decode 的額外開銷大幅下降。

適合用 NGram 的場景：代碼補全、文檔續寫、固定模板生成——這些場景里 prompt 和輸出之間有大量重復 n-gram，投機命中率高。不需要單獨加載一個草稿模型，只要加一個 flag：

vllm serve your-model \
  --speculative-model "[ngram]" \
  --num-speculative-tokens 5 \
  --ngram-prompt-lookup-max 4

5. 彈性專家并行 Milestone 2：NIXL-EP 集成

這一版是彈性專家并行（Elastic EP）的第二個里程碑，核心變化是引入了NIXL-EP 集成。

對于跑 MoE 大模型（DeepSeek、Qwen3.5 MoE、Mixtral 等）的用戶，這意味著什么？

之前：EP（Expert Parallelism）的 GPU 數量在啟動時就固定了，擴縮容需要重啟服務。

現在：通過 NIXL（NVIDIA Interconnect eXtension Library）做專家權重的動態調度，GPU 可以動態加入/移出集群，不需要完全重啟。

另外新增--enable-ep-weight-filterflag，啟動時只加載本地 GPU 負責的專家權重，跳過不需要的參數：

vllm serve deepseek-ai/DeepSeek-V3 \
  --tensor-parallel-size 8 \
  --enable-ep-weight-filter

大模型加載速度會有明顯提升，尤其是 EP 節點數多的時候。

6. FA4 用于 MLA Prefill

DeepSeek 系列用了MLA（Multi-head Latent Attention）架構——把 KV cache 壓縮到低秩空間，顯存占用大幅下降，但也帶來了額外的矩陣運算。

這一版為 MLA 的 prefill 階段引入了FlashAttention 4（FA4）內核，同時還有：

Triton MLA decode 的 FP8 KV cache 支持
DeepSeek-V3.2 向量化 MLA query concat kernel
context parallel 下 FP8 KV cache gather 優化

對于在生產環境跑 DeepSeek V3/V3.2 的用戶，這些內核優化疊加下來，prefill 吞吐會有可觀的提升。

7. GPU-less 渲染服務

這是一個架構解耦的新玩法。

# 啟動一個純 CPU 的預處理節點，不需要 GPU
vllm launch render --model your-model

背后的邏輯：多模態推理（圖像/音頻/視頻）的預處理（圖像解碼、resize、特征提取）和 GPU 推理之間其實是解耦的。

把預處理從 GPU 節點拆出來，單獨用 CPU 節點跑，GPU 只專注計算：

CPU 節點可以水平擴展，處理高并發的媒體上傳
GPU 不再被預處理任務占用
有助于降低整體服務成本

8. Responses API 支持流式工具調用

OpenAI Responses API 現在支持流式（streaming）的工具/函數調用了。

這對 Agent 類應用很關鍵——工具調用的結果不再需要等整個響應生成完才返回，可以在生成過程中實時 stream 出來，大幅降低 Agent 的感知延遲。

模型支持更新

新增支持

類型

Sarvam MoE

新架構

OLMo Hybrid

新架構

HyperCLOVAX-SEED-Think-32B VLM

新架構

Kimi-Audio-7B-Instruct

音頻模型

ColPali 延遲交互檢索

RAG 檢索

Eagle3 for Qwen3.5

投機解碼

Eagle3 for Kimi K2.5 MLA

投機解碼

Whisper LoRA

LoRA

FP8 LoRA dense kernel

量化

另外修了一批國內常用模型的 bug：DeepSeek-V3.2 tokenizer 空格截斷、Qwen3.5 工具調用、Qwen3-VL 時間戳不一致、MiniCPM-V 音頻推理等。

該不該升？

跑 MoE 大模型（DeepSeek、Qwen3.5 MoE）+ 多 GPU：建議升。FA4 MLA 內核 + Elastic EP Milestone 2 是實實在在的提升。

用 NGram 投機解碼的：必須升。GPU 化之后性能質變。

用 Ray 管多節點集群的：升級前先確認pip install ray已在你的部署腳本里，否則啟動會報找不到 Ray。

用 KV Cache CPU offloading 的：升級可以順手用上智能門控，省掉無效的 CPU 寫入。

單機小模型部署：穩定性修復 + FlashInfer 0.6.6，升級無壞處。

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

摧毀海上偷渡鏈！“獴獵”行動68人落網細節曝光

環球網資訊

2026-04-19 13:23:28

一輛20萬的新車，卡扣斷了，修不起；89元的零件逼人換13萬電池包

娛樂圈的筆娛君

2026-04-20 02:07:08

主動站出來認罪的紅色高棉頭目----一個劊子手的罪與贖

通往遠方的路

2026-04-20 09:57:44

中國有貨就是不賣！印度這次徹底失算，把全球供應商都惹毛了

一個有靈魂的作者

2026-04-19 19:40:53

重要突破，科學家注射一個腫瘤細胞，全身癌細胞竟然消失

心中的麥田

2026-04-19 18:26:11

伊朗向中國通報！談判團差點被美軍“團滅”，全程連電話都不敢打

荷蘭豆愛健康

2026-04-19 21:53:37

越南百億高鐵訂單給德國，來華體驗12小時高鐵，背后算計太明顯

苗苗情感說

2026-04-19 12:38:15

文班亞馬季后賽首秀：傳承開始

張佳瑋寫字的地方

2026-04-20 12:23:10

張蘭暗示兒媳馬筱梅欲望旺盛，汪小菲別墅空調失靈，覬覦婆婆宅邸

樂悠悠娛樂

2026-04-20 10:47:48

爺爺生前錄音贈孫女109萬元遺產，六個姑姑不服要求平分，法院：錄音無效，重新分配，患小兒麻痹癥姑姑拿大頭

魯中晨報

2026-04-17 17:00:03

600年都不倒！天安門這4根重達2萬多公斤的華表，有何特殊含義？

墨印齋

2026-04-14 00:57:55

復雜的黎巴嫩，走投無路的真主黨

寰宇大觀察

2026-04-17 17:36:11

靈隱寺砸飯碗！浙江4000寺廟大洗牌，滿街僧人有玄機

一口娛樂

2026-04-20 01:43:39

解氣！！！來而不往非禮也！中國海軍今天出手了！

樂趣紀史

2026-04-20 08:03:19

浙江25歲女子深夜跑進急診，疼到臉色發白，醫生：近兩三年這類患者越來越多，嚴重的會造成不可逆傷害

環球網資訊

2026-04-20 09:25:07

張本兄妹改名風波再升級，韓媒強烈批評，這就是狠毒的創姓改稱

有范又有料

2026-04-19 00:03:10

張雪機車，全球訂單狂飆

第一財經資訊

2026-04-18 18:42:46

張雪回應為何還有6圈提前結束比賽：有事故摩托車橫躺在賽道上

貝殼財經

2026-04-19 23:56:03

一伊朗油輪突破美國封鎖進入伊朗水域

每日經濟新聞

2026-04-20 07:10:32

“DeepSeek首次融資”傳聞震動市場！寒武紀、沐曦股份、摩爾線程和張雪機車的天使投資人都回應了

證券時報

2026-04-19 22:52:02

Ai學習的老章

3334文章數 11137關注度

往期回顧全部

科技要聞

藍色起源一級火箭完美回收客戶衛星未入軌

頭條要聞

媒體：伊朗剛說不談美國立即開打

頭條要聞

媒體：伊朗剛說不談美國立即開打

體育要聞

七大獎項候選官宣！文班或全票DPOY

娛樂要聞

鹿晗生日上熱搜，被關曉彤撕下體面

財經要聞

月之暗面IPO迷局

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻我腿軟了

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

房產

本地

手機

教育

家居要聞

手機 / 數碼

房產 / 家居

vLLM v0.18.0 更新，KV Cache 迎來大升級

藍色起源一級火箭完美回收 客戶衛星未入軌

媒體：伊朗剛說不談 美國立即開打

媒體：伊朗剛說不談 美國立即開打

七大獎項候選官宣！文班或全票DPOY

鹿晗生日上熱搜，被關曉彤撕下體面

月之暗面IPO迷局

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

自然慢調 慢享時光

官宣簽約最強城更！海口樓市，突然殺入神秘房企！

12噸巧克力有難，全網化身超級偵探添亂

一加Ace6至尊版手機官宣4月28日發布：天璣9500、8600mAh

我發現一個殘酷真相：孩子長大后，最怨恨的不是管太嚴的父母……

藍色起源一級火箭完美回收客戶衛星未入軌

媒體：伊朗剛說不談美國立即開打

媒體：伊朗剛說不談美國立即開打

把天門山搬進廠?開仰望U8沖上45度坡的那刻我腿軟了

自然慢調慢享時光