網易首頁 > 網易號 > 正文申請入駐

vLLM 重要更新

2025-12-20 11:39:30　來源: 機器學習與Python社區

北京舉報

分享至

vLLM 作為目前最受歡迎的開源 LLM 推理和服務框架，近期發布了一系列重大更新。本文將詳細解讀 vLLM 團隊在2025年12月密集發布的六項核心技術進展，涵蓋路由負載均衡、推測解碼、幻覺檢測、多模態服務、語義路由及大規模部署等關鍵領域。

vLLM Router：高性能智能負載均衡器
Speculators v0.3.0：推測解碼訓練支持
HaluGate：實時幻覺檢測管道
編碼器解耦（EPD）：多模態模型服務優化
AMD × vLLM 語義路由器：混合模型智能協作
大規模服務：DeepSeek @ 2.2k tok/s/H200

1. vLLM Router：高性能智能負載均衡器

發布日期：2025年12月13日

在大規模生產環境中，高效管理請求分發至多個模型副本至關重要。傳統負載均衡器往往缺乏對 LLM 推理有狀態特性（如 KV 緩存）的感知，無法處理復雜的服務模式（如 Prefill/Decode 分離）。

核心架構

vLLM Router 是一款專為 vLLM 打造的高性能、輕量級負載均衡器，采用 Rust 構建以實現最小開銷。它作為智能、狀態感知的負載均衡器，位于客戶端和 vLLM 工作節點集群之間。

vLLM Router 架構示意圖智能負載均衡策略

vLLM Router 提供多種負載均衡算法：

策略

特點

一致性哈希

確保相同路由鍵的請求"粘性"路由到同一工作節點，最大化 KV 緩存復用

Power of Two

低開銷隨機選擇策略，提供優秀的負載分配

輪詢 & 隨機

無狀態負載分配的標準策略

原生 Prefill/Decode 分離支持

Router 作為 vLLM 最先進服務架構的編排層：

智能將新請求路由到 Prefill 工作組
完成后，將請求狀態定向到適當的 Decode 工作節點 進行 token 生成
支持 NIXL 和 NCCL-based 分離后端

性能基準測試

DeepSeek V3 基準測試

Llama 3.1 8B（8 Prefill pods + 8 Decode pods）：

vLLM Router 吞吐量比 llm-d 高 25%，比 K8s 原生負載均衡器高 100%
TTFT 比 llm-d 快 1200ms

DeepSeek V3（TP8 配置）：

吞吐量比 K8s 原生負載均衡器 高 100%
TTFT 比 llm-d 和 K8s 原生 快 2000ms

2. Speculators v0.3.0：推測解碼訓練支持

發布日期：2025年12月13日
貢獻團隊：Red Hat AI 模型優化團隊

什么是推測解碼？

推測解碼允許 LLM 在單次前向傳播中生成多個 token。它利用一個小型"草稿"模型與完整的"驗證"模型配合工作：

Eagle3 架構

工作原理：

草稿模型快速自回歸預測多個 token
驗證模型并行處理這些 token
驗證器決定是否接受每個 token
被拒絕的 token 及后續序列將被丟棄

優勢：

最終響應與僅使用驗證模型完全一致，無性能降級
驗證模型可并行生成多個 token
草稿模型開銷極小

端到端訓練支持

Speculators v0.3.0 提供 Eagle3 草稿模型的完整訓練支持：

數據生成流程

訓練流程包括：

使用 vLLM 的離線數據生成
單層和多層草稿模型訓練
MoE 和非 MoE 驗證器支持

隱狀態生成器一鍵部署

訓練完成后，只需簡單命令即可在 vLLM 中運行：

vllm serve RedHatAI/Llama-3.1-8B-Instruct-speculator.eagle3

支持的模型：

Llama (3.1, 3.2, 3.3): 8B 到 70B 參數
Qwen3: 8B, 14B, 32B 參數
Qwen3 MoE: 235B-A22B 參數
GPT-OSS: 20B, 120B 參數
多模態：Llama 4 視覺-語言模型

3. HaluGate：實時幻覺檢測管道

發布日期：2025年12月14日

問題背景

幻覺已成為 LLM 生產部署的最大障礙。跨行業場景中（法律、醫療、金融、客服），模型會生成看似權威但經不起推敲的虛假內容。

幻覺問題示例

典型場景：

工具返回正確數據： {"built": "1887-1889", "height": "330 meters"}
LLM 響應卻是："埃菲爾鐵塔建于1950年，高500米"

HaluGate 兩階段檢測管道

HaluGate 架構階段一：HaluGate Sentinel（提示分類）

不是每個查詢都需要幻覺檢測。HaluGate Sentinel 是基于 ModernBERT 的分類器，判斷提示是否需要事實驗證：

Sentinel 工作流程

需要驗證 ：QA、真實性測試、幻覺基準、信息查詢對話
無需驗證 ：創意寫作、代碼、觀點/指令類

準確率達 **96.4%**，推理延遲僅 ~12ms。

階段二：Token 級別檢測 + NLI 解釋
Token級檢測

與句子級分類器不同，token 級檢測能精確識別哪些 token 不受上下文支持：

輸入: [CLS] context [SEP] question [SEP] answer [SEP]
      ↓
ModernBERT 編碼器
      ↓
Token 分類頭 (每個 token 二分類)
      ↓
標簽: 0 = 支持, 1 = 幻覺

NLI 解釋層

為什么采用集成方法？ Token 級檢測單獨僅達 59% F1；兩階段方法將平庸的檢測器轉化為可操作系統：LettuceDetect 提供召回率，NLI 提供精度和可解釋性。

性能表現
延遲對比

方法

延遲

成本

LLM-as-Judge (GPT-4)

500-3000ms

$0.03/請求

HaluGate

50-125ms

固定 GPU 成本

4. 編碼器解耦（EPD）：多模態模型服務優化

發布日期：2025年12月15日
貢獻團隊：vLLM 多模態工作流組

問題動機

現代大型多模態模型（LMM）引入了獨特的服務瓶頸：在任何文本生成開始之前，所有圖像必須由視覺編碼器（如 ViT）處理。

EPD 架構圖

傳統方案的問題：

編碼器在 GPU 上運行時，Decode 階段必須等待
圖像密集型請求會阻塞純文本請求
編碼器利用率不均導致資源浪費

解耦方案的三大優勢

工作流程圖 1. 流水線執行與消除干擾

E → P D (請求 1)
    E → P D (請求 2)
        E → P D (請求 3)

請求 N 的編碼可在請求 N-1 預填充/解碼時運行
純文本請求完全繞過編碼器
系統變為流水線并行，提升吞吐量

2. 獨立細粒度擴展

根據多模態圖像量擴展編碼器 GPU
根據請求率和輸出長度擴展 Prefill/Decode GPU

3. 編碼器輸出緩存與復用

常用圖像（logo、圖表、產品圖）的嵌入只計算一次
緩存命中的請求編碼成本為零，直接降低 TTFT

性能測試結果

測試環境：4×A100 80G，模型：Qwen3-VL-4B-Instruct

短文本工作負載

短文本工作負載（~400 tokens）：

單圖：goodput 小幅提升（23 → 24 QPS）
四圖： goodput 翻倍 （6 → 12 QPS）
P99 TTFT/TPOT 通常 降低 20-50%

長文本工作負載

長文本工作負載（~2000 tokens）：

EPD 保持 18/11/9/8 QPS vs 基線 8/4/4/4 QPS — 2-2.5倍 goodput
有效解碼吞吐增加 10-30%

NPU 測試結果

硬件可移植性： 在華為昇騰 NPU（4×Ascend 910B 32G）上也展現了相同的架構級收益。

5. AMD × vLLM 語義路由器：混合模型智能協作

發布日期：2025年12月16日
貢獻團隊：AMD 與 vLLM 語義路由器團隊

從單模型到混合模型的轉變
混合模型架構

在混合模型（Mixture-of-Models）世界中，企業 AI 棧通常包括：

路由 SLM ：分類、路由和策略執行
多個 LLM 和領域專用模型（代碼、金融、醫療、法律）
工具、RAG 管道、向量搜索和業務系統

VSR 核心能力

VSR 核心功能 1. 基于信號的 Multi-LoRA 路由

路由策略

描述

關鍵詞路由

快速確定性的模式匹配

領域分類

意圖感知的適配器選擇

嵌入語義相似度

基于語義理解的細粒度路由

事實檢查路由

高風險查詢路由到專門驗證管道

2. 跨實例智能

Response API ：集中存儲實現有狀態多輪對話
語義緩存 ：通過跨實例向量匹配顯著減少 token 使用

3. 企業級護欄

企業護欄

PII 檢測 ：防止敏感信息泄露
越獄防護 ：阻止惡意提示注入
幻覺檢測 ：驗證關鍵領域的響應可靠性
超級對齊 ：確保 AI 系統在向 AGI 能力擴展時保持與人類價值觀對齊

AMD GPU 部署路徑

部署路徑

兩種部署方式：

基于 vLLM 的推理 ：在 AMD GPU 上運行完整推理
輕量級 ONNX 路由 ：僅路由邏輯，最小化資源占用

6. 大規模服務：DeepSeek @ 2.2k tok/s/H200

發布日期：2025年12月17日

V1 引擎完成遷移

在 v0.11.0 中，vLLM V0 引擎的最后代碼被移除，標志著向改進的 V1 引擎架構的完全遷移。這一成就離不開 vLLM 社區 1,969 位貢獻者的努力。

性能突破
Prefill 吞吐 Decode 吞吐

社區基準測試（Coreweave H200 集群，Infiniband + ConnectX-7 NICs）顯示：

生產級多節點部署達到 2.2k tokens/s 每 GPU
相比早期 1.5k tokens/s 有顯著提升

核心組件 Wide-EP（專家并行）

https://blog.vllm.ai/ Wide-EP Token 路由

DeepSeek-V3 部署的兩大考慮：

稀疏專家激活 ：DeepSeek-R1 每次前向傳播僅激活 37B/671B 參數
KV 緩存管理 ：張量并行對 MLA 注意力架構并非最優

KV 緩存對比

Wide-EP 結合 EP 與數據并行（DP），最大化 MLA 架構的 KV 緩存效率。

雙批次重疊（DBO）
DBO 優化前

優化前： MoE 調度/組合部分的通信開銷占用大量時間

DBO 優化后

優化后： 微批次工作線程交替執行，重疊計算與通信，提升 GPU 利用率

專家并行負載均衡（EPLB）

MoE 專家層在訓練時針對平衡負載優化，但推理時實際工作負載可能導致不均衡。EPLB 動態調整邏輯到物理專家的映射。

分離式服務（Disaggregated Serving）

分離式服務

由于專家分布在各 rank 上，單個計算密集型 prefill 請求可能延遲整個 EP 組的前向傳播。分離式服務放大了解耦的收益。

部署方案

方案

特點

llm-d

Kubernetes 原生分布式推理服務棧

Dynamo

高吞吐低延遲生產部署，支持 KV 感知路由

Ray Serve LLM

模塊化部署，無縫集成 Ray 生態

總結

vLLM 在2025年12月的更新展現了其在大規模 LLM 推理領域的持續創新：

vLLM Router 解決了生產環境中的智能負載均衡問題
Speculators v0.3.0 讓推測解碼從研究走向生產
HaluGate 提供了實時、低延遲的幻覺檢測能力
EPD 通過編碼器解耦優化多模態模型服務
AMD × VSR 構建了混合模型時代的智能控制面
大規模服務優化 實現了 2.2k tok/s/H200 的突破性性能

這些技術進展共同推動 vLLM 成為企業級 AI 基礎設施的核心組件，為構建可擴展、可信賴、高性能的 AI 應用提供了堅實基礎。

本文由 AI 輔助編寫，基于 vLLM 官方博客https://blog.vllm.ai/內容整理。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

16歲少女被父親過度溺愛，母親意外撞見不雅的一幕，最終釀成慘劇

林林故事揭秘

2024-11-29 18:38:13

《逍遙》定檔央八，雖然是下午檔，但數據不會差，譚松韻絕對扛劇

大齡女一曉彤

2025-12-23 14:29:19

美軍官：解放軍若對臺灣動武，美軍立刻奪取中國海外港口為己所用

潮鹿逐夢

2025-12-26 15:57:53

仇英《江南春圖》卷與唐寅（款）《水村行旅圖》卷對比分析。

祥和居主人

2025-12-26 09:57:13

“孩子都腺樣體了還吃烤腸！”廉價早餐揭露低認知家長有多可怕！

知曉科普

2025-12-25 10:02:14

汪精衛建立的“汪偽政府”到底多大？當時國際上有哪些國家承認？

史之銘

2025-12-13 05:01:10

A股漲到3963點，突破2萬億，釋放兩個信號，下周一A股可能這樣走

有范又有料

2025-12-26 15:10:10

CCTV5直播，U23男足大戰伊拉克U23，王鈺棟領銜，贏球能沖擊八強

體壇小快靈

2025-12-26 12:19:12

張梓琳帶女兒過節一臉孕相，胖妹臉型完美，這美貌馬賽克都擋不住

八怪娛

2025-12-26 16:00:33

南京這把火，直燒到了北京一位“通天“人物的心坎上

鶴羽說個事

2025-12-24 15:00:47

56分16板15助！就在今天，5項前無古人的NBA紀錄被約基奇達成了

世界體育圈

2025-12-26 16:08:13

普京：盡管困難重重，俄羅斯仍在前進

看看新聞Knews

2025-12-25 12:53:05

Lisa在圣誕節二登瘋馬秀，由男友三公子陪同，直接打臉洗白的粉絲

芊手若

2025-12-26 15:32:19

22名敢死隊員拼死拿下瀘定橋后神秘消失，40年后河北一份絕密檔案，意外揭開塵封半個世紀的驚人真相

源溯歷史

2025-12-18 19:06:21

慘遭主教練怒批！上海隊可能放走洛夫頓，加盟廣東男籃成首選？

緋雨兒

2025-12-26 13:35:18

川名麻耶承認：我就是孫正義女兒！

浙江之聲

2025-12-26 08:16:04

“我穿一條汗褲就跑到一樓”；云南德宏州盈江縣發生3.9級地震，高校學生下樓避險

大風新聞

2025-12-26 09:46:23

朱元璋的姐夫是聰明人，朱元璋當皇帝后問他要啥官，他回了8個字

長風文史

2025-12-23 21:14:32

美媒終于回過味：中國這哪是買石油，分明是在給俄進行“大換血”

老范談史

2025-12-25 21:00:17

美國人解析中國人和印度人最大的區別，印度網友：我們是超級大國

扶蘇聊歷史

2025-12-25 14:55:14

機器學習與Python社區

機器學習算法與Python

3234文章數 11081關注度

往期回顧全部

科技要聞

收割3000億！拼多多"土辦法"熬死所有巨頭

頭條要聞

上海7旬爺叔在公園為80后兒子相親堅持5年每周都來

頭條要聞

上海7旬爺叔在公園為80后兒子相親堅持5年每周都來

體育要聞

開翻航母之后，他決定親手造一艘航母

娛樂要聞

朱孝天深夜道歉，只字未提五月天阿信

財經要聞

“國家隊”出手了，萬億資金規模！

汽車要聞

兩大CEO試駕華為乾崑*啟境開啟首款獵裝轎跑路測

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

親子

游戲

數碼

軍事航空

手機 / 數碼

房產 / 家居

vLLM 重要更新

收割3000億！拼多多"土辦法"熬死所有巨頭

上海7旬爺叔在公園為80后兒子相親 堅持5年每周都來

上海7旬爺叔在公園為80后兒子相親 堅持5年每周都來

開翻航母之后，他決定親手造一艘航母

朱孝天深夜道歉，只字未提五月天阿信

“國家隊”出手了，萬億資金規模！

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

態度原創

原來大理也有西湖，山水交融風光秀美，可惜門票比5A級景區還貴

一覺醒來，圣誕老人送來三個小烏龜！

不是加載動畫！CDPR內部人士揭秘《2077》

飛貓推出M7 Pro隨身WiFi，99元

烏最新20點俄烏和平草案遞交莫斯科 俄方拒絕

上海7旬爺叔在公園為80后兒子相親堅持5年每周都來

上海7旬爺叔在公園為80后兒子相親堅持5年每周都來

兩大CEO試駕華為乾崑*啟境開啟首款獵裝轎跑路測

烏最新20點俄烏和平草案遞交莫斯科俄方拒絕