vLLM 作為目前最受歡迎的開源 LLM 推理和服務框架,近期發布了一系列重大更新。本文將詳細解讀 vLLM 團隊在2025年12月密集發布的六項核心技術進展,涵蓋路由負載均衡、推測解碼、幻覺檢測、多模態服務、語義路由及大規模部署等關鍵領域。目錄
vLLM Router:高性能智能負載均衡器
Speculators v0.3.0:推測解碼訓練支持
HaluGate:實時幻覺檢測管道
編碼器解耦(EPD):多模態模型服務優化
AMD × vLLM 語義路由器:混合模型智能協作
大規模服務:DeepSeek @ 2.2k tok/s/H200
發布日期:2025年12月13日
在大規模生產環境中,高效管理請求分發至多個模型副本至關重要。傳統負載均衡器往往缺乏對 LLM 推理有狀態特性(如 KV 緩存)的感知,無法處理復雜的服務模式(如 Prefill/Decode 分離)。
核心架構
vLLM Router 是一款專為 vLLM 打造的高性能、輕量級負載均衡器,采用 Rust 構建以實現最小開銷。它作為智能、狀態感知的負載均衡器,位于客戶端和 vLLM 工作節點集群之間。
![]()
vLLM Router 架構示意圖 智能負載均衡策略
vLLM Router 提供多種負載均衡算法:
策略
特點
一致性哈希
確保相同路由鍵的請求"粘性"路由到同一工作節點,最大化 KV 緩存復用
Power of Two
低開銷隨機選擇策略,提供優秀的負載分配
輪詢 & 隨機
無狀態負載分配的標準策略
原生 Prefill/Decode 分離支持
Router 作為 vLLM 最先進服務架構的編排層:
智能將新請求路由到 Prefill 工作組
完成后,將請求狀態定向到適當的 Decode 工作節點 進行 token 生成
支持 NIXL 和 NCCL-based 分離后端
Llama 3.1 8B(8 Prefill pods + 8 Decode pods):
vLLM Router 吞吐量比 llm-d 高 25%,比 K8s 原生負載均衡器高 100%
TTFT 比 llm-d 快 1200ms
DeepSeek V3(TP8 配置):
吞吐量比 K8s 原生負載均衡器 高 100%
TTFT 比 llm-d 和 K8s 原生 快 2000ms
發布日期:2025年12月13日
貢獻團隊:Red Hat AI 模型優化團隊
什么是推測解碼?
推測解碼允許 LLM 在單次前向傳播中生成多個 token。它利用一個小型"草稿"模型與完整的"驗證"模型配合工作:
![]()
Eagle3 架構
工作原理:
草稿模型快速自回歸預測多個 token
驗證模型并行處理這些 token
驗證器決定是否接受每個 token
被拒絕的 token 及后續序列將被丟棄
優勢:
最終響應與僅使用驗證模型完全一致,無性能降級
驗證模型可并行生成多個 token
草稿模型開銷極小
Speculators v0.3.0 提供 Eagle3 草稿模型的完整訓練支持:
![]()
數據生成流程
訓練流程包括:
使用 vLLM 的離線數據生成
單層和多層草稿模型訓練
MoE 和非 MoE 驗證器支持
訓練完成后,只需簡單命令即可在 vLLM 中運行:
vllm serve RedHatAI/Llama-3.1-8B-Instruct-speculator.eagle3
支持的模型:
Llama (3.1, 3.2, 3.3): 8B 到 70B 參數
Qwen3: 8B, 14B, 32B 參數
Qwen3 MoE: 235B-A22B 參數
GPT-OSS: 20B, 120B 參數
多模態:Llama 4 視覺-語言模型
發布日期:2025年12月14日
問題背景
幻覺已成為 LLM 生產部署的最大障礙。跨行業場景中(法律、醫療、金融、客服),模型會生成看似權威但經不起推敲的虛假內容。
![]()
幻覺問題示例
典型場景:
工具返回正確數據:
{"built": "1887-1889", "height": "330 meters"}LLM 響應卻是:"埃菲爾鐵塔建于1950年,高500米"
不是每個查詢都需要幻覺檢測。HaluGate Sentinel 是基于 ModernBERT 的分類器,判斷提示是否需要事實驗證:
![]()
Sentinel 工作流程
需要驗證 :QA、真實性測試、幻覺基準、信息查詢對話
無需驗證 :創意寫作、代碼、觀點/指令類
準確率達 **96.4%**,推理延遲僅 ~12ms。
階段二:Token 級別檢測 + NLI 解釋 ![]()
Token級檢測
與句子級分類器不同,token 級檢測能精確識別哪些 token 不受上下文支持:
輸入: [CLS] context [SEP] question [SEP] answer [SEP]
↓
ModernBERT 編碼器
↓
Token 分類頭 (每個 token 二分類)
↓
標簽: 0 = 支持, 1 = 幻覺
為什么采用集成方法? Token 級檢測單獨僅達 59% F1;兩階段方法將平庸的檢測器轉化為可操作系統:LettuceDetect 提供召回率,NLI 提供精度和可解釋性。
性能表現 ![]()
延遲對比
方法
延遲
成本
LLM-as-Judge (GPT-4)
500-3000ms
$0.03/請求
HaluGate
50-125ms
固定 GPU 成本
4. 編碼器解耦(EPD):多模態模型服務優化
發布日期:2025年12月15日
貢獻團隊:vLLM 多模態工作流組
問題動機
現代大型多模態模型(LMM)引入了獨特的服務瓶頸:在任何文本生成開始之前,所有圖像必須由視覺編碼器(如 ViT)處理。
![]()
EPD 架構圖
傳統方案的問題:
編碼器在 GPU 上運行時,Decode 階段必須等待
圖像密集型請求會阻塞純文本請求
編碼器利用率不均導致資源浪費
E → P D (請求 1)
E → P D (請求 2)
E → P D (請求 3)
請求 N 的編碼可在請求 N-1 預填充/解碼時運行
純文本請求完全繞過編碼器
系統變為流水線并行,提升吞吐量
根據多模態圖像量擴展編碼器 GPU
根據請求率和輸出長度擴展 Prefill/Decode GPU
常用圖像(logo、圖表、產品圖)的嵌入只計算一次
緩存命中的請求編碼成本為零,直接降低 TTFT
測試環境:4×A100 80G,模型:Qwen3-VL-4B-Instruct
![]()
短文本工作負載
短文本工作負載(~400 tokens):
單圖:goodput 小幅提升(23 → 24 QPS)
四圖: goodput 翻倍 (6 → 12 QPS)
P99 TTFT/TPOT 通常 降低 20-50%
長文本工作負載(~2000 tokens):
EPD 保持 18/11/9/8 QPS vs 基線 8/4/4/4 QPS — 2-2.5倍 goodput
有效解碼吞吐增加 10-30%
硬件可移植性: 在華為昇騰 NPU(4×Ascend 910B 32G)上也展現了相同的架構級收益。
5. AMD × vLLM 語義路由器:混合模型智能協作
發布日期:2025年12月16日
貢獻團隊:AMD 與 vLLM 語義路由器團隊
從單模型到混合模型的轉變 ![]()
混合模型架構
在混合模型(Mixture-of-Models)世界中,企業 AI 棧通常包括:
路由 SLM :分類、路由和策略執行
多個 LLM 和領域專用模型(代碼、金融、醫療、法律)
工具、RAG 管道、向量搜索和業務系統
路由策略
描述
關鍵詞路由
快速確定性的模式匹配
領域分類
意圖感知的適配器選擇
嵌入語義相似度
基于語義理解的細粒度路由
事實檢查路由
高風險查詢路由到專門驗證管道
2. 跨實例智能
Response API :集中存儲實現有狀態多輪對話
語義緩存 :通過跨實例向量匹配顯著減少 token 使用
PII 檢測 :防止敏感信息泄露
越獄防護 :阻止惡意提示注入
幻覺檢測 :驗證關鍵領域的響應可靠性
超級對齊 :確保 AI 系統在向 AGI 能力擴展時保持與人類價值觀對齊
兩種部署方式:
基于 vLLM 的推理 :在 AMD GPU 上運行完整推理
輕量級 ONNX 路由 :僅路由邏輯,最小化資源占用
發布日期:2025年12月17日
V1 引擎完成遷移
在 v0.11.0 中,vLLM V0 引擎的最后代碼被移除,標志著向改進的 V1 引擎架構的完全遷移。這一成就離不開 vLLM 社區 1,969 位貢獻者的努力。
性能突破 ![]()
Prefill 吞吐
Decode 吞吐
社區基準測試(Coreweave H200 集群,Infiniband + ConnectX-7 NICs)顯示:
生產級多節點部署達到 2.2k tokens/s 每 GPU
相比早期 1.5k tokens/s 有顯著提升
![]()
https://blog.vllm.ai/ Wide-EP Token 路由
DeepSeek-V3 部署的兩大考慮:
稀疏專家激活 :DeepSeek-R1 每次前向傳播僅激活 37B/671B 參數
KV 緩存管理 :張量并行對 MLA 注意力架構并非最優
Wide-EP 結合 EP 與數據并行(DP),最大化 MLA 架構的 KV 緩存效率。
雙批次重疊(DBO) ![]()
DBO 優化前
優化前: MoE 調度/組合部分的通信開銷占用大量時間
![]()
DBO 優化后
優化后: 微批次工作線程交替執行,重疊計算與通信,提升 GPU 利用率
專家并行負載均衡(EPLB)
![]()
MoE 專家層在訓練時針對平衡負載優化,但推理時實際工作負載可能導致不均衡。EPLB 動態調整邏輯到物理專家的映射。
分離式服務(Disaggregated Serving)
![]()
分離式服務
由于專家分布在各 rank 上,單個計算密集型 prefill 請求可能延遲整個 EP 組的前向傳播。分離式服務放大了解耦的收益。
部署方案
方案
特點
![]()
llm-d
Kubernetes 原生分布式推理服務棧
![]()
Dynamo
高吞吐低延遲生產部署,支持 KV 感知路由
![]()
Ray Serve LLM
模塊化部署,無縫集成 Ray 生態
總結
vLLM 在2025年12月的更新展現了其在大規模 LLM 推理領域的持續創新:
vLLM Router 解決了生產環境中的智能負載均衡問題
Speculators v0.3.0 讓推測解碼從研究走向生產
HaluGate 提供了實時、低延遲的幻覺檢測能力
EPD 通過編碼器解耦優化多模態模型服務
AMD × VSR 構建了混合模型時代的智能控制面
大規模服務優化 實現了 2.2k tok/s/H200 的突破性性能
這些技術進展共同推動 vLLM 成為企業級 AI 基礎設施的核心組件,為構建可擴展、可信賴、高性能的 AI 應用提供了堅實基礎。
本文由 AI 輔助編寫,基于 vLLM 官方博客https://blog.vllm.ai/內容整理。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.