<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      vLLM 重要更新

      0
      分享至

      vLLM 作為目前最受歡迎的開源 LLM 推理和服務框架,近期發布了一系列重大更新。本文將詳細解讀 vLLM 團隊在2025年12月密集發布的六項核心技術進展,涵蓋路由負載均衡、推測解碼、幻覺檢測、多模態服務、語義路由及大規模部署等關鍵領域。
      目錄
      1. vLLM Router:高性能智能負載均衡器

      2. Speculators v0.3.0:推測解碼訓練支持

      3. HaluGate:實時幻覺檢測管道

      4. 編碼器解耦(EPD):多模態模型服務優化

      5. AMD × vLLM 語義路由器:混合模型智能協作

      6. 大規模服務:DeepSeek @ 2.2k tok/s/H200

      1. vLLM Router:高性能智能負載均衡器

      發布日期:2025年12月13日

      在大規模生產環境中,高效管理請求分發至多個模型副本至關重要。傳統負載均衡器往往缺乏對 LLM 推理有狀態特性(如 KV 緩存)的感知,無法處理復雜的服務模式(如 Prefill/Decode 分離)。

      核心架構

      vLLM Router 是一款專為 vLLM 打造的高性能、輕量級負載均衡器,采用 Rust 構建以實現最小開銷。它作為智能、狀態感知的負載均衡器,位于客戶端和 vLLM 工作節點集群之間。


      vLLM Router 架構示意圖 智能負載均衡策略

      vLLM Router 提供多種負載均衡算法:

      策略

      特點

      一致性哈希

      確保相同路由鍵的請求"粘性"路由到同一工作節點,最大化 KV 緩存復用

      Power of Two

      低開銷隨機選擇策略,提供優秀的負載分配

      輪詢 & 隨機

      無狀態負載分配的標準策略


      原生 Prefill/Decode 分離支持

      Router 作為 vLLM 最先進服務架構的編排層:

      1. 智能將新請求路由到 Prefill 工作組

      2. 完成后,將請求狀態定向到適當的 Decode 工作節點 進行 token 生成

      3. 支持 NIXL 和 NCCL-based 分離后端

      性能基準測試 DeepSeek V3 基準測試

      Llama 3.1 8B(8 Prefill pods + 8 Decode pods):

      • vLLM Router 吞吐量比 llm-d 高 25%,比 K8s 原生負載均衡器高 100%

      • TTFT 比 llm-d 快 1200ms

      DeepSeek V3(TP8 配置):

      • 吞吐量比 K8s 原生負載均衡器 高 100%

      • TTFT 比 llm-d 和 K8s 原生 快 2000ms

      2. Speculators v0.3.0:推測解碼訓練支持

      發布日期:2025年12月13日
      貢獻團隊:Red Hat AI 模型優化團隊

      什么是推測解碼?

      推測解碼允許 LLM 在單次前向傳播中生成多個 token。它利用一個小型"草稿"模型與完整的"驗證"模型配合工作:


      Eagle3 架構

      工作原理:

      1. 草稿模型快速自回歸預測多個 token

      2. 驗證模型并行處理這些 token

      3. 驗證器決定是否接受每個 token

      4. 被拒絕的 token 及后續序列將被丟棄

      優勢:

      • 最終響應與僅使用驗證模型完全一致,無性能降級

      • 驗證模型可并行生成多個 token

      • 草稿模型開銷極小

      端到端訓練支持

      Speculators v0.3.0 提供 Eagle3 草稿模型的完整訓練支持:


      數據生成流程

      訓練流程包括:

      • 使用 vLLM 的離線數據生成

      • 單層和多層草稿模型訓練

      • MoE 和非 MoE 驗證器支持

      隱狀態生成器 一鍵部署

      訓練完成后,只需簡單命令即可在 vLLM 中運行:

      vllm serve RedHatAI/Llama-3.1-8B-Instruct-speculator.eagle3

      支持的模型:

      • Llama (3.1, 3.2, 3.3): 8B 到 70B 參數

      • Qwen3: 8B, 14B, 32B 參數

      • Qwen3 MoE: 235B-A22B 參數

      • GPT-OSS: 20B, 120B 參數

      • 多模態:Llama 4 視覺-語言模型

      3. HaluGate:實時幻覺檢測管道

      發布日期:2025年12月14日

      問題背景

      幻覺已成為 LLM 生產部署的最大障礙。跨行業場景中(法律、醫療、金融、客服),模型會生成看似權威但經不起推敲的虛假內容。


      幻覺問題示例

      典型場景:

      • 工具返回正確數據: {"built": "1887-1889", "height": "330 meters"}

      • LLM 響應卻是:"埃菲爾鐵塔建于1950年,高500米"

      HaluGate 兩階段檢測管道 HaluGate 架構 階段一:HaluGate Sentinel(提示分類)

      不是每個查詢都需要幻覺檢測。HaluGate Sentinel 是基于 ModernBERT 的分類器,判斷提示是否需要事實驗證:


      Sentinel 工作流程


      • 需要驗證 :QA、真實性測試、幻覺基準、信息查詢對話

      • 無需驗證 :創意寫作、代碼、觀點/指令類

      準確率達 **96.4%**,推理延遲僅 ~12ms

      階段二:Token 級別檢測 + NLI 解釋
      Token級檢測

      與句子級分類器不同,token 級檢測能精確識別哪些 token 不受上下文支持:

      輸入: [CLS] context [SEP] question [SEP] answer [SEP]

      ModernBERT 編碼器

      Token 分類頭 (每個 token 二分類)

      標簽: 0 = 支持, 1 = 幻覺
      NLI 解釋層

      為什么采用集成方法? Token 級檢測單獨僅達 59% F1;兩階段方法將平庸的檢測器轉化為可操作系統:LettuceDetect 提供召回率,NLI 提供精度和可解釋性。

      性能表現
      延遲對比

      方法

      延遲

      成本

      LLM-as-Judge (GPT-4)

      500-3000ms

      $0.03/請求

      HaluGate

      50-125ms

      固定 GPU 成本


      4. 編碼器解耦(EPD):多模態模型服務優化

      發布日期:2025年12月15日
      貢獻團隊:vLLM 多模態工作流組

      問題動機

      現代大型多模態模型(LMM)引入了獨特的服務瓶頸:在任何文本生成開始之前,所有圖像必須由視覺編碼器(如 ViT)處理。


      EPD 架構圖

      傳統方案的問題:

      • 編碼器在 GPU 上運行時,Decode 階段必須等待

      • 圖像密集型請求會阻塞純文本請求

      • 編碼器利用率不均導致資源浪費

      解耦方案的三大優勢 工作流程圖 1. 流水線執行與消除干擾

      E → P D (請求 1)
      E → P D (請求 2)
      E → P D (請求 3)
      • 請求 N 的編碼可在請求 N-1 預填充/解碼時運行

      • 純文本請求完全繞過編碼器

      • 系統變為流水線并行,提升吞吐量

      2. 獨立細粒度擴展
      • 根據多模態圖像量擴展編碼器 GPU

      • 根據請求率和輸出長度擴展 Prefill/Decode GPU

      3. 編碼器輸出緩存與復用
      • 常用圖像(logo、圖表、產品圖)的嵌入只計算一次

      • 緩存命中的請求編碼成本為零,直接降低 TTFT

      性能測試結果

      測試環境:4×A100 80G,模型:Qwen3-VL-4B-Instruct


      短文本工作負載

      短文本工作負載(~400 tokens):

      • 單圖:goodput 小幅提升(23 → 24 QPS)

      • 四圖: goodput 翻倍 (6 → 12 QPS)

      • P99 TTFT/TPOT 通常 降低 20-50%

      長文本工作負載

      長文本工作負載(~2000 tokens):

      • EPD 保持 18/11/9/8 QPS vs 基線 8/4/4/4 QPS — 2-2.5倍 goodput

      • 有效解碼吞吐增加 10-30%

      NPU 測試結果

      硬件可移植性: 在華為昇騰 NPU(4×Ascend 910B 32G)上也展現了相同的架構級收益。

      5. AMD × vLLM 語義路由器:混合模型智能協作

      發布日期:2025年12月16日
      貢獻團隊:AMD 與 vLLM 語義路由器團隊

      從單模型到混合模型的轉變
      混合模型架構

      在混合模型(Mixture-of-Models)世界中,企業 AI 棧通常包括:

      • 路由 SLM :分類、路由和策略執行

      • 多個 LLM 和領域專用模型(代碼、金融、醫療、法律)

      • 工具、RAG 管道、向量搜索和業務系統

      VSR 核心能力 VSR 核心功能 1. 基于信號的 Multi-LoRA 路由

      路由策略

      描述

      關鍵詞路由

      快速確定性的模式匹配

      領域分類

      意圖感知的適配器選擇

      嵌入語義相似度

      基于語義理解的細粒度路由

      事實檢查路由

      高風險查詢路由到專門驗證管道


      2. 跨實例智能

      • Response API :集中存儲實現有狀態多輪對話

      • 語義緩存 :通過跨實例向量匹配顯著減少 token 使用

      3. 企業級護欄 企業護欄
      • PII 檢測 :防止敏感信息泄露

      • 越獄防護 :阻止惡意提示注入

      • 幻覺檢測 :驗證關鍵領域的響應可靠性

      • 超級對齊 :確保 AI 系統在向 AGI 能力擴展時保持與人類價值觀對齊

      AMD GPU 部署路徑 部署路徑

      兩種部署方式:

      1. 基于 vLLM 的推理 :在 AMD GPU 上運行完整推理

      2. 輕量級 ONNX 路由 :僅路由邏輯,最小化資源占用

      6. 大規模服務:DeepSeek @ 2.2k tok/s/H200

      發布日期:2025年12月17日

      V1 引擎完成遷移

      在 v0.11.0 中,vLLM V0 引擎的最后代碼被移除,標志著向改進的 V1 引擎架構的完全遷移。這一成就離不開 vLLM 社區 1,969 位貢獻者的努力。

      性能突破
      Prefill 吞吐 Decode 吞吐

      社區基準測試(Coreweave H200 集群,Infiniband + ConnectX-7 NICs)顯示:

      • 生產級多節點部署達到 2.2k tokens/s 每 GPU

      • 相比早期 1.5k tokens/s 有顯著提升

      核心組件 Wide-EP(專家并行)



      https://blog.vllm.ai/ Wide-EP Token 路由

      DeepSeek-V3 部署的兩大考慮:

      • 稀疏專家激活 :DeepSeek-R1 每次前向傳播僅激活 37B/671B 參數

      • KV 緩存管理 :張量并行對 MLA 注意力架構并非最優

      KV 緩存對比

      Wide-EP 結合 EP 與數據并行(DP),最大化 MLA 架構的 KV 緩存效率。

      雙批次重疊(DBO)
      DBO 優化前

      優化前: MoE 調度/組合部分的通信開銷占用大量時間


      DBO 優化后

      優化后: 微批次工作線程交替執行,重疊計算與通信,提升 GPU 利用率

      專家并行負載均衡(EPLB)


      MoE 專家層在訓練時針對平衡負載優化,但推理時實際工作負載可能導致不均衡。EPLB 動態調整邏輯到物理專家的映射。

      分離式服務(Disaggregated Serving)


      分離式服務

      由于專家分布在各 rank 上,單個計算密集型 prefill 請求可能延遲整個 EP 組的前向傳播。分離式服務放大了解耦的收益。

      部署方案

      方案

      特點


      llm-d

      Kubernetes 原生分布式推理服務棧


      Dynamo

      高吞吐低延遲生產部署,支持 KV 感知路由


      Ray Serve LLM

      模塊化部署,無縫集成 Ray 生態


      總結

      vLLM 在2025年12月的更新展現了其在大規模 LLM 推理領域的持續創新:

      1. vLLM Router 解決了生產環境中的智能負載均衡問題

      2. Speculators v0.3.0 讓推測解碼從研究走向生產

      3. HaluGate 提供了實時、低延遲的幻覺檢測能力

      4. EPD 通過編碼器解耦優化多模態模型服務

      5. AMD × VSR 構建了混合模型時代的智能控制面

      6. 大規模服務優化 實現了 2.2k tok/s/H200 的突破性性能

      這些技術進展共同推動 vLLM 成為企業級 AI 基礎設施的核心組件,為構建可擴展、可信賴、高性能的 AI 應用提供了堅實基礎。

      本文由 AI 輔助編寫,基于 vLLM 官方博客https://blog.vllm.ai/內容整理。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      16歲少女被父親過度溺愛,母親意外撞見不雅的一幕,最終釀成慘劇

      16歲少女被父親過度溺愛,母親意外撞見不雅的一幕,最終釀成慘劇

      林林故事揭秘
      2024-11-29 18:38:13
      《逍遙》定檔央八,雖然是下午檔,但數據不會差,譚松韻絕對扛劇

      《逍遙》定檔央八,雖然是下午檔,但數據不會差,譚松韻絕對扛劇

      大齡女一曉彤
      2025-12-23 14:29:19
      美軍官:解放軍若對臺灣動武,美軍立刻奪取中國海外港口為己所用

      美軍官:解放軍若對臺灣動武,美軍立刻奪取中國海外港口為己所用

      潮鹿逐夢
      2025-12-26 15:57:53
      仇英《江南春圖》卷與唐寅(款)《水村行旅圖》卷對比分析。

      仇英《江南春圖》卷與唐寅(款)《水村行旅圖》卷對比分析。

      祥和居主人
      2025-12-26 09:57:13
      “孩子都腺樣體了還吃烤腸!”廉價早餐揭露低認知家長有多可怕!

      “孩子都腺樣體了還吃烤腸!”廉價早餐揭露低認知家長有多可怕!

      知曉科普
      2025-12-25 10:02:14
      汪精衛建立的“汪偽政府”到底多大?當時國際上有哪些國家承認?

      汪精衛建立的“汪偽政府”到底多大?當時國際上有哪些國家承認?

      史之銘
      2025-12-13 05:01:10
      A股漲到3963點,突破2萬億,釋放兩個信號,下周一A股可能這樣走

      A股漲到3963點,突破2萬億,釋放兩個信號,下周一A股可能這樣走

      有范又有料
      2025-12-26 15:10:10
      CCTV5直播,U23男足大戰伊拉克U23,王鈺棟領銜,贏球能沖擊八強

      CCTV5直播,U23男足大戰伊拉克U23,王鈺棟領銜,贏球能沖擊八強

      體壇小快靈
      2025-12-26 12:19:12
      張梓琳帶女兒過節一臉孕相,胖妹臉型完美,這美貌馬賽克都擋不住

      張梓琳帶女兒過節一臉孕相,胖妹臉型完美,這美貌馬賽克都擋不住

      八怪娛
      2025-12-26 16:00:33
      南京這把火,直燒到了北京一位“通天“人物的心坎上

      南京這把火,直燒到了北京一位“通天“人物的心坎上

      鶴羽說個事
      2025-12-24 15:00:47
      56分16板15助!就在今天,5項前無古人的NBA紀錄被約基奇達成了

      56分16板15助!就在今天,5項前無古人的NBA紀錄被約基奇達成了

      世界體育圈
      2025-12-26 16:08:13
      普京:盡管困難重重,俄羅斯仍在前進

      普京:盡管困難重重,俄羅斯仍在前進

      看看新聞Knews
      2025-12-25 12:53:05
      Lisa在圣誕節二登瘋馬秀,由男友三公子陪同,直接打臉洗白的粉絲

      Lisa在圣誕節二登瘋馬秀,由男友三公子陪同,直接打臉洗白的粉絲

      芊手若
      2025-12-26 15:32:19
      22名敢死隊員拼死拿下瀘定橋后神秘消失,40年后河北一份絕密檔案,意外揭開塵封半個世紀的驚人真相

      22名敢死隊員拼死拿下瀘定橋后神秘消失,40年后河北一份絕密檔案,意外揭開塵封半個世紀的驚人真相

      源溯歷史
      2025-12-18 19:06:21
      慘遭主教練怒批!上海隊可能放走洛夫頓,加盟廣東男籃成首選?

      慘遭主教練怒批!上海隊可能放走洛夫頓,加盟廣東男籃成首選?

      緋雨兒
      2025-12-26 13:35:18
      川名麻耶承認:我就是孫正義女兒!

      川名麻耶承認:我就是孫正義女兒!

      浙江之聲
      2025-12-26 08:16:04
      “我穿一條汗褲就跑到一樓”;云南德宏州盈江縣發生3.9級地震,高校學生下樓避險

      “我穿一條汗褲就跑到一樓”;云南德宏州盈江縣發生3.9級地震,高校學生下樓避險

      大風新聞
      2025-12-26 09:46:23
      朱元璋的姐夫是聰明人,朱元璋當皇帝后問他要啥官,他回了8個字

      朱元璋的姐夫是聰明人,朱元璋當皇帝后問他要啥官,他回了8個字

      長風文史
      2025-12-23 21:14:32
      美媒終于回過味:中國這哪是買石油,分明是在給俄進行“大換血”

      美媒終于回過味:中國這哪是買石油,分明是在給俄進行“大換血”

      老范談史
      2025-12-25 21:00:17
      美國人解析中國人和印度人最大的區別,印度網友:我們是超級大國

      美國人解析中國人和印度人最大的區別,印度網友:我們是超級大國

      扶蘇聊歷史
      2025-12-25 14:55:14
      2025-12-26 17:40:49
      機器學習與Python社區 incentive-icons
      機器學習與Python社區
      機器學習算法與Python
      3234文章數 11081關注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      上海7旬爺叔在公園為80后兒子相親 堅持5年每周都來

      頭條要聞

      上海7旬爺叔在公園為80后兒子相親 堅持5年每周都來

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      朱孝天深夜道歉,只字未提五月天阿信

      財經要聞

      “國家隊”出手了,萬億資金規模!

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態度原創

      旅游
      親子
      游戲
      數碼
      軍事航空

      旅游要聞

      原來大理也有西湖,山水交融風光秀美,可惜門票比5A級景區還貴

      親子要聞

      一覺醒來,圣誕老人送來三個小烏龜!

      不是加載動畫!CDPR內部人士揭秘《2077》

      數碼要聞

      飛貓推出M7 Pro隨身WiFi,99元

      軍事要聞

      烏最新20點俄烏和平草案遞交莫斯科 俄方拒絕

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 男人天堂2024在线| 阳东县| 亚洲免费人妻| 狠狠色狠狠色综合| 丰满熟妇乱又伦在线无码视频| 国产精品亚亚洲欧关中字幕| 人人玩人人添人人澡超碰| 欧美freesex黑人又粗又大| 伊川县| 久久国产精品成人免费| 美女被张开双腿日出白浆| 国产三级精品三级在线观看| 久久精品亚洲| 91狠| 国内精品视频一区二区三区| 99久久精品久久久久久婷婷| 三浦在线| 国产成人精品综合| 五十路丰满中年熟女中出| 人妻教师痴汉电车波多野结衣| 成人视频网站在线观看18| 海南省| 色av综合av综合无码网站| 国产普通话对白刺激| 久热久| 兰考县| 精品无码三级在线观看视频| 欧美日韩另类国产| 中文字幕无码A片| 色爱区成人综合网| 国产无遮挡又黄又爽在线视频| 精品无人乱码一区二区三区的优势 | 岛国AV在线| 国产精品乱子乱xxxx| 天天综合天天做天天综合| 日日日日日| 亚洲中文人妻制服| 中文区中文字幕免费看| 国产18禁黄网站禁片免费视频| http://国产熟女.com| 唐河县|