<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      vLLM v0.17.0來了,Qwen3.5 全系列完美支持,Anthropic API 兼容

      0
      分享至

      關于 vLLM,我之前寫過不少:

      今天 vLLMv0.17.0 正式發布


      十大核心亮點速覽

      我從 Release Notes 里提煉了 v0.17.0 最值得關注的十大核心亮點,按重要程度排列:

      1?? FlashAttention 4 集成

      這可能是這個版本最讓人興奮的更新。vLLM 現在正式支持FlashAttention 4 后端了。

      FlashAttention 一路從 1 到 2 到 3,現在 4 也來了。每一代都在推動 attention 計算的效率極限。FA4 在前代基礎上又做了大量底層優化,對于長序列、大模型的推理性能提升顯著。

      如果你在用 H100/H200 或者更新的 GPU 跑大模型推理,升級到 v0.17 應該能明顯感受到速度提升。

      2?? Model Runner V2 里程碑:全面成熟

      Model Runner V2 是 vLLM 下一代模型執行架構,在這個版本中達到了一個重要的成熟里程碑

      • Pipeline Parallel(流水線并行)

      • Decode Context Parallel(解碼上下文并行)

      • Eagle3 推測解碼+ CUDA Graph

      • Pooling 模型支持

      • 分段 & 混合 CUDA Graph 捕獲

      • DP+EP 推測解碼

      • 全新 ModelState 架構

      此外官方還發布了Model Runner V2 的設計文檔,對于想深入了解 vLLM 內部架構的同學,這是一份非常好的學習資料。

      簡單來說,Model Runner V2 是 vLLM 的「心臟升級」。它讓 vLLM 在多卡、多節點、各種并行策略下的推理變得更加靈活和高效。

      3?? Qwen3.5 全家桶支持

      我之前介紹過的方法,vLLM一節都是用的nightly版()

      Qwen3.5 模型全系列在這個版本得到了完整支持,包括:

      • 基于GDN(Gated Delta Networks)的全新架構

      • FP8 量化支持

      • MTP 推測解碼

      • 推理解析器(reasoning parser)支持

      這意味著你可以直接在 vLLM 上跑 Qwen3.5 的各種版本,享受推測解碼和量化加速的全套優化。

      對于國內用戶來說,這可能是最實際的更新之一——Qwen3.5 是目前開源圈里最強的中文大模型之一,但是這一波 vLLM 有點慢了。

      4??--performance-mode一鍵性能調優

      這個功能太貼心了。之前部署 vLLM,性能調優需要手動設置一堆參數(batch size、調度策略等),對新手非常不友好。

      現在只需要一個參數:

      vllm serve your-model --performance-mode throughput

      提供三種模式:

      • **balanced**:均衡模式,適合大多數場景

      • **interactivity**:交互模式,優先降低首 token 延遲,適合聊天場景

      • **throughput**:吞吐模式,最大化吞吐量,適合批處理場景

      不用再去查文檔翻參數了,一個 flag 搞定。這種把復雜度封裝起來的思路,我很喜歡。

      5?? Anthropic API 兼容

      vLLM 之前一直兼容 OpenAI API 格式,現在開始支持Anthropic API 兼容了:

      • thinking blocks(思考塊)支持

      • count_tokensAPI

      • tool_choice=none選項

      • streaming 和圖片處理修復

      這意味著如果你的應用代碼之前是基于 Anthropic Claude API 寫的,現在可以無縫切換到本地 vLLM 部署的模型。API 兼容性做得越來越好,這對于降低遷移成本太重要了。

      6?? 權重卸載 V2:預取技術隱藏延遲

      對于顯存不夠用的同學,這個更新很關鍵。

      v0.17 的權重卸載器引入了預取機制(Prefetching),可以在 GPU 計算的同時,把下一層的權重從 CPU 加載到 GPU,從而隱藏權重加載延遲

      此外還支持了:

      • 選擇性 CPU 權重卸載:不用全部卸載,只卸載你指定的層

      • 無需雙倍 pinned memory 的 CPU 卸載:省內存

      這對于在消費級 GPU(3090、4090)上跑大模型的同學來說,是實打實的優化。

      7?? 彈性專家并行 Phase 2

      MoE(Mixture of Experts)模型是當前大模型的主流架構(DeepSeek-V3/V3.2、Qwen3 MoE、Llama 4 等),vLLM 在這個版本引入了彈性專家并行 Milestone 2

      核心能力:動態 GPU 縮放

      什么意思?就是你的 MoE 模型可以根據負載動態調整使用的 GPU 數量,負載低的時候少用幾張卡省錢,負載高的時候自動擴展。這對于生產環境的成本優化太重要了。

      8?? 量化 LoRA 適配器直接加載

      之前在 vLLM 上用 LoRA 微調后的模型,如果是量化版本(比如 QLoRA),需要各種周折才能加載。

      現在,vLLM 可以直接加載量化 LoRA 適配器了。

      這對于做 LoRA 微調 + 量化部署的工作流來說是個大利好。QLoRA 訓練完直接扔到 vLLM 里就能跑,中間環節省了。

      9?? 推測解碼全面進化

      推測解碼(Speculative Decoding)是加速 LLM 推理的關鍵技術,v0.17 在這方面做了大量優化:

      • Eagle3推測解碼支持 CUDA Graph,速度更快

      • Nemotron-HMTP 和 Mamba 推測解碼

      • Sparse MLA + MTP全 CUDA Graph 支持

      • DP+EP推測解碼(數據并行 + 專家并行)

      • Eagle3 支持disaggregated serving(分離式推理)

      特別是 Eagle3 + CUDA Graph 這個組合,是這次推測解碼部分最值得關注的組合之一。

      Kernel 層面的深度優化

      這個版本在底層內核上做了大量「不起眼但很重要」的優化:

      • FlashInfer Sparse MLA后端

      • Triton top-k / top-p 采樣器內核

      • TRTLLM DSV3 Router GEMM 內核:batch-1 場景加速 6%

      • FA3 swizzle 優化

      • 256-bit LDG/STG 激活內核

      • Helion 內核框架:自動調優基礎設施

      這些優化可能單個看不起眼,但加在一起就是量變引起質變。實際測試中,DeepSeek R1 BF16 最低延遲 QKV GEMM 做到了0.5% 端到端加速,Pipeline Parallel 異步收發做到了2.9% 端到端吞吐提升,pooling maxsim 做到了13.9% 吞吐提升

      硬件支持:不止 NVIDIA

      vLLM 越來越不是 NVIDIA 的專屬了。v0.17 在硬件支持上做了大量工作:

      NVIDIA 方面:

      • SM100(Blackwell)FP8 MLA prefill 支持

      • SM100 MXFP8 塊級縮放分組矩陣乘法

      • SM120 FP8 GEMM 優化

      • FlashInfer DeepGEMM 在 SM90 上默認開啟 swapAB

      AMD ROCm 方面:

      • AITER 融合 RoPE+KVCache

      • gfx950 上 MXFP4 MoE 權重預混洗

      • bitsandbytes 量化支持

      • CK(Composable Kernel)MoE 量化后端

      Intel XPU 方面:

      • CUDA graph 支持終于來了

      • NIXL GPUDirect RDMA

      CPU 方面:

      • ARM BF16 交叉編譯

      • s390x FP16 支持

      • 同時支持 AVX2 和 AVX512 的 CPU 發行版

      如果你是 AMD 或 Intel 的用戶,現在上 vLLM 的體驗已經好了很多。雖然和 NVIDIA 比還有差距,但差距在快速縮小。

      ASR 模型支持:不只是 LLM 了

      v0.17 有一個很有意思的變化——開始支持ASR(語音識別)模型了:

      • FunASR

      • FireRedASR2

      • Qwen3-ASR 實時流式識別

      vLLM 從名字看是「vLLM」——Virtual LLM,但現在它的野心顯然不止于文本大模型。之前加了多模態(視覺、音頻),現在又加了 ASR,正在進化成一個全模態推理引擎

      升級注意事項

      在你興沖沖跑去升級之前,說幾個需要注意的點:

      1. PyTorch 2.10 升級(Breaking Change!)

      v0.17 升級到了 PyTorch 2.10,這是環境依賴的破壞性變更。如果你的環境依賴特定版本的 PyTorch,需要做好兼容性測試。

      2. CUDA 12.9+ 已知問題

      如果你在 CUDA 12.9+ 上遇到CUBLAS_STATUS_INVALID_VALUE錯誤,可以試試:

      # 方法 1:清理 LD_LIBRARY_PATH
      unset LD_LIBRARY_PATH

      # 方法 2:uv 安裝
      uv pip install vllm --torch-backend=auto

      # 方法 3:指定 CUDA 版本
      pip install vllm --extra-index-url https://download.pytorch.org/whl/cu129

      3. KV 緩存加載策略變更

      KV load failure policy 默認值從recompute變為fail。如果你的部署依賴自動重算行為,需要手動設置回去。

      安裝

      安裝很簡單,一行命令:

      uv pip install vllm

      Docker 用戶:

      docker pull vllm/vllm-openai:v0.17.0
      docker run --gpus all \
      -v ~/.cache/huggingface:/root/.cache/huggingface \
      --env "HF_TOKEN=$HF_TOKEN" \
      -p 8000:8000 \
      --ipc=host \
      vllm/vllm-openai:v0.17.0 \
      --model Qwen/Qwen3-0.6B
      和 SGLang 怎么選?

      這是評論區最常被問到的問題之一。我簡單說下我的看法:

      • vLLM:更成熟,社區更大(GitHub 50k+ stars),硬件兼容性更好,企業級特性更豐富(pipeline parallel、disaggregated serving 等)。適合生產環境部署。

      • SGLang:在某些場景下性能更極致(特別是 DeepSeek 系列模型),API 更現代化。適合追求極致性能的場景。

      兩者都是頂級的推理引擎,現在更像是Chrome vs Firefox的關系——競爭推動了整個行業的進步。

      總結

      vLLM v0.17.0 是一個里程碑式的版本。FlashAttention 4 集成、Model Runner V2 成熟、Qwen3.5 全面支持、一鍵性能調優、Anthropic API 兼容……幾乎每一個更新都是硬核的工程突破。

      如果你正在做 LLM 推理部署,不管是研發還是生產環境,vLLM 依然是最值得關注的推理引擎之一

      .5

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      摧毀海上偷渡鏈!“獴獵”行動68人落網細節曝光

      摧毀海上偷渡鏈!“獴獵”行動68人落網細節曝光

      環球網資訊
      2026-04-19 13:23:28
      一輛20萬的新車,卡扣斷了,修不起;89元的零件 逼人換13萬電池包

      一輛20萬的新車,卡扣斷了,修不起;89元的零件 逼人換13萬電池包

      娛樂圈的筆娛君
      2026-04-20 02:07:08
      主動站出來認罪的紅色高棉頭目----一個劊子手的罪與贖

      主動站出來認罪的紅色高棉頭目----一個劊子手的罪與贖

      通往遠方的路
      2026-04-20 09:57:44
      中國有貨就是不賣!印度這次徹底失算,把全球供應商都惹毛了

      中國有貨就是不賣!印度這次徹底失算,把全球供應商都惹毛了

      一個有靈魂的作者
      2026-04-19 19:40:53
      重要突破,科學家注射一個腫瘤細胞,全身癌細胞竟然消失

      重要突破,科學家注射一個腫瘤細胞,全身癌細胞竟然消失

      心中的麥田
      2026-04-19 18:26:11
      伊朗向中國通報!談判團差點被美軍“團滅”,全程連電話都不敢打

      伊朗向中國通報!談判團差點被美軍“團滅”,全程連電話都不敢打

      荷蘭豆愛健康
      2026-04-19 21:53:37
      越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

      越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

      苗苗情感說
      2026-04-19 12:38:15
      文班亞馬季后賽首秀:傳承開始

      文班亞馬季后賽首秀:傳承開始

      張佳瑋寫字的地方
      2026-04-20 12:23:10
      張蘭暗示兒媳馬筱梅欲望旺盛,汪小菲別墅空調失靈,覬覦婆婆宅邸

      張蘭暗示兒媳馬筱梅欲望旺盛,汪小菲別墅空調失靈,覬覦婆婆宅邸

      樂悠悠娛樂
      2026-04-20 10:47:48
      爺爺生前錄音贈孫女109萬元遺產,六個姑姑不服要求平分,法院:錄音無效,重新分配,患小兒麻痹癥姑姑拿大頭

      爺爺生前錄音贈孫女109萬元遺產,六個姑姑不服要求平分,法院:錄音無效,重新分配,患小兒麻痹癥姑姑拿大頭

      魯中晨報
      2026-04-17 17:00:03
      600年都不倒!天安門這4根重達2萬多公斤的華表,有何特殊含義?

      600年都不倒!天安門這4根重達2萬多公斤的華表,有何特殊含義?

      墨印齋
      2026-04-14 00:57:55
      復雜的黎巴嫩,走投無路的真主黨

      復雜的黎巴嫩,走投無路的真主黨

      寰宇大觀察
      2026-04-17 17:36:11
      靈隱寺砸飯碗!浙江4000寺廟大洗牌,滿街僧人有玄機

      靈隱寺砸飯碗!浙江4000寺廟大洗牌,滿街僧人有玄機

      一口娛樂
      2026-04-20 01:43:39
      解氣!!!來而不往非禮也!中國海軍今天出手了!

      解氣!!!來而不往非禮也!中國海軍今天出手了!

      樂趣紀史
      2026-04-20 08:03:19
      浙江25歲女子深夜跑進急診,疼到臉色發白,醫生:近兩三年這類患者越來越多,嚴重的會造成不可逆傷害

      浙江25歲女子深夜跑進急診,疼到臉色發白,醫生:近兩三年這類患者越來越多,嚴重的會造成不可逆傷害

      環球網資訊
      2026-04-20 09:25:07
      張本兄妹改名風波再升級,韓媒強烈批評,這就是狠毒的創姓改稱

      張本兄妹改名風波再升級,韓媒強烈批評,這就是狠毒的創姓改稱

      有范又有料
      2026-04-19 00:03:10
      張雪機車,全球訂單狂飆

      張雪機車,全球訂單狂飆

      第一財經資訊
      2026-04-18 18:42:46
      張雪回應為何還有6圈提前結束比賽:有事故摩托車橫躺在賽道上

      張雪回應為何還有6圈提前結束比賽:有事故摩托車橫躺在賽道上

      貝殼財經
      2026-04-19 23:56:03
      一伊朗油輪突破美國封鎖進入伊朗水域

      一伊朗油輪突破美國封鎖進入伊朗水域

      每日經濟新聞
      2026-04-20 07:10:32
      “DeepSeek首次融資”傳聞震動市場!寒武紀、沐曦股份、摩爾線程和張雪機車的天使投資人都回應了

      “DeepSeek首次融資”傳聞震動市場!寒武紀、沐曦股份、摩爾線程和張雪機車的天使投資人都回應了

      證券時報
      2026-04-19 22:52:02
      2026-04-20 12:55:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3334文章數 11137關注度
      往期回顧 全部

      科技要聞

      藍色起源一級火箭完美回收 客戶衛星未入軌

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      體育要聞

      七大獎項候選官宣!文班或全票DPOY

      娛樂要聞

      鹿晗生日上熱搜,被關曉彤撕下體面

      財經要聞

      月之暗面IPO迷局

      汽車要聞

      把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態度原創

      本地
      旅游
      健康
      手機
      教育

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      旅游要聞

      800年紫藤花開如瀑 最美寧陽四月天

      干細胞抗衰4大誤區,90%的人都中招

      手機要聞

      一加Ace6至尊版手機官宣4月28日發布:天璣9500、8600mAh

      教育要聞

      我發現一個殘酷真相:孩子長大后,最怨恨的不是管太嚴的父母……

      無障礙瀏覽 進入關懷版