<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      vLLM v0.19.1 補丁發布

      0
      分享至


      vLLM 0.19.1 正式版發布了,這次是一個補丁版本,11 個 cherry-pick,主題非常集中:把 Transformers v5 正式拉進來,然后把 Gemma 4 的一堆坑填上。

      v0.19.0 對 Gemma 4 做到了"發布當天可用",但"可用"和"好用"之間差著不少 bug

      這次 v0.19.1 就是來還債的,可以說這是一個 Gemma 4 專項修復版本

      變更

      類型

      一句話

      Transformers v5 正式升級

      生態

      從兼容升級到正式依賴

      Gemma 4 流式工具調用 JSON 損壞

      修復

      流式輸出時部分分隔符導致無效 JSON

      Gemma 4 流式 HTML 重復

      修復

      工具調用后 HTML 內容被重復輸出

      Gemma 4 流式布爾/數字值損壞

      修復

      跨 chunk 的布爾和數字值被截斷

      Gemma 4 推理解析 + 多輪工具調用

      修復

      推理解析器支持 adjust_request,修復多輪對話

      Gemma 4 量化 MoE 支持

      ? 新功能

      FP8 和 NVFP4 量化的 MoE 模型可以跑了

      Gemma 4 Eagle3 推測解碼

      ? 新功能

      支持隱藏狀態提取,可訓練專屬草稿模型

      Gemma 4 LoRA 適配器加載

      修復

      LoRA 加載路徑修正

      Gemma 4 null 值轉字符串

      修復

      裸 null 被錯誤轉為 "null" 字符串

      Gemma 4 PT 模型 token 重復

      修復

      預訓練模型缺失 BOS token 導致輸出重復

      Kimi-K2.5 媒體占位符 token

      修復

      上游 config 和 tokenizer 的 ID 不一致

      一、Transformers v5:從兼容到正式依賴

      這個 PR(#30566)從 2025 年 12 月就開始做了,歷時四個多月終于合入。

      HuggingFace Transformers v5 是一次大版本升級,改了不少底層 API。

      vLLM 作為最依賴 Transformers 生態的推理引擎,這次升級涉及面很廣:

      • 模型加載方式變了 :配置注冊、tokenizer 獲取路徑都有調整

      • 部分模型暫不兼容 :比如 XVERSE 的 tokenizer 在 v5 下會報錯,暫時鎖定了 transformers<=4.57

      • LoRA 加載路徑修復 :適配器目錄下沒有 config.json 時不再報錯

      v0.19.0 已經做了大面積適配,但還是"兼容"狀態

      v0.19.1 把 Transformers v5.5.4 正式拉進依賴——如果你之前一直卡在 v4 不敢升,現在可以放心了

      二、Gemma 4 工具調用:流式輸出的六連修

      Gemma 4 的工具調用在 v0.19.0 發布時就能用,但流式場景下問題一大堆:

      Bug 1:部分分隔符導致無效 JSON(#38992)

      Gemma 4 的工具調用格式用特殊分隔符標記參數

      流式輸出時,一個分隔符可能被拆成兩個 chunk 發出去

      前半截分隔符被當成普通文本輸出,后半截又被正確識別,導致最終拼出來的 JSON 是壞的

      修復方式:在流式輸出中檢測并剝離不完整的分隔符字符。

      Bug 2:工具調用后 HTML 內容重復(#38909)

      Gemma 4 在執行工具調用后繼續生成 HTML 內容時,parser 內部會從緩沖的 delta 重建 current_text,導致已經發過的內容被重復發送。

      修復方式:停止從緩沖 delta 重建文本,直接使用原始流。

      Bug 3:跨 chunk 的布爾/數字值被截斷(#39114)

      工具調用參數如果是 true、false 或數字,這些值可能跨兩個 chunk 被拆開。比如 tru 在第一個 chunk,e 在第二個 chunk,parser 把 tru 當成了字符串。

      修復方式:在流式模式下扣留冒號和后續空白字符,等值完整后再發送。

      Bug 4:裸 null 被轉成字符串 "null"(#39679)

      _parse_gemma4_value 函數處理了 true/false 的裸值,但漏了 null。結果 param:null 被解析成 {"param": "null"} 而不是 {"param": null}

      這會導致 tool_choice="auto"tool_choice=" " 產生不一致的輸出——后者走了 guided decoding 能正確處理 JSON schema,前者不行。

      修復方式:在值解析中補上 null 的處理。

      Bug 5:多輪工具調用 + 推理模式修復(#39027)

      這是最大的一個修復,解決了多個問題:

      • 新增了 Gemma 4 專用 chat template,正確編碼工具結果,處理多輪對話中交替出現的工具調用和推理內容

      • 給 ReasoningParser 基類添加了 adjust_request() 方法——Gemma 4 用它來強制設置 skip_special_tokens=False ,保留邊界 token

      • 修復了流式推理中 thought\n 前綴的剝離邏輯

      • 清理了 Anthropic Messages API 轉換中產生的空 user 消息

      Bug 6:LoRA 適配器加載失?。?38844)

      Gemma4ForCausalLM 加載 LoRA 適配器時路徑有誤,現已修正。想在 Gemma 4 上微調+部署的同學,這個必須有。

      ? 老章說:這六個 bug 放一起看,就能理解為什么 Gemma 4 的工具調用在 v0.19.0 發布時被那么多人吐槽。流式 + 工具調用 + 特殊分隔符,這三個東西疊在一起,邊界條件多到爆炸。如果你在用 Gemma 4 做 function calling,v0.19.1 是必升版本。
      三、Gemma 4 量化 MoE:顯存殺手終于被馴服了

      Gemma 4 的 26B MoE 模型(實際激活 4B)跑起來并不重,但完整加載仍然需要不少顯存。v0.19.1 正式支持了量化 MoE:

      • FP8 動態量化 (W8A8):RedHat 團隊已經發布了現成的量化模型 gemma-4-26B-A4B-it-FP8-Dynamic

      • NVFP4 量化 (W4A4):更激進的壓縮,gemma-4-26B-A4B-it-NVFP4

      對應的 llm-compressor 也同步更新了,支持 Gemma 4 MoE 的專家級校準和量化流程。

      四、Gemma 4 Eagle3 推測解碼支持

      上篇文章我詳細講了 vLLM v0.19.0 新增的隱藏狀態提取功能

      v0.19.1 把這個能力擴展到了 Gemma 4:

      • Gemma4Model 繼承了 EagleModelMixin ,支持輔助隱藏狀態的逐層收集

      • Gemma4ForCausalLMGemma4ForConditionalGeneration (多模態包裝器)都實現了 SupportsEagle3 接口

      • 在推測解碼配置驗證的模型白名單中加入了 gemma4

      這意味著你現在可以用上篇介紹的那套流程,為 Gemma 4 訓練專屬的 Eagle3 草稿模型,實現定制化的推測解碼加速。

      五、Gemma 4 PT 模型的 token 重復問題

      這個 bug 專門針對 Gemma 4 的預訓練模型(不帶 -it 后綴的那些)

      問題根源:預訓練模型沒有 chat template,走的是原始 completions 接口。但 Gemma 4 的 ProcessingInfo 默認設置了 add_special_tokens=False——這個設置對 IT(指令微調)模型是對的,因為 chat template 渲染時已經加了 BOS token???PT 模型沒有 template,BOS token 就丟了。

      缺少 BOS token 的后果:模型輸出開始瘋狂重復。

      修復方式:動態檢測模型是否有 chat_template,沒有的話自動設 add_special_tokens=True,確保 BOS token 被正確注入。

      六、Kimi-K2.5 媒體占位符修復

      這個跟 Gemma 4 無關,但也值得提一嘴

      月之暗面的 Kimi-K2.5 模型的 config.json 里,media_placeholder_token_id 寫的是 163605,但 tokenizer 實際映射的 <|media_pad|> ID 是 163602

      為什么不一致?因為 Kimi-K2.5 沒有附帶 tokenizer.json,Transformers 從 tiktoken 自動轉換時,特殊 token 的 ID 被悄悄壓縮了。

      修復方式:在初始化時從 tokenizer 重新解析 token ID,如果和 config 不一致就自動修正。

      升級建議

      如果你不用 Gemma 4,v0.19.0 到 v0.19.1 的變化對你幾乎沒有影響,可以按需升級

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      重要突破,科學家注射一個腫瘤細胞,全身癌細胞竟然消失

      重要突破,科學家注射一個腫瘤細胞,全身癌細胞竟然消失

      心中的麥田
      2026-04-19 18:26:11
      美國至少10名科研人員離奇死亡或神秘失蹤引發廣泛關注!大都接觸UFO、航空航天、原子能等涉密項目,白宮承諾:徹查

      美國至少10名科研人員離奇死亡或神秘失蹤引發廣泛關注!大都接觸UFO、航空航天、原子能等涉密項目,白宮承諾:徹查

      大風新聞
      2026-04-20 09:35:11
      特朗普第一任期的白宮律師突然爆猛料:特朗普已經撐不下去了

      特朗普第一任期的白宮律師突然爆猛料:特朗普已經撐不下去了

      西樓知趣雜談
      2026-04-19 21:25:23
      快檢查自家陽臺!有人家里已大量出現,官方提醒:千萬別摸

      快檢查自家陽臺!有人家里已大量出現,官方提醒:千萬別摸

      環球網資訊
      2026-04-18 16:23:18
      伊朗總統:美國持續背信棄義 做出霸凌且不合理行為

      伊朗總統:美國持續背信棄義 做出霸凌且不合理行為

      中國網
      2026-04-20 11:09:10
      普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

      普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

      田園小歸
      2026-04-20 09:17:43
      爭議?對手疑似伸腿踹張雪機車惹怒中國網友 張雪:很正常+很干凈

      爭議?對手疑似伸腿踹張雪機車惹怒中國網友 張雪:很正常+很干凈

      風過鄉
      2026-04-20 06:45:19
      斯諾克世錦賽:丁俊暉送大禮!吉爾伯特被罰12分逆轉,僅2-3落后

      斯諾克世錦賽:丁俊暉送大禮!吉爾伯特被罰12分逆轉,僅2-3落后

      劉姚堯的文字城堡
      2026-04-19 19:17:56
      學術不端是學術晉級的最快捷徑

      學術不端是學術晉級的最快捷徑

      必記本
      2026-04-19 22:50:38
      王金平力挺了鄭麗文后,連勝文發聲了,竟主動為朱立倫證實1件事

      王金平力挺了鄭麗文后,連勝文發聲了,竟主動為朱立倫證實1件事

      瀲滟晴方DAY
      2026-04-20 06:55:07
      研究發現:脂肪肝人若常補B族維生素,用不了多久,身體或有3好處

      研究發現:脂肪肝人若常補B族維生素,用不了多久,身體或有3好處

      小胡軍事愛好
      2026-03-05 20:56:45
      季后賽首秀35分!就在今天,一項鄧肯保持的NBA紀錄被文班打破了

      季后賽首秀35分!就在今天,一項鄧肯保持的NBA紀錄被文班打破了

      世界體育圈
      2026-04-20 12:45:16
      魏建軍提議私家車10年后再年檢,用OBD和車聯網替代實地檢測

      魏建軍提議私家車10年后再年檢,用OBD和車聯網替代實地檢測

      快科技
      2026-04-19 08:19:03
      為什么全國人民都在拒接電話?

      為什么全國人民都在拒接電話?

      黯泉
      2026-04-18 17:00:56
      中國永遠的校長,死于1962年

      中國永遠的校長,死于1962年

      最愛歷史
      2024-05-20 13:30:17
      隨著巴黎圣日耳曼爆大冷門1-2,法甲最新積分榜出爐:爭冠白熱化

      隨著巴黎圣日耳曼爆大冷門1-2,法甲最新積分榜出爐:爭冠白熱化

      側身凌空斬
      2026-04-20 07:55:12
      上海長征醫院浦東院區啟用,緊鄰9號線曹路站!明后天推出院內大型義診

      上海長征醫院浦東院區啟用,緊鄰9號線曹路站!明后天推出院內大型義診

      上觀新聞
      2026-04-20 11:18:09
      前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢倒下就是紅牌

      前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢倒下就是紅牌

      懂球帝
      2026-04-20 08:00:07
      字母哥離隊倒計時!四隊瘋搶,雄鹿超市即將開張

      字母哥離隊倒計時!四隊瘋搶,雄鹿超市即將開張

      茅塞盾開本尊
      2026-04-20 12:22:09
      于海青:為何說廣東黃坤明書記不斷下基層讓企業信心滿滿?

      于海青:為何說廣東黃坤明書記不斷下基層讓企業信心滿滿?

      于海青
      2026-04-19 19:54:18
      2026-04-20 12:59:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3334文章數 11137關注度
      往期回顧 全部

      科技要聞

      藍色起源一級火箭完美回收 客戶衛星未入軌

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      體育要聞

      七大獎項候選官宣!文班或全票DPOY

      娛樂要聞

      鹿晗生日上熱搜,被關曉彤撕下體面

      財經要聞

      月之暗面IPO迷局

      汽車要聞

      把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態度原創

      家居
      健康
      手機
      數碼
      游戲

      家居要聞

      自然慢調 慢享時光

      干細胞抗衰4大誤區,90%的人都中招

      手機要聞

      一加Ace6至尊版手機官宣4月28日發布:天璣9500、8600mAh

      數碼要聞

      華為全新鴻蒙電腦搭載云晰柔光屏,硬件級低藍光,今日下午發布

      異世界自動化模擬經營游戲《退休勇者當廠長》現已正式上架Steam

      無障礙瀏覽 進入關懷版