網易首頁 > 網易號 > 正文申請入駐

lmdeploy v0.10.2版本更新詳解：新特性、性能優化與重要修復

2025-11-06 00:11:17　來源: moonfdd

北京舉報

分享至

lmdeploy v0.10.2已正式發布，本次更新帶來了多個新功能、性能提升以及重要的 Bug 修復，同時在架構與依賴環境方面也進行了優化。以下為詳細更新內容解析：

新功能

1.新增 /generate API
v0.10.2版本中新增了/generateAPI，為開發者提供更便捷的文本生成接口，簡化調用流程。
2.TurboMind 引擎的 xgrammar 引導解碼
更新中加入了基于xgrammar的引導解碼功能，適用于 TurboMind 引擎，可更精確控制生成輸出結構。
3.PyTorch 引擎的 xgrammar 引導解碼重實現
對 PyTorch 引擎的引導解碼進行了重構，以統一與 TurboMind 引擎在功能邏輯上的一致性。

性能與功能改進

1.Ascend 芯片支持 aclgraph
進一步提升在昇騰設備上的兼容性與推理性能。
2.推理引擎與異步引擎之間增量輸出性能優化
利用推理過程的增量輸出能力，在推理引擎與異步引擎之間提升整體吞吐與響應速度。
3.優化 multinomial 采樣
改進采樣算法，減少延遲，提高生成質量與效率。

Bug 修復

?zmqrpc 限制為 localhost
修復通信綁定范圍問題，提高安全性。
?修復 dp+tp 預熱問題
消除分布式并行與張量并行預熱過程中的異常。
?修復 dllm 長上下文問題
改善長上下文場景的穩定性與正確性。
?修復 GPT-OSS 流式工具調用解析錯誤
保證工具調用過程的解析與執行正確。
?調整資源釋放邏輯至推理引擎
優化異步與推理引擎的資源管理，避免潛在泄露。
?修復引導解碼過程中 tokenizer 解析錯誤
保證引導解碼功能的穩定性。
?修復工具調用與多模態輸入的 message content 字段處理問題
增強多模態與工具調用消息結構的正確性。
?修復 kimi-k2 構建問題
改善構建穩定性。
?跳過不必要的采樣并修復隨機偏移
減少冗余計算并解決偏移誤差。
?修復 ignore_special_tokens 為 False 時 stop_token_string 重復問題
保證生成結果準確無重復。

其他更新

? 移除 CUDA 11.8 支持，升級 CI/CD 至CUDA 12.6/12.8
? 刪除profile_generation.py及相關測試用例
? 重構評測流程，將 eval 拆分為 API 評測，并新增 h800 測試工作流
? 新增NVIDIA Jetson平臺的 Docker 鏡像
? 重構 API 測試為llm judger評測
? 檢查并優化顏色日志輸出
? 更新 API 測試集，支持 HLE 與 LCB 數據集
? 更新昇騰環境依賴要求
? 版本號提升至v0.10.2

總結

本次lmdeploy v0.10.2的更新不僅引入了用戶期待的/generate API和引導解碼功能，還在推理性能、采樣效率以及兼容性方面都做了顯著提升。同時通過系列 Bug 修復，進一步保證了在多場景下的穩定性與準確性。如果你正在使用 lmdeploy，建議盡快升級到 v0.10.2，以獲得更好的體驗與支持。

我們相信人工智能為普通人提供了一種“增強工具”，并致力于分享全方位的AI知識。在這里，您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業洞察。歡迎關注“福大大架構師每日一題”，發消息可獲得面試資料，讓AI助力您的未來發展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.