![]()
lmdeploy v0.10.2已正式發布,本次更新帶來了多個新功能、性能提升以及重要的 Bug 修復,同時在架構與依賴環境方面也進行了優化。以下為詳細更新內容解析:
新功能
1.新增 /generate API
v0.10.2版本中新增了/generateAPI,為開發者提供更便捷的文本生成接口,簡化調用流程。2.TurboMind 引擎的 xgrammar 引導解碼
更新中加入了基于xgrammar的引導解碼功能,適用于 TurboMind 引擎,可更精確控制生成輸出結構。3.PyTorch 引擎的 xgrammar 引導解碼重實現
對 PyTorch 引擎的引導解碼進行了重構,以統一與 TurboMind 引擎在功能邏輯上的一致性。
1.Ascend 芯片支持 aclgraph
進一步提升在昇騰設備上的兼容性與推理性能。2.推理引擎與異步引擎之間增量輸出性能優化
利用推理過程的增量輸出能力,在推理引擎與異步引擎之間提升整體吞吐與響應速度。3.優化 multinomial 采樣
改進采樣算法,減少延遲,提高生成質量與效率。
?zmqrpc 限制為 localhost
修復通信綁定范圍問題,提高安全性。?修復 dp+tp 預熱問題
消除分布式并行與張量并行預熱過程中的異常。?修復 dllm 長上下文問題
改善長上下文場景的穩定性與正確性。?修復 GPT-OSS 流式工具調用解析錯誤
保證工具調用過程的解析與執行正確。?調整資源釋放邏輯至推理引擎
優化異步與推理引擎的資源管理,避免潛在泄露。?修復引導解碼過程中 tokenizer 解析錯誤
保證引導解碼功能的穩定性。?修復工具調用與多模態輸入的 message content 字段處理問題
增強多模態與工具調用消息結構的正確性。?修復 kimi-k2 構建問題
改善構建穩定性。?跳過不必要的采樣并修復隨機偏移
減少冗余計算并解決偏移誤差。?修復 ignore_special_tokens 為 False 時 stop_token_string 重復問題
保證生成結果準確無重復。
? 移除 CUDA 11.8 支持,升級 CI/CD 至CUDA 12.6/12.8
? 刪除
profile_generation.py及相關測試用例? 重構評測流程,將 eval 拆分為 API 評測,并新增 h800 測試工作流
? 新增NVIDIA Jetson平臺的 Docker 鏡像
? 重構 API 測試為llm judger評測
? 檢查并優化顏色日志輸出
? 更新 API 測試集,支持 HLE 與 LCB 數據集
? 更新昇騰環境依賴要求
? 版本號提升至v0.10.2
本次lmdeploy v0.10.2的更新不僅引入了用戶期待的/generate API和引導解碼功能,還在推理性能、采樣效率以及兼容性方面都做了顯著提升。同時通過系列 Bug 修復,進一步保證了在多場景下的穩定性與準確性。如果你正在使用 lmdeploy,建議盡快升級到 v0.10.2,以獲得更好的體驗與支持。
我們相信人工智能為普通人提供了一種“增強工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業洞察。 歡迎關注“福大大架構師每日一題”,發消息可獲得面試資料,讓AI助力您的未來發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.