<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      lmdeploy v0.12.2 發布!全面支持 GLM5、Qwen3.5,性能與兼容性雙升級,大模型部署再提速

      0
      分享至




      一、版本總覽:2026開年關鍵迭代,大模型部署生態再進化

      2026年3月18日,InternLM團隊正式發布lmdeploy v0.12.2版本,作為開年以來的重要迭代,該版本聚焦模型支持廣度、推理性能、量化能力、硬件兼容性、穩定性五大核心維度,完成34次提交、277個文件修改,由16位貢獻者協同打磨,實現了對GLM5、Qwen3.5等主流大模型的全面適配,同時在TurboMind引擎優化、量化技術升級、Bug修復等方面實現突破性進展,為大模型高效、穩定、低成本部署提供了更強大的技術支撐。

      lmdeploy作為覆蓋大模型壓縮、推理、服務的一體化部署工具包,憑借TurboMind高性能推理引擎、靈活的量化方案、多模型兼容能力,已成為大模型落地的核心基礎設施。v0.12.2版本延續了工具的核心優勢,進一步拓寬模型適配邊界,強化性能與穩定性,無論是個人開發者的本地部署,還是企業級的大規模服務化,都能提供更優的解決方案。

      二、核心新特性:模型支持全面擴容,推理能力再突破 (一)主流大模型全面適配,覆蓋國產與開源生態

      1. 1.支持GLM5模型
        作為本次版本的核心亮點之一,lmdeploy v0.12.2正式新增對GLM5模型的支持,補齊了對智譜AI主流大模型的部署能力。GLM5作為智譜AI推出的新一代大模型,在通用理解、邏輯推理、多輪對話等方面具備顯著優勢,此次適配讓開發者可通過lmdeploy快速實現GLM5模型的本地推理與服務化部署,無需復雜的二次開發,即可將GLM5的能力集成到各類應用中。

      2. 2.新增Qwen3.5模型支持
        緊跟通義千問模型迭代節奏,v0.12.2版本全面支持Qwen3.5系列模型,包括密集型(Dense)與混合專家型(MoE)架構。Qwen3.5作為阿里云推出的高性能大模型,在長文本處理、多模態交互、實時推理等場景表現突出,此次適配不僅實現基礎推理支持,更通過TurboMind引擎深度優化,保障Qwen3.5模型在部署后的推理效率與穩定性。

      3. 3.GLM-4.7-Flash Turbomind專項支持
        針對GLM-4.7-Flash模型,版本新增專屬的TurboMind支持能力。GLM-4.7-Flash主打低延遲、高吞吐推理,適配實時對話、智能客服等對響應速度要求嚴苛的場景,lmdeploy通過定制化的TurboMind引擎適配,充分釋放該模型的性能潛力,實現推理延遲與吞吐量的雙重優化。

      4. 4.Qwen/Internlm/Llama系列模型FP8量化在線支持
        為解決大模型部署中的顯存占用與推理速度矛盾,v0.12.2版本實現對Qwen、Internlm、Llama三大主流模型系列(含Dense與MoE架構)的FP8量化在線支持。FP8量化作為兼顧精度與效率的量化方案,可在幾乎不損失模型推理精度的前提下,將顯存占用降低約50%,同時提升推理速度,大幅降低大模型部署的硬件門檻,讓中低端GPU也能流暢運行百億參數級大模型。

      (二)推理與生成能力升級,提升生成質量與靈活性
      1. 1.新增TurboMind對Qwen3.5全架構支持
        除基礎適配外,版本通過專項開發,實現TurboMind引擎對Qwen3.5 Dense與MoE架構的完整支持。TurboMind作為lmdeploy的核心推理引擎,基于C++/CUDA實現,具備連續批處理、分塊KV緩存、高性能算子等優勢,此次針對Qwen3.5的深度優化,可讓該模型在lmdeploy部署后,吞吐量較原生推理提升數倍,同時降低推理延遲。

      2. 2.支持Router Replay與量化層忽略(Qwen3.5專屬)
        針對Qwen3.5模型的MoE架構特性,版本新增Router Replay(路由重放)與忽略量化層功能。Router Replay可優化MoE模型中專家路由的推理效率,減少重復計算;忽略量化層則允許開發者針對模型特定層跳過量化,平衡推理精度與速度,滿足不同場景的部署需求,進一步提升Qwen3.5模型部署的靈活性。

      3. 3.新增Repetition Ngram Logits Processor
        為解決大模型生成過程中的重復文本問題,v0.12.2版本新增Repetition Ngram Logits Processor(重復N元語法邏輯處理器)。該功能通過對生成文本的N元語法進行檢測與懲罰,有效抑制重復片段的生成,提升生成文本的連貫性、多樣性與質量,尤其適用于長文本生成、內容創作、對話交互等場景。

      三、性能與兼容性優化:引擎升級,適配更廣泛硬件與框架 (一)TurboMind引擎深度優化,適配最新技術棧
      1. 1.兼容Transformers 5.0框架
        隨著Hugging Face Transformers框架迭代至5.0版本,lmdeploy v0.12.2同步完成TurboMind引擎的兼容性升級,確?;谧钚耇ransformers框架訓練或導出的模型,可無縫通過lmdeploy部署。此次兼容覆蓋模型加載、權重解析、推理流程等全鏈路,避免因框架版本不匹配導致的部署失敗,保障開發者使用最新模型與工具鏈的順暢性。

      2. 2.支持Qwen與Internlm模型FP32 Head
        針對Qwen與Internlm系列模型,版本新增FP32精度的輸出頭(Head)支持。在部分對推理精度要求極高的場景(如金融分析、醫療診斷、科學計算),FP32精度可避免量化帶來的精度損失,保障輸出結果的準確性;同時,該功能可與模型其他部分的量化方案靈活搭配,實現精度與效率的動態平衡。

      3. 3.MLA KV緩存內存占用優化
        通過核心算法優化,版本實現MLA(Multi-Head Latent Attention)結構的KV緩存內存占用大幅降低。KV緩存作為大模型推理中顯存占用的核心部分,其優化直接影響模型可部署的上下文長度與并發數,此次優化可在相同硬件條件下,支持更長的上下文窗口或更多的并發請求,顯著提升長文本、多輪對話場景的部署能力。

      4. 4.新增Recurrent Gated Delta Rule內核
        引入全新的Recurrent Gated Delta Rule(循環門控增量規則)計算內核,針對循環神經網絡相關結構的推理進行專項加速。該內核通過優化門控機制與增量計算邏輯,減少冗余計算步驟,提升循環結構的推理速度,適配具備循環特性的大模型架構,進一步拓寬lmdeploy的模型適配范圍與性能邊界。

      5. 5.MLA內核性能再提升
        在原有MLA內核優化基礎上,版本推出更快的MLA計算內核,通過算子融合、內存訪問優化、并行計算調度等手段,進一步提升MLA結構的推理效率。對于廣泛采用MLA結構的現代大模型,該優化可直接降低推理延遲、提升吞吐量,讓模型在高并發場景下更流暢運行。

      6. 6.注意力內核自注冊與解耦調度
        重構注意力內核的注冊與調度機制,實現注意力內核的自注冊解耦調度。自注冊機制簡化了新內核的集成流程,降低開發者擴展內核的門檻;解耦調度則讓注意力計算與其他推理步驟分離,提升計算調度的靈活性與效率,同時為后續多硬件、多架構的注意力內核適配奠定基礎。

      (二)硬件兼容性拓展,覆蓋國產與主流算力平臺
      1. 1.昇騰(Ascend)S1-Pro適配優化
        針對國產昇騰S1-Pro芯片,版本完成深度適配,支持數據并行+張量并行+專家并行(dp*tp+ep)混合并行策略。昇騰芯片作為國產算力的核心代表,此次適配讓lmdeploy可在昇騰硬件上實現大模型的高效分布式部署,充分發揮國產芯片的算力優勢,滿足國產化替代場景的大模型部署需求。

      2. 2.GLM4.7模型MTP支持
        新增對GLM4.7模型的MTP(Multi-Token Prediction,多令牌預測)支持。MTP技術可讓模型單次推理生成多個令牌,大幅提升生成速度,尤其適用于長文本生成、批量內容處理等場景,結合lmdeploy的推理優化,GLM4.7模型部署后可實現更高的生成效率。

      四、Bug修復:全鏈路問題解決,提升部署穩定性 (一)日志與內核問題修復
      1. 1. 修復RepetitionPenaltyKernel中日志級別錯誤問題,將調試日志從ERROR級別調整為DEBUG級別,避免非錯誤日志干擾系統運行,同時保留調試信息的可追溯性。

      2. 2. 修復InternVL AWQ模型的量化配置解析錯誤,解決AWQ量化模型加載時的配置解析異常,保障量化模型的正常部署與推理。

      (二)生成與配置問題修復
      1. 1. 修復XGrammar位掩碼初始化錯誤,同時在生成方法中新增對生成配置(gen_config)的空值檢查,避免因配置異常導致的推理崩潰,提升生成流程的穩定性。

      2. 2. 修復會話關閉邏輯錯誤,優化會話資源釋放流程,避免會話關閉時的資源泄漏與異常,保障多會話場景下的系統穩定性。

      (三)授權與推理流程修復
      1. 1. 修復授權機制異常,解決模型部署與推理過程中的授權驗證問題,保障合規使用模型的同時,避免授權錯誤導致的服務中斷。

      2. 2. 修復Pipeline模塊的多個 minor 問題,并補充完善測試用例,提升Pipeline離線推理與批量處理的穩定性,覆蓋更多邊緣場景。

      3. 3. 修復dllm mask在set_step操作中的邏輯錯誤,解決掩碼設置異常導致的推理結果偏差,保障生成文本的正確性。

      (四)框架兼容與硬件適配修復
      1. 1. 修復與Transformers 5.0及以上版本的模型兼容問題,解決因框架接口變更導致的模型加載失敗,確保新舊版本模型均可正常部署。

      2. 2. 修復請求中止時的異常拋出問題,優化請求中斷處理邏輯,避免中止請求引發的系統崩潰,提升服務的健壯性。

      3. 3. 修復V100顯卡運行Qwen3.5-0.8B模型時的推理崩潰問題,解決特定硬件與模型組合的兼容性異常,保障主流顯卡的部署可用性。

      五、其他優化:工程化與生態完善,提升開發與部署體驗 (一)CI與開發流程優化
      1. 1. 優化CI lint流程,跳過Python維基頁面中不穩定的死鏈接測試,避免因外部鏈接異常導致的CI構建失敗,提升持續集成的穩定性與效率。

      2. 2. 集成clang-format代碼格式化工具到pre-commit鉤子,強制統一代碼風格,減少團隊開發中的代碼格式沖突,提升代碼質量與可維護性。

      3. 3. 修復FA3安裝問題,解決FA3庫安裝過程中的依賴與編譯異常,保障依賴庫的正常安裝與使用。

      4. 4. 修復代碼 lint 錯誤,清理代碼中的語法、格式與潛在邏輯問題,提升代碼的健壯性。

      (二)依賴與環境升級
      1. 1. 升級Triton與PyTorch依賴版本,適配最新的算子優化與硬件支持,借助新版本的性能特性,進一步提升推理引擎的效率。

      2. 2. 新增 speculative decoding(推測解碼)測試用例,完善測試覆蓋范圍,保障推測解碼功能的穩定性與正確性,為后續該功能的正式上線奠定基礎。

      (三)Docker鏡像與構建優化
      1. 1. 更新Dockerfile,移除CUDA 11相關支持,將CUDA 12.4升級為CUDA 12.6,適配最新的NVIDIA顯卡驅動與CUDA生態,提升Docker部署的兼容性與性能。

      2. 2. 調整開發鏡像構建策略,改為手動構建開發鏡像,而非每個版本自動發布,減少不必要的鏡像構建與存儲開銷,優化CI/CD流程。

      (四)版本收尾工作

      完成版本號從v0.12.1升級至v0.12.2的收尾工作,同步更新相關配置文件與文檔,確保版本標識的一致性,方便開發者識別與使用。

      六、版本價值與應用場景總結 (一)核心價值提煉

      1. 1.模型支持更全面:覆蓋GLM5、Qwen3.5、GLM-4.7等最新主流大模型,同時兼容Qwen、Internlm、Llama等經典模型,滿足不同開發者的模型選型需求。

      2. 2.推理性能更強勁:TurboMind引擎深度優化、MLA內核升級、FP8量化在線支持,大幅提升推理速度、降低顯存占用,讓大模型部署更高效、低成本。

      3. 3.兼容性更廣泛:適配Transformers 5.0、昇騰S1-Pro芯片、V100等主流硬件與框架,打通國產化與通用化部署路徑。

      4. 4.穩定性更可靠:全鏈路Bug修復,覆蓋日志、配置、推理、授權等多個環節,解決部署與運行中的各類異常,保障服務穩定運行。

      5. 5.開發體驗更友好:CI流程優化、依賴升級、Docker鏡像調整,降低開發與部署門檻,提升團隊協作效率。

      (二)核心應用場景
      1. 1.企業級大模型服務部署:支持多模型、高并發、長文本場景,適配智能客服、內容生成、數據分析等企業應用,保障服務的穩定性與效率。

      2. 2.國產化算力部署:昇騰芯片深度適配,滿足金融、政務等領域的國產化替代需求,實現安全、自主的大模型落地。

      3. 3.個人開發者本地部署:FP8量化降低硬件門檻,中低端GPU即可運行大模型,方便個人開發者快速驗證模型效果、開發原型應用。

      4. 4.前沿模型快速適配:對GLM5、Qwen3.5等最新模型的即時支持,讓開發者可第一時間體驗并部署前沿大模型能力。

      七、總結與展望

      代碼地址:github.com/InternLM/lmdeploy

      lmdeploy v0.12.2版本作為2026年的關鍵迭代,以模型適配、性能優化、兼容性拓展、穩定性提升為核心,完成了一次全面且深入的升級,進一步鞏固了其在大模型部署領域的領先地位。無論是模型支持的廣度,還是推理性能的深度,亦或是工程化的完善度,都實現了質的飛躍,為大模型的規模化落地提供了更強大的工具支撐。

      我們相信人工智能為普通人提供了一種“增強工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業洞察。 歡迎關注“福大大架構師每日一題”,發消息可獲得面試資料,讓AI助力您的未來發展。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      謝霆鋒武漢演唱會快哭了,臉頰斑點明顯眼袋重,一身中年男油膩感

      謝霆鋒武漢演唱會快哭了,臉頰斑點明顯眼袋重,一身中年男油膩感

      小娛樂悠悠
      2026-04-12 10:28:21
      蘋果首款折疊屏來了!iPhone Ultra將徹底解決折疊屏兩大缺陷

      蘋果首款折疊屏來了!iPhone Ultra將徹底解決折疊屏兩大缺陷

      快科技
      2026-04-13 07:31:04
      湖北農民被蛇群“追殺”5年,死后墳墓變成蛇墳,他當年做了啥?

      湖北農民被蛇群“追殺”5年,死后墳墓變成蛇墳,他當年做了啥?

      神奇故事
      2026-04-12 23:54:08
      勸退!“去客廳化”火了5年,為什么70%家庭最后都偷偷把沙發搬了回來?

      勸退!“去客廳化”火了5年,為什么70%家庭最后都偷偷把沙發搬了回來?

      繪本家居
      2026-04-10 11:13:39
      英偉達徹底退出中國市場,黃仁勛嘆息:傷害中國,美國受傷更嚴重

      英偉達徹底退出中國市場,黃仁勛嘆息:傷害中國,美國受傷更嚴重

      小熊侃史
      2026-04-11 10:30:48
      閉門會談一小時,只要和平不談統一?鄭麗文八字回應,大陸表態了

      閉門會談一小時,只要和平不談統一?鄭麗文八字回應,大陸表態了

      李健政觀察
      2026-04-12 12:34:13
      美媒:烏克蘭在3月份攔截3.3萬架俄無人機;難怪無人機讓美破防呢

      美媒:烏克蘭在3月份攔截3.3萬架俄無人機;難怪無人機讓美破防呢

      嘯鷹評
      2026-04-11 22:59:40
      韓女星樸娜萊和男性朋友在車上發生了性關系,兩名經紀人被迫圍觀

      韓女星樸娜萊和男性朋友在車上發生了性關系,兩名經紀人被迫圍觀

      西樓知趣雜談
      2026-04-09 09:35:17
      鄭麗文大陸行程結束,留下8句“金句”摘錄,真是超經典超有水平

      鄭麗文大陸行程結束,留下8句“金句”摘錄,真是超經典超有水平

      點點細語
      2026-04-12 22:46:34
      八路軍最悲壯的主力團,團長營長全戰死,副團長成了二野頭號虎將

      八路軍最悲壯的主力團,團長營長全戰死,副團長成了二野頭號虎將

      史之銘
      2026-04-12 16:48:19
      如果沒罰分,中超5強表現怎樣?國安距副班長僅2分,申花仍排第2

      如果沒罰分,中超5強表現怎樣?國安距副班長僅2分,申花仍排第2

      體壇鑒春秋
      2026-04-12 22:52:41
      36歲時的鄭麗文與蘭宣、尹乃菁合影。

      36歲時的鄭麗文與蘭宣、尹乃菁合影。

      草莓解說體育
      2026-04-12 08:02:43
      范戴克掀桌:票價漲9%沒商量,利物浦球迷集體破防

      范戴克掀桌:票價漲9%沒商量,利物浦球迷集體破防

      體壇觀察猿
      2026-04-13 06:42:40
      隨著廣東贏球、北京落敗,CBA又亂了!廣東重回第三,北京第四

      隨著廣東贏球、北京落敗,CBA又亂了!廣東重回第三,北京第四

      多特體育說
      2026-04-12 22:09:16
      真主黨:困獸猶斗,但時代潮水正在退去

      真主黨:困獸猶斗,但時代潮水正在退去

      原某報記者
      2026-04-10 23:36:21
      丈夫走后,妻子去兒子家過年,兒子一家人去吃飯,兒媳:你回家吧

      丈夫走后,妻子去兒子家過年,兒子一家人去吃飯,兒媳:你回家吧

      林林故事揭秘
      2025-05-17 17:44:06
      “我女兒敢這樣,腿給砸斷”,寶媽曬2個女兒出門,裝束讓人怒了

      “我女兒敢這樣,腿給砸斷”,寶媽曬2個女兒出門,裝束讓人怒了

      蝴蝶花雨話教育
      2026-04-10 13:01:09
      瞞不住了!鄭麗文訪陸,臺灣縣市長集體發聲

      瞞不住了!鄭麗文訪陸,臺灣縣市長集體發聲

      果媽聊娛樂
      2026-04-12 10:57:11
      煮米飯別只加清水!酒店不外傳秘訣,粒粒蓬松超好吃

      煮米飯別只加清水!酒店不外傳秘訣,粒粒蓬松超好吃

      開心美食白科
      2026-04-09 09:43:04
      摸景甜胸側,摟李雪琴胳膊,沒分寸感的他來《你好星期六》干嘛?

      摸景甜胸側,摟李雪琴胳膊,沒分寸感的他來《你好星期六》干嘛?

      老黯談娛
      2026-04-12 13:43:48
      2026-04-13 08:08:49
      moonfdd incentive-icons
      moonfdd
      福大大架構師每日一題
      1177文章數 64關注度
      往期回顧 全部

      科技要聞

      4000億智譜,想變得更貴

      頭條要聞

      大伯為35歲女兒周末連跑3處相親角:女兒平時工作太忙

      頭條要聞

      大伯為35歲女兒周末連跑3處相親角:女兒平時工作太忙

      體育要聞

      創造歷史!五大聯賽首位女性主教練誕生

      娛樂要聞

      賭王女兒何超蕸病逝,常年和乳癌斗爭

      財經要聞

      美伊談判破裂的三大癥結

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      旅游
      親子
      房產
      時尚
      本地

      旅游要聞

      順德莫氏雞煲爆火之后,鄉村文旅還有哪些玩法?

      親子要聞

      “晚上疼得睡不著”!8歲女童雙眼、身上被灼傷!警惕這東西,不少人家里有

      房產要聞

      土地供應突然暴跌!2026??跇鞘校窬执笞?!

      被周冬雨、林更新戴上熱搜的珠寶,究竟有多驚艷?

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      無障礙瀏覽 進入關懷版