![]()
![]()
![]()
2026 年 2 月 1 日,DeepSpeed 官方團(tuán)隊(duì)正式發(fā)布v0.18.5 版本。本次更新帶來了大量功能改進(jìn)與穩(wěn)定性增強(qiáng),進(jìn)一步完善了在多設(shè)備(尤其是 MPS 與 BF16 環(huán)境)下的兼容性與性能優(yōu)化。以下為本次更新的詳細(xì)內(nèi)容整理。
版本概覽
DeepSpeed v0.18.5 共包含34 次提交(Commits)、15 位貢獻(xiàn)者、50 個(gè)文件變更,主要集中于以下幾個(gè)方向:
? 多平臺(tái)兼容性優(yōu)化
? ZeRO-3 與 BF16 支持增強(qiáng)
? 訓(xùn)練引擎與測(cè)試框架改進(jìn)
? 文檔與教程同步更新
? PyTorch 版本升級(jí)至v2.9
? 更新版本號(hào)文件 version.txt(v0.18.4 → v0.18.5)。
? 增強(qiáng)在Apple MPS平臺(tái)上的運(yùn)行兼容性。
? 優(yōu)化 GitHub Workflow 觸發(fā)邏輯,新增測(cè)試超時(shí)限制。
? 刪除過時(shí)的V100 測(cè)試觸發(fā)器,提升 CI 效率。
? 新增完整測(cè)試套件工作流,確保功能覆蓋更廣。
? 刪除
using namespace std.語句,提升代碼規(guī)范性。? 修復(fù)多進(jìn)程測(cè)試問題。
? 針對(duì)壓縮 allreduce 操作添加空張量跳過邏輯。
? 優(yōu)化引擎清理機(jī)制(engine cleanup),減少冗余資源占用。
? 修復(fù) Ping-Pong 緩沖索引重置邏輯,移除多余的同步操作。
? 為ZeRO-3增加順序 allgather 優(yōu)化,顯著提升大規(guī)模分布式訓(xùn)練性能。
? 修復(fù) ZeRO 階段中BF16 優(yōu)化器選擇邏輯,確保不同精度模式下的正確行為。
? 修復(fù)BF16_Optimizer無 ZeRO 模式下被誤用的問題。
? 在 ZeRO 測(cè)試中自動(dòng)選擇合適的優(yōu)化器,保證一致性。
? 修復(fù)z0 + bf16 模式下的 checkpoint 加載問題。
? 修復(fù)梯度檢查點(diǎn)(gradient checkpointing)在
use_reentrant=True、PyTorch-style backward、ZeRO-3 模式下的兼容性問題。? 修復(fù)管道引擎(pipeline engine)中反向傳播的異常。
? 在梯度歸約(gradient reduction)中跳過空參數(shù),避免無效同步。
? 修復(fù)BF16 優(yōu)化器選擇問題,避免錯(cuò)誤分配。
? 修復(fù)Muon 優(yōu)化器模塊路徑錯(cuò)誤。
? 解決在 Ulysses 模型中sp_size < world_size 時(shí)反向傳播報(bào)錯(cuò)(Rank index out of range)的問題。
? 修復(fù)Ulysses PEFT 測(cè)試與Evoformer 編譯錯(cuò)誤,并調(diào)整Evoformer 測(cè)試為順序執(zhí)行,以提升穩(wěn)定性。
? 更新Megatron-DeepSpeed 教程,使其與當(dāng)前倉庫結(jié)構(gòu)匹配。
? 修復(fù)配置文件文檔(config-json.md)的格式問題。
? 更新README.md與加速器配置指南,修正拼寫與鏈接錯(cuò)誤。
? 調(diào)整CLA 協(xié)議說明,改為采用DCO(Developer Certificate of Origin)驗(yàn)證機(jī)制,簡(jiǎn)化貢獻(xiàn)流程。
? 增加在未指定
modifier_rank的情況下,對(duì)GatheredParameters 原地修改的清晰報(bào)錯(cuò)提示,幫助開發(fā)者快速定位問題。? 將PyTorch 模態(tài)測(cè)試框架全面升級(jí)至v2.9,確保最新版本兼容性與性能表現(xiàn)。
代碼地址:github.com/deepspeedai/DeepSpeed
DeepSpeedv0.18.5是一次穩(wěn)定而重要的更新。該版本在多平臺(tái)支持、分布式訓(xùn)練性能、BF16 與 ZeRO 模式兼容性、文檔一致性等方面都進(jìn)行了全面優(yōu)化。隨著 PyTorch 2.9 的支持加入,DeepSpeed 在高性能大模型訓(xùn)練領(lǐng)域的工程成熟度再度提升。
這次更新不僅強(qiáng)化了核心訓(xùn)練引擎的健壯性,也為未來的性能擴(kuò)展和多平臺(tái)支持奠定了基礎(chǔ)。
版本信息:
? 版本號(hào):v0.18.5
? 發(fā)布日期:2026 年 2 月 1 日
? ? 提交數(shù):34
? 文件變動(dòng):50
結(jié)語:
DeepSpeed v0.18.5 的推出,再次展示了其在分布式訓(xùn)練與模型加速領(lǐng)域的持續(xù)領(lǐng)先。對(duì)于追求極致性能與兼容性的開發(fā)者而言,本次升級(jí)值得立即嘗試與部署。
我們相信人工智能為普通人提供了一種“增強(qiáng)工具”,并致力于分享全方位的AI知識(shí)。在這里,您可以找到最新的AI科普文章、工具評(píng)測(cè)、提升效率的秘籍以及行業(yè)洞察。 歡迎關(guān)注“福大大架構(gòu)師每日一題”,發(fā)消息可獲得面試資料,讓AI助力您的未來發(fā)展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.