網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSpeed v0.18.5 發(fā)布：PyTorch 2.9 適配、ZeRO-3 優(yōu)化與多項(xiàng)關(guān)鍵修復(fù)全面升級(jí)！

2026-02-02 00:12:57　來源: moonfdd

北京舉報(bào)

分享至

2026 年 2 月 1 日，DeepSpeed 官方團(tuán)隊(duì)正式發(fā)布v0.18.5 版本。本次更新帶來了大量功能改進(jìn)與穩(wěn)定性增強(qiáng)，進(jìn)一步完善了在多設(shè)備（尤其是 MPS 與 BF16 環(huán)境）下的兼容性與性能優(yōu)化。以下為本次更新的詳細(xì)內(nèi)容整理。

版本概覽

DeepSpeed v0.18.5 共包含34 次提交（Commits）、15 位貢獻(xiàn)者、50 個(gè)文件變更，主要集中于以下幾個(gè)方向：

? 多平臺(tái)兼容性優(yōu)化
? ZeRO-3 與 BF16 支持增強(qiáng)
? 訓(xùn)練引擎與測(cè)試框架改進(jìn)
? 文檔與教程同步更新
? PyTorch 版本升級(jí)至v2.9

功能與修復(fù)詳情 ? 系統(tǒng)與測(cè)試優(yōu)化

? 更新版本號(hào)文件 version.txt（v0.18.4 → v0.18.5）。
? 增強(qiáng)在Apple MPS平臺(tái)上的運(yùn)行兼容性。
? 優(yōu)化 GitHub Workflow 觸發(fā)邏輯，新增測(cè)試超時(shí)限制。
? 刪除過時(shí)的V100 測(cè)試觸發(fā)器，提升 CI 效率。
? 新增完整測(cè)試套件工作流，確保功能覆蓋更廣。

? 代碼結(jié)構(gòu)與穩(wěn)定性增強(qiáng)

? 刪除using namespace std.語句，提升代碼規(guī)范性。
? 修復(fù)多進(jìn)程測(cè)試問題。
? 針對(duì)壓縮 allreduce 操作添加空張量跳過邏輯。
? 優(yōu)化引擎清理機(jī)制（engine cleanup），減少冗余資源占用。
? 修復(fù) Ping-Pong 緩沖索引重置邏輯，移除多余的同步操作。

訓(xùn)練框架與性能優(yōu)化 ZeRO 系列改進(jìn)

? 為ZeRO-3增加順序 allgather 優(yōu)化，顯著提升大規(guī)模分布式訓(xùn)練性能。
? 修復(fù) ZeRO 階段中BF16 優(yōu)化器選擇邏輯，確保不同精度模式下的正確行為。
? 修復(fù)BF16_Optimizer無 ZeRO 模式下被誤用的問題。
? 在 ZeRO 測(cè)試中自動(dòng)選擇合適的優(yōu)化器，保證一致性。

檢查點(diǎn)與反向傳播修復(fù)

? 修復(fù)z0 + bf16 模式下的 checkpoint 加載問題。
? 修復(fù)梯度檢查點(diǎn)（gradient checkpointing）在use_reentrant=True、PyTorch-style backward、ZeRO-3 模式下的兼容性問題。
? 修復(fù)管道引擎（pipeline engine）中反向傳播的異常。
? 在梯度歸約（gradient reduction）中跳過空參數(shù)，避免無效同步。

優(yōu)化器與模型穩(wěn)定性提升

? 修復(fù)BF16 優(yōu)化器選擇問題，避免錯(cuò)誤分配。
? 修復(fù)Muon 優(yōu)化器模塊路徑錯(cuò)誤。
? 解決在 Ulysses 模型中sp_size < world_size 時(shí)反向傳播報(bào)錯(cuò)（Rank index out of range）的問題。
? 修復(fù)Ulysses PEFT 測(cè)試與Evoformer 編譯錯(cuò)誤，并調(diào)整Evoformer 測(cè)試為順序執(zhí)行，以提升穩(wěn)定性。

文檔與教程同步改進(jìn)

? 更新Megatron-DeepSpeed 教程，使其與當(dāng)前倉庫結(jié)構(gòu)匹配。
? 修復(fù)配置文件文檔（config-json.md）的格式問題。
? 更新README.md與加速器配置指南，修正拼寫與鏈接錯(cuò)誤。
? 調(diào)整CLA 協(xié)議說明，改為采用DCO（Developer Certificate of Origin）驗(yàn)證機(jī)制，簡(jiǎn)化貢獻(xiàn)流程。

額外改進(jìn)

? 增加在未指定modifier_rank的情況下，對(duì)GatheredParameters 原地修改的清晰報(bào)錯(cuò)提示，幫助開發(fā)者快速定位問題。
? 將PyTorch 模態(tài)測(cè)試框架全面升級(jí)至v2.9，確保最新版本兼容性與性能表現(xiàn)。

總結(jié)

代碼地址：github.com/deepspeedai/DeepSpeed

DeepSpeedv0.18.5是一次穩(wěn)定而重要的更新。該版本在多平臺(tái)支持、分布式訓(xùn)練性能、BF16 與 ZeRO 模式兼容性、文檔一致性等方面都進(jìn)行了全面優(yōu)化。隨著 PyTorch 2.9 的支持加入，DeepSpeed 在高性能大模型訓(xùn)練領(lǐng)域的工程成熟度再度提升。

這次更新不僅強(qiáng)化了核心訓(xùn)練引擎的健壯性，也為未來的性能擴(kuò)展和多平臺(tái)支持奠定了基礎(chǔ)。

版本信息：

? 版本號(hào)：v0.18.5
? 發(fā)布日期：2026 年 2 月 1 日
? ? 提交數(shù)：34
? 文件變動(dòng)：50

結(jié)語：
DeepSpeed v0.18.5 的推出，再次展示了其在分布式訓(xùn)練與模型加速領(lǐng)域的持續(xù)領(lǐng)先。對(duì)于追求極致性能與兼容性的開發(fā)者而言，本次升級(jí)值得立即嘗試與部署。

我們相信人工智能為普通人提供了一種“增強(qiáng)工具”，并致力于分享全方位的AI知識(shí)。在這里，您可以找到最新的AI科普文章、工具評(píng)測(cè)、提升效率的秘籍以及行業(yè)洞察。歡迎關(guān)注“福大大架構(gòu)師每日一題”，發(fā)消息可獲得面試資料，讓AI助力您的未來發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.