![]()
視頻 1:單樣例推理速度對比:SGLang 部署的 Qwen3-8B (NVIDIA) vs. LoPA-Dist 部署 (NVIDIA & Ascend)(注:NVIDIA 平臺相同,配置對齊)
在大語言模型(LLMs)領域,擴散大語言模型(dLLMs)因其并行預測特性,理論上具備超越傳統自回歸(AR)模型的推理速度潛力。然而在實踐中,受限于現有的解碼策略,dLLMs 的單步生成往往局限于 1-3 個 Token,難以真正釋放其并行潛力。
近期,上海交通大學 DENG Lab 聯合華為的一項新研究打破了這一瓶頸。該工作提出了一種名為LoPA (Lookahead Parallel Decoding) 的無需訓練的解碼算法,通過主動探索最優填詞順序,顯著提升了 dLLMs 的推理并行度和吞吐量。
本文作者團隊來自上海交通大學 DENG Lab 與華為。該研究由徐晨開、金義杰同學等人共同完成,指導教師為鄧志杰老師。DENG Lab 隸屬上海交通大學,致力于高效、跨模態生成模型的研究。
![]()
- 論文地址:https://arxiv.org/abs/2512.16229
- 代碼地址:https://github.com/zhijie-group/LoPA
- 博客地址:https://zhijie-group.github.io/blogs/lopa
實驗顯示,LoPA 將 D2F-Dream 在 GSM8K 基準上的單步生成 Token 數(TPF)從 3.1 提升至 10.1,并行度提升超 3 倍。配合團隊自研的 LoPA-Dist 分布式推理系統,在華為 Ascend 910C 平臺上實現了 1073.9 tokens/s 的單樣本吞吐量,不僅大幅超越基線模型,更將 dLLMs 的推理效率推向了新高度。
![]()
圖 1:LoPA 的吞吐量結果展示。LoPA 將 D2F-Dream 的單樣本吞吐量在 MBPP 和 GSM8K 上分別提升至高達 1073.9 和 856.5 個 token/s,顯著優于基線方法。
簡單來說,LoPA 為 dLLMs 賦予了以下核心特性:
1.極高的并行度:首次將 dLLMs 的每步生成數量(TPF)提升至 10 Token 量級,突破了傳統方法的效率瓶頸。
2.無需訓練:作為一種即插即用的解碼算法,無需對模型進行重訓或微調。
3.前瞻并行解碼:通過引入分支并行機制,主動探索不同的填詞順序(TFO),避免模型陷入低置信度的局部最優。
4.系統級加速:配套設計的 LoPA-Dist 系統,支持 CUDA 和 Ascend 雙平臺,通過分支并行最大化硬件利用率。
![]()
圖 2:對不同分支數的 D2F-Dream 進行 LoPA 擴展性分析。結果表明,LoPA 能有效擴展 D2F 的 TPF,使其峰值超過 10,從而顯著減少解碼總步驟數。
問題的根源:填詞順序限制并行潛力
dLLMs 理論上支持全序列并行生成,但在實際應用中,現有的主流模型(如 Fast-dLLM, D2F, SDAR)普遍采用置信度驅動采樣(Confidence-Driven Sampling)。這種策略傾向于貪婪地優先填充當前置信度最高的位置。
研究團隊發現,并行度的高低與填詞順序(Token Filling Order, TFO)高度相關。貪婪策略雖然在當前步驟保證了準確性,但并不考慮后續步驟的預測置信度,導致模型在后續迭代中并沒有充分釋放并行度。
![]()
圖 3:LoPA 算法流程概覽。在每次迭代中,LoPA 通過獨立采樣高置信度位置,生成一個錨定分支以及多個前瞻分支。然后,分支置信度驗證機制并行評估所有分支,以選擇最優路徑。
LoPA 的核心設計:前瞻并行與分支驗證
為了解決上述問題,LoPA 引入了前瞻并行解碼機制。其核心思想是:利用少量的額外計算開銷,同時探索多種填詞順序,從而找到一條能讓未來預測 “更自信” 的路徑。
LoPA 的工作流程包含三個關鍵階段:
1. 多分支并行探索
LoPA 在保留標準錨點分支(Anchor Branch,即常規貪婪策略)的同時,額外對當前的最高置信度的 k 個位置分別采樣得到 k 個前瞻分支(Lookahead Branches)。每個分支代表一種不同的填詞順序嘗試。
2. 分支置信度驗證
團隊設計了分支置信度(Branch Confidence)指標,用于量化分支中剩余未填位置的平均預測置信度。較高的分支置信度意味著該路徑在下一輪迭代中能填充更多的 Token,具備更高的并行潛力。
3. 并行驗證與復用
通過隔離不同分支的注意力設計,所有候選分支(錨點 + 前瞻)可以在一次前向傳遞中并行完成驗證。系統最終選擇未來潛力最大的分支作為本次迭代結果。驗證過程中計算的 Logits 被直接復用于下一步生成,無需額外前向傳播。
![]()
圖 4:LoPA 分支并行分布式推理系統設計展示。關鍵區別在于針對不同后端定制的鍵值緩存管理協議:LoPA-Dist-NV 采用穩健的兩階段更新機制以確保一致性,而 LoPA-Dist-Ascend 則采用精簡的單階段更新策略以優化服務效率。
系統級創新:LoPA-Dist 分布式推理
為了承載 LoPA 的多分支計算,團隊設計了 LoPA-Dist 分布式推理系統,引入了全新的分支并行(Branch Parallelism, BP)策略,可與張量并行(Tensor Parallelism,TP)等現有并行機制混合使用。
該系統針對不同硬件平臺進行了定制優化:
1.LoPA-Dist-NV(CUDA):面向低延遲場景。采用靜態 KV Cache 和獨創兩階段更新協議(Pre-Write & Commit-Winner-Cache),確保分支切換時的緩存一致性。
2.LoPA-Dist-Ascend(Ascend 910C):面向高吞吐服務場景。采用混合并行策略(TP+BP),結合圖編譯技術融合算子,異步調度,以及量化機制,大幅降低 Kernel 啟動開銷。
![]()
圖 5:LoPA 的并行度擴展曲線。在 GSM8K 和 HumanEval+ 上,LoPA 分別將 D2F-Dream 和 D2F-DiffuCoder 的 TPF 分別擴展至高達 10.1 和 8.3,并保持和基線相當的性能。
實驗結果:速度與質量的雙重提升
并行度:單步突破 10 Token
LoPA 在 SOTA 擴散語言模型 D2F 上進行了實驗。實驗結果表明,隨著前瞻分支數量的增加,模型的 TPF 呈現顯著上升趨勢。在 GSM8K 任務上,LoPA 將 D2F-Dream 的 TPF 推高至 10.1,大幅縮短了總推理步數。
![]()
表 1:LoPA 集成 D2F-Dream 的性能。LoPA 集成的 D2F-Dream 在多個基準測試中實現了保持精度的 TPF 提升。
![]()
表 2:LoPA 集成 D2F-Diffucoder 的性能。LoPA 集成的 D2F-DiffuCoder 在代碼任務中實現了保持精度的 TPF 提升。
系統吞吐量
在系統層面,LoPA-Dist 展現了優異的擴展能力。在華為 Ascend 910C 平臺上,系統實現了 1073.86 tokens/s 的峰值吞吐量。
![]()
表 3:LoPA 系統性能。結果表明,我們的系統能夠有效地將算法并行性(高 TPF)轉化為顯著的實際運行時間加速,在專用的 LoPA-Dist-Ascend 引擎上實現了超過 1000 token/s 的平均吞吐量。
總結與展望
LoPA 通過算法與系統的協同設計,成功突破了 dLLM 推理的并行度瓶頸,證明了非自回歸模型在保持高性能的同時,能夠實現遠超傳統模型的推理速度。團隊表示,未來將進一步探索 LoPA 在 SDAR 等更多 dLLM 架構上的應用,推動高效生成模型的落地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.