網易首頁 > 網易號 > 正文申請入駐

7B擴散語言模型單樣例1000+ tokens/s！上交大聯合華為推出LoPA

2025-12-31 17:26:39　來源: 機器之心Pro

河北舉報

分享至

視頻 1：單樣例推理速度對比：SGLang 部署的 Qwen3-8B (NVIDIA) vs. LoPA-Dist 部署 (NVIDIA & Ascend)（注：NVIDIA 平臺相同，配置對齊）

在大語言模型（LLMs）領域，擴散大語言模型（dLLMs）因其并行預測特性，理論上具備超越傳統自回歸（AR）模型的推理速度潛力。然而在實踐中，受限于現有的解碼策略，dLLMs 的單步生成往往局限于 1-3 個 Token，難以真正釋放其并行潛力。

近期，上海交通大學 DENG Lab 聯合華為的一項新研究打破了這一瓶頸。該工作提出了一種名為LoPA （Lookahead Parallel Decoding）的無需訓練的解碼算法，通過主動探索最優填詞順序，顯著提升了 dLLMs 的推理并行度和吞吐量。

本文作者團隊來自上海交通大學 DENG Lab 與華為。該研究由徐晨開、金義杰同學等人共同完成，指導教師為鄧志杰老師。DENG Lab 隸屬上海交通大學，致力于高效、跨模態生成模型的研究。

論文地址：https://arxiv.org/abs/2512.16229
代碼地址：https://github.com/zhijie-group/LoPA
博客地址：https://zhijie-group.github.io/blogs/lopa

實驗顯示，LoPA 將 D2F-Dream 在 GSM8K 基準上的單步生成 Token 數（TPF）從 3.1 提升至 10.1，并行度提升超 3 倍。配合團隊自研的 LoPA-Dist 分布式推理系統，在華為 Ascend 910C 平臺上實現了 1073.9 tokens/s 的單樣本吞吐量，不僅大幅超越基線模型，更將 dLLMs 的推理效率推向了新高度。

圖 1：LoPA 的吞吐量結果展示。LoPA 將 D2F-Dream 的單樣本吞吐量在 MBPP 和 GSM8K 上分別提升至高達 1073.9 和 856.5 個 token/s，顯著優于基線方法。

簡單來說，LoPA 為 dLLMs 賦予了以下核心特性：

1.極高的并行度：首次將 dLLMs 的每步生成數量（TPF）提升至 10 Token 量級，突破了傳統方法的效率瓶頸。

2.無需訓練：作為一種即插即用的解碼算法，無需對模型進行重訓或微調。

3.前瞻并行解碼：通過引入分支并行機制，主動探索不同的填詞順序（TFO），避免模型陷入低置信度的局部最優。

4.系統級加速：配套設計的 LoPA-Dist 系統，支持 CUDA 和 Ascend 雙平臺，通過分支并行最大化硬件利用率。

圖 2：對不同分支數的 D2F-Dream 進行 LoPA 擴展性分析。結果表明，LoPA 能有效擴展 D2F 的 TPF，使其峰值超過 10，從而顯著減少解碼總步驟數。

問題的根源：填詞順序限制并行潛力

dLLMs 理論上支持全序列并行生成，但在實際應用中，現有的主流模型（如 Fast-dLLM, D2F, SDAR）普遍采用置信度驅動采樣（Confidence-Driven Sampling）。這種策略傾向于貪婪地優先填充當前置信度最高的位置。

研究團隊發現，并行度的高低與填詞順序（Token Filling Order, TFO）高度相關。貪婪策略雖然在當前步驟保證了準確性，但并不考慮后續步驟的預測置信度，導致模型在后續迭代中并沒有充分釋放并行度。

圖 3：LoPA 算法流程概覽。在每次迭代中，LoPA 通過獨立采樣高置信度位置，生成一個錨定分支以及多個前瞻分支。然后，分支置信度驗證機制并行評估所有分支，以選擇最優路徑。

LoPA 的核心設計：前瞻并行與分支驗證

為了解決上述問題，LoPA 引入了前瞻并行解碼機制。其核心思想是：利用少量的額外計算開銷，同時探索多種填詞順序，從而找到一條能讓未來預測 “更自信” 的路徑。

LoPA 的工作流程包含三個關鍵階段：

1. 多分支并行探索

LoPA 在保留標準錨點分支（Anchor Branch，即常規貪婪策略）的同時，額外對當前的最高置信度的 k 個位置分別采樣得到 k 個前瞻分支（Lookahead Branches）。每個分支代表一種不同的填詞順序嘗試。

2. 分支置信度驗證

團隊設計了分支置信度（Branch Confidence）指標，用于量化分支中剩余未填位置的平均預測置信度。較高的分支置信度意味著該路徑在下一輪迭代中能填充更多的 Token，具備更高的并行潛力。

3. 并行驗證與復用

通過隔離不同分支的注意力設計，所有候選分支（錨點 + 前瞻）可以在一次前向傳遞中并行完成驗證。系統最終選擇未來潛力最大的分支作為本次迭代結果。驗證過程中計算的 Logits 被直接復用于下一步生成，無需額外前向傳播。

圖 4：LoPA 分支并行分布式推理系統設計展示。關鍵區別在于針對不同后端定制的鍵值緩存管理協議：LoPA-Dist-NV 采用穩健的兩階段更新機制以確保一致性，而 LoPA-Dist-Ascend 則采用精簡的單階段更新策略以優化服務效率。

系統級創新：LoPA-Dist 分布式推理

為了承載 LoPA 的多分支計算，團隊設計了 LoPA-Dist 分布式推理系統，引入了全新的分支并行（Branch Parallelism, BP）策略，可與張量并行（Tensor Parallelism，TP）等現有并行機制混合使用。

該系統針對不同硬件平臺進行了定制優化：

1.LoPA-Dist-NV（CUDA）：面向低延遲場景。采用靜態 KV Cache 和獨創兩階段更新協議（Pre-Write & Commit-Winner-Cache），確保分支切換時的緩存一致性。

2.LoPA-Dist-Ascend（Ascend 910C）：面向高吞吐服務場景。采用混合并行策略（TP+BP），結合圖編譯技術融合算子，異步調度，以及量化機制，大幅降低 Kernel 啟動開銷。

圖 5：LoPA 的并行度擴展曲線。在 GSM8K 和 HumanEval+ 上，LoPA 分別將 D2F-Dream 和 D2F-DiffuCoder 的 TPF 分別擴展至高達 10.1 和 8.3，并保持和基線相當的性能。

實驗結果：速度與質量的雙重提升

并行度：單步突破 10 Token

LoPA 在 SOTA 擴散語言模型 D2F 上進行了實驗。實驗結果表明，隨著前瞻分支數量的增加，模型的 TPF 呈現顯著上升趨勢。在 GSM8K 任務上，LoPA 將 D2F-Dream 的 TPF 推高至 10.1，大幅縮短了總推理步數。

表 1：LoPA 集成 D2F-Dream 的性能。LoPA 集成的 D2F-Dream 在多個基準測試中實現了保持精度的 TPF 提升。

表 2：LoPA 集成 D2F-Diffucoder 的性能。LoPA 集成的 D2F-DiffuCoder 在代碼任務中實現了保持精度的 TPF 提升。

系統吞吐量

在系統層面，LoPA-Dist 展現了優異的擴展能力。在華為 Ascend 910C 平臺上，系統實現了 1073.86 tokens/s 的峰值吞吐量。

表 3：LoPA 系統性能。結果表明，我們的系統能夠有效地將算法并行性（高 TPF）轉化為顯著的實際運行時間加速，在專用的 LoPA-Dist-Ascend 引擎上實現了超過 1000 token/s 的平均吞吐量。

總結與展望

LoPA 通過算法與系統的協同設計，成功突破了 dLLM 推理的并行度瓶頸，證明了非自回歸模型在保持高性能的同時，能夠實現遠超傳統模型的推理速度。團隊表示，未來將進一步探索 LoPA 在 SDAR 等更多 dLLM 架構上的應用，推動高效生成模型的落地。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.