![]()
騰訊微信 AI 團(tuán)隊(duì)提出 WeDLM(WeChat Diffusion Language Model),通過在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn)擴(kuò)散式解碼,在數(shù)學(xué)推理等任務(wù)上實(shí)現(xiàn)相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵場(chǎng)景更可達(dá) 10 倍以上,同時(shí)保持甚至提升生成質(zhì)量。
引言
自回歸(AR)生成是當(dāng)前大語(yǔ)言模型的主流解碼范式,但其逐 token 生成的特性限制了推理效率。擴(kuò)散語(yǔ)言模型(Diffusion LLMs)通過并行恢復(fù)多個(gè) mask token 提供了一種替代方案,然而在實(shí)踐中,現(xiàn)有擴(kuò)散模型往往難以在推理速度上超越經(jīng)過高度優(yōu)化的 AR 推理引擎(如 vLLM)。
問題的關(guān)鍵在于:大多數(shù)擴(kuò)散語(yǔ)言模型采用雙向注意力機(jī)制,這與標(biāo)準(zhǔn)的 KV 緩存機(jī)制不兼容,導(dǎo)致并行預(yù)測(cè)的優(yōu)勢(shì)無(wú)法轉(zhuǎn)化為實(shí)際的速度提升。
近日,騰訊微信 AI 團(tuán)隊(duì)提出了WeDLM(WeChat Diffusion Language Model),這是首個(gè)在工業(yè)級(jí)推理引擎(vLLM)優(yōu)化條件下,推理速度超越同等 AR 模型的擴(kuò)散語(yǔ)言模型。
![]()
- 論文標(biāo)題:WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference
- 論文作者:劉璦瑋、何明樺、曾少勛、張思鈞、張林昊、武楚涵、賈巍、劉源、周霄、周杰(騰訊微信 AI)
- 項(xiàng)目主頁(yè):https://wedlm.github.io
- GitHub:https://github.com/tencent/WeDLM
- 模型權(quán)重:https://huggingface.co/collections/tencent/wedlm
以下是模型效果:

上圖展示了vLLM 部署的 Qwen3-8B-Instruct(左) 與 WeDLM-8B-Instruct(右) 在相同 prompt 下的實(shí)時(shí)生成對(duì)比。可以直觀看到,WeDLM 的生成速度明顯更快。
核心思路:讓擴(kuò)散解碼兼容 KV 緩存
WeDLM 的核心洞察是:mask 恢復(fù)并不需要雙向注意力。擴(kuò)散式解碼只需要讓每個(gè) mask 位置能夠訪問所有已觀測(cè)的 token,這完全可以在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn)。
研究團(tuán)隊(duì)提出了一個(gè)關(guān)鍵指標(biāo) ——前綴可緩存性(Prefix Cacheability):在 KV 緩存解碼中,只有形成連續(xù)左到右前綴的 token 才能被緩存復(fù)用。因此,真正影響推理效率的不是「每步預(yù)測(cè)多少 token」,而是「有多少預(yù)測(cè)能夠轉(zhuǎn)化為可緩存的前綴」。
![]()
圖:WeDLM-8B 在數(shù)學(xué)推理任務(wù)上實(shí)現(xiàn)約 3 倍加速,同時(shí)在準(zhǔn)確率和推理速度上顯著超越 LLaDA、Dream 等擴(kuò)散模型。
技術(shù)方案
拓?fù)渲嘏判颍═opological Reordering)
WeDLM 通過拓?fù)渲嘏判蛟诒3忠蚬⒁饬Φ耐瑫r(shí),讓 mask 位置能夠訪問完整的觀測(cè)上下文。具體而言,將所有已觀測(cè) token 移動(dòng)到物理序列的前端,同時(shí)通過 RoPE 位置編碼保留其邏輯位置。這樣,在標(biāo)準(zhǔn)因果 mask 下,每個(gè)待預(yù)測(cè)位置都能看到所有已知信息。
![]()
雙流掩碼(Dual-Stream Masking)
為縮小訓(xùn)練與推理的分布差異,WeDLM 設(shè)計(jì)了雙流訓(xùn)練策略:構(gòu)建一個(gè)干凈的「記憶流」和一個(gè)帶 mask 的「預(yù)測(cè)流」,兩者共享位置編碼。預(yù)測(cè)流中的每個(gè) block 從記憶流獲取干凈的歷史上下文,而非可能帶噪的中間預(yù)測(cè)結(jié)果。
流式并行解碼(Streaming Parallel Decoding)
推理階段,WeDLM 采用流式并行解碼策略:
- 距離懲罰機(jī)制:優(yōu)先解碼靠左的位置,促進(jìn)左到右的前綴增長(zhǎng)
- 即時(shí)緩存:在因果注意力下,已解碼 token 立即成為有效緩存
- 動(dòng)態(tài)滑動(dòng)窗口:持續(xù)填充新的 mask 位置,避免 block 邊界的等待開銷
![]()
圖:傳統(tǒng) block 解碼需要等待整個(gè) block 完成才能提交,而 WeDLM 的流式解碼可以即時(shí)提交已解析的前綴。
實(shí)驗(yàn)結(jié)果
生成質(zhì)量
WeDLM 基于 Qwen2.5-7B 和 Qwen3-8B 進(jìn)行訓(xùn)練,使用 100B token 進(jìn)行繼續(xù)預(yù)訓(xùn)練,10B token 進(jìn)行 SFT。
![]()
在 base 模型評(píng)測(cè)中,WeDLM-8B 平均得分 74.72,超越 Qwen3-8B(72.61)2.1 個(gè)點(diǎn)。在數(shù)學(xué)推理任務(wù)上提升尤為顯著:GSM8K 提升 4.2 個(gè)點(diǎn),MATH 提升 2.8 個(gè)點(diǎn)。
![]()
在 instruct 模型評(píng)測(cè)中,WeDLM-8B-Instruct 平均得分 77.53,超越 Qwen3-8B-Instruct(75.12)2.4 個(gè)點(diǎn),也領(lǐng)先于 SDAR-8B-Instruct(74.22)等擴(kuò)散模型。
推理速度
關(guān)鍵亮點(diǎn):所有速度對(duì)比均基于 vLLM 部署的 AR 模型基線,而非未優(yōu)化的實(shí)現(xiàn)。
![]()
研究團(tuán)隊(duì)在論文中展示了不同熵值場(chǎng)景下的速度差異:
- 低熵場(chǎng)景(如計(jì)數(shù)任務(wù)):由于輸出高度可預(yù)測(cè),模型可以大膽并行預(yù)測(cè)并接受多個(gè) token,實(shí)測(cè)達(dá)到 1673.3 tokens/s
- 中熵場(chǎng)景(如數(shù)學(xué)推導(dǎo)):結(jié)構(gòu)化的推理步驟仍然具有較好的可預(yù)測(cè)性,實(shí)測(cè) 745.2 tokens/s
- 高熵場(chǎng)景(如開放問答):語(yǔ)義多樣性高,并行接受率下降,實(shí)測(cè) 197.8 tokens/s
快速上手
安裝方式非常簡(jiǎn)單,只需通過 pip 從 GitHub 安裝即可。安裝完成后,可使用 Python API 快速調(diào)用模型進(jìn)行推理。詳細(xì)的使用文檔和示例代碼請(qǐng)參見項(xiàng)目 GitHub 主頁(yè)。
總結(jié)
WeDLM 的貢獻(xiàn)可以歸納為:
- 因果擴(kuò)散框架:在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn) mask 恢復(fù),天然兼容 KV 緩存和現(xiàn)有推理基礎(chǔ)設(shè)施(FlashAttention、PagedAttention、CUDA Graphs 等)
- 流式并行解碼:通過距離懲罰和動(dòng)態(tài)滑動(dòng)窗口,最大化前綴提交率
- 首次在速度上超越工業(yè)級(jí)推理引擎部署的 AR 模型:在 vLLM 優(yōu)化條件下的公平對(duì)比中,數(shù)學(xué)推理實(shí)現(xiàn) 3 倍以上加速,低熵場(chǎng)景超過 10 倍
研究團(tuán)隊(duì)指出,這項(xiàng)工作表明「前綴可緩存性」應(yīng)當(dāng)作為并行文本生成的一等設(shè)計(jì)目標(biāo)。未來(lái)的擴(kuò)散語(yǔ)言模型應(yīng)更多地被視為高效的多 token 預(yù)測(cè)機(jī)制 —— 并行生成 token 的價(jià)值,取決于這些 token 能多快地轉(zhuǎn)化為可緩存的前綴。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.