網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

微信煉出擴(kuò)散語(yǔ)言模型，vLLM部署AR模型3倍加速，低熵場(chǎng)景超10倍

2026-01-04 14:04:58　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

騰訊微信 AI 團(tuán)隊(duì)提出 WeDLM（WeChat Diffusion Language Model），通過在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn)擴(kuò)散式解碼，在數(shù)學(xué)推理等任務(wù)上實(shí)現(xiàn)相比 vLLM 部署的 AR 模型 3 倍以上加速，低熵場(chǎng)景更可達(dá) 10 倍以上，同時(shí)保持甚至提升生成質(zhì)量。

引言

自回歸（AR）生成是當(dāng)前大語(yǔ)言模型的主流解碼范式，但其逐 token 生成的特性限制了推理效率。擴(kuò)散語(yǔ)言模型（Diffusion LLMs）通過并行恢復(fù)多個(gè) mask token 提供了一種替代方案，然而在實(shí)踐中，現(xiàn)有擴(kuò)散模型往往難以在推理速度上超越經(jīng)過高度優(yōu)化的 AR 推理引擎（如 vLLM）。

問題的關(guān)鍵在于：大多數(shù)擴(kuò)散語(yǔ)言模型采用雙向注意力機(jī)制，這與標(biāo)準(zhǔn)的 KV 緩存機(jī)制不兼容，導(dǎo)致并行預(yù)測(cè)的優(yōu)勢(shì)無(wú)法轉(zhuǎn)化為實(shí)際的速度提升。

近日，騰訊微信 AI 團(tuán)隊(duì)提出了WeDLM（WeChat Diffusion Language Model），這是首個(gè)在工業(yè)級(jí)推理引擎（vLLM）優(yōu)化條件下，推理速度超越同等 AR 模型的擴(kuò)散語(yǔ)言模型。

論文標(biāo)題：WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference
論文作者：劉璦瑋、何明樺、曾少勛、張思鈞、張林昊、武楚涵、賈巍、劉源、周霄、周杰（騰訊微信 AI）
項(xiàng)目主頁(yè)：https://wedlm.github.io
GitHub：https://github.com/tencent/WeDLM
模型權(quán)重：https://huggingface.co/collections/tencent/wedlm

以下是模型效果：

上圖展示了vLLM 部署的 Qwen3-8B-Instruct（左）與 WeDLM-8B-Instruct（右）在相同 prompt 下的實(shí)時(shí)生成對(duì)比。可以直觀看到，WeDLM 的生成速度明顯更快。

核心思路：讓擴(kuò)散解碼兼容 KV 緩存

WeDLM 的核心洞察是：mask 恢復(fù)并不需要雙向注意力。擴(kuò)散式解碼只需要讓每個(gè) mask 位置能夠訪問所有已觀測(cè)的 token，這完全可以在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn)。

研究團(tuán)隊(duì)提出了一個(gè)關(guān)鍵指標(biāo) ——前綴可緩存性（Prefix Cacheability）：在 KV 緩存解碼中，只有形成連續(xù)左到右前綴的 token 才能被緩存復(fù)用。因此，真正影響推理效率的不是「每步預(yù)測(cè)多少 token」，而是「有多少預(yù)測(cè)能夠轉(zhuǎn)化為可緩存的前綴」。

圖：WeDLM-8B 在數(shù)學(xué)推理任務(wù)上實(shí)現(xiàn)約 3 倍加速，同時(shí)在準(zhǔn)確率和推理速度上顯著超越 LLaDA、Dream 等擴(kuò)散模型。

技術(shù)方案

拓?fù)渲嘏判颍═opological Reordering）

WeDLM 通過拓?fù)渲嘏判蛟诒３忠蚬⒁饬Φ耐瑫r(shí)，讓 mask 位置能夠訪問完整的觀測(cè)上下文。具體而言，將所有已觀測(cè) token 移動(dòng)到物理序列的前端，同時(shí)通過 RoPE 位置編碼保留其邏輯位置。這樣，在標(biāo)準(zhǔn)因果 mask 下，每個(gè)待預(yù)測(cè)位置都能看到所有已知信息。

雙流掩碼（Dual-Stream Masking）

為縮小訓(xùn)練與推理的分布差異，WeDLM 設(shè)計(jì)了雙流訓(xùn)練策略：構(gòu)建一個(gè)干凈的「記憶流」和一個(gè)帶 mask 的「預(yù)測(cè)流」，兩者共享位置編碼。預(yù)測(cè)流中的每個(gè) block 從記憶流獲取干凈的歷史上下文，而非可能帶噪的中間預(yù)測(cè)結(jié)果。

流式并行解碼（Streaming Parallel Decoding）

推理階段，WeDLM 采用流式并行解碼策略：

距離懲罰機(jī)制：優(yōu)先解碼靠左的位置，促進(jìn)左到右的前綴增長(zhǎng)
即時(shí)緩存：在因果注意力下，已解碼 token 立即成為有效緩存
動(dòng)態(tài)滑動(dòng)窗口：持續(xù)填充新的 mask 位置，避免 block 邊界的等待開銷

圖：傳統(tǒng) block 解碼需要等待整個(gè) block 完成才能提交，而 WeDLM 的流式解碼可以即時(shí)提交已解析的前綴。

實(shí)驗(yàn)結(jié)果

生成質(zhì)量

WeDLM 基于 Qwen2.5-7B 和 Qwen3-8B 進(jìn)行訓(xùn)練，使用 100B token 進(jìn)行繼續(xù)預(yù)訓(xùn)練，10B token 進(jìn)行 SFT。

在 base 模型評(píng)測(cè)中，WeDLM-8B 平均得分 74.72，超越 Qwen3-8B（72.61）2.1 個(gè)點(diǎn)。在數(shù)學(xué)推理任務(wù)上提升尤為顯著：GSM8K 提升 4.2 個(gè)點(diǎn)，MATH 提升 2.8 個(gè)點(diǎn)。

在 instruct 模型評(píng)測(cè)中，WeDLM-8B-Instruct 平均得分 77.53，超越 Qwen3-8B-Instruct（75.12）2.4 個(gè)點(diǎn)，也領(lǐng)先于 SDAR-8B-Instruct（74.22）等擴(kuò)散模型。

推理速度

關(guān)鍵亮點(diǎn)：所有速度對(duì)比均基于 vLLM 部署的 AR 模型基線，而非未優(yōu)化的實(shí)現(xiàn)。

研究團(tuán)隊(duì)在論文中展示了不同熵值場(chǎng)景下的速度差異：

低熵場(chǎng)景（如計(jì)數(shù)任務(wù)）：由于輸出高度可預(yù)測(cè)，模型可以大膽并行預(yù)測(cè)并接受多個(gè) token，實(shí)測(cè)達(dá)到 1673.3 tokens/s
中熵場(chǎng)景（如數(shù)學(xué)推導(dǎo)）：結(jié)構(gòu)化的推理步驟仍然具有較好的可預(yù)測(cè)性，實(shí)測(cè) 745.2 tokens/s
高熵場(chǎng)景（如開放問答）：語(yǔ)義多樣性高，并行接受率下降，實(shí)測(cè) 197.8 tokens/s

快速上手

安裝方式非常簡(jiǎn)單，只需通過 pip 從 GitHub 安裝即可。安裝完成后，可使用 Python API 快速調(diào)用模型進(jìn)行推理。詳細(xì)的使用文檔和示例代碼請(qǐng)參見項(xiàng)目 GitHub 主頁(yè)。

總結(jié)

WeDLM 的貢獻(xiàn)可以歸納為：

因果擴(kuò)散框架：在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn) mask 恢復(fù)，天然兼容 KV 緩存和現(xiàn)有推理基礎(chǔ)設(shè)施（FlashAttention、PagedAttention、CUDA Graphs 等）
流式并行解碼：通過距離懲罰和動(dòng)態(tài)滑動(dòng)窗口，最大化前綴提交率
首次在速度上超越工業(yè)級(jí)推理引擎部署的 AR 模型：在 vLLM 優(yōu)化條件下的公平對(duì)比中，數(shù)學(xué)推理實(shí)現(xiàn) 3 倍以上加速，低熵場(chǎng)景超過 10 倍

研究團(tuán)隊(duì)指出，這項(xiàng)工作表明「前綴可緩存性」應(yīng)當(dāng)作為并行文本生成的一等設(shè)計(jì)目標(biāo)。未來(lái)的擴(kuò)散語(yǔ)言模型應(yīng)更多地被視為高效的多 token 預(yù)測(cè)機(jī)制 —— 并行生成 token 的價(jià)值，取決于這些 token 能多快地轉(zhuǎn)化為可緩存的前綴。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.