網易首頁 > 網易號 > 正文申請入駐

LangFlow: 挑戰離散擴散，探索下一代語言模型新范式

2026-04-28 22:22:24　來源: 機器之心Pro

河北舉報

分享至

主要作者團隊：Yuxin Chen 現為伊利諾伊大學厄巴納 - 香檳分校（UIUC）碩士一年級學生，Chumeng Liang 為 UIUC 博士一年級學生，Hangke Sui 為 UIUC 博士二年級學生，Ge Liu 為 UIUC 計算機系助理教授。Liu Lab 團隊長期聚焦擴散 / 流模型方向，已產出 Riemannian Consistency Model (RCM), Statistical Flow Matching, 及本文 LangFlow 等多項代表性研究成果。

論文標題：LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling
論文鏈接：https://arxiv.org/abs/2604.11748
github：https://github.com/nealchen2003/LangFlow
huggingface：https://huggingface.co/papers/2604.11748

“在圖像視頻領域統治的連續擴散模型，為何在文本上遲遲無法突破壁壘，甚至被迫走向‘模仿自回歸’的妥協之路？”

當前擴散語言模型（DLM）深陷 “越像 AR 性能越好” 的怪圈。為逼近 AR，主流研究轉向離散擴散，卻陷入并行解碼困境，逐漸喪失了低延遲與多模態等原生潛力。

面對路線分歧，UIUC Ge Liu 團隊發布新作《LangFlow: Continuous Flow Matching for Large Language Models》，徹底回歸最傳統的連續擴散架構。研究指出，連續擴散在文本上的受挫并非先天缺陷，而是受限于訓練與評估策略。經過系統性優化，LangFlow 首次讓連續擴散在標準基準上追平離散擴散。

這項工作不僅打破了文本生成的離散壁壘，更證明了保留 Diffusion 原生特性的連續架構 “同樣能打”，為探索低延遲、高可控的多模態統一架構，重新打通了一條被長期忽視的底層路線。

語言模型的發展方向

當今大語言模型（不論是 ChatGPT 還是 DeepSeek）的基礎是自回歸（Autoregressive, AR）架構，也就是常說的 “預測下個詞元”。雖然 AR 架構已經取得了巨大的成功，但有幾個本質性的天花板難以突破：

1)推理延遲。 AR 架構每次推理只預測下一個詞元，這意味著：

推理延遲 = 推理步數 × 單步延遲 = 輸出詞元數 × 單步延遲.

對于 AR 模型來說，單步延遲主要受限于從顯存中讀取之前的內容（KV 緩存）。所以，每讀一次 KV 緩存只計算一個新詞元是很浪費的。

2)可控性。 AR 架構主要兼容使用提示詞的控制方式。提示詞與其它信息處于同等地位，因此 AR 受制于指令失效的問題。

3)模態局限性。 AR 架構主要用于預測離散模態，生成圖像、視頻、空間位置、機器人動作等連續模態則需要搭載擴散生成頭，不利于架構統一。

擴散語言模型簡史

近年來，主流思想認為，擴散語言模型越像自回歸，表現就越好。而最經典的連續擴散，一般認為存在先天劣勢；但這一偏見正在逐漸被打破。

隨著 Stable Diffusion 等先進生成模型的發布，Diffusion 在圖像和視頻生成中確立了統治地位。2022-2023 年，大家自然想把它遷到文本上，以期解決以上三個問題：

1)低延遲。 Diffusion 可以蒸餾成一步生成模型（如 Consistency Model），讀一次 KV 緩存同時輸出多個詞元，大幅降低推理延遲。

2)高可控。 Diffusion 有 Classifier Guidance 以及 Classifier-Free Guidance 等成熟技術，可以強化指令跟隨的質量。

3)多模態。 Diffusion 已經是連續模態的主流范式，若將離散模態連續化，則可以統一架構，同時不會損失任何信息，反之則不然。

盡管上述愿景富有吸引力，但早期的實驗結果并不理想，且隨著模型規模的擴大，性能差距愈發明顯。例如，參數量擴展至 1B 的連續擴散模型 Plaid，其性能僅與 100M 參數的 AR Transformer 相當。而 Diffusion-LM 等模型甚至難以在無條件情況下生成通順句子。

傳統擴散模型在語言任務上的局限性，促使研究社區轉向一種 “離散 Diffusion”，也就是從初態（全 [MASK] 或者詞表中均勻隨機）出發，每步以一個小概率替換部分詞元。2024 年，離散 Diffusion 取得了顯著進展，尤其是初始為全 [MASK] 態的 Masked Diffusion 家族最為突出，把與 AR 的 PPL 差距縮到 10 以內。近期的里程碑是 Block Diffusion，它把數據每 4–32 個 token 分一塊，塊內是 MDLM，塊間是 AR，PPL 只比 AR 差 3 左右。

截至 2025 年中，DLM 的演進路線是很明確的：

（連續）Diffusion → 離散 Diffusion → Masked Diffusion → Block Diffusion

趨勢十分清晰：Diffusion 越像 AR，性能就越接近 AR。這逐漸成為工業界的共識：在擴展 DLM 規模時，工業界普遍采用 Block Diffusion，平均每次推理能預測接下來 32 個詞元中的 4 個。這其實與 DeepSeek-V3 的多詞元預測（multi-token prediction）技術不謀而合。

然而，Masked Diffusion 在逼近 AR 性能的同時，也弱化了 Diffusion 的特色，犧牲了以上三個核心潛力中的兩個：推理延遲與多模態能力。

（連續）Diffusion 之所以能蒸餾為一步，是因為其概率流 ODE 形式下（注：DDIM 的連續時間版本，每步不注入噪聲，等價于一般意義下的 Flow Matching），每個隨機初態確定性地對應一個終點。然而，Masked Diffusion 初始為單一的全 [MASK] 態，通過逐步注入隨機性，才能生成多種不同的結果；如果一步同時解碼多個 token，其間的對應關系是捕捉不到的。因此，Masked Diffusion 深陷并行解碼困境（parallel decoding dilemma），也就是隨著生成步數的減少，多種可能的目標句交叉混疊，質量不可避免地走向崩潰，如下圖：

Masked Diffusion 的得失引出一個核心問題：如果 Diffusion 必須依賴模仿 AR 才能提升性能，其作為獨立語言模型架構的獨特價值便有待商榷了。

連續擴散模型的回歸

2025 年，前沿研究開始重新審視這一路線，嘗試回歸多初始態架構，以保留 Diffusion 的核心特性。代表作 Duo 改進了基于均勻隨機噪聲的離散 Diffusion，雖然在 OpenWebText 上未能超過 Masked Diffusion，但在少步蒸餾后仍保持生成質量，并采用專為離散 Diffusion 設計的引導機制。近期研究甚至表明，在 GSM8K（數學基準）的擴大規模測試中，Duo 擊敗了 Masked Diffusion 和 AR。這表明模仿 AR 并非提升擴散模型性能的唯一路徑。

在最新工作 LangFlow 中，研究團隊比 Duo 更徹底地回歸 —— 直接回到最傳統的 Diffusion。該研究證明：早期連續 DLM 的表現不佳并非源于架構的先天缺陷，而是受限于訓練策略與評估方法。經優化后，同樣在 GPT-2-small 規模下，連續 Diffusion 追平了離散 Diffusion，甚至可與 AR 相當。具體來說，該團隊發布的模型 LangFlow，在 7 個零樣本遷移測試中，有 3 個超過 AR。

下文說明具體做法。

更有效的訓練：

刻畫連續擴散的信息熵

Embedding 空間上的 Diffusion

研究團隊采用了embedding 空間上的 diffusion 框架。模型輸入帶噪的 embedding，預測干凈 token 的概率分布，然后以封閉形式算出 diffusion 的去噪目標。

噪聲的 Schedule

優化噪聲 schedule 是提升 DLM 性能的關鍵。與圖像不同的是，研究團隊發現：DLM 必須偏重極高噪聲區，才能學得有效信息。

1、標準噪聲 Scheduler 的局限

2、讓 Schedule 匹配信息增量

3、信息量服從 Gumbel 分布

更精準的測試：還原連續擴散的實力

關鍵指標解釋

根據以往的 DLM 工作，該研究沿用以下兩項指標（都是越低越好）：

Self-Conditioning

研究團隊通過對比實驗指出：關閉 Self-Conditioning 的對比對連續 DLM 是不公平的。

ODE 生成的 PPL 估計

研究團隊還注意到：之前的工作的變分上界不適用于 LangFlow 所用的 ODE 生成。

準確的 PPL 度量是公平比較的前提。AR 逐詞元計算似然；離散擴散用變分推導一個上界。在本研究中，團隊為 LangFlow 的 ODE 生成路徑推導了一個更適配的 NLL 上界，按序列長度平均并取指數后即為 PPL：

這個上界由三部分構成：第一項是從噪聲中抽取軌跡起點的 NLL；第二項是 ODE 對概率密度的壓縮或膨脹；第三項是從軌跡終點還原 token 的 NLL。最后的一項，是以上三項中的常數項相互抵消剩下的總和。

這個界完全適配 LangFlow 的 ODE 生成，為連續 DLM 的 PPL 評估提供了更可靠的理論基礎。

多項基準全面追平：

語言建模與零樣本遷移均進入第一梯隊

連續擴散在 LM1B 和 OWT 的 PPL/Gen. PPL 上整體匹敵離散擴散，并取得擴散模型中最強的零樣本遷移表現。

研究團隊在 LM1B（句子級）和 OpenWebText（OWT，類似 GPT-2 語料）上評估 LangFlow。模型都是 130M 參數的雙向 DiT，訓練 1M 步。

語言建模

在 LM1B 上，LangFlow 生成 PPL 達 91.8，優于最強離散 DLM（Duo 97.6）6 分以上。測試集 PPL（31.7）超過所有均勻隨機噪聲的離散 DLM，與 Masked Diffusion 的 SOTA MDLM（31.0）持平。在 OWT 上，LangFlow（24.3）與 MDLM（23.2）差距僅在 1 左右。這是連續 DLM 首次在標準語言建模基準上追平離散 DLM。

零樣本遷移

在 7 個零樣本遷移測試中，LangFlow 在 3 個上超過 AR 基線，在 4 個上超過 MDLM。尤其在 Pubmed 和 Arxiv（充滿結構化、專業術語）上，LangFlow 相對 AR 優勢顯著（36.45 vs 49.01，32.84 vs 41.73）。LangFlow 不僅放大了離散擴散對 AR 的相對優勢，還在其弱勢項目上補齊了短板。

總結：走向多架構協同的下一代語言模型

LangFlow 證明了連續 DLM 完全具備在標準基準上打平離散 DLM 的基礎能力。然而，Diffusion 的長期價值并不在于與 AR 進行零和博弈，而在于作為 AR 架構的關鍵補充。在低延遲解碼、細粒度指令控制以及原生多模態融合等 AR 存在固有局限的領域，連續 Diffusion 展現出了不可替代的天然優勢。

未來的語言模型發展趨勢正指向多種架構優勢互補的組合，而非單一范式的壟斷。與其將 Diffusion 強行 “改造” 成 AR 的離散生成模式，不如徹底釋放其連續架構的原生潛力。

LangFlow 完整保留了擴散模型的核心特性，不僅為連續 DLM 的后續擴展提供了堅實的基線，更為構建下一代低延遲、高可控、多模態共生的 AI 基礎設施確立了重要的底層路線。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.