![]()
主要作者團隊:Yuxin Chen 現為伊利諾伊大學厄巴納 - 香檳分校(UIUC)碩士一年級學生,Chumeng Liang 為 UIUC 博士一年級學生,Hangke Sui 為 UIUC 博士二年級學生,Ge Liu 為 UIUC 計算機系助理教授。Liu Lab 團隊長期聚焦擴散 / 流模型方向,已產出 Riemannian Consistency Model (RCM), Statistical Flow Matching, 及本文 LangFlow 等多項代表性研究成果。
![]()
- 論文標題:LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling
- 論文鏈接:https://arxiv.org/abs/2604.11748
- github:https://github.com/nealchen2003/LangFlow
- huggingface:https://huggingface.co/papers/2604.11748
“在圖像視頻領域統治的連續擴散模型,為何在文本上遲遲無法突破壁壘,甚至被迫走向‘模仿自回歸’的妥協之路?”
當前擴散語言模型(DLM)深陷 “越像 AR 性能越好” 的怪圈。為逼近 AR,主流研究轉向離散擴散,卻陷入并行解碼困境,逐漸喪失了低延遲與多模態等原生潛力。
面對路線分歧,UIUC Ge Liu 團隊發布新作《LangFlow: Continuous Flow Matching for Large Language Models》,徹底回歸最傳統的連續擴散架構。研究指出,連續擴散在文本上的受挫并非先天缺陷,而是受限于訓練與評估策略。經過系統性優化,LangFlow 首次讓連續擴散在標準基準上追平離散擴散。
這項工作不僅打破了文本生成的離散壁壘,更證明了保留 Diffusion 原生特性的連續架構 “同樣能打”,為探索低延遲、高可控的多模態統一架構,重新打通了一條被長期忽視的底層路線。
語言模型的發展方向
當今大語言模型(不論是 ChatGPT 還是 DeepSeek)的基礎是自回歸(Autoregressive, AR)架構,也就是常說的 “預測下個詞元”。雖然 AR 架構已經取得了巨大的成功,但有幾個本質性的天花板難以突破:
1)推理延遲。 AR 架構每次推理只預測下一個詞元,這意味著:
推理延遲 = 推理步數 × 單步延遲 = 輸出詞元數 × 單步延遲.
對于 AR 模型來說,單步延遲主要受限于從顯存中讀取之前的內容(KV 緩存)。所以,每讀一次 KV 緩存只計算一個新詞元是很浪費的。
2)可控性。 AR 架構主要兼容使用提示詞的控制方式。提示詞與其它信息處于同等地位,因此 AR 受制于指令失效的問題。
3)模態局限性。 AR 架構主要用于預測離散模態,生成圖像、視頻、空間位置、機器人動作等連續模態則需要搭載擴散生成頭,不利于架構統一。
擴散語言模型簡史
近年來,主流思想認為,擴散語言模型越像自回歸,表現就越好。而最經典的連續擴散,一般認為存在先天劣勢;但這一偏見正在逐漸被打破。
![]()
隨著 Stable Diffusion 等先進生成模型的發布,Diffusion 在圖像和視頻生成中確立了統治地位。2022-2023 年,大家自然想把它遷到文本上,以期解決以上三個問題:
1)低延遲。 Diffusion 可以蒸餾成一步生成模型(如 Consistency Model),讀一次 KV 緩存同時輸出多個詞元,大幅降低推理延遲。
2)高可控。 Diffusion 有 Classifier Guidance 以及 Classifier-Free Guidance 等成熟技術,可以強化指令跟隨的質量。
3)多模態。 Diffusion 已經是連續模態的主流范式,若將離散模態連續化,則可以統一架構,同時不會損失任何信息,反之則不然。
盡管上述愿景富有吸引力,但早期的實驗結果并不理想,且隨著模型規模的擴大,性能差距愈發明顯。例如,參數量擴展至 1B 的連續擴散模型 Plaid,其性能僅與 100M 參數的 AR Transformer 相當。而 Diffusion-LM 等模型甚至難以在無條件情況下生成通順句子。
傳統擴散模型在語言任務上的局限性,促使研究社區轉向一種 “離散 Diffusion”,也就是從初態(全 [MASK] 或者詞表中均勻隨機)出發,每步以一個小概率替換部分詞元。2024 年,離散 Diffusion 取得了顯著進展,尤其是初始為全 [MASK] 態的 Masked Diffusion 家族最為突出,把與 AR 的 PPL 差距縮到 10 以內。近期的里程碑是 Block Diffusion,它把數據每 4–32 個 token 分一塊,塊內是 MDLM,塊間是 AR,PPL 只比 AR 差 3 左右。
截至 2025 年中,DLM 的演進路線是很明確的:
(連續)Diffusion → 離散 Diffusion → Masked Diffusion → Block Diffusion
趨勢十分清晰:Diffusion 越像 AR,性能就越接近 AR。這逐漸成為工業界的共識:在擴展 DLM 規模時,工業界普遍采用 Block Diffusion,平均每次推理能預測接下來 32 個詞元中的 4 個。這其實與 DeepSeek-V3 的多詞元預測(multi-token prediction)技術不謀而合。
然而,Masked Diffusion 在逼近 AR 性能的同時,也弱化了 Diffusion 的特色,犧牲了以上三個核心潛力中的兩個:推理延遲與多模態能力。
(連續)Diffusion 之所以能蒸餾為一步,是因為其概率流 ODE 形式下(注:DDIM 的連續時間版本,每步不注入噪聲,等價于一般意義下的 Flow Matching),每個隨機初態確定性地對應一個終點。然而,Masked Diffusion 初始為單一的全 [MASK] 態,通過逐步注入隨機性,才能生成多種不同的結果;如果一步同時解碼多個 token,其間的對應關系是捕捉不到的。因此,Masked Diffusion 深陷并行解碼困境(parallel decoding dilemma),也就是隨著生成步數的減少,多種可能的目標句交叉混疊,質量不可避免地走向崩潰,如下圖:
![]()
Masked Diffusion 的得失引出一個核心問題:如果 Diffusion 必須依賴模仿 AR 才能提升性能,其作為獨立語言模型架構的獨特價值便有待商榷了。
連續擴散模型的回歸
2025 年,前沿研究開始重新審視這一路線,嘗試回歸多初始態架構,以保留 Diffusion 的核心特性。代表作 Duo 改進了基于均勻隨機噪聲的離散 Diffusion,雖然在 OpenWebText 上未能超過 Masked Diffusion,但在少步蒸餾后仍保持生成質量,并采用專為離散 Diffusion 設計的引導機制。近期研究甚至表明,在 GSM8K(數學基準)的擴大規模測試中,Duo 擊敗了 Masked Diffusion 和 AR。這表明模仿 AR 并非提升擴散模型性能的唯一路徑。
在最新工作 LangFlow 中,研究團隊比 Duo 更徹底地回歸 —— 直接回到最傳統的 Diffusion。該研究證明:早期連續 DLM 的表現不佳并非源于架構的先天缺陷,而是受限于訓練策略與評估方法。經優化后,同樣在 GPT-2-small 規模下,連續 Diffusion 追平了離散 Diffusion,甚至可與 AR 相當。具體來說,該團隊發布的模型 LangFlow,在 7 個零樣本遷移測試中,有 3 個超過 AR。
下文說明具體做法。
更有效的訓練:
刻畫連續擴散的信息熵
Embedding 空間上的 Diffusion
研究團隊采用了embedding 空間上的 diffusion 框架。模型輸入帶噪的 embedding,預測干凈 token 的概率分布,然后以封閉形式算出 diffusion 的去噪目標。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
噪聲的 Schedule
優化噪聲 schedule 是提升 DLM 性能的關鍵。與圖像不同的是,研究團隊發現:DLM 必須偏重極高噪聲區,才能學得有效信息。
1、標準噪聲 Scheduler 的局限
![]()
![]()
![]()
![]()
![]()
2、讓 Schedule 匹配信息增量
![]()
![]()
![]()
![]()
![]()
3、信息量服從 Gumbel 分布
![]()
![]()
![]()
![]()
更精準的測試:還原連續擴散的實力
關鍵指標解釋
根據以往的 DLM 工作,該研究沿用以下兩項指標(都是越低越好):
![]()
![]()
Self-Conditioning
研究團隊通過對比實驗指出:關閉 Self-Conditioning 的對比對連續 DLM 是不公平的。
![]()
![]()
![]()
ODE 生成的 PPL 估計
研究團隊還注意到:之前的工作的變分上界不適用于 LangFlow 所用的 ODE 生成。
準確的 PPL 度量是公平比較的前提。AR 逐詞元計算似然;離散擴散用變分推導一個上界。在本研究中,團隊為 LangFlow 的 ODE 生成路徑推導了一個更適配的 NLL 上界,按序列長度平均并取指數后即為 PPL:
![]()
這個上界由三部分構成:第一項是從噪聲中抽取軌跡起點的 NLL;第二項是 ODE 對概率密度的壓縮或膨脹;第三項是從軌跡終點還原 token 的 NLL。最后的一項,是以上三項中的常數項相互抵消剩下的總和。
這個界完全適配 LangFlow 的 ODE 生成,為連續 DLM 的 PPL 評估提供了更可靠的理論基礎。
多項基準全面追平:
語言建模與零樣本遷移均進入第一梯隊
連續擴散在 LM1B 和 OWT 的 PPL/Gen. PPL 上整體匹敵離散擴散,并取得擴散模型中最強的零樣本遷移表現。
研究團隊在 LM1B(句子級)和 OpenWebText(OWT,類似 GPT-2 語料)上評估 LangFlow。模型都是 130M 參數的雙向 DiT,訓練 1M 步。
語言建模
![]()
![]()
在 LM1B 上,LangFlow 生成 PPL 達 91.8,優于最強離散 DLM(Duo 97.6)6 分以上。測試集 PPL(31.7)超過所有均勻隨機噪聲的離散 DLM,與 Masked Diffusion 的 SOTA MDLM(31.0)持平。在 OWT 上,LangFlow(24.3)與 MDLM(23.2)差距僅在 1 左右。這是連續 DLM 首次在標準語言建模基準上追平離散 DLM。
零樣本遷移
在 7 個 零樣本遷移測試中,LangFlow 在 3 個上超過 AR 基線,在 4 個上超過 MDLM。尤其在 Pubmed 和 Arxiv(充滿結構化、專業術語)上,LangFlow 相對 AR 優勢顯著(36.45 vs 49.01,32.84 vs 41.73)。LangFlow 不僅放大了離散擴散對 AR 的相對優勢,還在其弱勢項目上補齊了短板。
總結:走向多架構協同的下一代語言模型
LangFlow 證明了連續 DLM 完全具備在標準基準上打平離散 DLM 的基礎能力。然而,Diffusion 的長期價值并不在于與 AR 進行零和博弈,而在于作為 AR 架構的關鍵補充。在低延遲解碼、細粒度指令控制以及原生多模態融合等 AR 存在固有局限的領域,連續 Diffusion 展現出了不可替代的天然優勢。
未來的語言模型發展趨勢正指向多種架構優勢互補的組合,而非單一范式的壟斷。與其將 Diffusion 強行 “改造” 成 AR 的離散生成模式,不如徹底釋放其連續架構的原生潛力。
LangFlow 完整保留了擴散模型的核心特性,不僅為連續 DLM 的后續擴展提供了堅實的基線,更為構建下一代低延遲、高可控、多模態共生的 AI 基礎設施確立了重要的底層路線。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.