JustGRPO：擴散語言模型的極簡主義回歸

2026-01-29 12:09:40　來源: 機器之心Pro

河北舉報

分享至

擴散語言模型（Diffusion LLMs, dLLMs）因支持「任意順序生成」和并行解碼而備受矚目。直覺上，打破傳統(tǒng)自回歸（AR）「從左到右」的束縛，理應賦予模型更廣闊的解空間，從而在數(shù)學、代碼等復雜任務上解鎖更強的推理潛力。

然而，本研究揭示了一個反直覺的現(xiàn)實：當前的任意順序生成，反而通過「規(guī)避不確定性」收窄了模型的推理邊界。

基于此，本文提出了一種回歸極簡的方法——JustGRPO。實驗表明，在 RL 階段讓模型自回歸生成，并直接用標準的 GRPO 進行訓練，即可超越當前各類針對 dLLM 設計的 RL 算法表現(xiàn)。更重要的是，這種訓練方式在提升推理表現(xiàn)的同時，并未犧牲dLLM 引以為傲的并行解碼能力。

論文標題：The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models
論文鏈接：https://huggingface.co/papers/2601.15165
項目主頁：https://nzl-thu.github.io/the-flexibility-trap
論文代碼：https://github.com/LeapLabTHU/JustGRPO

「靈活性陷阱」：

為什么選擇多反而考不好？

為了探究「靈活性是否等同于推理潛力」，本文引入了 Pass@k 作為核心衡量指標。該指標量化了在 k 次采樣中至少生成一個正確答案的概率，能夠有效反映模型解空間的覆蓋廣度以及 RL 訓練可激發(fā)的推理潛力上限（Yue et al., 2025）。

對比實驗涵蓋了兩種主要的解碼模式：

任意順序（Arbitrary Order）：允許模型根據(jù)置信度動態(tài)選擇生成順序，這是擴散語言模型的標準解碼方式。
AR 順序（AR Order）：約束模型遵循傳統(tǒng) LLM 從左到右的生成順序。

實驗結果揭示了一個值得深思的趨勢：雖然任意順序在 k=1 時表現(xiàn)尚可，但隨著采樣次數(shù) k 的增加，AR 順序的 Pass@k 曲線不僅攀升速率更快，且最終達到的上限顯著更高。這表明，在涉及復雜推理時，AR 順序?qū)嶋H上可幫助模型覆蓋更廣闊的正確解空間。

圖：限制 dLLM 使用標準的 AR 順序，反而比靈活的任意順序擁有更高的推理上限。

熵坍塌現(xiàn)象

為何看似受限的 AR 順序反而更具潛力？這與兩種順序如何處理不確定性有關。

在自回歸模式下，模型被迫直面第一個未知 Token；而在任意順序模式下，模型則有跳過（bypass）當前不確定 Token、優(yōu)先填充后續(xù)更確定的內(nèi)容的「特權」。統(tǒng)計顯示，被頻繁跳過的往往是諸如「Therefore」、「Thus」、「To」等邏輯銜接詞（下圖左）：

圖左：任意順序下，模型傾向于跳過不確定token而先填后續(xù)token，且這些被跳過的token往往是一些邏輯銜接詞；圖右：這些邏輯銜接詞解碼時的entropy顯著低于自回歸順序（虛線代表average token entropy）。以上結果為LLaDA-Instruct在MATH-500數(shù)據(jù)集的結果。

已有工作（Wang et al., 2025）表明，這些邏輯銜接詞往往起到通往不同推理路徑的功能，且將這些詞保持高熵狀態(tài)對模型探索豐富的解空間至關重要。而在任意順序下，這些銜接詞被解碼時的熵（Entropy）顯著低于自回歸順序（上圖右）。

我們將這種現(xiàn)象稱為「熵降級」（Entropy Degradation）。形象地說，模型利用了任意順序的靈活性進行了一種「局部貪婪優(yōu)化」：它跳過了艱難的推理決策點，試圖通過先生成后續(xù)上下文來「湊」出邏輯連接。雖然這在單次生成中可能有效，但卻犧牲了對多樣化推理路徑的有效探索。

圖：任意順序生成傾向于繞過高熵的邏輯連接詞，導致解空間過早坍縮。

返璞歸真：

JustGRPO

既然「任意順序」反而可能限制推理路徑的探索，本文提出了一種回歸極簡的方法——JustGRPO。不同于現(xiàn)有 RL 算法，JustGRPO 不再試圖用各種近似處理以顯式保留任意順序特性，而是選擇了一條更為徹底的路徑：

在 RL 訓練階段，直接摒棄對任意順序的執(zhí)念，強制擴散語言模型采用自回歸（AR）順序生成。這樣不僅保持了更廣闊的推理路徑，同時也讓我們得以直接復用成熟的 GRPO 算法進行優(yōu)化。這種「生成軌跡的確定性」也自然使得強化學習時的信用分配（Credit Assignment）更加清晰，有助于模型更有效地學習魯棒的聯(lián)合分布。

值得一提的是：「訓練時的約束」≠「推理時的退化」

自回歸的約束僅存在于訓練階段。它的目的是為了讓模型更有效地進行 RL 階段的探索與信用分配，模型本身的雙向注意力機制并未被破壞。一旦訓練完成，我們依然可以在推理階段無損地應用并行解碼，在享受 AR 訓練帶來的更優(yōu)推理表現(xiàn)的同時，保留擴散模型引以為傲的生成速度。

實驗結果：

簡單，但極其有效

性能大幅提升

在數(shù)學推理和代碼生成這兩類通用的推理任務上，JustGRPO 均有優(yōu)秀的表現(xiàn)：

數(shù)學推理：在 GSM8K 和 MATH-500 上，模型展現(xiàn)了極高的推理上限，準確率最高分別可達 89.8% 和 45.2%，相比之前的最佳方法（SPG）顯著提升。

代碼生成：在 HumanEval 與 MBPP 數(shù)據(jù)集上，準確率分別達到 49.4% 和 52.4%。

表：JustGRPO在多個基準測試中超越了現(xiàn)有的 dLLM 強化學習方法，基座模型：LLaDA-Instruct。注：LLaDA-1.5使用了大規(guī)模私有數(shù)據(jù)集訓練、LLaDOU在訓練中引入了額外模塊，因此未列入對比。

并行能力不僅沒丟，還更強了

一個可能的擔憂是：用 AR 方式訓練是否會讓 dLLM 退化，失去其并行優(yōu)勢？實驗結果恰恰相反。使用現(xiàn)成的 training-free 并行采樣器（Ben-Hamu et al., 2025），JustGRPO 訓練后的模型在并行解碼下表現(xiàn)更佳。例如在 MBPP 數(shù)據(jù)集上，當每步并行解碼 5 個 Token 時，JustGRPO 相比基座模型（LLaDA-Instruct）的準確率優(yōu)勢從單步的 10.6% 擴大到了25.5%。

這表明訓練后的模型學到了更魯棒的聯(lián)合分布，使其更能適應并行采樣過程中的近似誤差。

圖：JustGRPO 訓練后的模型在并行解碼時表現(xiàn)出更好的速度-精度權衡。

結語：

少即是多

這篇工作挑戰(zhàn)了該領域的一個普遍假設，即「必須在 RL 中保留任意順序靈活性」。事實證明，通過限制訓練時的生成順序，迫使模型直面邏輯分叉點的高不確定性，反而能更有效地激發(fā) dLLMs 的推理潛能。

JustGRPO以一種極簡的方式，實現(xiàn)了推理能力的大幅提升，同時未犧牲擴散模型標志性的推理速度。也希望借此工作啟發(fā)社區(qū)重新審視「任意順序生成」在通用推理任務中的真實價值。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.