<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      JustGRPO:擴散語言模型的極簡主義回歸

      0
      分享至



      擴散語言模型(Diffusion LLMs, dLLMs)因支持「任意順序生成」和并行解碼而備受矚目。直覺上,打破傳統(tǒng)自回歸(AR)「從左到右」的束縛,理應(yīng)賦予模型更廣闊的解空間,從而在數(shù)學(xué)、代碼等復(fù)雜任務(wù)上解鎖更強的推理潛力。

      然而,本研究揭示了一個反直覺的現(xiàn)實:當(dāng)前的任意順序生成,反而通過「規(guī)避不確定性」收窄了模型的推理邊界。

      基于此,本文提出了一種回歸極簡的方法——JustGRPO。實驗表明,在 RL 階段讓模型自回歸生成,并直接用標(biāo)準(zhǔn)的 GRPO 進行訓(xùn)練,即可超越當(dāng)前各類針對 dLLM 設(shè)計的 RL 算法表現(xiàn)。更重要的是,這種訓(xùn)練方式在提升推理表現(xiàn)的同時,并未犧牲dLLM 引以為傲的并行解碼能力。



      • 論文標(biāo)題:The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models
      • 論文鏈接:https://huggingface.co/papers/2601.15165
      • 項目主頁:https://nzl-thu.github.io/the-flexibility-trap
      • 論文代碼:https://github.com/LeapLabTHU/JustGRPO

      「靈活性陷阱」:

      為什么選擇多反而考不好?

      為了探究「靈活性是否等同于推理潛力」,本文引入了 Pass@k 作為核心衡量指標(biāo)。該指標(biāo)量化了在 k 次采樣中至少生成一個正確答案的概率,能夠有效反映模型解空間的覆蓋廣度以及 RL 訓(xùn)練可激發(fā)的推理潛力上限(Yue et al., 2025)。

      對比實驗涵蓋了兩種主要的解碼模式:

      • 任意順序(Arbitrary Order):允許模型根據(jù)置信度動態(tài)選擇生成順序,這是擴散語言模型的標(biāo)準(zhǔn)解碼方式。
      • AR 順序(AR Order):約束模型遵循傳統(tǒng) LLM 從左到右的生成順序。

      實驗結(jié)果揭示了一個值得深思的趨勢:雖然任意順序在 k=1 時表現(xiàn)尚可,但隨著采樣次數(shù) k 的增加,AR 順序的 Pass@k 曲線不僅攀升速率更快,且最終達到的上限顯著更高。這表明,在涉及復(fù)雜推理時,AR 順序?qū)嶋H上可幫助模型覆蓋更廣闊的正確解空間。



      圖:限制 dLLM 使用標(biāo)準(zhǔn)的 AR 順序,反而比靈活的任意順序擁有更高的推理上限。

      熵坍塌現(xiàn)象

      為何看似受限的 AR 順序反而更具潛力?這與兩種順序如何處理不確定性有關(guān)。

      在自回歸模式下,模型被迫直面第一個未知 Token;而在任意順序模式下,模型則有跳過(bypass)當(dāng)前不確定 Token、優(yōu)先填充后續(xù)更確定的內(nèi)容的「特權(quán)」。統(tǒng)計顯示,被頻繁跳過的往往是諸如「Therefore」、「Thus」、「To」等邏輯銜接詞(下圖左):



      圖左:任意順序下,模型傾向于跳過不確定token而先填后續(xù)token,且這些被跳過的token往往是一些邏輯銜接詞;圖右:這些邏輯銜接詞解碼時的entropy顯著低于自回歸順序(虛線代表average token entropy)。以上結(jié)果為LLaDA-Instruct在MATH-500數(shù)據(jù)集的結(jié)果。

      已有工作(Wang et al., 2025)表明,這些邏輯銜接詞往往起到通往不同推理路徑的功能,且將這些詞保持高熵狀態(tài)對模型探索豐富的解空間至關(guān)重要。而在任意順序下,這些銜接詞被解碼時的熵(Entropy)顯著低于自回歸順序(上圖右)。

      我們將這種現(xiàn)象稱為「熵降級」(Entropy Degradation)。形象地說,模型利用了任意順序的靈活性進行了一種「局部貪婪優(yōu)化」:它跳過了艱難的推理決策點,試圖通過先生成后續(xù)上下文來「湊」出邏輯連接。雖然這在單次生成中可能有效,但卻犧牲了對多樣化推理路徑的有效探索。



      圖:任意順序生成傾向于繞過高熵的邏輯連接詞,導(dǎo)致解空間過早坍縮。

      返璞歸真:

      JustGRPO

      既然「任意順序」反而可能限制推理路徑的探索,本文提出了一種回歸極簡的方法——JustGRPO。不同于現(xiàn)有 RL 算法,JustGRPO 不再試圖用各種近似處理以顯式保留任意順序特性,而是選擇了一條更為徹底的路徑:

      在 RL 訓(xùn)練階段,直接摒棄對任意順序的執(zhí)念,強制擴散語言模型采用自回歸(AR)順序生成。這樣不僅保持了更廣闊的推理路徑,同時也讓我們得以直接復(fù)用成熟的 GRPO 算法進行優(yōu)化。這種「生成軌跡的確定性」也自然使得強化學(xué)習(xí)時的信用分配(Credit Assignment)更加清晰,有助于模型更有效地學(xué)習(xí)魯棒的聯(lián)合分布。

      值得一提的是:「訓(xùn)練時的約束」≠「推理時的退化」

      自回歸的約束僅存在于訓(xùn)練階段。它的目的是為了讓模型更有效地進行 RL 階段的探索與信用分配,模型本身的雙向注意力機制并未被破壞。一旦訓(xùn)練完成,我們依然可以在推理階段無損地應(yīng)用并行解碼,在享受 AR 訓(xùn)練帶來的更優(yōu)推理表現(xiàn)的同時,保留擴散模型引以為傲的生成速度。

      實驗結(jié)果:

      簡單,但極其有效

      性能大幅提升

      在數(shù)學(xué)推理和代碼生成這兩類通用的推理任務(wù)上,JustGRPO 均有優(yōu)秀的表現(xiàn):

      • 數(shù)學(xué)推理:在 GSM8K 和 MATH-500 上,模型展現(xiàn)了極高的推理上限,準(zhǔn)確率最高分別可達 89.8% 和 45.2%,相比之前的最佳方法(SPG)顯著提升。

      • 代碼生成:在 HumanEval 與 MBPP 數(shù)據(jù)集上,準(zhǔn)確率分別達到 49.4% 和 52.4%。



      表:JustGRPO在多個基準(zhǔn)測試中超越了現(xiàn)有的 dLLM 強化學(xué)習(xí)方法,基座模型:LLaDA-Instruct。注:LLaDA-1.5使用了大規(guī)模私有數(shù)據(jù)集訓(xùn)練、LLaDOU在訓(xùn)練中引入了額外模塊,因此未列入對比。

      并行能力不僅沒丟,還更強了

      一個可能的擔(dān)憂是:用 AR 方式訓(xùn)練是否會讓 dLLM 退化,失去其并行優(yōu)勢?實驗結(jié)果恰恰相反。使用現(xiàn)成的 training-free 并行采樣器(Ben-Hamu et al., 2025),JustGRPO 訓(xùn)練后的模型在并行解碼下表現(xiàn)更佳。例如在 MBPP 數(shù)據(jù)集上,當(dāng)每步并行解碼 5 個 Token 時,JustGRPO 相比基座模型(LLaDA-Instruct)的準(zhǔn)確率優(yōu)勢從單步的 10.6% 擴大到了25.5%。

      這表明訓(xùn)練后的模型學(xué)到了更魯棒的聯(lián)合分布,使其更能適應(yīng)并行采樣過程中的近似誤差。



      圖:JustGRPO 訓(xùn)練后的模型在并行解碼時表現(xiàn)出更好的速度-精度權(quán)衡。

      結(jié)語:

      少即是多

      這篇工作挑戰(zhàn)了該領(lǐng)域的一個普遍假設(shè),即「必須在 RL 中保留任意順序靈活性」。事實證明,通過限制訓(xùn)練時的生成順序,迫使模型直面邏輯分叉點的高不確定性,反而能更有效地激發(fā) dLLMs 的推理潛能。

      JustGRPO以一種極簡的方式,實現(xiàn)了推理能力的大幅提升,同時未犧牲擴散模型標(biāo)志性的推理速度。也希望借此工作啟發(fā)社區(qū)重新審視「任意順序生成」在通用推理任務(wù)中的真實價值。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      33.9萬!火鍋店稱把春節(jié)4天盈利分給員工,老板:去年關(guān)了兩家店 但春節(jié)福利要堅持

      33.9萬!火鍋店稱把春節(jié)4天盈利分給員工,老板:去年關(guān)了兩家店 但春節(jié)福利要堅持

      紅星新聞
      2026-02-21 10:12:08
      摔倒被扶反索賠22萬后續(xù):律師發(fā)聲,案件焦點已明,賠償跑不掉了

      摔倒被扶反索賠22萬后續(xù):律師發(fā)聲,案件焦點已明,賠償跑不掉了

      愛下廚的阿釃
      2026-02-21 06:55:42
      東北大媽偷菜謊稱山東人后續(xù):弟弟單位同事證明,臉都丟盡了

      東北大媽偷菜謊稱山東人后續(xù):弟弟單位同事證明,臉都丟盡了

      離離言幾許
      2026-02-20 15:57:01
      伊朗已經(jīng)下定決心,搶在美國動手之前,把俄羅斯牢牢綁在戰(zhàn)車上

      伊朗已經(jīng)下定決心,搶在美國動手之前,把俄羅斯牢牢綁在戰(zhàn)車上

      東極妙嚴(yán)
      2026-02-20 15:17:46
      貝加爾湖事故遇難者遺體已被發(fā)現(xiàn),涉事司機為44歲當(dāng)?shù)啬凶?,系私下接單;獲救者是來自江蘇省的一位男性

      貝加爾湖事故遇難者遺體已被發(fā)現(xiàn),涉事司機為44歲當(dāng)?shù)啬凶樱邓较陆訂危猾@救者是來自江蘇省的一位男性

      都市快報橙柿互動
      2026-02-21 00:08:59
      痛心!樹齡1200年古樟持續(xù)燃燒7小時,只因倆小孩隨手扔爆竹……

      痛心!樹齡1200年古樟持續(xù)燃燒7小時,只因倆小孩隨手扔爆竹……

      環(huán)球網(wǎng)資訊
      2026-02-21 10:22:16
      拾石村媽祖被替后續(xù): 女孩賬號曝光,當(dāng)了八年被選定,今年滿18歲

      拾石村媽祖被替后續(xù): 女孩賬號曝光,當(dāng)了八年被選定,今年滿18歲

      離離言幾許
      2026-02-20 14:02:55
      王濛表態(tài):只要祖國需要,我隨時到場,敢簽保2塊金牌的生死狀

      王濛表態(tài):只要祖國需要,我隨時到場,敢簽保2塊金牌的生死狀

      風(fēng)過鄉(xiāng)
      2026-02-21 09:09:53
      劃水雙巨全打瘋!東契奇首節(jié)17+4+4三分 約基奇19+3三分

      劃水雙巨全打瘋!東契奇首節(jié)17+4+4三分 約基奇19+3三分

      醉臥浮生
      2026-02-21 11:51:03
      22歲小伙長發(fā)大波浪回家被外甥叫阿姨

      22歲小伙長發(fā)大波浪回家被外甥叫阿姨

      觀威海
      2026-02-21 10:14:32
      中國游客貝加爾湖溺亡7人,1人來自深圳,目擊者稱2、3分鐘就沉了

      中國游客貝加爾湖溺亡7人,1人來自深圳,目擊者稱2、3分鐘就沉了

      九方魚論
      2026-02-21 01:34:21
      阿富汗是這個世界的好老師

      阿富汗是這個世界的好老師

      名人茍或
      2026-02-20 09:01:37
      第5枚金牌今夜18點45分!CCTV5直播,金牌榜反超日本隊看混合團體

      第5枚金牌今夜18點45分!CCTV5直播,金牌榜反超日本隊看混合團體

      老吳說體育
      2026-02-21 08:58:41
      毛奇、李佩霞2026年近況公布,兩人服刑結(jié)局給所有人提了醒

      毛奇、李佩霞2026年近況公布,兩人服刑結(jié)局給所有人提了醒

      娛樂督察中
      2026-02-21 03:23:47
      貝加爾湖底的七名中國游客,本來是可以不用死的

      貝加爾湖底的七名中國游客,本來是可以不用死的

      未來展望
      2026-02-21 00:23:41
      古巴高調(diào)反美!美國為啥不打古巴?因為古巴是最“先進”的國家

      古巴高調(diào)反美!美國為啥不打古巴?因為古巴是最“先進”的國家

      南宮一二
      2026-01-10 17:41:19
      女子除夕夜在洗浴中心浴池門口被人錄像,洗浴中心稱公共區(qū)域直播很正常,律師:公共區(qū)域未經(jīng)允許直播同樣涉嫌侵權(quán)

      女子除夕夜在洗浴中心浴池門口被人錄像,洗浴中心稱公共區(qū)域直播很正常,律師:公共區(qū)域未經(jīng)允許直播同樣涉嫌侵權(quán)

      大象新聞
      2026-02-20 21:52:07
      哈登18+8加盟全勝!騎士險勝黃蜂豪取7連勝 米切爾32分克努33分

      哈登18+8加盟全勝!騎士險勝黃蜂豪取7連勝 米切爾32分克努33分

      醉臥浮生
      2026-02-21 10:31:52
      2月20日俄烏最新:無比強硬的?;饤l件

      2月20日俄烏最新:無比強硬的?;饤l件

      西樓飲月
      2026-02-20 20:02:11
      “趕緊還錢!”關(guān)稅政策被判違法后,加州州長呼吁美政府立即“連本帶利”退還稅款

      “趕緊還錢!”關(guān)稅政策被判違法后,加州州長呼吁美政府立即“連本帶利”退還稅款

      環(huán)球網(wǎng)資訊
      2026-02-21 09:38:25
      2026-02-21 12:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12323文章數(shù) 142570關(guān)注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      7名中國游客貝加爾湖遇難:冰面裂縫約3米 在打撈遺體

      頭條要聞

      7名中國游客貝加爾湖遇難:冰面裂縫約3米 在打撈遺體

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關(guān)系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經(jīng)要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔(dān)當(dāng)”來了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      游戲
      親子
      時尚
      健康
      教育

      老任意外泄露重磅消息!《DOOM黑暗時代》或登NS2

      親子要聞

      專家稱試管嬰兒壽命僅40年,首例試管嬰兒今何在?

      2026紐約秋冬時裝周,在春天開啟美的新故事!

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      教育要聞

      母親的愛有什么特點?很多人抱怨這件事

      無障礙瀏覽 進入關(guān)懷版