Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
用 LLM 穩(wěn)定強化學習:理論構建與實踐
https://arxiv.org/pdf/2512.01374
![]()
摘要
本文提出了一種針對大語言模型(LLM)強化學習(RL)的新穎公式化方法,闡明了在策略梯度方法(如REINFORCE)中,為何以及在何種條件下可通過代理的詞元級(token-level)目標來優(yōu)化真實的序列級(sequence-level)獎勵。具體而言,通過一階近似(first-order approximation),我們證明該代理目標僅當訓練–推理差異(training–inference discrepancy)與策略陳舊性(policy staleness)均被最小化時,其有效性才會不斷增強。這一洞見為若干廣泛采用的RL訓練穩(wěn)定化技術提供了原理性解釋,包括重要性采樣校正(importance sampling correction)、裁剪(clipping),尤其是面向混合專家模型(Mixture-of-Experts, MoE)的路由回放(Routing Replay)技術。通過針對一個300億參數(shù)MoE模型開展的大量實驗(累計耗費數(shù)十萬GPU小時),我們發(fā)現(xiàn):對于在線策略(on-policy)訓練,結合重要性采樣校正的基礎策略梯度算法可實現(xiàn)最高的訓練穩(wěn)定性;當引入離線策略(off-policy)更新以加速收斂時(即將大批量響應拆分為小批量進行多次梯度更新),必須結合裁剪與路由回放技術,以緩解策略陳舊性引發(fā)的不穩(wěn)定性。值得注意的是,一旦訓練過程趨于穩(wěn)定,無論冷啟動初始化方式如何,經(jīng)過充分優(yōu)化的模型最終均能獲得相當?shù)男阅鼙憩F(xiàn)。我們期望所分享的洞見與所開發(fā)的穩(wěn)定RL訓練方案能夠推動后續(xù)研究。
1 引言
強化學習(RL)已成為提升大語言模型(LLM)解決復雜問題能力的關鍵技術范式(OpenAI, 2024;Guo et al., 2025;Yang et al., 2025),而穩(wěn)定的訓練過程對于成功擴展RL至關重要。由于語言的上下文特性,LLM的RL訓練通常采用序列級獎勵,即根據(jù)模型完整響應分配一個標量分數(shù)。然而,主流RL算法(如REINFORCE與GRPO)通常采用詞元級優(yōu)化目標。這種獎勵分配單位(序列級)與優(yōu)化單位(詞元級)之間的不匹配,引發(fā)了對這類方法合理性與訓練穩(wěn)定性的擔憂;部分研究已提出直接采用序列級優(yōu)化目標(Zheng et al., 2025;Liu et al., 2025a)。尤其對于混合專家(MoE)模型,詞元級優(yōu)化目標還帶來獨特挑戰(zhàn):例如,動態(tài)專家路由機制可能導致MoE模型中的詞元級重要性采樣比率失效(Zheng et al., 2025)。然而,目前尚不清楚通過詞元級目標優(yōu)化序列級獎勵是否具有理論依據(jù),若可行,其有效性邊界或成立條件為何。
本文針對LLM的RL訓練提出一種新穎的公式化方法。核心洞見在于:為優(yōu)化期望序列級獎勵,可采用代理的詞元級目標作為其一階近似。具體而言,該近似僅當以下兩者同時被最小化時才可能成立:(1) 訓練與推理引擎之間的數(shù)值差異(即訓練–推理差異);(2) 用于采樣響應的軌跡策略與待優(yōu)化目標策略之間的差異(即策略陳舊性)。該洞見為多種RL訓練穩(wěn)定化技術提供了原理性解釋:例如,(1) 重要性采樣權重是一階近似下代理詞元級目標的固有組成部分;(2) 裁剪機制可通過抑制激進的策略更新來約束策略陳舊性;(3) 對于MoE模型,路由回放方法(Routing Replay)(Zheng et al., 2025;Ma et al., 2025)——即在策略優(yōu)化期間固定已路由的專家——可同時降低訓練–推理差異與策略陳舊性。
為實證驗證上述洞見并探索穩(wěn)定RL訓練的實用方案,我們基于一個300億參數(shù)的MoE模型開展了大量實驗,累計消耗數(shù)十萬GPU小時。主要結論包括:(1) 對于在線策略訓練,結合重要性采樣校正的基礎策略梯度算法展現(xiàn)出最高的訓練穩(wěn)定性;(2) 當引入離線策略更新以加速收斂時,必須結合裁剪與路由回放技術,以緩解策略陳舊性導致的不穩(wěn)定性;(3) 一旦訓練趨于穩(wěn)定,不同冷啟動初始化的模型在充分優(yōu)化后均能達成相當?shù)淖罱K性能。這提示未來研究可更聚焦于RL算法本身,而非過度關注冷啟動初始化的細節(jié),因為后者帶來的差異在充分的RL訓練后預期將逐漸消失。
綜上,本文在兩個維度上作出貢獻:? 理論層面:提出LLM強化學習的新穎公式化方法,揭示了通過詞元級目標優(yōu)化序列級獎勵的理論依據(jù)及其成立條件。具體而言,底層一階近似的有效性依賴于訓練–推理差異與策略陳舊性的聯(lián)合最小化。? 實證層面:通過累計數(shù)十萬GPU小時的MoE模型大規(guī)模實驗,證明若干旨在維持一階近似有效性的技術(尤其是專為MoE模型設計的路由回放方法)在穩(wěn)定RL訓練中具有一致的實用效果。我們期望所開發(fā)的穩(wěn)定訓練方案能夠助力未來研究。
2 大語言模型強化學習的形式化
2.1 符號定義
![]()
2.2 期望序列級獎勵難以直接優(yōu)化
我們的形式化從旨在最大化的真實序列級獎勵開始:
![]()
![]()
![]()
2.3 詞元級目標作為序列級目標的一階近似
我們公式化方法中的關鍵步驟是考慮以下代理詞元級目標:
![]()
2.4 一階近似成立的條件
![]()
![]()
其中,表示由訓練引擎計算的軌跡策略,與推理引擎中的 μθ_old 不同。因此,根據(jù)公式 (5) 的分解,之間的差距源于兩個方面:訓練–推理差異和策略陳舊性。
- 關于訓練–推理差異——即訓練引擎與推理引擎之間的數(shù)值差異——其成因通常較為復雜,且與底層基礎設施緊密相關。例如,訓練引擎與推理引擎通常采用不同的計算內(nèi)核以實現(xiàn)最佳性能,這會導致相同模型輸入產(chǎn)生不一致的輸出。即使在同一引擎內(nèi)部,尤其是推理端,批不變內(nèi)核(He and Lab, 2025)通常會因最大化吞吐量而被禁用,因此相同模型輸入仍可能獲得不同的輸出。在混合專家(MoE)模型中,訓練–推理差異還會因專家路由不一致而進一步加劇,這一點我們將在第 3 節(jié)詳細討論。
- 關于策略陳舊性——即采樣響應的軌跡策略與待優(yōu)化目標策略之間的差異——其通常源于為提升訓練效率和計算資源利用率所做的權衡。由于強化學習中的軌跡生成階段在時間上通常受限于生成長度,為通過增加計算資源收斂,我們通常將大批量采樣響應拆分為小批量以進行多次梯度更新。因此,后續(xù)使用的小批量可能會表現(xiàn)出更大的策略陳舊性。在異步 RL 框架中,單個響應可能由多個模型版本依次生成,這也引入了策略陳舊性。
因此,為確保公式 (3) 中代理詞元級目標所依賴的一階近似的有效性,原則上我們應從兩個方向縮小 之間的差距:減少訓練引擎與推理引擎之間的數(shù)值差異,并將策略陳舊性控制在適度范圍內(nèi)。
3 混合專家模型的挑戰(zhàn)與路由回放
3.1 專家路由阻礙一階近似的成立
對于混合專家(Mixture-of-Experts, MoE)模型(Guo et al., 2025;Yang et al., 2025)而言,一階近似成立的條件變得不再直接明了。具體而言,在生成每個詞元的前向傳播過程中,MoE 模型通過專家路由機制動態(tài)地選擇并僅激活一小部分專家參數(shù)。將專家路由納入公式 (5),我們可以將 MoE 模型的詞元級重要性采樣權重寫作:
![]()
![]()
3.2 路由重放恢復一階近似,但可能引入偏差
鑒于專家路由削弱了MoE模型中一階近似的有效性,我們可以通過路由重放(Zheng等人,2025)方法來消除這一影響。路由重放的核心思想是在策略優(yōu)化過程中固定路由專家,從而穩(wěn)定MoE模型的強化學習訓練,使模型能夠像密集模型一樣被優(yōu)化。基于方程(6),我們將路由重放的以下兩種具體實現(xiàn)形式化,即普通路由重放和采樣路由重放:
![]()
![]()
![]()
![]()
4 實證分析
4.1 MiniRL:極簡基線算法
在我們的實驗中,我們對方程(3)中的REINFORCE優(yōu)化目標進行了兩處最小修改,作為極簡基線算法。首先,我們對原始獎勵應用組歸一化(Shao等人,2024)作為每個響應 y 的優(yōu)勢估計:
![]()
![]()
其中,sg 表示停止梯度的操作。值得注意的是,MiniRL 被采用作為基線算法,以盡可能在梯度層面與公式 3 中的代理詞元級目標保持一致,而這一做法已在第 2 節(jié)的公式推導中得到理論支持。在附錄 A 中,我們將提供 MiniRL 與其他算法(如 GRPO (Shao et al., 2024) 和 CISPO (Chen et al., 2025))的對比分析。我們所有的實驗均基于 MiniRL 實現(xiàn)。
4.2 實驗設置
我們在數(shù)學推理任務上進行實驗,其中模型的響應與真實答案進行比對,并據(jù)此分配二元獎勵(即 R(x, y) ∈ {0, 1})。我們整理了 4,096 道帶有驗證答案的數(shù)學問題作為強化學習訓練的提示集。我們在 HMMT25、AIME25 和 AIME24 三個基準測試上報告了 32 次采樣響應的平均準確率,每個基準測試包含 30 道競賽級數(shù)學問題(總計 90 道)。
我們采用從 Qwen3-30B-A3B-Base 微調(diào)而來的冷啟動模型進行實驗。我們采用 FP8 推理和 BF16 訓練的設置,為算法正確性提供壓力測試,其中推理精度低于訓練精度,且訓練–推理差異較大。除訓練獎勵外,我們還報告了兩個指標的動態(tài)變化:(1) 目標策略的詞元級熵,其近似計算如下:
![]()
我們報告后一指標是因為近期研究(Yao et al., 2025;Liu et al., 2025a)揭示:強化學習訓練中的不穩(wěn)定性或崩潰現(xiàn)象通常伴隨著訓練–推理差異的急劇增大。
為進行受控實驗,我們采用標準的同步強化學習框架。在每一輪全局迭代中,首先使用推理引擎中的軌跡策略對 B 個提示進行采樣,并為每個提示生成 G 個響應。隨后將響應拆分為 N 個小批量,并在訓練引擎中應用 N 次梯度更新。本全局步驟中最終更新的策略將作為下一輪全局迭代的新軌跡策略。在所有實驗中,我們?yōu)槊看翁荻雀虏捎孟嗤男∨恳?guī)模(B=64 且 G=16),共 1,024 個響應。
對于其他超參數(shù),我們將最大生成長度設為 32,768,并在 MiniRL 中將 εhigh 設為 0.27、εlow 設為 0.2。我們還額外將截斷重要性采樣(Truncated Importance Sampling, TIS)技巧(Yao et al., 2025)應用于 MiniRL 中的詞元級重要性采樣權重,截斷閾值設為 5。我們的實驗總計消耗數(shù)十萬 GPU 小時,每次梯度更新的計算量估計為 5~6 GPU 小時。
4.3 在線策略訓練結果
我們首先驗證:在全局批量大小等于小批量大小的在線策略訓練中,詞元級優(yōu)化目標所依賴的一階近似的有效性是否與訓練穩(wěn)定性相關。在此 的在線策略設置下,MiniRL 退化為以下基礎策略梯度算法:
![]()
作為未來工作,將研究裁剪或掩碼策略。類似地,探索更好的優(yōu)勢估計 ?(x,y) 可能也有幫助,但這超出了本工作的范圍。
因此,此處的重要性采樣權重僅用于校正訓練–推理差異。我們注意到,現(xiàn)有的強化學習算法(如 GRPO 和 CISPO)通常在其優(yōu)化目標中采用長度歸一化,且其原始目標未考慮對訓練–推理差異的重要性采樣校正。因此,我們在實驗中納入了 MiniRL 的以下兩種消融變體:
![]()
該變體省略了針對訓練–推理差異的重要性采樣校正。需要注意的是,這兩種變體已不再滿足前述的一階近似條件,因為它們的梯度既不等于、也與公式 (1) 中真實序列級目標的梯度(忽略獎勵歸一化)不存在線性相關性。為進行對比,我們還為 MiniRL 及上述兩種變體均配備了 R3(此處不適用 R2,參見表 1)。
根據(jù)圖 1,我們得出以下觀察結果和結論:
![]()
- MiniRL(即帶有重要性采樣校正的基本策略梯度算法)實現(xiàn)了最佳性能和訓練穩(wěn)定性。
- 添加長度歸一化會導致次優(yōu)性能,盡管訓練仍保持穩(wěn)定。這是符合預期的,因為長度歸一化使一階近似失效,無法準確逼近真實的期望序列級獎勵,從而導致詞元級優(yōu)化目標存在偏差。
- 移除訓練–推理重要性采樣校正會導致訓練迅速崩潰和熵的急劇下降。這證實了重要性采樣權重是一階近似中的固有組成部分,省略它會立即使詞元級優(yōu)化目標失效。
- 在在線策略訓練中應用 R3 并未帶來性能提升,盡管它有效減少了訓練–推理差異(這反映在訓練–推理 KL 散度上)。此外,將 R3 與長度歸一化結合甚至進一步降低了基準分數(shù),而未使用訓練–推理重要性采樣校正的情況下應用 R3 仍會迅速失敗。這從實證上驗證了我們在 §3.2 中的推測——路由回放可以改變原始目標策略,并在優(yōu)化目標中引入偏差。
這些結果表明,在設計詞元級優(yōu)化目標時,只有那些保持一階近似有效性的方法才能提升訓練穩(wěn)定性和性能。這也驗證了我們所提公式化方法的合理性。
4.4 離線策略訓練結果
在強化學習中,推理時間通常受限于生成長度,無法通過增加計算資源來加速。為了利用更多計算資源實現(xiàn)更快收斂,一種常見做法是引入離線策略更新。在同步強化學習框架中,這意味著將大批量響應拆分為 N 個小批量以進行多次梯度更新。為探究離線策略設置下穩(wěn)定強化學習訓練的方案,我們實驗了三種離線程度:在小批量大小固定為 1,024 個響應的情況下,將全局批量大小分別設置為 2,048、4,096 和 8,192,對應 N = 2、4 和 8。以 MiniRL 為基線,我們比較了以下方法:MiniRL(無裁剪)、MiniRL + R2(無裁剪)、MiniRL + R2 和 MiniRL + R3。
從圖 2 至圖 4 中,我們得出以下觀察結果和結論:
![]()
![]()
- 一旦引入離策略更新,路由回放與裁剪機制對于穩(wěn)定訓練均變得至關重要。如圖 2 和圖 3 所示,省略路由回放或裁剪中的任一機制均會導致訓練過早崩潰,從而降低峰值性能。這表明路由回放可減輕專家路由的影響,而裁剪機制也能有效防止激進的策略更新,二者共同抑制策略陳舊性。
- 當離策略程度較小時(gbs = 2 × mbs),R2 優(yōu)于 R3;而當離策略程度較大時(gbs = 4 × mbs 和 gbs = 8 × mbs),R3 超過 R2。值得注意的是,在高離策略程度下,R2 無法維持穩(wěn)定訓練,且其在訓練崩潰前達到的峰值性能也略低于 R3。結合我們在第 3.2 節(jié)的分析(特別是 R2 保持首個小批量的目標策略不變,而 R3 則對其進行修改)以及第 4.3 節(jié)的在線策略實驗結果,我們推測:當離策略程度較小時,R3 對目標策略的修改所帶來的負面影響超過了其在維持一階近似有效性方面的益處;而在較大離策略程度下,情況則相反。
綜上所述,我們發(fā)現(xiàn)路由回放與裁剪對于穩(wěn)定的離策略訓練至關重要。當離策略程度較小時,R2 足以更有效地穩(wěn)定 MoE 模型的強化學習訓練;而在較大離策略程度下,R3 則變得必要。
4.5 不同冷啟動初始化的結果
回顧穩(wěn)定強化學習訓練的動機:給定一個基礎模型,一旦通過足夠長的強化學習訓練達到其性能上限,我們便可以通過投入更多計算資源可靠地增強模型能力。為此,我們研究了采用不同冷啟動數(shù)據(jù)初始化的模型在使用穩(wěn)定強化學習方案訓練時是否能達到相似性能。我們比較了從三個前沿模型提煉的三種冷啟動數(shù)據(jù):Qwen3-Max-Thinking-Preview、DeepSeek-R1-0528 和 gpt-oss-120b(高模式)。我們基于一個早期實驗的小型 Qwen3Next MoE 模型報告結果,該模型采用全局批量大小為 4,096、小批量大小為 2,048(B = 128, G = 16, N = 2)以及生成長度為 65,536 個詞元進行訓練。我們采用 MiniRL + R2 作為訓練方案。
在圖5中,我們展示了三種冷啟動初始化方法始終能夠達到相當?shù)淖罱K性能,這促使我們更多地關注強化學習本身,而非過度聚焦于冷啟動初始化的具體細節(jié)。此外,通過對比圖1至圖4,我們發(fā)現(xiàn)無論是在線策略還是離策略訓練——一旦實現(xiàn)穩(wěn)定——均能持續(xù)達到相似的峰值性能。這些結果進一步表明,穩(wěn)定訓練在成功擴展強化學習過程中起著決定性作用。
![]()
5 結論
我們提出了一種針對大語言模型強化學習的新穎公式化方法,將詞元級優(yōu)化目標視為對真實期望序列級獎勵的一階近似。通過大量實驗,我們證明了能夠維持該一階近似有效性的技術——如重要性采樣校正、裁剪以及針對混合專家模型的路由回放——均能有效穩(wěn)定強化學習訓練。我們進一步研究了在不同離策略程度下穩(wěn)定強化學習訓練的方案,并證明一旦訓練穩(wěn)定,相同的基模型在充分的強化學習訓練后始終能收斂到相似的性能表現(xiàn)。我們希望本文分享的見解與實驗結果能夠啟發(fā)并推動未來的研究。
原文鏈接:https://arxiv.org/pdf/2512.01374
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.