![]()
來源:機器之心
如今,強化學習(RL)已成為提升大語言模型(LLM)復雜推理與解題能力的關鍵技術范式,而穩定的訓練過程對于成功擴展 RL 至關重要。由于語言具有強烈的上下文屬性,LLM 的 RL 通常依賴序列級獎勵 —— 即根據完整生成序列給一個標量分數。
然而,主流 RL 算法(如 REINFORCE 與 GRPO)普遍采用基于 token 的優化目標。這種「獎勵在序列級、優化在 token 級」的不匹配引發了對于它們理論健全性與訓練穩定性的擔憂,因此已經有研究嘗試直接使用序列級優化目標。
此外,token 級優化目標在混合專家(MoE)模型的 RL 訓練中帶來了新的挑戰,比如 MoE 的動態專家路由機制可能破壞 token 級重要性采樣比的有效性。由此引出的關鍵問題是:在什么條件下,用 token 級目標優化序列級獎勵是合理的?有效程度又是怎樣的?
針對這些問題,阿里千問團隊提出了一種針對 LLM 的全新 RL 公式化方法。核心洞察是:為了優化序列級獎勵的期望值,可以使用一個替代(surrogate)token 級目標作為其一階近似。這一近似在以下兩種偏差都足夠小的條件下才成立:
訓練與推理之間的數值差異
用于采樣響應的 rollout 策略與需要優化的目標策略之間的偏差
這一觀點從原理上解釋了多種 RL 穩定訓練技巧的有效性,比如 1)重要性采樣權重天然出現在基于該一階近似的 token 級替代目標中;2)剪切(Clipping)機制通過限制策略變化幅度來抑制策略陳舊;3)在 MoE 中,路由重放(Routing Replay)方法通過在策略優化過程中固定專家路由,能夠同時減少訓練–推理差異與策略陳舊,從而提高訓練穩定性。
![]()
論文標題:Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
論文地址:https://www.arxiv.org/pdf/2512.01374
為驗證本文理論洞察并探索實現穩定 RL 訓練的有效實踐,團隊使用一個 30B 參數的 MoE 模型進行大量實驗,總計耗費數十萬 GPU 小時。
主要結論包括如下:
在 on-policy 訓練中,帶重要性采樣校正的基本策略梯度方法能夠實現最高的訓練穩定性;
在引入 off-policy 更新以加速收斂時(即將大規模生成的響應批次拆分成多個 mini-batch 進行多次梯度更新),要緩解因策略陳舊而導致的不穩定性,就必須同時使用 Clipping 與 Routing Replay;
在訓練穩定后,不同冷啟動方式的模型最終性能趨于一致。這說明未來研究應更關注 RL 方法本身,而不必過度強調冷啟動細節。隨著 RL 訓練的持續,冷啟動帶來的差異最終會消失。
大語言模型(LLM)強化學習的公式化方法
團隊將一個由參數 θ 表示的自回歸大語言模型(LLM)定義為策略 π_θ。他們使用 表示提示集,用 表示數據集。在策略 π_θ 下,給定提示 x,模型生成響應 y 的似然可寫作,其中 |y| 是響應 y 的 token 數。
由于團隊采用的是序列級獎勵設置,即對整個響應 y 賦予一個標量獎勵 R (x, y),因此專注于序列級優化,而不考慮基于價值函數的設置(比如 PPO),其中每個 token 會從價值模型獲得一個標量評分從而引導策略優化。
至于為什么不采用價值函數方法,是因為團隊發現:構建通用、可擴展且可靠的價值模型本身就極為困難(甚至幾乎不可能)。
直接優化期望序列級獎勵非常困難
團隊的公式化方法從真正希望最大化的序列級獎勵期望出發:
![]()
其中 π_θ 是目標策略。由于模型生成響應通常并非在訓練引擎(如 Megatron、FSDP)中完成,而是在推理引擎(如 SGLang、vLLM)中進行,團隊采用重要性采樣(IS)來完成等價的變換:
![]()
Token 級目標作為序列級目標的一階近似
關鍵步驟是引入以下替代的 token 級優化目標:
![]()
其梯度為:
這一梯度形式實際上就是帶 token 級重要性采樣權重的基本策略梯度算法(REINFORCE)。核心洞察是:公式 (3) 中的 token 級目標可以視為公式 (1) 中序列級目標的一階近似。也就是說,團隊用一個更易優化的 token 級替代目標來逼近真正希望最大化的序列級期望獎勵。
一階近似成立的條件
為了使上述一階近似有效,需要滿足一個關鍵條件:目標策略 π_θ 與 rollout 策略 μ_{θ_old} 必須足夠接近。這一點乍看不太直觀,因此為了便于理解,對于給定的提示 x 和任意 token y_t,團隊將其重要性采樣權重(IS)重寫為:
![]()
MoE 模型的挑戰及 Routing Replay 方法
對于 MoE 模型而言,使一階近似成立的條件變得更為復雜。具體來說,在生成每個 token 的前向計算中,MoE 模型會通過專家路由機制動態選擇并激活少量專家參數。將專家路由納入公式 (5) 后,MoE 模型的 token 級 IS 權重可寫為:
![]()
由此可以看出,MoE 場景下的強化學習挑戰在于:專家路由與訓練 — 推理差異、策略陳舊的緊密耦合,從而更容易導致公式 (3) 中基于一階近似的 token 級替代優化目標失效。
Routing Replay 使一階近似重新成立,但可能引入偏差
由于專家路由會削弱 MoE 模型中一階近似的有效性,可通過 Routing Replay 方法消除這一影響。Routing Replay 的核心思想是在策略優化過程中固定路由到的專家,從而穩定 MoE 模型的 RL 訓練,使其在優化行為上更接近稠密模型。
Routing Replay 主要有兩種具體實現方式:Vanilla Routing Replay(R2) 與 Rollout Routing Replay(R3)。
R2 的目標是減輕專家路由對策略陳舊的影響,其方法是在梯度更新階段,復現訓練引擎中 rollout 策略所選擇的路由專家:
![]()
R3 的目標是減輕專家路由對訓練 — 推理差異的影響,其實現方式是在訓練引擎中統一復現推理引擎中 rollout 策略所選定的路由專家。這一做法不僅降低了訓練 — 推理差異,也同時緩解了專家路由對策略陳舊的影響:
![]()
實驗結果
在實驗中,團隊對公式 (3) 的 REINFORCE 優化目標進行了兩項最小化修改,從而構建了一個極簡基線算法,稱為 MiniRL。
團隊在數學推理任務上進行了實驗,內容為:模型生成的回答會與標準答案比對,并獲得一個二值獎勵。團隊構建了包含 4096 道、均具有經過驗證答案的數學題目作為 RL 訓練的提示集。評測時,團隊在 HMMT25、AIME25 和 AIME24 基準上(這三個基準共包含 90 道競賽級數學題)分別采樣 32 個響應,并報告其平均準確率。
實驗采用了從 Qwen3-30B-A3B-Base 微調得到的冷啟動模型。訓練采用 BF16 精度,而推理由于使用 FP8 精度而具有更低數值精度,從而構成一種嚴格的應力測試場景,即訓練與推理之間存在較大的數值差異。除了訓練獎勵,團隊還監測了兩項動態指標:目標策略的 token 級熵以及推理引擎與訓練引擎中 rollout 策略之間的 KL 散度。
On-policy 訓練結果
從下圖 1 中,團隊得到了以下觀察結果與結論:
MiniRL(即帶重要性采樣校正的基本策略梯度算法)取得了最佳性能和最高訓練穩定性。
即使訓練過程仍然穩定,引入長度歸一化仍會導致性能下降。這一現象符合預期,因為長度歸一化破壞了對真實序列級獎勵的一階近似,從而使 token 級優化目標產生偏差。
移除訓練 — 推理階段的 IS 校正會導致訓練迅速崩潰,并伴隨熵的急劇下降。這進一步驗證了:IS 權重是該一階近似中不可或缺的組成部分;一旦移除,token 級優化目標將立即失效。
![]()
Off-policy 訓練結果
從下圖 2 至圖 4 中,團隊得到了以下觀察結果與結論:一旦引入 off-policy 更新,Routing Replay 與 clipping 都成為實現穩定訓練的關鍵要素。
具體來講,如圖 2 和圖 3 所示,只要缺失 Routing Replay 或 clipping 中的任一項,訓練都會提前崩潰,進而導致峰值性能下降。這說明:Routing Replay 能夠緩解專家路由帶來的不穩定因素;Clipping 則能有效抑制過度激進的策略更新。兩者共同作用,從而抑制策略陳舊,保障訓練穩定性。
![]()
![]()
![]()
不同冷啟動初始化的結果
在下圖 5 中,團隊展示了三種不同的冷啟動初始化方式最終都取得了相近的性能。這一現象表明,研究重點應更多放在強化學習(RL)方法本身,而不必過度關注冷啟動初始化的具體細節。
此外,通過對比圖 1 至圖 4,團隊發現:無論是 on-policy 還是 off-policy,只要訓練過程得以穩定,其峰值性能都高度一致。這些結果進一步說明:穩定的訓練過程在成功擴展 RL 中起著決定性作用。
![]()
更多技術細節請參閱原論文。
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.