網易首頁 > 網易號 > 正文申請入駐

快手提出熵比裁剪方法，從局部約束到全局穩定的關鍵一躍

2025-12-16 18:32:24　來源: 機器之心Pro

河北舉報

分享至

本研究由快手科技語言大模型團隊完成，核心作者蘇振鵬，潘雷宇等。快手語言大模型團隊聚焦在基礎語言大模型研發、Agent RL 等前沿技術創新等方向，積累務實的探索 AGI 的能力邊界，并不斷推進 AI 領域新技術和新產品的發展。此前，該團隊已開源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型，其中 Klear-Reasoner-8B 在數學和代碼的基準測試上達到了同參數級別模型的 SOTA 效果。

在大語言模型的后訓練階段，強化學習已成為提升模型能力和對齊質量的核心范式。然而，在廣泛采用的 off-policy 的訓練范式中，更新當前策略的數據由舊的行為策略生成，導致分布漂移的問題的發生，這通常會將策略推至信任域之外，使強化學習的訓練變得不穩定。

盡管 PPO 通過重要性采樣的裁剪機制緩解了部分問題，但它僅能約束已采樣動作的概率變化，忽略了未采樣動作的全局分布漂移。為了應對這些挑戰，快手研究團隊提出了一種創新的熵比裁剪方法。該方法從全新的視角切入，通過約束策略熵的相對變化來穩定全局分布，為強化學習訓練提供了更加可靠的控制手段。

論文標題：Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning
論文地址：https://arxiv.org/pdf/2512.05591

研究背景

強化學習訓練過程中長期面臨信任域偏離的挑戰。目前，業界用于大模型的強化學習常采用 off-policy 訓練范式，用于更新當前策略的數據由舊的行為策略生成，導致新舊策略之間存在分布漂移。主流方法通常采用重要性采樣來糾正此類偏差，但其固有的高方差可能導致更新步長不穩定，仍存在信任域偏離的風險。這種偏離具體表現為訓練過程中梯度范數和策略熵的劇烈波動。

PPO 算法是解決信任域偏離問題的主流方案，主要有兩種形式：

PPO-penalty：在目標函數中加入 KL 散度懲罰項，對新舊策略的分布差異進行全局約束。但是懲罰系數非常敏感，且對每個動作概率施加逐點約束可能會抑制探索。
PPO-Clip：通過將重要性采樣比率限制在固定區間內，形成局部信任域，裁剪過大的更新以降低方差。該方法更魯棒且易于調參，但其約束僅作用于已采樣的動作，未采樣的動作則完全不受約束。

隨著訓練迭代的不斷進行，這部分未受約束的動作分布會持續漂移，最終威脅策略的穩定性。例如，假設動作空間為 {a, b, c, d}，舊策略的概率分布為 {0.85, 0, 0.15, 0}，經過多次迭代后，新策略的概率分布變為 {0.82, 0.064, 0.07, 0.046}。盡管采樣動作 a 的概率變化微小，PPO-Clip 不會觸發裁剪，但其余動作的分布已發生顯著偏移。

ERC 機制：從全局視角穩定策略分布

受 PPO-clip 啟發，論文提出了熵比裁剪（ERC）機制，當新舊策略間的熵變化超出允許范圍時，ERC 直接對樣本梯度進行截斷。ERC 并非取代 PPO-Clip，而是對其形成補充：PPO-Clip 僅約束采樣動作的局部更新幅度，而 ERC 將熵比限制在一個適中的區間內，從而緩解整體策略分布的漂移。

首先，論文提出了熵比指標，其被定義為新舊策略在同一 token 上熵的相對變化。具體的，它被形式化定義為下式：

不同于重要性采樣比率，熵比可以測量整個動作分布（包括未采樣動作）的變化，提供了對策略全局漂移的度量。另外，論文還對采樣動作概率與熵比的關系進行可視化，如下圖所示：

當采樣動作較低或者較高時，全局分布偏移變得更加明顯。

在將熵比作為策略分布的全局變化指標引入后，論文進一步將其集成到現有強化學習目標中，旨在約束新舊策略之間全局分布的變化。以 DAPO 為例，其 ERC 目標可形式化如下：

如果某個 token 的更新導致熵比超出預設范圍，ERC 會直接截斷其對應的梯度，以防止全局分布和策略熵的劇烈波動。與在整個訓練過程中持續限制策略的 KL 約束不同，熵比僅在新策略的熵發生顯著偏離時才被激活。這種方法既能防止策略分布的突然崩潰，又保留了足夠的探索能力。

實驗結果

為驗證 ERC 方法的穩定性和性能上的有效性，論文在多個數學推理基準上進行了系統實驗，包括 AIME24、AIME25、HMMT25、MATH500 、AMC23 和 Olympiad。所有實驗均基于 DeepSeek-R1-Distill-Qwen 模型（1.5B 與 7B）進行訓練。實驗結果如下表所示。

與現有的 RL 基線方法相比，集成 ERC 后，模型幾乎在所有基準測試上的性能都得到了一致提升。值得注意的是，在 AIME25 和 HMMT25 等更具挑戰性的基準上，性能增益更為顯著，凸顯了 ERC 在復雜推理場景中的強大潛力。此外，該方法在 1.5B 和 7B 兩種參數規模上均取得了一致的改進，進一步證明了其在不同模型容量下的魯棒性和可擴展性。

為了進一步驗證 ERC 對訓練動態的影響，論文比較了不同方法下熵和梯度范數的演化過程，如上圖所示。傳統的裁剪方法在訓練過程中常表現出較大的熵值波動和不穩定的梯度。相比之下，ERC 引入了全局熵比約束，熵值軌跡和梯度范數更加穩定，在基準上的評測結果也不斷提升。

深入分析：ERC 如何工作？

增強信任域約束

如下圖所示，ERC 的裁剪機制有效地強化了信任域約束。具體而言，被熵比邊界裁剪的 token 主要位于信任域的邊界附近。這表明，ERC 從全局分布的視角出發，能夠識別并限制可能導致策略偏離的更新，而這些更新正是 PPO-Clip 的局部約束所忽略的。因此，ERC 與 PPO-Clip 以互補的方式協同工作，共同減輕信任域偏離，增強訓練穩定性。

通過 ERC 保持探索

為了理解 ERC 對模型探索行為的影響，論文分析了在訓練中被熵比約束裁剪的 token 的熵分布，如下圖所示，大多數被 ERC 裁剪的 token 集中在低熵區域，而高熵 token 在優化過程中通常被保留。這表明 ERC 優先抑制那些過于確定性、信息增益有限的 token 的更新，而不會過度約束模型的探索動態。

裁剪比例分析

實驗結果顯示，ERC 引入的全局分布約束顯著提高了裁剪比例。PPO-Clip 下的裁剪比例通常保持在 0.02% 左右，而 ERC 將此數值提高了近三個數量級，達到約 20%。這種顯著差異源于兩種約束機制的根本不同：PPO-Clip 僅調控局部采樣動作的重要性比率，越界情況本就罕見；而 ERC 超越了這種局部約束，通過熵比融入了全局分布信號，使其能夠識別并裁剪大量在全局分布層面偏離信任區域的 token 更新。

盡管 ERC 的裁剪比例顯著更高，但其在最終性能和訓練穩定性上均持續超越 PPO-Clip 基線。這個看似違反直覺的結果揭示了一個關鍵見解：ERC 主要移除了那些會使訓練不穩定的噪聲更新。被 ERC 裁剪的 token 大多集中在低熵區域，這表明 ERC 抑制了過于確定性且可能有害的更新，同時保留了模型在其他地方的探索行為。

對比與泛化能力

論文還將 ERC 與其他穩定方法進行了對比，并驗證了其在其他強化學習算法中的泛化能力。

與 KL 正則化的對比：ERC 在 AIME24 和 AIME25 基準上均優于 PPO-penalty（即 KL 正則化方法）。KL 散度施加的是逐點約束，要求新舊策略對每個動作的概率分布都保持接近，這種嚴格的局部調控雖然可以穩定訓練，但不可避免地限制了有效的策略探索。而 ERC 實現了分布層面的軟約束，通過監控熵比來關注整體策略分布的演變，在維持訓練穩定性的同時鼓勵更高效的探索。
與熵正則化的對比：ERC 的表現顯著優于在強化學習訓練中直接加入熵懲罰項的方法。熵正則化只能緩解單向的不穩定性（熵崩塌），而 ERC 的雙向裁剪機制能有效應對策略演化中熵值波動的兩個方向，確保策略的探索行為在合理可控的范圍內平穩演變。
與序列級裁剪（GSPO）的對比：在 DeepSeek-R1-Distill-Qwen-7B 上的實驗表明，結合了 PPO-Clip 和 ERC 的 token 級裁剪方法相較于序列級裁剪方法（如 GSPO）仍具有明顯優勢。值得注意的是，ERC 與序列級裁剪是正交的，可以同時使用。
更廣泛的適用性：除了 DAPO，論文還將 ERC 與 GPPO 方法結合。實驗表明，將 ERC 集成到 GPPO 中同樣能帶來一致的性能提升，為 ERC 在不同 RL 算法中的普遍有效性提供了有力證據。這表明 ERC 不僅是現有重要性比率裁剪技術的補充組件，也有潛力作為一個獨立且魯棒的約束機制來穩定策略優化。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.