<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      快手提出熵比裁剪方法,從局部約束到全局穩定的關鍵一躍

      0
      分享至



      本研究由快手科技語言大模型團隊完成,核心作者蘇振鵬,潘雷宇等。快手語言大模型團隊聚焦在基礎語言大模型研發、Agent RL 等前沿技術創新等方向,積累務實的探索 AGI 的能力邊界,并不斷推進 AI 領域新技術和新產品的發展。此前,該團隊已開源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在數學和代碼的基準測試上達到了同參數級別模型的 SOTA 效果。

      在大語言模型的后訓練階段,強化學習已成為提升模型能力和對齊質量的核心范式。然而,在廣泛采用的 off-policy 的訓練范式中,更新當前策略的數據由舊的行為策略生成,導致分布漂移的問題的發生,這通常會將策略推至信任域之外,使強化學習的訓練變得不穩定。

      盡管 PPO 通過重要性采樣的裁剪機制緩解了部分問題,但它僅能約束已采樣動作的概率變化,忽略了未采樣動作的全局分布漂移。為了應對這些挑戰,快手研究團隊提出了一種創新的熵比裁剪方法。該方法從全新的視角切入,通過約束策略熵的相對變化來穩定全局分布,為強化學習訓練提供了更加可靠的控制手段。



      • 論文標題:Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning
      • 論文地址:https://arxiv.org/pdf/2512.05591

      研究背景

      強化學習訓練過程中長期面臨信任域偏離的挑戰。目前,業界用于大模型的強化學習常采用 off-policy 訓練范式,用于更新當前策略的數據由舊的行為策略生成,導致新舊策略之間存在分布漂移。主流方法通常采用重要性采樣來糾正此類偏差,但其固有的高方差可能導致更新步長不穩定,仍存在信任域偏離的風險。這種偏離具體表現為訓練過程中梯度范數和策略熵的劇烈波動。

      PPO 算法是解決信任域偏離問題的主流方案,主要有兩種形式:

      • PPO-penalty:在目標函數中加入 KL 散度懲罰項,對新舊策略的分布差異進行全局約束。但是懲罰系數非常敏感,且對每個動作概率施加逐點約束可能會抑制探索。
      • PPO-Clip:通過將重要性采樣比率限制在固定區間內,形成局部信任域,裁剪過大的更新以降低方差。該方法更魯棒且易于調參,但其約束僅作用于已采樣的動作,未采樣的動作則完全不受約束。

      隨著訓練迭代的不斷進行,這部分未受約束的動作分布會持續漂移,最終威脅策略的穩定性。例如,假設動作空間為 {a, b, c, d},舊策略的概率分布為 {0.85, 0, 0.15, 0},經過多次迭代后,新策略的概率分布變為 {0.82, 0.064, 0.07, 0.046}。盡管采樣動作 a 的概率變化微小,PPO-Clip 不會觸發裁剪,但其余動作的分布已發生顯著偏移。

      ERC 機制:從全局視角穩定策略分布

      受 PPO-clip 啟發,論文提出了熵比裁剪(ERC)機制,當新舊策略間的熵變化超出允許范圍時,ERC 直接對樣本梯度進行截斷。ERC 并非取代 PPO-Clip,而是對其形成補充:PPO-Clip 僅約束采樣動作的局部更新幅度,而 ERC 將熵比限制在一個適中的區間內,從而緩解整體策略分布的漂移。

      首先,論文提出了熵比指標,其被定義為新舊策略在同一 token 上熵的相對變化。具體的,它被形式化定義為下式:



      不同于重要性采樣比率,熵比可以測量整個動作分布(包括未采樣動作)的變化,提供了對策略全局漂移的度量。另外,論文還對采樣動作概率與熵比的關系進行可視化,如下圖所示:



      當采樣動作較低或者較高時,全局分布偏移變得更加明顯。

      在將熵比作為策略分布的全局變化指標引入后,論文進一步將其集成到現有強化學習目標中,旨在約束新舊策略之間全局分布的變化。以 DAPO 為例,其 ERC 目標可形式化如下:



      如果某個 token 的更新導致熵比超出預設范圍,ERC 會直接截斷其對應的梯度,以防止全局分布和策略熵的劇烈波動。與在整個訓練過程中持續限制策略的 KL 約束不同,熵比僅在新策略的熵發生顯著偏離時才被激活。這種方法既能防止策略分布的突然崩潰,又保留了足夠的探索能力。

      實驗結果

      為驗證 ERC 方法的穩定性和性能上的有效性,論文在多個數學推理基準上進行了系統實驗,包括 AIME24、AIME25、HMMT25、MATH500 、AMC23 和 Olympiad。所有實驗均基于 DeepSeek-R1-Distill-Qwen 模型(1.5B 與 7B)進行訓練。實驗結果如下表所示。



      與現有的 RL 基線方法相比,集成 ERC 后,模型幾乎在所有基準測試上的性能都得到了一致提升。值得注意的是,在 AIME25 和 HMMT25 等更具挑戰性的基準上,性能增益更為顯著,凸顯了 ERC 在復雜推理場景中的強大潛力。此外,該方法在 1.5B 和 7B 兩種參數規模上均取得了一致的改進,進一步證明了其在不同模型容量下的魯棒性和可擴展性。



      為了進一步驗證 ERC 對訓練動態的影響,論文比較了不同方法下熵和梯度范數的演化過程,如上圖所示。傳統的裁剪方法在訓練過程中常表現出較大的熵值波動和不穩定的梯度。相比之下,ERC 引入了全局熵比約束,熵值軌跡和梯度范數更加穩定,在基準上的評測結果也不斷提升。

      深入分析:ERC 如何工作?

      增強信任域約束

      如下圖所示,ERC 的裁剪機制有效地強化了信任域約束。具體而言,被熵比邊界裁剪的 token 主要位于信任域的邊界附近。這表明,ERC 從全局分布的視角出發,能夠識別并限制可能導致策略偏離的更新,而這些更新正是 PPO-Clip 的局部約束所忽略的。因此,ERC 與 PPO-Clip 以互補的方式協同工作,共同減輕信任域偏離,增強訓練穩定性。



      通過 ERC 保持探索

      為了理解 ERC 對模型探索行為的影響,論文分析了在訓練中被熵比約束裁剪的 token 的熵分布,如下圖所示,大多數被 ERC 裁剪的 token 集中在低熵區域,而高熵 token 在優化過程中通常被保留。這表明 ERC 優先抑制那些過于確定性、信息增益有限的 token 的更新,而不會過度約束模型的探索動態。



      裁剪比例分析

      實驗結果顯示,ERC 引入的全局分布約束顯著提高了裁剪比例。PPO-Clip 下的裁剪比例通常保持在 0.02% 左右,而 ERC 將此數值提高了近三個數量級,達到約 20%。這種顯著差異源于兩種約束機制的根本不同:PPO-Clip 僅調控局部采樣動作的重要性比率,越界情況本就罕見;而 ERC 超越了這種局部約束,通過熵比融入了全局分布信號,使其能夠識別并裁剪大量在全局分布層面偏離信任區域的 token 更新。

      盡管 ERC 的裁剪比例顯著更高,但其在最終性能和訓練穩定性上均持續超越 PPO-Clip 基線。這個看似違反直覺的結果揭示了一個關鍵見解:ERC 主要移除了那些會使訓練不穩定的噪聲更新。被 ERC 裁剪的 token 大多集中在低熵區域,這表明 ERC 抑制了過于確定性且可能有害的更新,同時保留了模型在其他地方的探索行為。

      對比與泛化能力

      論文還將 ERC 與其他穩定方法進行了對比,并驗證了其在其他強化學習算法中的泛化能力。

      • 與 KL 正則化的對比:ERC 在 AIME24 和 AIME25 基準上均優于 PPO-penalty(即 KL 正則化方法)。KL 散度施加的是逐點約束,要求新舊策略對每個動作的概率分布都保持接近,這種嚴格的局部調控雖然可以穩定訓練,但不可避免地限制了有效的策略探索。而 ERC 實現了分布層面的軟約束,通過監控熵比來關注整體策略分布的演變,在維持訓練穩定性的同時鼓勵更高效的探索。
      • 與熵正則化的對比:ERC 的表現顯著優于在強化學習訓練中直接加入熵懲罰項的方法。熵正則化只能緩解單向的不穩定性(熵崩塌),而 ERC 的雙向裁剪機制能有效應對策略演化中熵值波動的兩個方向,確保策略的探索行為在合理可控的范圍內平穩演變。
      • 與序列級裁剪(GSPO)的對比:在 DeepSeek-R1-Distill-Qwen-7B 上的實驗表明,結合了 PPO-Clip 和 ERC 的 token 級裁剪方法相較于序列級裁剪方法(如 GSPO)仍具有明顯優勢。值得注意的是,ERC 與序列級裁剪是正交的,可以同時使用。
      • 更廣泛的適用性:除了 DAPO,論文還將 ERC 與 GPPO 方法結合。實驗表明,將 ERC 集成到 GPPO 中同樣能帶來一致的性能提升,為 ERC 在不同 RL 算法中的普遍有效性提供了有力證據。這表明 ERC 不僅是現有重要性比率裁剪技術的補充組件,也有潛力作為一個獨立且魯棒的約束機制來穩定策略優化。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      曝曼聯1月清洗5000萬水貨!前首席球探實錘:阿莫林不要

      曝曼聯1月清洗5000萬水貨!前首席球探實錘:阿莫林不要

      奶蓋熊本熊
      2025-12-17 00:18:04
      為何很多女性如此渴望性生活?無非是這4個原因,男性也無需害怕

      為何很多女性如此渴望性生活?無非是這4個原因,男性也無需害怕

      特約前排觀眾
      2025-07-02 07:18:22
      日本民宿被曝變身賣淫場,性工作者稱中國游客更大方。

      日本民宿被曝變身賣淫場,性工作者稱中國游客更大方。

      環球趣聞分享
      2025-11-09 14:20:06
      穆里尼奧的嚴峻讓曼聯崩潰,博格巴被冤枉,法國天才才是罪魁

      穆里尼奧的嚴峻讓曼聯崩潰,博格巴被冤枉,法國天才才是罪魁

      濤哥聊球
      2025-12-16 18:20:47
      取消成績!禁賽!深馬官方深夜公告,多人被罰

      取消成績!禁賽!深馬官方深夜公告,多人被罰

      南方都市報
      2025-12-16 10:07:47
      12架日機攜48彈直撲遼寧艦,美媒直接報喪:被解放軍全面碾壓

      12架日機攜48彈直撲遼寧艦,美媒直接報喪:被解放軍全面碾壓

      星落山間
      2025-12-15 05:10:17
      躺著收租40年!中國“土豪村”,突然沒錢了

      躺著收租40年!中國“土豪村”,突然沒錢了

      前瞻網
      2025-12-16 09:18:10
      竇驍在香港慶祝37歲生日,何超蓮穿青蛙服亮相,巨型氣球蛋糕顯眼

      竇驍在香港慶祝37歲生日,何超蓮穿青蛙服亮相,巨型氣球蛋糕顯眼

      知法而形
      2025-12-15 23:48:15
      許亞軍何晴所生24歲兒子成其生命救贖

      許亞軍何晴所生24歲兒子成其生命救贖

      絢麗的畫卷
      2025-12-16 23:26:24
      1938年,日本國內,高中生上課一絲不掛地接受軍國主義的熏陶

      1938年,日本國內,高中生上課一絲不掛地接受軍國主義的熏陶

      南權先生
      2025-11-28 17:11:11
      暴瘦20斤!李湘瘦身成功美回巔峰,王詩齡和何超瓊合照霸氣側漏

      暴瘦20斤!李湘瘦身成功美回巔峰,王詩齡和何超瓊合照霸氣側漏

      史行途
      2025-12-16 13:35:00
      紅軍城敗局已定,大批俄軍車隊進入紅軍城,德媒:給基輔敲響警鐘

      紅軍城敗局已定,大批俄軍車隊進入紅軍城,德媒:給基輔敲響警鐘

      大國紀錄
      2025-11-13 10:53:48
      何晴追悼會現場!眾星現身送別,許亞軍疑似現身,和兒子一臉悲傷

      何晴追悼會現場!眾星現身送別,許亞軍疑似現身,和兒子一臉悲傷

      東方不敗然多多
      2025-12-17 01:51:56
      日方復述涉臺灣問題條款時刻意回避重要表述,外交部:日方仍在要害問題上擠牙膏、埋釘子

      日方復述涉臺灣問題條款時刻意回避重要表述,外交部:日方仍在要害問題上擠牙膏、埋釘子

      環球網資訊
      2025-12-16 15:58:39
      《瘋狂動物城2》延長放映至2026年1月25日,全球票房已破10億美元

      《瘋狂動物城2》延長放映至2026年1月25日,全球票房已破10億美元

      財聞
      2025-12-16 11:41:36
      準備錐子、鐵錘等工具企圖對30多人動刑!尹錫悅宣布戒嚴當晚,金建希與其激烈爭吵:因為你全搞砸了!特檢組:他還試圖誘導朝鮮武力攻擊

      準備錐子、鐵錘等工具企圖對30多人動刑!尹錫悅宣布戒嚴當晚,金建希與其激烈爭吵:因為你全搞砸了!特檢組:他還試圖誘導朝鮮武力攻擊

      每日經濟新聞
      2025-12-16 09:09:04
      催迷聽網購藍精靈女性藥水一瓶多少,催商城銷量火爆,神秘藥水功效

      催迷聽網購藍精靈女性藥水一瓶多少,催商城銷量火爆,神秘藥水功效

      七媽的生活
      2025-12-17 04:10:34
      二選一開始,鄭麗文態度明確,江啟臣或面臨辭職,傅崐萁有戲了!

      二選一開始,鄭麗文態度明確,江啟臣或面臨辭職,傅崐萁有戲了!

      小蘭聊歷史
      2025-12-17 03:12:21
      X欲最強的星座,沒有之一!

      X欲最強的星座,沒有之一!

      同道大叔
      2025-11-15 22:01:52
      被支付寶砸中一億大獎的“錦鯉女孩”,負債累累,連工作都沒找到

      被支付寶砸中一億大獎的“錦鯉女孩”,負債累累,連工作都沒找到

      百態人間
      2025-08-29 11:31:51
      2025-12-17 05:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11934文章數 142511關注度
      往期回顧 全部

      科技要聞

      360:玉紅惡意詆毀周鴻祎 將追究其法律責任

      頭條要聞

      美國向烏下最后通牒:現在不接受 以后沒那么慷慨了

      頭條要聞

      美國向烏下最后通牒:現在不接受 以后沒那么慷慨了

      體育要聞

      楊瀚森18+10首次兩雙 關鍵攻防統治G聯賽

      娛樂要聞

      《雙軌》遭網友舉報,稱劇情三觀不正

      財經要聞

      浙金中心暴雷始末:祥源控股設計的騙局?

      汽車要聞

      打造全域安全2.0,吉利的新“長征”

      態度原創

      健康
      游戲
      家居
      親子
      手機

      這些新療法,讓化療不再那么痛苦

      德瑪西亞杯:完全沒法打,LNG輕松橫掃FRK,太輕松了

      家居要聞

      溫馨獨棟 駝色與淺色碰撞

      親子要聞

      為什么媽媽帶大的孩子比奶奶帶大的孩子更聰明?原因很現實

      手機要聞

      女子1萬多買二手蘋果iPhone 14還充不進電:買了個殘次品

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 免费无码一区二区三区蜜桃大| 国产va| 国产无码av| 精品国产午夜福利在线观看| 国产 浪潮av性色四虎| 亚洲国产欧美不卡在线观看| 亚洲色拍偷| 精品偷拍被偷拍在线观看| 女女互磨互喷水高潮les呻吟| 亚洲五月天综合| 太仆寺旗| 欧美色欧美亚洲高清在线视频 | 亚洲无码AAA| 极品无码国模国产在线观看| 亚洲成av人片在一线观看| 天柱县| jiZZjiZZ欧美69| 日韩激情成人| 99无码人妻一区二区三区色 | 五月婷婷久久中文字幕| 国产精品被狂躁到高潮| 18禁超污无遮挡无码免费游戏| 99精产国品一二三产品香蕉| 伊人久久久| 九九天堂网| 普陀区| 欧美一级高清片久久99| 国产真实露脸乱子伦| 欧美性受xxxx黑人猛交| 少妇粉嫩小泬喷水视频www| 国产三级网| 玖玖精品| 深夜福利啪啪片| 中文字幕不卡在线播放| 久久男人av资源网站无码| 男女猛烈无遮挡免费视频| 窝窝午夜看片| 国产又黄又爽又不遮挡视频| 久久神马| 香港三级韩国三级日本三级| 国产成人AV|