<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      LLM強化學習不穩定之謎,被Qwen團隊從「一階近似」視角解開

      0
      分享至


      來源:機器之心

      如今,強化學習(RL)已成為提升大語言模型(LLM)復雜推理與解題能力的關鍵技術范式,而穩定的訓練過程對于成功擴展 RL 至關重要。由于語言具有強烈的上下文屬性,LLM 的 RL 通常依賴序列級獎勵 —— 即根據完整生成序列給一個標量分數。

      然而,主流 RL 算法(如 REINFORCE 與 GRPO)普遍采用基于 token 的優化目標。這種「獎勵在序列級、優化在 token 級」的不匹配引發了對于它們理論健全性與訓練穩定性的擔憂,因此已經有研究嘗試直接使用序列級優化目標。

      此外,token 級優化目標在混合專家(MoE)模型的 RL 訓練中帶來了新的挑戰,比如 MoE 的動態專家路由機制可能破壞 token 級重要性采樣比的有效性。由此引出的關鍵問題是:在什么條件下,用 token 級目標優化序列級獎勵是合理的?有效程度又是怎樣的?

      針對這些問題,阿里千問團隊提出了一種針對 LLM 的全新 RL 公式化方法。核心洞察是:為了優化序列級獎勵的期望值,可以使用一個替代(surrogate)token 級目標作為其一階近似。這一近似在以下兩種偏差都足夠小的條件下才成立:

      • 訓練與推理之間的數值差異

      • 用于采樣響應的 rollout 策略與需要優化的目標策略之間的偏差

      這一觀點從原理上解釋了多種 RL 穩定訓練技巧的有效性,比如 1)重要性采樣權重天然出現在基于該一階近似的 token 級替代目標中;2)剪切(Clipping)機制通過限制策略變化幅度來抑制策略陳舊;3)在 MoE 中,路由重放(Routing Replay)方法通過在策略優化過程中固定專家路由,能夠同時減少訓練–推理差異與策略陳舊,從而提高訓練穩定性。


      • 論文標題:Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

      • 論文地址:https://www.arxiv.org/pdf/2512.01374

      為驗證本文理論洞察并探索實現穩定 RL 訓練的有效實踐,團隊使用一個 30B 參數的 MoE 模型進行大量實驗,總計耗費數十萬 GPU 小時。

      主要結論包括如下:

      • 在 on-policy 訓練中,帶重要性采樣校正的基本策略梯度方法能夠實現最高的訓練穩定性;

      • 在引入 off-policy 更新以加速收斂時(即將大規模生成的響應批次拆分成多個 mini-batch 進行多次梯度更新),要緩解因策略陳舊而導致的不穩定性,就必須同時使用 Clipping 與 Routing Replay;

      • 在訓練穩定后,不同冷啟動方式的模型最終性能趨于一致。這說明未來研究應更關注 RL 方法本身,而不必過度強調冷啟動細節。隨著 RL 訓練的持續,冷啟動帶來的差異最終會消失。

      大語言模型(LLM)強化學習的公式化方法

      團隊將一個由參數 θ 表示的自回歸大語言模型(LLM)定義為策略 π_θ。他們使用 表示提示集,用 表示數據集。在策略 π_θ 下,給定提示 x,模型生成響應 y 的似然可寫作,其中 |y| 是響應 y 的 token 數。

      由于團隊采用的是序列級獎勵設置,即對整個響應 y 賦予一個標量獎勵 R (x, y),因此專注于序列級優化,而不考慮基于價值函數的設置(比如 PPO),其中每個 token 會從價值模型獲得一個標量評分從而引導策略優化。

      至于為什么不采用價值函數方法,是因為團隊發現:構建通用、可擴展且可靠的價值模型本身就極為困難(甚至幾乎不可能)。

      直接優化期望序列級獎勵非常困難

      團隊的公式化方法從真正希望最大化的序列級獎勵期望出發:


      其中 π_θ 是目標策略。由于模型生成響應通常并非在訓練引擎(如 Megatron、FSDP)中完成,而是在推理引擎(如 SGLang、vLLM)中進行,團隊采用重要性采樣(IS)來完成等價的變換:


      Token 級目標作為序列級目標的一階近似

      關鍵步驟是引入以下替代的 token 級優化目標:


      其梯度為:

      這一梯度形式實際上就是帶 token 級重要性采樣權重的基本策略梯度算法(REINFORCE)。核心洞察是:公式 (3) 中的 token 級目標可以視為公式 (1) 中序列級目標的一階近似。也就是說,團隊用一個更易優化的 token 級替代目標來逼近真正希望最大化的序列級期望獎勵。

      一階近似成立的條件

      為了使上述一階近似有效,需要滿足一個關鍵條件:目標策略 π_θ 與 rollout 策略 μ_{θ_old} 必須足夠接近。這一點乍看不太直觀,因此為了便于理解,對于給定的提示 x 和任意 token y_t,團隊將其重要性采樣權重(IS)重寫為:


      MoE 模型的挑戰及 Routing Replay 方法

      對于 MoE 模型而言,使一階近似成立的條件變得更為復雜。具體來說,在生成每個 token 的前向計算中,MoE 模型會通過專家路由機制動態選擇并激活少量專家參數。將專家路由納入公式 (5) 后,MoE 模型的 token 級 IS 權重可寫為:


      由此可以看出,MoE 場景下的強化學習挑戰在于:專家路由與訓練 — 推理差異、策略陳舊的緊密耦合,從而更容易導致公式 (3) 中基于一階近似的 token 級替代優化目標失效。

      Routing Replay 使一階近似重新成立,但可能引入偏差

      由于專家路由會削弱 MoE 模型中一階近似的有效性,可通過 Routing Replay 方法消除這一影響。Routing Replay 的核心思想是在策略優化過程中固定路由到的專家,從而穩定 MoE 模型的 RL 訓練,使其在優化行為上更接近稠密模型。

      Routing Replay 主要有兩種具體實現方式:Vanilla Routing Replay(R2) 與 Rollout Routing Replay(R3)。

      R2 的目標是減輕專家路由對策略陳舊的影響,其方法是在梯度更新階段,復現訓練引擎中 rollout 策略所選擇的路由專家:


      R3 的目標是減輕專家路由對訓練 — 推理差異的影響,其實現方式是在訓練引擎中統一復現推理引擎中 rollout 策略所選定的路由專家。這一做法不僅降低了訓練 — 推理差異,也同時緩解了專家路由對策略陳舊的影響:


      實驗結果

      在實驗中,團隊對公式 (3) 的 REINFORCE 優化目標進行了兩項最小化修改,從而構建了一個極簡基線算法,稱為 MiniRL。

      團隊在數學推理任務上進行了實驗,內容為:模型生成的回答會與標準答案比對,并獲得一個二值獎勵。團隊構建了包含 4096 道、均具有經過驗證答案的數學題目作為 RL 訓練的提示集。評測時,團隊在 HMMT25、AIME25 和 AIME24 基準上(這三個基準共包含 90 道競賽級數學題)分別采樣 32 個響應,并報告其平均準確率。

      實驗采用了從 Qwen3-30B-A3B-Base 微調得到的冷啟動模型。訓練采用 BF16 精度,而推理由于使用 FP8 精度而具有更低數值精度,從而構成一種嚴格的應力測試場景,即訓練與推理之間存在較大的數值差異。除了訓練獎勵,團隊還監測了兩項動態指標:目標策略的 token 級熵以及推理引擎與訓練引擎中 rollout 策略之間的 KL 散度。

      On-policy 訓練結果

      從下圖 1 中,團隊得到了以下觀察結果與結論:

      • MiniRL(即帶重要性采樣校正的基本策略梯度算法)取得了最佳性能和最高訓練穩定性。

      • 即使訓練過程仍然穩定,引入長度歸一化仍會導致性能下降。這一現象符合預期,因為長度歸一化破壞了對真實序列級獎勵的一階近似,從而使 token 級優化目標產生偏差。

      • 移除訓練 — 推理階段的 IS 校正會導致訓練迅速崩潰,并伴隨熵的急劇下降。這進一步驗證了:IS 權重是該一階近似中不可或缺的組成部分;一旦移除,token 級優化目標將立即失效。


      Off-policy 訓練結果

      從下圖 2 至圖 4 中,團隊得到了以下觀察結果與結論:一旦引入 off-policy 更新,Routing Replay 與 clipping 都成為實現穩定訓練的關鍵要素。

      具體來講,如圖 2 和圖 3 所示,只要缺失 Routing Replay 或 clipping 中的任一項,訓練都會提前崩潰,進而導致峰值性能下降。這說明:Routing Replay 能夠緩解專家路由帶來的不穩定因素;Clipping 則能有效抑制過度激進的策略更新。兩者共同作用,從而抑制策略陳舊,保障訓練穩定性。




      不同冷啟動初始化的結果

      在下圖 5 中,團隊展示了三種不同的冷啟動初始化方式最終都取得了相近的性能。這一現象表明,研究重點應更多放在強化學習(RL)方法本身,而不必過度關注冷啟動初始化的具體細節。

      此外,通過對比圖 1 至圖 4,團隊發現:無論是 on-policy 還是 off-policy,只要訓練過程得以穩定,其峰值性能都高度一致。這些結果進一步說明:穩定的訓練過程在成功擴展 RL 中起著決定性作用。


      更多技術細節請參閱原論文。

      閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

      https://wx.zsxq.com/group/454854145828


      未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      當美國海軍突襲中國貨船時,外界普遍認為北京只能默默承受損失。

      當美國海軍突襲中國貨船時,外界普遍認為北京只能默默承受損失。

      安安說
      2025-12-21 14:41:07
      印度外長:中方不能跨過印度所劃紅線,否則印度會支持臺灣。

      印度外長:中方不能跨過印度所劃紅線,否則印度會支持臺灣。

      百態人間
      2025-12-25 16:44:21
      保護心臟,朝左睡還是朝右睡好?醫生:若想心臟健康,做好...

      保護心臟,朝左睡還是朝右睡好?醫生:若想心臟健康,做好...

      袁醫生課堂
      2025-12-25 07:34:23
      曝37歲福原愛近況!即將誕下3胎,二婚老公公開,自稱現在很幸福

      曝37歲福原愛近況!即將誕下3胎,二婚老公公開,自稱現在很幸福

      建康啊你可以的
      2025-12-26 02:57:12
      高市早苗支持率居高不下!高達75.9%,年輕人支持率突破92%

      高市早苗支持率居高不下!高達75.9%,年輕人支持率突破92%

      環球熱點快評
      2025-12-24 14:13:34
      國防部:解放軍全時待戰、隨時能戰、戰之必勝

      國防部:解放軍全時待戰、隨時能戰、戰之必勝

      界面新聞
      2025-12-25 15:58:25
      朱孝天致歉

      朱孝天致歉

      觀察者網
      2025-12-25 23:22:13
      光刻機大消息!國產設備龍頭1.1億元中標,660億概念股直線拉升

      光刻機大消息!國產設備龍頭1.1億元中標,660億概念股直線拉升

      21世紀經濟報道
      2025-12-25 23:10:48
      魯比奧再次回應高市涉臺言論,不怕中國打日本,就怕中國不打日本

      魯比奧再次回應高市涉臺言論,不怕中國打日本,就怕中國不打日本

      安珈使者啊
      2025-12-24 14:43:46
      上海環衛工手搓熱門IP爆火 落葉限定版“星星人”上新

      上海環衛工手搓熱門IP爆火 落葉限定版“星星人”上新

      上觀新聞
      2025-12-25 11:28:04
      鄭柵潔作報告:我委認真分析研判,2026年春節放假9天并減少調休,回應了社會期待

      鄭柵潔作報告:我委認真分析研判,2026年春節放假9天并減少調休,回應了社會期待

      大風新聞
      2025-12-25 12:21:03
      中組部:公職人員退休后未經批準經商(包括當律師)的,不再保留黨政機關退休金等待遇

      中組部:公職人員退休后未經批準經商(包括當律師)的,不再保留黨政機關退休金等待遇

      新浪財經
      2025-11-18 12:46:38
      大量網友相信強力磁鐵可讓燃氣表變慢,專家:竊氣嚴重可刑事處罰

      大量網友相信強力磁鐵可讓燃氣表變慢,專家:竊氣嚴重可刑事處罰

      映射生活的身影
      2025-12-20 03:39:27
      A股:大盤精準漲到3959.62點,不出意外的話,周五行情這么走!

      A股:大盤精準漲到3959.62點,不出意外的話,周五行情這么走!

      風風順
      2025-12-26 00:00:03
      退休5年后發現:曾經讓我難以啟齒的2000元退休金,還有這7大好處

      退休5年后發現:曾經讓我難以啟齒的2000元退休金,還有這7大好處

      小馬達情感故事
      2025-12-24 11:45:03
      外交部:中方愿同洪方一道在一個中國原則基礎上共同推動中洪關系不斷向前發展

      外交部:中方愿同洪方一道在一個中國原則基礎上共同推動中洪關系不斷向前發展

      環球網資訊
      2025-12-25 15:27:05
      43歲日本名模富永愛宣布懷孕!九頭身比例+硬朗的骨相,又美又颯

      43歲日本名模富永愛宣布懷孕!九頭身比例+硬朗的骨相,又美又颯

      明星私服穿搭daily
      2025-12-22 15:57:48
      獨生子女父母退休金加5%?社保局排起長隊,真相到底如何?

      獨生子女父母退休金加5%?社保局排起長隊,真相到底如何?

      甜檸聊史
      2025-12-25 10:20:48
      首例!呼和浩特危樓要原址重建22層新居!預計2027年完工交付!

      首例!呼和浩特危樓要原址重建22層新居!預計2027年完工交付!

      荷蘭豆愛健康
      2025-12-25 16:27:39
      上海人不會驚訝也不會好奇的,最多再多送你一句上海話:“巴子”

      上海人不會驚訝也不會好奇的,最多再多送你一句上海話:“巴子”

      上海云河
      2025-12-24 22:38:31
      2025-12-26 04:00:49
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4420文章數 37357關注度
      往期回顧 全部

      科技要聞

      小米17Ultra發布,徠卡2億像素 ,6999元起

      頭條要聞

      俄軍中將在汽車炸彈爆炸中身亡 俄軍報復

      頭條要聞

      俄軍中將在汽車炸彈爆炸中身亡 俄軍報復

      體育要聞

      約基奇有多喜歡馬?

      娛樂要聞

      朱孝天把阿信好意當球踢!

      財經要聞

      新規來了,年化超24%的小貸被即刻叫停

      汽車要聞

      速來!智界在上海西岸準備了年末潮流盛典

      態度原創

      數碼
      家居
      藝術
      健康
      教育

      數碼要聞

      年終復盤不用愁,鴻蒙電腦讓高效貫穿每一刻

      家居要聞

      經典彌新 品味浪漫居所

      藝術要聞

      你絕對沒見過的美麗風景,快來看看!

      這些新療法,讓化療不再那么痛苦

      教育要聞

      突發!外語類保送政策巨變,南外還有優勢嗎?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 制服.丝袜.亚洲.中文.综合| 亚洲高清毛片一区二区| 国产不卡精品视频男人的天堂| av小说网址| 131美女爱做视频| 久久久午夜精品福利内容| 国产11一12周岁女毛片| 秋霞91大神| 乱色熟女综合一区二区三区| 欧美视频网站www色| 成人做爰www网站视频| 中文久久久无码| 原平市| 国产精品爽爽久久久久久| 免费AV网站| 尤物一区| 欧美大胆自慰| 97色精品视频在线观看| 国产情侣激情在线对白| 超碰福利导航| 亚洲日本国产| 精品国产乱码久久久久久郑州公司| 久久精品国产亚洲av麻豆小说| 91成人社区| 国产乱人伦无无码视频试看| 亚洲妇女无套内射精| 亚洲精品一区中文字幕乱码| 友谊县| 韩日午夜在线资源一区二区| 8av国产精品爽爽ⅴa在线观看| 欧美18在线观看| yy色综合| 国产成人精品日本亚洲直播| 久久综合精品国产一区二区三区无| 91精品国产综合久久久蜜臀酒店| 肏屄视频在线播放| av鲁丝一区鲁丝二区鲁丝三区| 国产区成人精品视频| 乱乱网| 国内精品久久人妻互换| 性荡视频播放在线视频|