<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      以判別式監督學習強化推理LLM,解決難度偏差和熵崩塌難題

      0
      分享至



      作者介紹:德州農工大學博士生李港,專注于設計和應用高效算法到大規模機器學習和人工智能任務,包括增強大型基礎模型的后訓練算法、對抗性魯棒學習算法和分布魯棒性學習算法。曾發表數篇論文在 NeurIPS、ICML、KDD 等頂會, 并作為主要貢獻者之一發布了針對不平衡分類任務的知名軟件包 LibAUC。

      DeepSeek-R1 的成功吸引了人們對群體相對策略優化(GRPO)作為大型推理模型(LRM)強化學習方法的廣泛關注。

      在本文中,作者分析了二元獎勵(binary reward)設置下的 GRPO 優化目標,發現了由其群體相對優勢函數引起的問題難度偏差的固有局限性,并且揭示了 GRPO 與傳統判別式監督學習方法之間的聯系。

      基于這些分析發現,作者提出了一個新穎的判別式約束優化(DisCO)框架來強化大型推理模型。該框架基于判別式學習的基本原則:增加正確答案的得分,同時減少錯誤答案的得分。

      與 GRPO 及其變體相比,DisCO 具有以下優勢:

      1. 它通過采用判別式優化目標完全消除了難度偏差
      2. 通過使用非裁剪評分函數和約束優化方法,解決了 GRPO 及其變體的熵不穩定性,得到了長期穩定的訓練動態;
      3. 它允許結合先進的判別式學習技術來解決數據不平衡問題,例如在訓練過程中一些問題的錯誤答案遠遠多于正確答案。

      在增強大型模型的數學推理能力方面的實驗表明,DisCO 大幅優于 GRPO 及其改進版本(如 DAPO),在 1.5B 模型的六個基準任務中,平均增益比 GRPO 高 7%,比 DAPO 高 6%。值得注意的是,最大響應長度(max response length)為8k 的 DisCO甚至優于最大響應長度為 32k 的 GRPO。

      論文以「5,5,5,5」的高分被 NeurIPS 2025 接收。



      • 論文標題:DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization
      • 論文地址:https://arxiv.org/abs/2505.12366
      • 開源模型地址:https://huggingface.co/collections/ganglii/disco-681b705decb9979e65614d65
      • GitHub 地址:https://github.com/Optimization-AI/DisCO

      GRPO 的難度偏差問題分析

      GRPO 的核心思想在于對輸入問題 q 生成多個輸出,并定義群體相對優勢函數。當采用期望形式而非經驗平均時,其優化目標為:







      其中:



      從上面的變式分析中,作者有兩個重要發現:

      1. 與判別式監督學習的聯系



      2. 難度偏差(Difficulty Bias)





      提出方法:判別式強化學習

      1. 判別式目標函數(類似 AUC 優化)

      基于上述與 AUC 最大化聯系的分析發現,作者直接從判別式學習的原則重新設計了新的判別式強化學習框架:



      為了避免其他研究發現的由裁剪操作引起的熵崩塌現象,作者設計選擇非裁剪評分函數, 例如



      2. 基于 DRO 的判別式目標函數(類似局部 AUC 優化)

      基于判別式學習原則設計目標函數的一個優點是能夠利用文獻中先進監督學習技術來改進訓練。推理模型的強化學習微調的一個關鍵挑戰就是稀疏獎勵,這導致答案生成的不平衡。具體來說,對于一些問題,錯誤答案的輸出的數量可能大大超過正確答案的數量,這反映了一個經典的數據不平衡問題。這個問題在判別式學習領域中得到了廣泛的研究。

      為了解決這個問題,作者利用局部 AUC 優化設計了分布魯棒性優化(DRO)目標:



      3. 約束優化(穩定訓練)

      為了穩定訓練,作者借鑒 TRPO 中的信任域思想,加入 KL 散度約束,形成以下優化問題:



      不同于 TRPO 的二階優化方法,作者采用近期發展的一種非凸不等式約束優化策略,將約束替換為平滑的方形鉸鏈懲罰項 (squred hinge penalty):





      實驗結果與分析

      測試效果對比

      作者采用平均 16 次輸出的 Pass@1 作為評價指標,在六個數學基準數據集上評估了 DisCO 和其他基線方法。

      從下表觀察到,作者提出的 DisCO 方法始終顯著優于其他基線方法。值得注意的是,訓練和推理長度均為 8k 的 DisCO (log-L)比 GRPO 平均提高了 7%,超過了以最大 24k 長度訓練并以 32k 長度評估的 DeepScaleR-1.5B-Preview。在 7B 模型實驗中,DisCO 也大幅優于所有基線方法,比 GRPO 平均提高了 3.5%



      在上面這張表格中,作者展示了多種強化學習方法在 1.5B 模型上的效果對比。作者也加入了 OpenAI 的 o1-preview 模型作為參考基線。 表中的 MRL(Max Response Length)表示訓練或測試時使用的最大響應長度,限制模型能生成多長的推理結果。 其中用陰影標注的模型,是其他團隊所訓練的成果,相應的指標也來自他們的原始論文或 DeepScalaR 項目。除了這些以外,其余結果要么來自現有模型的直接評估,要么是基于不同方法訓練后得到的結果。 值得注意的是,表格下半部分的所有方法,都是基于相同的數據集(DeepScaleR),對 DeepSeek-R1-Distill-Qwen-1.5B 模型進行微調的結果。其中,DS 是 DeepSeek-R1 的縮寫,DSR 是 DeepScalaR 的縮寫。



      訓練動態對比

      隨著大規模強化學習訓練成為改進推理模型的核心技術,學習算法的穩定性至關重要,因為學習穩定性決定了學習算法是否適用于大規模訓練。作者從訓練獎勵和生成熵的角度比較了不同方法的訓練動態。

      從下圖對 1.5B 和 7B 模型進行微調的實驗中,我們可以看到,由于 GRPO、GRPO-ER、Dr. GRPO 的熵崩塌和 DAPO 的熵過度增長,它們都只能獲得早熟的確定性策略或高度隨機的策略,所有基線都出現了過早飽和。使用 KL 散度正則化的 TRPA 在后面的步驟中也觀察到不穩定的生成熵。

      相比之下,作者提出的 DisCO 使用兩種非裁剪評分函數的方法最為穩定,訓練獎勵不斷增加,生成熵保持相對穩定。



      上圖展示不同方法在訓練過程中的動態表現:左邊兩張圖展示的是在訓練 1.5B 模型時的訓練情況,右邊兩張圖則對應于訓練 7B 模型。圖 (a) 和 (c) 展示了訓練獎勵隨訓練步數的變化情況,獎勵是對每一步中用于訓練的問題所生成答案的平均得分。圖 (b) 和 (d) 展示的是生成結果的熵值(反映輸出的多樣性)隨訓練步數的變化趨勢。

      消融實驗



      從下圖中可以看到,作者提出的每個組件在 DisCO 的改進中都很重要,其中使用非裁剪評分函數是至關重要的。



      總結

      在這項工作中,作者提出了一種新的判別式約束優化框架用于強化大型推理模型,避免了難度偏差和熵崩塌問題。數學推理實驗表明,與 GRPO 及其最近的變體相比,本文方法具有顯著的優越性。

      雖然這項工作主要關注的是二元獎勵,但是對于非二元獎勵,可以考慮利用監督學習中排序目標函數或者其他新穎的評分函數來進行設計。作者將應用判別式約束優化微調更大的模型或其他推理任務留作后續研究。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      不行就換!CBA土豪又開始了,才打2輪就換外援,新援曝光,夠豪橫

      不行就換!CBA土豪又開始了,才打2輪就換外援,新援曝光,夠豪橫

      萌蘭聊個球
      2025-12-17 10:37:59
      一傳不穩進攻不利,吳夢潔獨木難支!上海女排擊敗江蘇贏關鍵戰

      一傳不穩進攻不利,吳夢潔獨木難支!上海女排擊敗江蘇贏關鍵戰

      金毛愛女排
      2025-12-17 21:42:05
      徐正源遭炮轟:蓉城成功靠輸血!吃資源喜歡鬧事,豪門不會考慮他

      徐正源遭炮轟:蓉城成功靠輸血!吃資源喜歡鬧事,豪門不會考慮他

      奧拜爾
      2025-12-17 18:07:23
      柬埔寨街頭為什么拆除中文招牌?

      柬埔寨街頭為什么拆除中文招牌?

      懷疑探索者
      2025-12-17 20:34:23
      三大運營商被美國逼到絕路,這步棋里的大坑,你絕對想不到!

      三大運營商被美國逼到絕路,這步棋里的大坑,你絕對想不到!

      粵語音樂噴泉
      2025-12-18 06:02:32
      細思極恐!地球被徹底鎖死,可能只需2.8天!

      細思極恐!地球被徹底鎖死,可能只需2.8天!

      徐德文科學頻道
      2025-12-16 20:26:57
      楊鳴被驅逐冤不冤?慢動作顯示清楚:有些無理取鬧,還扒拉裁判!

      楊鳴被驅逐冤不冤?慢動作顯示清楚:有些無理取鬧,還扒拉裁判!

      中國籃壇快訊
      2025-12-18 00:02:52
      教育部發文減負,中小學考試“大瘦身”!孩子終于能喘口氣了!

      教育部發文減負,中小學考試“大瘦身”!孩子終于能喘口氣了!

      教師吧
      2025-12-17 14:47:40
      一個軍走出三位大區司令,連警衛員都干到正國級,老軍長見面卻只喊他小王

      一個軍走出三位大區司令,連警衛員都干到正國級,老軍長見面卻只喊他小王

      老杉說歷史
      2025-12-11 19:56:06
      熱刺換帥鎖定 "世界級名帥",球迷狂贊:比阿爾特塔還強

      熱刺換帥鎖定 "世界級名帥",球迷狂贊:比阿爾特塔還強

      奶蓋熊本熊
      2025-12-18 01:51:25
      大爺花700萬買房,4年后才發現房子有地下室,走近卻愣住了

      大爺花700萬買房,4年后才發現房子有地下室,走近卻愣住了

      小秋情感說
      2025-12-11 13:51:27
      美救人失敗,當著8方代表的面,中方審判準時開始,黎智英被裁決

      美救人失敗,當著8方代表的面,中方審判準時開始,黎智英被裁決

      鐵錘簡科
      2025-12-16 20:08:34
      中美兩軍密談兩天,美軍方稱已做好準備后,中方開始登記在美公民

      中美兩軍密談兩天,美軍方稱已做好準備后,中方開始登記在美公民

      潮鹿逐夢
      2025-12-17 22:40:16
      臺海戰爭爆發,西方可凍結 3.2 萬億中國資產,但中國手里也有王炸

      臺海戰爭爆發,西方可凍結 3.2 萬億中國資產,但中國手里也有王炸

      藍色海邊
      2025-12-03 14:27:26
      大批電詐頭目逃離柬埔寨,臨走前怒罵泰國狂轟濫炸:SIM卡都不留

      大批電詐頭目逃離柬埔寨,臨走前怒罵泰國狂轟濫炸:SIM卡都不留

      歷史有些冷
      2025-12-16 21:15:03
      iPhone命名或將跳過19,雷軍天塌了!

      iPhone命名或將跳過19,雷軍天塌了!

      新零售參考Pro
      2025-12-16 17:44:28
      姚明攜15歲女兒姚沁蕾亮相,身高近2米,一口流利英語為爸爸擔任翻譯

      姚明攜15歲女兒姚沁蕾亮相,身高近2米,一口流利英語為爸爸擔任翻譯

      都市快報橙柿互動
      2025-12-16 21:25:12
      鄰居大媽天天偷我快遞不承認,我改寄去單位,3天后物業來電話

      鄰居大媽天天偷我快遞不承認,我改寄去單位,3天后物業來電話

      卡西莫多的故事
      2025-12-07 10:28:51
      善惡終有報!移居英國僅2年,57歲吳秀波再迎噩耗,步李易峰后塵

      善惡終有報!移居英國僅2年,57歲吳秀波再迎噩耗,步李易峰后塵

      科學發掘
      2025-12-18 04:01:12
      不吹不擂!NBA歷史最令人膽寒的8對二人組,詹姆斯、庫里兩度上榜

      不吹不擂!NBA歷史最令人膽寒的8對二人組,詹姆斯、庫里兩度上榜

      毒舌NBA
      2025-12-17 19:17:45
      2025-12-18 08:03:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11943文章數 142512關注度
      往期回顧 全部

      科技要聞

      Gemini3 Flash來了:性能不輸Pro 成本僅1/4

      頭條要聞

      馬克龍發文:歐盟必須對中國開放 但有個前提

      頭條要聞

      馬克龍發文:歐盟必須對中國開放 但有個前提

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重大改革,身關14億人的政策徹底變了!

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      旅游
      藝術
      時尚
      手機
      房產

      旅游要聞

      嘿重慶丨去麻花博物館,解鎖美食奇遇

      藝術要聞

      演遍四大名著,被譽為“古典第一美女”的她,走了……

      你算老幾?我算老己!

      手機要聞

      屏下Face ID首次落地?蘋果iPhone 18 Pro正面設計或迎關鍵變化

      房產要聞

      封關前夕!豪庭銘苑超前交付,敬呈海口生活新范本

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: av色综合久久天堂av色综合在| 久久99嫩草熟妇人妻蜜臀| 石城县| 亚洲欧美精品狠狠干| 乱码午夜-极品国产内射| 久久婷婷五月综合97色一本一本| 国产浮力第一页| 日韩精品一区二区三区视频| 中文在线最新版天堂| 国产精品亚洲一区二区三区| 亚洲成人中文字幕| 久久人妻精品白浆国产| 欧洲性开放老太大| 黑人巨大精品oideo| 隆德县| 黄网免费观看| AVwww.333.rain.无码一区二区| 亚洲精品熟女| 强奷乱码中文字幕熟女一| 国精产品999国精产| 日韩色人妻| 蜜桃av亚洲精品一区二区| 风流老熟女一区二区三区| 欧美1区2区3区| 亚洲欧美日韩国产手机在线| 丰满熟女人妻一区二区三| 无码人妻毛片丰满熟妇精品区| 国产精品视频一区二区噜噜| 国产精品午夜爆乳美女视频| 国产微拍一区二区三区四区| 久久精品无码精品免费专区| 人妻中文第二页| 亚洲中文字幕第二十三页| 久久久亚洲欧洲日产国码αv| 国产极品粉嫩福利姬萌白酱| 国产偷国产偷亚洲高清app| 欧美日本中文| 3P视频在线| 大伊香蕉精品一区视频在线| 亚洲爽图| 国产亚洲精品久久久久四川人|