<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      強化學習遠不是最優,CMU剛剛提出最大似然強化學習

      0
      分享至



      機器之心編輯部

      在大模型時代,從代碼生成到數學推理,再到自主規劃的 Agent 系統,強化學習幾乎成了「最后一公里」的標準配置。

      直覺上,開發者真正想要的其實很簡單:讓模型更有可能生成「正確軌跡」。從概率角度看,這等價于最大化正確輸出的概率,也就是經典的最大似然(Maximum Likelihood)目標。

      然而,一項來自 CMU、清華大學、浙江大學等研究機構的最新工作指出了一個頗具顛覆性的事實:

      現實中廣泛使用的強化學習,并沒有真正在做最大似然優化。嚴格的理論分析顯示,強化學習只是在優化最大似然目標的一階近似—— 距離我們以為的最優訓練目標,其實還差得很遠。

      正是基于這一觀察,研究團隊對強化學習的目標函數進行了重新審視,提出了最大似然強化學習(Maximum Likelihood Reinforcement Learning):將基于正確性的強化學習重新刻畫為一個潛變量生成的最大似然問題,進一步引入一族以計算量為索引的目標函數,使訓練目標能夠逐步逼近真正的最大似然優化。



      • 論文標題:Maximum Likelihood Reinforcement Learning
      • 論文鏈接:https://arxiv.org/abs/2602.02710
      • 項目地址:https://zanette-labs.github.io/MaxRL/
      • Github 地址:https://github.com/tajwarfahim/maxrl

      傳統強化學習的「卡脖子」問題

      在代碼生成、數學推理、多步決策這些任務中,我們已經形成了一種幾乎默認的共識:只要反饋是二值的、過程是不可微的,就用強化學習。

      強化學習這套范式,支撐了從 AlphaGo 到大語言模型推理能力提升的一系列關鍵進展。

      從端到端的角度看,強化學習就是給定一個輸入,模型隱式地誘導出一個「成功概率」. 如果不考慮可微性約束,最自然、也最原則性的目標,就是最大似然

      但論文研究團隊發現:基于期望獎勵的強化學習,其實只是在優化最大似然目標的一階近似。更具體地說,最大似然目標在總體層面可以展開為一系列以 pass@k 事件為基的項,而標準強化學習只優化了其中的一階項。

      簡單來說,強化學習并沒有真正最大化「模型生成正確答案的概率」,而是在優化一個與真實似然存在系統性偏差的替代目標。

      這也解釋了一個廣泛存在卻難以言說的現象:強化學習早期進展迅速,但越到后期,性能提升越困難。

      研究團隊針對這一新發現,對「基于正確性反饋的強化學習」進行了重新刻畫,論文的主要貢獻如下:

      • 將基于正確性的強化學習形式化為一個潛變量生成的最大似然問題,并證明標準強化學習僅優化了最大似然目標的一階近似。
      • 提出了一族以計算量為索引的目標函數,通過對 pass@k 事件進行 Maclaurin 展開,在期望回報與精確最大似然之間實現連續插值。
      • 推導出一種簡單的on-policy 估計器,其期望梯度與該計算量索引的似然近似目標完全一致,這意味著增加采樣真正改善了被優化的目標本身。

      最大似然:真正改進優化目標

      研究團隊認為,最大似然估計在有監督學習中表現卓越,為什么不直接在強化學習中實現它?

      上一節中的觀察啟示我們:可以構造一個隨計算量變化的目標函數族,逐步引入更高階項;隨著可用計算資源的增加,該目標函數族將逐漸收斂到完整的最大似然目標。

      論文通過一系列推導,將最大似然目標在失敗事件方面進行麥克勞林展開:



      展開式中的最大似然梯度很難用有限樣本進行估計。

      特別是,估計大 k 值的 pass@k 梯度需要越來越多的樣本,尤其是在通過率 p 很小的情況下。這種有限樣本的困難正是提出最大似然強化學習(MaxRL)的動機所在。

      研究團隊將 MaxRL 定義為一類強化學習方法,它們顯式地以最大似然為目標,而不是以通過率為目標,同時在有限采樣和不可微生成的條件下仍然可實現。下面我們考慮一種實現該目標的原則性方法。

      考慮通過將麥克勞林展開式截斷為有限階來近似最大似然目標,然后估計該目標。對于截斷級別 T ∈N,我們將固定輸入 x 的截斷最大似然目標定義為:



      對其求導得到截斷的總體梯度:



      這定義了一族目標函數:T = 1 還原為強化學習,T → ∞ 還原為最大似然,中間的 T 值則在兩者之間插值。因此,截斷級別 T 直接控制了有助于學習的正確性事件的階數。隨著在 rollout 方面消耗更多的計算量,對更高階梯度的估計變得可行。

      換句話說: MaxRL 提供了一個原則性框架,用于通過增加計算量來換取對最大似然目標更高保真度的近似。

      上述公式已經給出了一種可行的無偏估計思路:利用pass@k 梯度估計器,對有限級數中的每一項分別進行近似。在這一策略下,任何對 pass@k 估計器的改進,都會直接轉化為對截斷最大似然目標的更優梯度估計。

      不過,在本篇論文中,研究者采取了一條不同的路徑,將帶來更為簡潔的估計器形式,同時也提供了一個新的理解視角

      最大似然目標的梯度可以寫成如下的條件期望形式:



      該定理表明,最大似然梯度等價于僅對成功軌跡的梯度進行平均。這一解釋為構造具體的梯度估計器提供了直接途徑:只需用采樣得到的成功軌跡,對上述條件期望進行樣本平均即可。

      其核心洞見在于:最大似然目標的梯度可以表示為在「成功條件分布」下的期望。

      因此,本文采用了一種簡單的策略:從非條件化的策略分布進行采樣,但只對成功軌跡進行平均,得到了強化學習風格的估計器,其具備隨著 rollout 數的增加,對最大似然梯度的近似將不斷改善的特性。

      換言之,在 MaxRL 框架下,額外的計算資源不僅改善了估計質量,更直接改進了被優化的目標本身。

      令人驚訝的效率進步

      在實驗中,這一改變帶來了遠超預期的收益。研究團隊在多個模型規模和多類任務上,對 MaxRL 進行了系統評估,結果顯示:MaxRL 在性能與計算效率的權衡上均穩定地優于現有強化學習方法。



      實驗結果直觀展示了 MaxRL 在訓練效率上的優勢。在相同訓練步數下,MaxRL 性能提升明顯更快,并且隨著 rollout 數的增加,MaxRL 持續受益。

      這種優勢并不只體現在訓練階段,相較于使用 GRPO 訓練的模型,MaxRL 測試時的 scaling 效率最高可提升20 倍



      在迷宮任務上,無論測試時的采樣預算 k 取何值,隨著訓練 rollouts 的增加,MaxRL 都能持續降低 ?log (Pass@k),而 GRPO 與 RLOO 的改進幅度則明顯更早趨于平緩。這一結果直觀地展示了 MaxRL 在訓練階段更優的性能–效率權衡。



      比較在不同 pass@k 設置下各方法隨訓練中采樣計算增加時的優化趨勢,可以看到,對于 GRPO 與 RLOO,曲線在早期下降后迅速變平,說明額外采樣主要用于降低噪聲;而 MaxRL 在不同 k 值下均保持持續下降,推動模型不斷逼近一個更接近最大似然的優化目標。



      在更大規模設置下,MaxRL 的優勢依然保持穩定。這表明,MaxRL 所帶來的改進并非依賴于特定規模或超參數設置,當訓練規模擴大時,MaxRL 并未出現收益遞減過快或優勢消失的現象。



      進一步的實驗結果表明,MaxRL 的優勢并不依賴于過于理想化的實驗條件,即使在反饋存在噪聲或驗證信號并非完全可靠的設置下,MaxRL 仍然能夠保持相對穩定的性能優勢。

      總體來看,MaxRL 為不可微、基于采樣的學習問題提供了一種更為深入的解法。它通過一個隨計算量自然擴展的目標框架,系統性地逼近真正的似然優化。

      當優化目標本身可以隨算力演進、逐步逼近最大似然,強化學習究竟會成為通往通用智能的長期答案,還是只是通往下一個訓練范式的過渡方案?

      更多信息,請參閱原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      大年初五返程!廣東年輕人直言:這個年,過比上班還累!

      大年初五返程!廣東年輕人直言:這個年,過比上班還累!

      生活魔術專家
      2026-02-21 05:10:19
      凱特王妃絕地反擊!威廉棄白月光選王位,愛情在權力前不堪一擊

      凱特王妃絕地反擊!威廉棄白月光選王位,愛情在權力前不堪一擊

      歷史小胡
      2026-02-20 16:19:15
      看了《鏢人》,才發現吳京最正確的決定,就是換掉女主選擇陳麗君

      看了《鏢人》,才發現吳京最正確的決定,就是換掉女主選擇陳麗君

      斷翼的鳥兒
      2026-02-20 23:15:57
      26.4萬!豐田官宣:新車正式亮相

      26.4萬!豐田官宣:新車正式亮相

      高科技愛好者
      2026-02-20 22:58:44
      寧忠巖擊敗美國速滑之神,美媒沮喪:史上最出色的運動員被重創了

      寧忠巖擊敗美國速滑之神,美媒沮喪:史上最出色的運動員被重創了

      楊華評論
      2026-02-20 02:11:06
      早年的林青霞和第一任男友趙寧的一張留影,那時候她剛情竇初開。

      早年的林青霞和第一任男友趙寧的一張留影,那時候她剛情竇初開。

      陳意小可愛
      2026-02-21 13:29:29
      7連勝到手!趙心童迎生死戰,或追平3名中國球員紀錄,連奪2冠?

      7連勝到手!趙心童迎生死戰,或追平3名中國球員紀錄,連奪2冠?

      劉姚堯的文字城堡
      2026-02-21 10:12:45
      下一個吃餅中鋒?莫布利:我在學習哈登如何指揮內線

      下一個吃餅中鋒?莫布利:我在學習哈登如何指揮內線

      大眼瞄世界
      2026-02-20 15:40:32
      俄外交部:日本出資為烏軍采購的裝備將成為俄軍的合法目標

      俄外交部:日本出資為烏軍采購的裝備將成為俄軍的合法目標

      俄羅斯衛星通訊社
      2026-02-20 15:30:33
      震驚,北京知名建筑裝飾公司暴雷了!

      震驚,北京知名建筑裝飾公司暴雷了!

      黯泉
      2026-02-20 21:21:41
      米蘭冬奧會賽程全掌握!一鍵收藏,觀賽不迷路→

      米蘭冬奧會賽程全掌握!一鍵收藏,觀賽不迷路→

      海外網
      2026-02-04 15:03:52
      崔永熙+四外援齊亮相!廣東男籃正式集結 杜鋒朱芳雨發紅包引關注

      崔永熙+四外援齊亮相!廣東男籃正式集結 杜鋒朱芳雨發紅包引關注

      狼叔評論
      2026-02-21 12:22:03
      吳京又賭對了!《鏢人》票房口碑井噴,越劇小花一出場引全場驚呼

      吳京又賭對了!《鏢人》票房口碑井噴,越劇小花一出場引全場驚呼

      動物奇奇怪怪
      2026-02-21 13:27:29
      張藝謀新片帶火深圳!有觀眾留“后遺癥”:看見垃圾桶就想掏

      張藝謀新片帶火深圳!有觀眾留“后遺癥”:看見垃圾桶就想掏

      南方都市報
      2026-02-21 11:52:41
      評測:以色列武器工業公司Zion-15短管步槍 最理想的萬能武器?

      評測:以色列武器工業公司Zion-15短管步槍 最理想的萬能武器?

      hawk26講武堂
      2026-02-20 12:19:15
      湖南新化6名消防員隨車墜崖犧牲,當地村民:事發處山路又彎又陡,車頭變形嚴重,多人步行抬擔架救援

      湖南新化6名消防員隨車墜崖犧牲,當地村民:事發處山路又彎又陡,車頭變形嚴重,多人步行抬擔架救援

      極目新聞
      2026-02-20 15:48:20
      2026年人口大遷徙地圖出爐,未來半數國人將涌入這五大核心圈

      2026年人口大遷徙地圖出爐,未來半數國人將涌入這五大核心圈

      老特有話說
      2026-02-20 12:34:15
      中國打造重機槍,不小心犯一個低級錯誤,結果卻意外造就世界之最

      中國打造重機槍,不小心犯一個低級錯誤,結果卻意外造就世界之最

      墨蘭史書
      2026-02-08 16:55:05
      日本,一個發達國家,為何把日子過成“全民還債”的困局?

      日本,一個發達國家,為何把日子過成“全民還債”的困局?

      包明說
      2026-02-13 13:03:50
      官方實錘!那藝娜被認定劣跡藝人,演出許可直接撤銷

      官方實錘!那藝娜被認定劣跡藝人,演出許可直接撤銷

      陳意小可愛
      2026-02-21 10:51:17
      2026-02-21 14:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12325文章數 142569關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      夫婦撿到裝20多個紅包帆布袋:4個孩子7萬多的壓歲錢

      頭條要聞

      夫婦撿到裝20多個紅包帆布袋:4個孩子7萬多的壓歲錢

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      游戲
      數碼
      藝術
      健康
      軍事航空

      老任意外泄露重磅消息!《DOOM黑暗時代》或登NS2

      數碼要聞

      蘋果低價MacBook下月登場:首次搭載A18 Pro手機芯片!

      藝術要聞

      史洪生油畫作品

      轉頭就暈的耳石癥,能開車上班嗎?

      軍事要聞

      硬核揭秘!福建艦“一馬當先”底氣何在

      無障礙瀏覽 進入關懷版