<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      強(qiáng)化學(xué)習(xí)遠(yuǎn)不是最優(yōu),CMU剛剛提出最大似然強(qiáng)化學(xué)習(xí)

      0
      分享至


      來源:機(jī)器之心

      在大模型時(shí)代,從代碼生成到數(shù)學(xué)推理,再到自主規(guī)劃的 Agent 系統(tǒng),強(qiáng)化學(xué)習(xí)幾乎成了「最后一公里」的標(biāo)準(zhǔn)配置。

      直覺上,開發(fā)者真正想要的其實(shí)很簡單:讓模型更有可能生成「正確軌跡」。從概率角度看,這等價(jià)于最大化正確輸出的概率,也就是經(jīng)典的最大似然(Maximum Likelihood)目標(biāo)。

      然而,一項(xiàng)來自 CMU、清華大學(xué)、浙江大學(xué)等研究機(jī)構(gòu)的最新工作指出了一個(gè)頗具顛覆性的事實(shí):

      現(xiàn)實(shí)中廣泛使用的強(qiáng)化學(xué)習(xí),并沒有真正在做最大似然優(yōu)化。嚴(yán)格的理論分析顯示,強(qiáng)化學(xué)習(xí)只是在優(yōu)化最大似然目標(biāo)的一階近似—— 距離我們以為的最優(yōu)訓(xùn)練目標(biāo),其實(shí)還差得很遠(yuǎn)。

      正是基于這一觀察,研究團(tuán)隊(duì)對(duì)強(qiáng)化學(xué)習(xí)的目標(biāo)函數(shù)進(jìn)行了重新審視,提出了最大似然強(qiáng)化學(xué)習(xí)(Maximum Likelihood Reinforcement Learning):將基于正確性的強(qiáng)化學(xué)習(xí)重新刻畫為一個(gè)潛變量生成的最大似然問題,進(jìn)一步引入一族以計(jì)算量為索引的目標(biāo)函數(shù),使訓(xùn)練目標(biāo)能夠逐步逼近真正的最大似然優(yōu)化。


      • 論文標(biāo)題:Maximum Likelihood Reinforcement Learning

      • 論文鏈接:https://arxiv.org/abs/2602.02710

      • 項(xiàng)目地址:https://zanette-labs.github.io/MaxRL/

      • Github 地址:https://github.com/tajwarfahim/maxrl

      傳統(tǒng)強(qiáng)化學(xué)習(xí)的「卡脖子」問題

      在代碼生成、數(shù)學(xué)推理、多步?jīng)Q策這些任務(wù)中,我們已經(jīng)形成了一種幾乎默認(rèn)的共識(shí):只要反饋是二值的、過程是不可微的,就用強(qiáng)化學(xué)習(xí)。

      強(qiáng)化學(xué)習(xí)這套范式,支撐了從 AlphaGo 到大語言模型推理能力提升的一系列關(guān)鍵進(jìn)展。

      從端到端的角度看,強(qiáng)化學(xué)習(xí)就是給定一個(gè)輸入,模型隱式地誘導(dǎo)出一個(gè)「成功概率」. 如果不考慮可微性約束,最自然、也最原則性的目標(biāo),就是最大似然

      但論文研究團(tuán)隊(duì)發(fā)現(xiàn):基于期望獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí),其實(shí)只是在優(yōu)化最大似然目標(biāo)的一階近似。更具體地說,最大似然目標(biāo)在總體層面可以展開為一系列以 pass@k 事件為基的項(xiàng),而標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)只優(yōu)化了其中的一階項(xiàng)。

      簡單來說,強(qiáng)化學(xué)習(xí)并沒有真正最大化「模型生成正確答案的概率」,而是在優(yōu)化一個(gè)與真實(shí)似然存在系統(tǒng)性偏差的替代目標(biāo)。

      這也解釋了一個(gè)廣泛存在卻難以言說的現(xiàn)象:強(qiáng)化學(xué)習(xí)早期進(jìn)展迅速,但越到后期,性能提升越困難。

      研究團(tuán)隊(duì)針對(duì)這一新發(fā)現(xiàn),對(duì)「基于正確性反饋的強(qiáng)化學(xué)習(xí)」進(jìn)行了重新刻畫,論文的主要貢獻(xiàn)如下:

      • 將基于正確性的強(qiáng)化學(xué)習(xí)形式化為一個(gè)潛變量生成的最大似然問題,并證明標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)僅優(yōu)化了最大似然目標(biāo)的一階近似。

      • 提出了一族以計(jì)算量為索引的目標(biāo)函數(shù),通過對(duì) pass@k 事件進(jìn)行 Maclaurin 展開,在期望回報(bào)與精確最大似然之間實(shí)現(xiàn)連續(xù)插值。

      • 推導(dǎo)出一種簡單的on-policy 估計(jì)器,其期望梯度與該計(jì)算量索引的似然近似目標(biāo)完全一致,這意味著增加采樣真正改善了被優(yōu)化的目標(biāo)本身。

      最大似然:真正改進(jìn)優(yōu)化目標(biāo)

      研究團(tuán)隊(duì)認(rèn)為,最大似然估計(jì)在有監(jiān)督學(xué)習(xí)中表現(xiàn)卓越,為什么不直接在強(qiáng)化學(xué)習(xí)中實(shí)現(xiàn)它?

      上一節(jié)中的觀察啟示我們:可以構(gòu)造一個(gè)隨計(jì)算量變化的目標(biāo)函數(shù)族,逐步引入更高階項(xiàng);隨著可用計(jì)算資源的增加,該目標(biāo)函數(shù)族將逐漸收斂到完整的最大似然目標(biāo)。

      論文通過一系列推導(dǎo),將最大似然目標(biāo)在失敗事件方面進(jìn)行麥克勞林展開:


      展開式中的最大似然梯度很難用有限樣本進(jìn)行估計(jì)。

      特別是,估計(jì)大 k 值的 pass@k 梯度需要越來越多的樣本,尤其是在通過率 p 很小的情況下。這種有限樣本的困難正是提出最大似然強(qiáng)化學(xué)習(xí)(MaxRL)的動(dòng)機(jī)所在。

      研究團(tuán)隊(duì)將 MaxRL 定義為一類強(qiáng)化學(xué)習(xí)方法,它們顯式地以最大似然為目標(biāo),而不是以通過率為目標(biāo),同時(shí)在有限采樣和不可微生成的條件下仍然可實(shí)現(xiàn)。下面我們考慮一種實(shí)現(xiàn)該目標(biāo)的原則性方法。

      考慮通過將麥克勞林展開式截?cái)酁橛邢揠A來近似最大似然目標(biāo),然后估計(jì)該目標(biāo)。對(duì)于截?cái)嗉?jí)別 T ∈N,我們將固定輸入 x 的截?cái)嘧畲笏迫荒繕?biāo)定義為:


      對(duì)其求導(dǎo)得到截?cái)嗟目傮w梯度:


      這定義了一族目標(biāo)函數(shù):T = 1 還原為強(qiáng)化學(xué)習(xí),T → ∞ 還原為最大似然,中間的 T 值則在兩者之間插值。因此,截?cái)嗉?jí)別 T 直接控制了有助于學(xué)習(xí)的正確性事件的階數(shù)。隨著在 rollout 方面消耗更多的計(jì)算量,對(duì)更高階梯度的估計(jì)變得可行。

      換句話說: MaxRL 提供了一個(gè)原則性框架,用于通過增加計(jì)算量來換取對(duì)最大似然目標(biāo)更高保真度的近似。

      上述公式已經(jīng)給出了一種可行的無偏估計(jì)思路:利用pass@k 梯度估計(jì)器,對(duì)有限級(jí)數(shù)中的每一項(xiàng)分別進(jìn)行近似。在這一策略下,任何對(duì) pass@k 估計(jì)器的改進(jìn),都會(huì)直接轉(zhuǎn)化為對(duì)截?cái)嘧畲笏迫荒繕?biāo)的更優(yōu)梯度估計(jì)。

      不過,在本篇論文中,研究者采取了一條不同的路徑,將帶來更為簡潔的估計(jì)器形式,同時(shí)也提供了一個(gè)新的理解視角

      最大似然目標(biāo)的梯度可以寫成如下的條件期望形式:

      該定理表明,最大似然梯度等價(jià)于僅對(duì)成功軌跡的梯度進(jìn)行平均。這一解釋為構(gòu)造具體的梯度估計(jì)器提供了直接途徑:只需用采樣得到的成功軌跡,對(duì)上述條件期望進(jìn)行樣本平均即可。

      其核心洞見在于:最大似然目標(biāo)的梯度可以表示為在「成功條件分布」下的期望。

      因此,本文采用了一種簡單的策略:從非條件化的策略分布進(jìn)行采樣,但只對(duì)成功軌跡進(jìn)行平均,得到了強(qiáng)化學(xué)習(xí)風(fēng)格的估計(jì)器,其具備隨著 rollout 數(shù)的增加,對(duì)最大似然梯度的近似將不斷改善的特性。

      換言之,在 MaxRL 框架下,額外的計(jì)算資源不僅改善了估計(jì)質(zhì)量,更直接改進(jìn)了被優(yōu)化的目標(biāo)本身。

      令人驚訝的效率進(jìn)步

      在實(shí)驗(yàn)中,這一改變帶來了遠(yuǎn)超預(yù)期的收益。研究團(tuán)隊(duì)在多個(gè)模型規(guī)模和多類任務(wù)上,對(duì) MaxRL 進(jìn)行了系統(tǒng)評(píng)估,結(jié)果顯示:MaxRL 在性能與計(jì)算效率的權(quán)衡上均穩(wěn)定地優(yōu)于現(xiàn)有強(qiáng)化學(xué)習(xí)方法。


      實(shí)驗(yàn)結(jié)果直觀展示了 MaxRL 在訓(xùn)練效率上的優(yōu)勢(shì)。在相同訓(xùn)練步數(shù)下,MaxRL 性能提升明顯更快,并且隨著 rollout 數(shù)的增加,MaxRL 持續(xù)受益。

      這種優(yōu)勢(shì)并不只體現(xiàn)在訓(xùn)練階段,相較于使用 GRPO 訓(xùn)練的模型,MaxRL 測試時(shí)的 scaling 效率最高可提升20 倍


      在迷宮任務(wù)上,無論測試時(shí)的采樣預(yù)算 k 取何值,隨著訓(xùn)練 rollouts 的增加,MaxRL 都能持續(xù)降低 ?log (Pass@k),而 GRPO 與 RLOO 的改進(jìn)幅度則明顯更早趨于平緩。這一結(jié)果直觀地展示了 MaxRL 在訓(xùn)練階段更優(yōu)的性能–效率權(quán)衡。


      比較在不同 pass@k 設(shè)置下各方法隨訓(xùn)練中采樣計(jì)算增加時(shí)的優(yōu)化趨勢(shì),可以看到,對(duì)于 GRPO 與 RLOO,曲線在早期下降后迅速變平,說明額外采樣主要用于降低噪聲;而 MaxRL 在不同 k 值下均保持持續(xù)下降,推動(dòng)模型不斷逼近一個(gè)更接近最大似然的優(yōu)化目標(biāo)。


      在更大規(guī)模設(shè)置下,MaxRL 的優(yōu)勢(shì)依然保持穩(wěn)定。這表明,MaxRL 所帶來的改進(jìn)并非依賴于特定規(guī)模或超參數(shù)設(shè)置,當(dāng)訓(xùn)練規(guī)模擴(kuò)大時(shí),MaxRL 并未出現(xiàn)收益遞減過快或優(yōu)勢(shì)消失的現(xiàn)象。


      進(jìn)一步的實(shí)驗(yàn)結(jié)果表明,MaxRL 的優(yōu)勢(shì)并不依賴于過于理想化的實(shí)驗(yàn)條件,即使在反饋存在噪聲或驗(yàn)證信號(hào)并非完全可靠的設(shè)置下,MaxRL 仍然能夠保持相對(duì)穩(wěn)定的性能優(yōu)勢(shì)。

      總體來看,MaxRL 為不可微、基于采樣的學(xué)習(xí)問題提供了一種更為深入的解法。它通過一個(gè)隨計(jì)算量自然擴(kuò)展的目標(biāo)框架,系統(tǒng)性地逼近真正的似然優(yōu)化。

      當(dāng)優(yōu)化目標(biāo)本身可以隨算力演進(jìn)、逐步逼近最大似然,強(qiáng)化學(xué)習(xí)究竟會(huì)成為通往通用智能的長期答案,還是只是通往下一個(gè)訓(xùn)練范式的過渡方案?

      更多信息,請(qǐng)參閱原論文。

      閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫”

      https://wx.zsxq.com/group/454854145828


      未來知識(shí)庫是“ 歐米伽 未來研究所”建立的在線知識(shí)庫平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      恭喜!巴爾韋德與妻子將迎來第三個(gè)孩子且是女兒

      恭喜!巴爾韋德與妻子將迎來第三個(gè)孩子且是女兒

      懂球帝
      2026-03-02 15:45:07
      活得通透:能自理就好好活著,不能自理,便坦然落幕

      活得通透:能自理就好好活著,不能自理,便坦然落幕

      青蘋果sht
      2026-02-23 05:26:25
      伊朗外長:新任最高領(lǐng)袖將在“一或兩天”內(nèi)被選出

      伊朗外長:新任最高領(lǐng)袖將在“一或兩天”內(nèi)被選出

      參考消息
      2026-03-01 23:29:38
      李亞鵬與哥哥和解:沒有劇本,沒有眼淚,只有一條真心話短信

      李亞鵬與哥哥和解:沒有劇本,沒有眼淚,只有一條真心話短信

      溫柔娛公子
      2026-03-02 17:25:03
      絕命師血戰(zhàn)三十萬敵軍,僅團(tuán)長一人幸存,自覺無顏見人;毛主席問道:為何不來見我?

      絕命師血戰(zhàn)三十萬敵軍,僅團(tuán)長一人幸存,自覺無顏見人;毛主席問道:為何不來見我?

      史海孤雁
      2026-03-02 16:42:13
      開戰(zhàn)第二天,美軍航母被炸,特朗普同意對(duì)話,伊朗最大敵人浮現(xiàn)

      開戰(zhàn)第二天,美軍航母被炸,特朗普同意對(duì)話,伊朗最大敵人浮現(xiàn)

      命運(yùn)自認(rèn)幽默
      2026-03-02 23:37:06
      不到24小時(shí),央媒3次點(diǎn)名王楚欽,釋放三大信號(hào),體壇地位又變了

      不到24小時(shí),央媒3次點(diǎn)名王楚欽,釋放三大信號(hào),體壇地位又變了

      以茶帶書
      2026-03-02 18:11:21
      56歲大媽心梗離世,醫(yī)生:吃他汀時(shí)除了牛奶,這6種食物盡量少碰

      56歲大媽心梗離世,醫(yī)生:吃他汀時(shí)除了牛奶,這6種食物盡量少碰

      岐黃傳人孫大夫
      2026-02-28 22:15:03
      美伊沖突再次升級(jí),全球股市失血,油價(jià)金價(jià)還能漲多久?|商業(yè)微史記

      美伊沖突再次升級(jí),全球股市失血,油價(jià)金價(jià)還能漲多久?|商業(yè)微史記

      界面新聞
      2026-03-02 15:51:05
      不拼GDP、不炫富,浙江第二有錢的城市,吊打眾多省會(huì)

      不拼GDP、不炫富,浙江第二有錢的城市,吊打眾多省會(huì)

      毒sir財(cái)經(jīng)
      2026-03-02 21:00:47
      火葬或?qū)⒊蔀闅v史?新型喪葬方式已經(jīng)開始,不少人表示接受無能

      火葬或?qū)⒊蔀闅v史?新型喪葬方式已經(jīng)開始,不少人表示接受無能

      蜉蝣說
      2026-02-28 10:42:37
      CME:紐約商交所原油期貨開盤時(shí)觸發(fā)熔斷機(jī)制

      CME:紐約商交所原油期貨開盤時(shí)觸發(fā)熔斷機(jī)制

      每日經(jīng)濟(jì)新聞
      2026-03-02 09:27:05
      中方奉陪到底!訪華遲遲沒回復(fù),特朗普掀桌了,要廢除中國一地位

      中方奉陪到底!訪華遲遲沒回復(fù),特朗普掀桌了,要廢除中國一地位

      史行途
      2026-03-01 14:24:27
      美媒:當(dāng)初俄羅斯不該拒絕中國合作請(qǐng)求,如今中國壟斷全球市場

      美媒:當(dāng)初俄羅斯不該拒絕中國合作請(qǐng)求,如今中國壟斷全球市場

      殘夢(mèng)重生來
      2026-01-12 17:43:41
      超20000名旅客滯留!“迪拜機(jī)場已經(jīng)沒有航班了”,阿聯(lián)酋宣布:承擔(dān)所有旅客滯留費(fèi)用

      超20000名旅客滯留!“迪拜機(jī)場已經(jīng)沒有航班了”,阿聯(lián)酋宣布:承擔(dān)所有旅客滯留費(fèi)用

      江西工人報(bào)
      2026-03-01 22:27:25
      王楚然巴黎時(shí)裝周“牛仔褲災(zāi)難”引全網(wǎng)吐槽

      王楚然巴黎時(shí)裝周“牛仔褲災(zāi)難”引全網(wǎng)吐槽

      深度解析熱點(diǎn)
      2026-03-02 18:41:27
      五角大樓終于說了大實(shí)話!不到24小時(shí),賴清德喊話大陸,太罕見了

      五角大樓終于說了大實(shí)話!不到24小時(shí),賴清德喊話大陸,太罕見了

      議紀(jì)史
      2026-03-01 22:05:03
      【2026.3.2】爆姐的飯后爆料:生命不止,爆料不息!

      【2026.3.2】爆姐的飯后爆料:生命不止,爆料不息!

      娛樂真爆姐
      2026-03-02 23:25:47
      明日元宵節(jié),5個(gè)生肖要“躲月”,牢記做3事忌4事,馬年萬事順?biāo)?>
    </a>
        <h3>
      <a href=瓜哥的動(dòng)物日記
      2026-03-02 06:29:20
      一覺醒來,560名美軍傷亡航母被炸,特朗普知道事情鬧大口風(fēng)突變

      一覺醒來,560名美軍傷亡航母被炸,特朗普知道事情鬧大口風(fēng)突變

      軍機(jī)Talk
      2026-03-02 09:47:31
      2026-03-03 00:11:00
      人工智能學(xué)家 incentive-icons
      人工智能學(xué)家
      人工智能領(lǐng)域權(quán)威媒體
      4555文章數(shù) 37413關(guān)注度
      往期回顧 全部

      科技要聞

      蘋果中國官網(wǎng)上線iPhone 17e,4499元起

      頭條要聞

      媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

      頭條要聞

      媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

      體育要聞

      “想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

      娛樂要聞

      李亞鵬與哥哥和解 只有一條真心話短信

      財(cái)經(jīng)要聞

      油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

      汽車要聞

      國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

      態(tài)度原創(chuàng)

      教育
      數(shù)碼
      親子
      公開課
      軍事航空

      教育要聞

      特別猛,但在留學(xué)生心中存在感很低的英國大學(xué)!

      數(shù)碼要聞

      英偉達(dá)發(fā)布595.71 WHQL驅(qū)動(dòng),修復(fù)顯卡風(fēng)扇“翻車”問題

      親子要聞

      45歲這年,我這個(gè)二胎媽媽決定做一件“瘋狂”的事

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國中央司令部透露對(duì)伊朗動(dòng)武全部武器裝備清單

      無障礙瀏覽 進(jìn)入關(guān)懷版