<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      RL是「點(diǎn)金石」還是「挖掘機(jī)」?CMU 用可控實(shí)驗(yàn)給出答案

      金石探文明

      0
      分享至




      機(jī)器之心報(bào)道

      機(jī)器之心編輯部

      近期,強(qiáng)化學(xué)習(xí)(RL)技術(shù)在提升語(yǔ)言模型的推理能力方面取得了顯著成效。

      然而,后訓(xùn)練究竟是真正擴(kuò)展了模型的推理能力,還是僅僅挖掘了預(yù)訓(xùn)練中已有的潛力?目前尚不明確。

      一個(gè)核心挑戰(zhàn)在于現(xiàn)代訓(xùn)練流程缺乏可控性:大規(guī)模預(yù)訓(xùn)練語(yǔ)料庫(kù)不夠透明,中期訓(xùn)練往往缺乏充分研究,且 RL 目標(biāo)函數(shù)與未知的先驗(yàn)知識(shí)之間存在復(fù)雜的交互作用。

      為了回答這個(gè)問(wèn)題,來(lái)自卡耐基梅隆大學(xué)(CMU)的研究者通過(guò)構(gòu)建基于 GSM-Infinite 的可控合成數(shù)據(jù)框架,在完全解耦的環(huán)境下,定量分析了預(yù)訓(xùn)練、Mid-training(中期訓(xùn)練/CPT)和 RL 三者對(duì)模型推理泛化能力的因果影響。旨在剝離并獨(dú)立分析預(yù)訓(xùn)練、中期訓(xùn)練以及基于 RL 的后訓(xùn)練各自的因果貢獻(xiàn)。



      https://x.com/xiangyue96/status/1998488030836044112

      研究者從兩個(gè)維度對(duì)模型進(jìn)行評(píng)估:針對(duì)更復(fù)雜組合的外推泛化能力,以及跨越不同表層語(yǔ)境的情境泛化能力。利用該框架,研究者調(diào)和了關(guān)于 RL 有效性的不同觀點(diǎn)。

      研究表明:

      • 僅當(dāng)預(yù)訓(xùn)練留有足夠提升空間,且 RL 數(shù)據(jù)針對(duì)模型的能力邊界(即那些雖具難度但尚未超出模型能力范圍的任務(wù))時(shí),RL 才能帶來(lái)真正的能力增益(pass@128)。
      • 情境泛化需要極少但充分的預(yù)訓(xùn)練接觸,在此之后 RL 便能實(shí)現(xiàn)可靠的遷移。
      • 在固定計(jì)算量下,相比于僅使用 RL,中期訓(xùn)練能顯著提升性能,證明了其在訓(xùn)練流程中處于核心地位卻未被充分探索。
      • 過(guò)程級(jí)獎(jiǎng)勵(lì)能減少獎(jiǎng)勵(lì)破解(Reward Hacking)現(xiàn)象并提高推理的忠實(shí)度。



      • 論文標(biāo)題:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
      • 論文地址:https://arxiv.org/abs/2512.07783
      • Github:https://github.com/Interplay-LM-Reasoning/Interplay-LM-Reasoning
      • HuggingFace:https://huggingface.co/Interplay-LM-Reasoning

      綜上所述,這些結(jié)果闡明了預(yù)訓(xùn)練、中期訓(xùn)練和 RL 之間的相互作用,為理解和改進(jìn)推理語(yǔ)言模型的訓(xùn)練策略奠定了基礎(chǔ)。

      該工作登上了 Alphaxiv 榜一。



      同時(shí)該工作在 AI 社區(qū)收獲了一大波好評(píng),ViT 作者之一 Lucas Beyer 也現(xiàn)身評(píng)論區(qū)。



      核心方法:

      完全可控的實(shí)驗(yàn)沙盒

      為了從因果層面解構(gòu)大模型的推理能力來(lái)源,研究團(tuán)隊(duì)并未直接使用現(xiàn)有的黑盒大模型或不可知的互聯(lián)網(wǎng)語(yǔ)料,而是設(shè)計(jì)了一套嚴(yán)密的可控合成數(shù)據(jù)框架。該框架基于 GSM-Infinite 生成技術(shù),旨在從源頭控制數(shù)據(jù)分布、推理深度與語(yǔ)境廣度。



      數(shù)據(jù)生成框架與任務(wù)設(shè)置概覽

      基于依賴圖(DAG)的數(shù)據(jù)生成

      該框架的核心理念是將「推理結(jié)構(gòu)」與「表面語(yǔ)境」完全解耦。



      語(yǔ)境渲染:在確定了推理骨架后,系統(tǒng)通過(guò)應(yīng)用不同的「語(yǔ)境模板」(如動(dòng)物園、學(xué)校等場(chǎng)景),將抽象的數(shù)學(xué)圖渲染為自然語(yǔ)言問(wèn)題。這種分離使得研究者能夠考察模型是真正學(xué)會(huì)了推理邏輯,還是僅僅記住了特定的文本模式。

      三階段訓(xùn)練流程的嚴(yán)格隔離

      為了避免數(shù)據(jù)污染導(dǎo)致的評(píng)估偏差,研究者定義了三個(gè)互不重疊的訓(xùn)練階段,并在各階段精確調(diào)配數(shù)據(jù)分布:

      • 預(yù)訓(xùn)練:使用 10B token 的數(shù)據(jù),主要包含基礎(chǔ)的推理原語(yǔ)(Primitives)和規(guī)則。重點(diǎn)在于讓模型掌握基礎(chǔ)能力(op=2-10),同時(shí)保留更深層任務(wù)作為未見(jiàn)過(guò)的測(cè)試集。
      • 中期訓(xùn)練:這是一個(gè)連接預(yù)訓(xùn)練與 RL 的「橋梁」階段。它使用與 RL 階段相似的數(shù)據(jù)分布(即模型能力邊緣的數(shù)據(jù)),旨在對(duì)齊模型的內(nèi)部表征,使其做好「RL 就緒(RL-ready)」的準(zhǔn)備。
      • 后訓(xùn)練(Post-training / RL):采用 GRPO 算法,針對(duì)特定的任務(wù)難度和語(yǔ)境進(jìn)行強(qiáng)化學(xué)習(xí),以探索模型在特定獎(jiǎng)勵(lì)信號(hào)下的能力邊界。

      過(guò)程級(jí)驗(yàn)證評(píng)估

      為了防止模型「猜對(duì)答案」或通過(guò)錯(cuò)誤的推理路徑得出正確結(jié)果(即 Reward Hacking),該研究引入了過(guò)程級(jí)驗(yàn)證。系統(tǒng)不僅檢查最終答案,還會(huì)解析模型生成的思維鏈,將其還原為依賴圖,并與真實(shí)的一步步推理過(guò)程(Ground Truth DAG)進(jìn)行比對(duì)。只有當(dāng)推理步驟和最終答案全對(duì)時(shí),才被判定為通過(guò)。

      解構(gòu)能力涌現(xiàn)的四個(gè)關(guān)鍵發(fā)現(xiàn)

      基于上述框架,研究者進(jìn)行了一系列控制變量實(shí)驗(yàn),得出了關(guān)于 RL、預(yù)訓(xùn)練和中期訓(xùn)練相互作用的四個(gè)關(guān)鍵結(jié)論,有力地調(diào)和了學(xué)術(shù)界關(guān)于「RL 是否能創(chuàng)造新能力」的爭(zhēng)議。

      RL 的效用取決于「能力邊緣」

      RL 并非在任何情況下都能提升推理能力。

      對(duì)于預(yù)訓(xùn)練中已充分掌握的簡(jiǎn)單任務(wù),RL 只能提升 pass@1(即減少失誤),無(wú)法提升模型的上限(pass@128)。

      真正的能力躍遷發(fā)生在模型「能力邊緣」的任務(wù)上(例如預(yù)訓(xùn)練覆蓋了 op=2-10,RL 針對(duì) op=11-14)。在這一區(qū)間,RL 能夠通過(guò)探索帶來(lái)顯著的外推性泛化增益。如果任務(wù)難度過(guò)大(op=15-20),超出了模型的探索范圍,RL 的收益也會(huì)消失。

      因此,RL 的訓(xùn)練數(shù)據(jù)必須經(jīng)過(guò)精心校準(zhǔn),瞄準(zhǔn)模型的「能力邊緣」,既不能太簡(jiǎn)單也不能太難。



      不同難度任務(wù)下的 RL 表現(xiàn)

      泛化的種子:1% 的預(yù)訓(xùn)練暴露至關(guān)重要

      在考察模型能否將推理能力遷移到全新語(yǔ)境時(shí),研究發(fā)現(xiàn),如果預(yù)訓(xùn)練中完全沒(méi)有接觸過(guò)某種長(zhǎng)尾語(yǔ)境(0%),即便 RL 階段大量訓(xùn)練,模型也無(wú)法實(shí)現(xiàn)有效遷移。



      因此,RL 無(wú)法無(wú)中生有,它需要預(yù)訓(xùn)練提供最基礎(chǔ)的「原語(yǔ)」作為抓手。



      預(yù)訓(xùn)練數(shù)據(jù)混合比例對(duì)情境泛化的影響

      中期訓(xùn)練是計(jì)算效率的關(guān)鍵杠桿

      在固定的計(jì)算預(yù)算(Compute Budget)下,如何分配中期訓(xùn)練和 RL 的比例?

      Mid-Training + RL > Pure RL:引入中期訓(xùn)練階段比單純?cè)黾?RL 步數(shù)效果更好。

      分配策略:實(shí)驗(yàn)表明,對(duì)于極難任務(wù)(OOD-Hard),「少量中期訓(xùn)練(建立先驗(yàn))+ 大量 RL(深度探索)」的組合是最佳策略;而對(duì)于中等難度任務(wù),增加中期訓(xùn)練的比重能帶來(lái)更穩(wěn)定的 pass@1 表現(xiàn)。

      中期訓(xùn)練起到了「分布橋梁」的作用,極大地提升了 RL 的樣本效率和最終性能上限。



      不同算力分配策略下的性能對(duì)比

      過(guò)程獎(jiǎng)勵(lì)抑制投機(jī)取巧

      針對(duì) RL 常見(jiàn)的獎(jiǎng)勵(lì)破解問(wèn)題——即模型利用捷徑獲取高分但推理邏輯錯(cuò)誤,研究引入了過(guò)程監(jiān)督。

      實(shí)驗(yàn)數(shù)據(jù)表明,將稀疏的結(jié)果獎(jiǎng)勵(lì)與密集的過(guò)程獎(jiǎng)勵(lì)相結(jié)合,能顯著減少結(jié)構(gòu)性錯(cuò)誤(如遺漏步驟或依賴關(guān)系錯(cuò)誤)。這種混合獎(jiǎng)勵(lì)機(jī)制在長(zhǎng)鏈條推理任務(wù)($op=15\text{-}20$)中帶來(lái)了穩(wěn)定的 pass@1 提升。

      過(guò)程級(jí)信號(hào)能夠規(guī)范 RL 的搜索方向,確保能力的提升是建立在忠實(shí)推理基礎(chǔ)之上的。



      不同獎(jiǎng)勵(lì)機(jī)制的效果對(duì)比

      結(jié)語(yǔ)

      這項(xiàng)工作通過(guò)解構(gòu)訓(xùn)練流程,給出了明確的實(shí)踐指導(dǎo):

      RL 數(shù)據(jù)設(shè)計(jì):應(yīng)針對(duì)模型的「能力邊緣」構(gòu)建數(shù)據(jù)集,不要浪費(fèi)算力在過(guò)易或過(guò)難的任務(wù)上。

      預(yù)訓(xùn)練策略:必須確保長(zhǎng)尾領(lǐng)域的原子能力(Primitives)有至少 1% 的覆蓋率,為 RL 留出接口。

      算力分配:根據(jù)目標(biāo)任務(wù)的難度,動(dòng)態(tài)調(diào)整中期訓(xùn)練與 RL 的比例。攻克難題需要更多 RL,提升穩(wěn)定性需要更多中期訓(xùn)練。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      金建希為保命,全盤(pán)托出尹錫悅戒嚴(yán)計(jì)劃,把韓官員嚇出一身冷汗

      金建希為保命,全盤(pán)托出尹錫悅戒嚴(yán)計(jì)劃,把韓官員嚇出一身冷汗

      石江月
      2025-12-16 10:22:40
      江蘇多地黨政主官已調(diào)整到任

      江蘇多地黨政主官已調(diào)整到任

      連云港手機(jī)臺(tái)
      2025-12-16 12:21:58
      姚明攜15歲女兒姚沁蕾亮相,1米9的女兒身高出眾,一口流利英語(yǔ)為爸爸擔(dān)任現(xiàn)場(chǎng)翻譯

      姚明攜15歲女兒姚沁蕾亮相,1米9的女兒身高出眾,一口流利英語(yǔ)為爸爸擔(dān)任現(xiàn)場(chǎng)翻譯

      極目新聞
      2025-12-16 07:52:39
      李小璐寫(xiě)真生圖高清

      李小璐寫(xiě)真生圖高清

      翩翩明星
      2025-11-14 09:39:36
      日本可能與中國(guó)開(kāi)戰(zhàn)?日專家:與中國(guó)發(fā)生沖突,最長(zhǎng)只能堅(jiān)持兩周

      日本可能與中國(guó)開(kāi)戰(zhàn)?日專家:與中國(guó)發(fā)生沖突,最長(zhǎng)只能堅(jiān)持兩周

      歷史求知所
      2025-11-04 10:15:03
      中國(guó)援助柬埔寨那么多年,卻養(yǎng)出一個(gè)洪森白眼狼,是該告一段落了

      中國(guó)援助柬埔寨那么多年,卻養(yǎng)出一個(gè)洪森白眼狼,是該告一段落了

      我心縱橫天地間
      2025-12-16 12:38:59
      泰國(guó)開(kāi)出的3大停火條件,足夠讓洪森父子“顏面掃地”

      泰國(guó)開(kāi)出的3大停火條件,足夠讓洪森父子“顏面掃地”

      混沌錄
      2025-12-16 23:07:41
      中國(guó)的“性蕭條”時(shí)代,正式到來(lái)了

      中國(guó)的“性蕭條”時(shí)代,正式到來(lái)了

      律法刑道
      2025-12-15 08:28:58
      母親是著名演員,父親上億家產(chǎn),他卻跑龍?zhí)?0年,終成實(shí)力派

      母親是著名演員,父親上億家產(chǎn),他卻跑龍?zhí)?0年,終成實(shí)力派

      白面書(shū)誏
      2025-11-18 18:33:41
      特朗普嚴(yán)厲警告高市早苗“別添亂”!最新披露:菲方人員持刀威脅中國(guó)海警!

      特朗普嚴(yán)厲警告高市早苗“別添亂”!最新披露:菲方人員持刀威脅中國(guó)海警!

      健身狂人
      2025-12-17 05:59:52
      第三個(gè)以漢語(yǔ)為官方語(yǔ)言的國(guó)家,將誕生?中國(guó)崛起的影響力在擴(kuò)大

      第三個(gè)以漢語(yǔ)為官方語(yǔ)言的國(guó)家,將誕生?中國(guó)崛起的影響力在擴(kuò)大

      羅富強(qiáng)說(shuō)
      2025-12-16 12:57:33
      誤打誤撞把病治好是啥體驗(yàn)?網(wǎng)友:華佗在世都要甘拜下風(fēng)啊

      誤打誤撞把病治好是啥體驗(yàn)?網(wǎng)友:華佗在世都要甘拜下風(fēng)啊

      帶你感受人間冷暖
      2025-07-21 00:15:06
      拮據(jù)、孤獨(dú)、憔悴變樣!何晴晚景凄涼,鄰居王衛(wèi)國(guó)爆料常送她就醫(yī)

      拮據(jù)、孤獨(dú)、憔悴變樣!何晴晚景凄涼,鄰居王衛(wèi)國(guó)爆料常送她就醫(yī)

      林雁飛
      2025-12-16 17:21:20
      詹姆斯雖然獨(dú)攬了項(xiàng)總得分歷史第一,但有一項(xiàng)紀(jì)錄卻無(wú)法企及

      詹姆斯雖然獨(dú)攬了項(xiàng)總得分歷史第一,但有一項(xiàng)紀(jì)錄卻無(wú)法企及

      大眼瞄世界
      2025-12-16 23:56:17
      狂降12℃!大反轉(zhuǎn)要來(lái)了:雨夾雪、7級(jí)大風(fēng)

      狂降12℃!大反轉(zhuǎn)要來(lái)了:雨夾雪、7級(jí)大風(fēng)

      極目新聞
      2025-12-16 08:02:44
      最能騙的上市公司,被姐弟倆5年掏空了

      最能騙的上市公司,被姐弟倆5年掏空了

      大貓財(cái)經(jīng)Pro
      2025-12-16 18:29:58
      一教師疑似微信群發(fā)言希望學(xué)生“全都甲流” 當(dāng)?shù)亟逃郑阂炎⒁獾酱耸?正調(diào)查處理

      一教師疑似微信群發(fā)言希望學(xué)生“全都甲流” 當(dāng)?shù)亟逃郑阂炎⒁獾酱耸?正調(diào)查處理

      紅星新聞
      2025-12-16 11:23:15
      大馬丁:和西班牙的歐美杯堪比世界杯決賽,我們非常渴望獲勝

      大馬丁:和西班牙的歐美杯堪比世界杯決賽,我們非常渴望獲勝

      懂球帝
      2025-12-17 01:10:10
      廣東男籃擊敗浙江,賽后聽(tīng)聽(tīng)媒體專家怎么說(shuō),兩小將未來(lái)可期

      廣東男籃擊敗浙江,賽后聽(tīng)聽(tīng)媒體專家怎么說(shuō),兩小將未來(lái)可期

      夕落秋山
      2025-12-17 00:16:43
      雷軍高調(diào)發(fā)文:“近50小時(shí)手工打磨”紫水晶車漆,網(wǎng)友炸了

      雷軍高調(diào)發(fā)文:“近50小時(shí)手工打磨”紫水晶車漆,網(wǎng)友炸了

      吃瓜局
      2025-12-15 16:01:07
      2025-12-17 07:16:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11934文章數(shù) 142511關(guān)注度
      往期回顧 全部

      科技要聞

      360:玉紅惡意詆毀周鴻祎 將追究其法律責(zé)任

      頭條要聞

      美國(guó)向?yàn)跸伦詈笸海含F(xiàn)在不接受 以后沒(méi)那么慷慨了

      頭條要聞

      美國(guó)向?yàn)跸伦詈笸海含F(xiàn)在不接受 以后沒(méi)那么慷慨了

      體育要聞

      楊瀚森18+10首次兩雙 關(guān)鍵攻防統(tǒng)治G聯(lián)賽

      娛樂(lè)要聞

      《雙軌》遭網(wǎng)友舉報(bào),稱劇情三觀不正

      財(cái)經(jīng)要聞

      浙金中心暴雷始末:祥源控股設(shè)計(jì)的騙局?

      汽車要聞

      打造全域安全2.0,吉利的新“長(zhǎng)征”

      態(tài)度原創(chuàng)

      藝術(shù)
      游戲
      手機(jī)
      公開(kāi)課
      軍事航空

      藝術(shù)要聞

      中國(guó)古人的九大風(fēng)雅事,你知道幾件?

      德瑪西亞杯:完全沒(méi)法打,LNG輕松橫掃FRK,太輕松了

      手機(jī)要聞

      蘋(píng)果發(fā)布iOS 26.3首個(gè)測(cè)試版,三個(gè)新變化及升級(jí)須知

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      畫(huà)面公開(kāi) 菲方人員揮舞長(zhǎng)刀挑釁中國(guó)海警

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 婷婷伊人綜合中文字幕小说| 大香蕉一区| 成人动漫综合网| 新乡市| 久久精品成人免费看| 欧美三级午夜理伦三级| 成人做爰视频www| 嗯91色色| 丰满人妻熟妇乱又伦精品软件| 91中文视频| 最新精品国偷自产在线美女足| 国产成人精品无码专区| 日日躁狠狠躁| 狠狠躁夜夜躁人人爽天天高潮| 人人爽人人爽人人片a免费| 国产亚洲精品自在久久| 亚洲AV无码久久久久网站蜜桃| 国产精品va在线观看无码| 亚洲精品一区二区三区蜜臀 | 国产美女无遮挡裸色视频| 恩施市| 伊人AV在线| 欧美一二三区| 精品av| 亚洲日韩AV秘 无码一区二区| 狠狠躁18三区二区一区| 国产精品一区在线蜜臀| 777米奇影视第四色| 亚洲成在人网站av天堂| 狠狠色综合网站久久久久久久| 人人澡超碰碰97碰碰碰| 无码一区二区三区av在线播放| 日日噜噜夜夜爽爽| av一本久道久久波多野结衣| 亚洲中文字幕国产| 色婷婷一区二区三区四区成人网| 精品国产制服丝袜高跟| 普兰店市| 肏屄视频在线播放| 业余 自由 性别 成熟偷窥| 国产乱码一区二区三区的解决方法|