<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      RL是「點(diǎn)金石」還是「挖掘機(jī)」?CMU 用可控實(shí)驗(yàn)給出答案

      金石探文明

      0
      分享至




      機(jī)器之心報(bào)道

      機(jī)器之心編輯部

      近期,強(qiáng)化學(xué)習(xí)(RL)技術(shù)在提升語言模型的推理能力方面取得了顯著成效。

      然而,后訓(xùn)練究竟是真正擴(kuò)展了模型的推理能力,還是僅僅挖掘了預(yù)訓(xùn)練中已有的潛力?目前尚不明確。

      一個(gè)核心挑戰(zhàn)在于現(xiàn)代訓(xùn)練流程缺乏可控性:大規(guī)模預(yù)訓(xùn)練語料庫不夠透明,中期訓(xùn)練往往缺乏充分研究,且 RL 目標(biāo)函數(shù)與未知的先驗(yàn)知識(shí)之間存在復(fù)雜的交互作用。

      為了回答這個(gè)問題,來自卡耐基梅隆大學(xué)(CMU)的研究者通過構(gòu)建基于 GSM-Infinite 的可控合成數(shù)據(jù)框架,在完全解耦的環(huán)境下,定量分析了預(yù)訓(xùn)練、Mid-training(中期訓(xùn)練/CPT)和 RL 三者對(duì)模型推理泛化能力的因果影響。旨在剝離并獨(dú)立分析預(yù)訓(xùn)練、中期訓(xùn)練以及基于 RL 的后訓(xùn)練各自的因果貢獻(xiàn)。



      https://x.com/xiangyue96/status/1998488030836044112

      研究者從兩個(gè)維度對(duì)模型進(jìn)行評(píng)估:針對(duì)更復(fù)雜組合的外推泛化能力,以及跨越不同表層語境的情境泛化能力。利用該框架,研究者調(diào)和了關(guān)于 RL 有效性的不同觀點(diǎn)。

      研究表明:

      • 僅當(dāng)預(yù)訓(xùn)練留有足夠提升空間,且 RL 數(shù)據(jù)針對(duì)模型的能力邊界(即那些雖具難度但尚未超出模型能力范圍的任務(wù))時(shí),RL 才能帶來真正的能力增益(pass@128)。
      • 情境泛化需要極少但充分的預(yù)訓(xùn)練接觸,在此之后 RL 便能實(shí)現(xiàn)可靠的遷移。
      • 在固定計(jì)算量下,相比于僅使用 RL,中期訓(xùn)練能顯著提升性能,證明了其在訓(xùn)練流程中處于核心地位卻未被充分探索。
      • 過程級(jí)獎(jiǎng)勵(lì)能減少獎(jiǎng)勵(lì)破解(Reward Hacking)現(xiàn)象并提高推理的忠實(shí)度。



      • 論文標(biāo)題:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
      • 論文地址:https://arxiv.org/abs/2512.07783
      • Github:https://github.com/Interplay-LM-Reasoning/Interplay-LM-Reasoning
      • HuggingFace:https://huggingface.co/Interplay-LM-Reasoning

      綜上所述,這些結(jié)果闡明了預(yù)訓(xùn)練、中期訓(xùn)練和 RL 之間的相互作用,為理解和改進(jìn)推理語言模型的訓(xùn)練策略奠定了基礎(chǔ)。

      該工作登上了 Alphaxiv 榜一。



      同時(shí)該工作在 AI 社區(qū)收獲了一大波好評(píng),ViT 作者之一 Lucas Beyer 也現(xiàn)身評(píng)論區(qū)。



      核心方法:

      完全可控的實(shí)驗(yàn)沙盒

      為了從因果層面解構(gòu)大模型的推理能力來源,研究團(tuán)隊(duì)并未直接使用現(xiàn)有的黑盒大模型或不可知的互聯(lián)網(wǎng)語料,而是設(shè)計(jì)了一套嚴(yán)密的可控合成數(shù)據(jù)框架。該框架基于 GSM-Infinite 生成技術(shù),旨在從源頭控制數(shù)據(jù)分布、推理深度與語境廣度。



      數(shù)據(jù)生成框架與任務(wù)設(shè)置概覽

      基于依賴圖(DAG)的數(shù)據(jù)生成

      該框架的核心理念是將「推理結(jié)構(gòu)」與「表面語境」完全解耦。



      語境渲染:在確定了推理骨架后,系統(tǒng)通過應(yīng)用不同的「語境模板」(如動(dòng)物園、學(xué)校等場景),將抽象的數(shù)學(xué)圖渲染為自然語言問題。這種分離使得研究者能夠考察模型是真正學(xué)會(huì)了推理邏輯,還是僅僅記住了特定的文本模式。

      三階段訓(xùn)練流程的嚴(yán)格隔離

      為了避免數(shù)據(jù)污染導(dǎo)致的評(píng)估偏差,研究者定義了三個(gè)互不重疊的訓(xùn)練階段,并在各階段精確調(diào)配數(shù)據(jù)分布:

      • 預(yù)訓(xùn)練:使用 10B token 的數(shù)據(jù),主要包含基礎(chǔ)的推理原語(Primitives)和規(guī)則。重點(diǎn)在于讓模型掌握基礎(chǔ)能力(op=2-10),同時(shí)保留更深層任務(wù)作為未見過的測試集。
      • 中期訓(xùn)練:這是一個(gè)連接預(yù)訓(xùn)練與 RL 的「橋梁」階段。它使用與 RL 階段相似的數(shù)據(jù)分布(即模型能力邊緣的數(shù)據(jù)),旨在對(duì)齊模型的內(nèi)部表征,使其做好「RL 就緒(RL-ready)」的準(zhǔn)備。
      • 后訓(xùn)練(Post-training / RL):采用 GRPO 算法,針對(duì)特定的任務(wù)難度和語境進(jìn)行強(qiáng)化學(xué)習(xí),以探索模型在特定獎(jiǎng)勵(lì)信號(hào)下的能力邊界。

      過程級(jí)驗(yàn)證評(píng)估

      為了防止模型「猜對(duì)答案」或通過錯(cuò)誤的推理路徑得出正確結(jié)果(即 Reward Hacking),該研究引入了過程級(jí)驗(yàn)證。系統(tǒng)不僅檢查最終答案,還會(huì)解析模型生成的思維鏈,將其還原為依賴圖,并與真實(shí)的一步步推理過程(Ground Truth DAG)進(jìn)行比對(duì)。只有當(dāng)推理步驟和最終答案全對(duì)時(shí),才被判定為通過。

      解構(gòu)能力涌現(xiàn)的四個(gè)關(guān)鍵發(fā)現(xiàn)

      基于上述框架,研究者進(jìn)行了一系列控制變量實(shí)驗(yàn),得出了關(guān)于 RL、預(yù)訓(xùn)練和中期訓(xùn)練相互作用的四個(gè)關(guān)鍵結(jié)論,有力地調(diào)和了學(xué)術(shù)界關(guān)于「RL 是否能創(chuàng)造新能力」的爭議。

      RL 的效用取決于「能力邊緣」

      RL 并非在任何情況下都能提升推理能力。

      對(duì)于預(yù)訓(xùn)練中已充分掌握的簡單任務(wù),RL 只能提升 pass@1(即減少失誤),無法提升模型的上限(pass@128)。

      真正的能力躍遷發(fā)生在模型「能力邊緣」的任務(wù)上(例如預(yù)訓(xùn)練覆蓋了 op=2-10,RL 針對(duì) op=11-14)。在這一區(qū)間,RL 能夠通過探索帶來顯著的外推性泛化增益。如果任務(wù)難度過大(op=15-20),超出了模型的探索范圍,RL 的收益也會(huì)消失。

      因此,RL 的訓(xùn)練數(shù)據(jù)必須經(jīng)過精心校準(zhǔn),瞄準(zhǔn)模型的「能力邊緣」,既不能太簡單也不能太難。



      不同難度任務(wù)下的 RL 表現(xiàn)

      泛化的種子:1% 的預(yù)訓(xùn)練暴露至關(guān)重要

      在考察模型能否將推理能力遷移到全新語境時(shí),研究發(fā)現(xiàn),如果預(yù)訓(xùn)練中完全沒有接觸過某種長尾語境(0%),即便 RL 階段大量訓(xùn)練,模型也無法實(shí)現(xiàn)有效遷移。



      因此,RL 無法無中生有,它需要預(yù)訓(xùn)練提供最基礎(chǔ)的「原語」作為抓手。



      預(yù)訓(xùn)練數(shù)據(jù)混合比例對(duì)情境泛化的影響

      中期訓(xùn)練是計(jì)算效率的關(guān)鍵杠桿

      在固定的計(jì)算預(yù)算(Compute Budget)下,如何分配中期訓(xùn)練和 RL 的比例?

      Mid-Training + RL > Pure RL:引入中期訓(xùn)練階段比單純?cè)黾?RL 步數(shù)效果更好。

      分配策略:實(shí)驗(yàn)表明,對(duì)于極難任務(wù)(OOD-Hard),「少量中期訓(xùn)練(建立先驗(yàn))+ 大量 RL(深度探索)」的組合是最佳策略;而對(duì)于中等難度任務(wù),增加中期訓(xùn)練的比重能帶來更穩(wěn)定的 pass@1 表現(xiàn)。

      中期訓(xùn)練起到了「分布橋梁」的作用,極大地提升了 RL 的樣本效率和最終性能上限。



      不同算力分配策略下的性能對(duì)比

      過程獎(jiǎng)勵(lì)抑制投機(jī)取巧

      針對(duì) RL 常見的獎(jiǎng)勵(lì)破解問題——即模型利用捷徑獲取高分但推理邏輯錯(cuò)誤,研究引入了過程監(jiān)督。

      實(shí)驗(yàn)數(shù)據(jù)表明,將稀疏的結(jié)果獎(jiǎng)勵(lì)與密集的過程獎(jiǎng)勵(lì)相結(jié)合,能顯著減少結(jié)構(gòu)性錯(cuò)誤(如遺漏步驟或依賴關(guān)系錯(cuò)誤)。這種混合獎(jiǎng)勵(lì)機(jī)制在長鏈條推理任務(wù)($op=15\text{-}20$)中帶來了穩(wěn)定的 pass@1 提升。

      過程級(jí)信號(hào)能夠規(guī)范 RL 的搜索方向,確保能力的提升是建立在忠實(shí)推理基礎(chǔ)之上的。



      不同獎(jiǎng)勵(lì)機(jī)制的效果對(duì)比

      結(jié)語

      這項(xiàng)工作通過解構(gòu)訓(xùn)練流程,給出了明確的實(shí)踐指導(dǎo):

      RL 數(shù)據(jù)設(shè)計(jì):應(yīng)針對(duì)模型的「能力邊緣」構(gòu)建數(shù)據(jù)集,不要浪費(fèi)算力在過易或過難的任務(wù)上。

      預(yù)訓(xùn)練策略:必須確保長尾領(lǐng)域的原子能力(Primitives)有至少 1% 的覆蓋率,為 RL 留出接口。

      算力分配:根據(jù)目標(biāo)任務(wù)的難度,動(dòng)態(tài)調(diào)整中期訓(xùn)練與 RL 的比例。攻克難題需要更多 RL,提升穩(wěn)定性需要更多中期訓(xùn)練。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      菏澤一區(qū)最新人事任免!涉及副區(qū)長...

      菏澤一區(qū)最新人事任免!涉及副區(qū)長...

      菏澤頭條
      2025-12-18 17:02:29
      八大癥狀,說明你老了:快來自查一下,你中了幾條

      八大癥狀,說明你老了:快來自查一下,你中了幾條

      醫(yī)學(xué)原創(chuàng)故事會(huì)
      2025-12-10 23:54:06
      涉案超千萬元!2人在東莞落網(wǎng)獲刑

      涉案超千萬元!2人在東莞落網(wǎng)獲刑

      東莞紀(jì)實(shí)
      2025-12-18 21:54:26
      和丈夫離婚后,她開始和上海首富同居,如今重操舊業(yè)卻已無人問津

      和丈夫離婚后,她開始和上海首富同居,如今重操舊業(yè)卻已無人問津

      夢(mèng)史
      2025-12-18 09:37:30
      22年世界杯奪冠3周年,阿根廷國家隊(duì)曬圖:三年,三顆星

      22年世界杯奪冠3周年,阿根廷國家隊(duì)曬圖:三年,三顆星

      懂球帝
      2025-12-18 11:18:56
      關(guān)羽斬華雄后威震天下,但他對(duì)張飛坦言:還有一人刀法不在我之下

      關(guān)羽斬華雄后威震天下,但他對(duì)張飛坦言:還有一人刀法不在我之下

      飯小妹說歷史
      2025-12-13 11:05:10
      章澤天也沒想到,51歲老公劉強(qiáng)東再破天花板,讓整個(gè)歐洲刮目相看

      章澤天也沒想到,51歲老公劉強(qiáng)東再破天花板,讓整個(gè)歐洲刮目相看

      古木之草記
      2025-12-17 17:43:09
      300億收購夢(mèng)碎!聞泰科技手中的安世只?!翱諝ぁ?>
    </a>
        <h3>
      <a href=300億收購夢(mèng)碎!聞泰科技手中的安世只?!翱諝ぁ?/a> 風(fēng)風(fēng)順
      2025-10-14 10:09:49
      錢再多有什么用,64歲郎平如今的現(xiàn)狀,給所有運(yùn)動(dòng)員們提了個(gè)醒

      錢再多有什么用,64歲郎平如今的現(xiàn)狀,給所有運(yùn)動(dòng)員們提了個(gè)醒

      削桐作琴
      2025-12-10 16:53:18
      央行:將通過香港金融管理局債務(wù)工具中央結(jié)算系統(tǒng)招標(biāo)發(fā)行第十期中央銀行票據(jù) 發(fā)行量為人民幣400億元

      央行:將通過香港金融管理局債務(wù)工具中央結(jié)算系統(tǒng)招標(biāo)發(fā)行第十期中央銀行票據(jù) 發(fā)行量為人民幣400億元

      財(cái)聯(lián)社
      2025-12-18 09:34:08
      哈佛大學(xué)研究:活過90歲的人29項(xiàng)共同特征

      哈佛大學(xué)研究:活過90歲的人29項(xiàng)共同特征

      尚曦讀史
      2025-12-06 08:27:08
      零跑全新MPV曝光,定位全尺寸旗艦產(chǎn)品,激光雷達(dá)+高階智駕,會(huì)火

      零跑全新MPV曝光,定位全尺寸旗艦產(chǎn)品,激光雷達(dá)+高階智駕,會(huì)火

      紅濤說車
      2025-12-18 12:32:56
      三棱刺刀有什么缺點(diǎn)?為何在對(duì)越反擊戰(zhàn)結(jié)束后,它會(huì)被軍隊(duì)淘汰?

      三棱刺刀有什么缺點(diǎn)?為何在對(duì)越反擊戰(zhàn)結(jié)束后,它會(huì)被軍隊(duì)淘汰?

      清風(fēng)鑒史
      2025-12-16 21:30:21
      調(diào)查發(fā)現(xiàn):晨起大量飲水者,用不了3個(gè)月,身體或迎來這5變化!

      調(diào)查發(fā)現(xiàn):晨起大量飲水者,用不了3個(gè)月,身體或迎來這5變化!

      小胡軍事愛好
      2025-11-27 10:46:30
      Meta再爆大瓜,氣走楊立昆的Wang也受不了小扎了?

      Meta再爆大瓜,氣走楊立昆的Wang也受不了小扎了?

      直面派
      2025-12-18 15:09:27
      經(jīng)驗(yàn)足!瓜帥夸贊“徒弟”阿爾特塔,可爭冠的天平也許已經(jīng)傾斜

      經(jīng)驗(yàn)足!瓜帥夸贊“徒弟”阿爾特塔,可爭冠的天平也許已經(jīng)傾斜

      里芃芃體育
      2025-12-19 03:50:03
      打破壟斷,商業(yè)航天獨(dú)角獸,來勢(shì)洶洶!

      打破壟斷,商業(yè)航天獨(dú)角獸,來勢(shì)洶洶!

      新浪財(cái)經(jīng)
      2025-12-17 18:26:44
      郭晶晶沒想到,移居美國慘遭丈夫拋棄的高敏,已走上另一條上坡路

      郭晶晶沒想到,移居美國慘遭丈夫拋棄的高敏,已走上另一條上坡路

      榮亭小吏
      2025-12-17 19:38:56
      中國怪現(xiàn)象:大部分的爸爸,都是身著廉價(jià)衣服,過著疲憊的生活..

      中國怪現(xiàn)象:大部分的爸爸,都是身著廉價(jià)衣服,過著疲憊的生活..

      詩詞中國
      2025-11-20 21:21:55
      “月薪25萬”的鞠婧祎,和公司翻臉了?

      “月薪25萬”的鞠婧祎,和公司翻臉了?

      中國新聞周刊
      2025-12-17 22:00:16
      2025-12-19 05:00:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11950文章數(shù) 142513關(guān)注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

      頭條要聞

      在野黨參議員問了句日本"存亡危機(jī)" 高市早苗瞬間冷臉

      頭條要聞

      在野黨參議員問了句日本"存亡危機(jī)" 高市早苗瞬間冷臉

      體育要聞

      紐約尼克斯,板正的球隊(duì)

      娛樂要聞

      絲芭放大招了!實(shí)名舉報(bào)鞠婧祎經(jīng)濟(jì)犯罪

      財(cái)經(jīng)要聞

      尹艷林:呼吁加快2.5億新市民落戶進(jìn)程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

      態(tài)度原創(chuàng)

      旅游
      房產(chǎn)
      健康
      公開課
      軍事航空

      旅游要聞

      北緯 36° 奇跡!北方最北茶園憑 1 片葉子,讓貧瘠嶺變富民園

      房產(chǎn)要聞

      搶藏瘋潮!封關(guān)時(shí)代,??陧斏萃跽▔狠S,傳世資產(chǎn)即刻登場!

      這些新療法,讓化療不再那么痛苦

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      福建艦入列后首過臺(tái)海 臺(tái)方談為何"甲板上沒有艦載機(jī)"

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 91视频你懂的| 婷婷99狠狠躁天天躁| 亚洲色a| 亚洲图片另类| 91高清在线观看| a片精品| 天堂网中文字幕| 毛片av在线尤物一区二区| 长岛县| 91人人干| 国产精品xxxx| 亚洲av专区一区| 免费激情网址| 狠狠五月深爱婷婷网| 欧美又粗又大AAA片| 国产97人人超碰caoprom| 特黄特色的大片观看免费视频| 无码色综合| 亚洲欧美成人一区二区三区| 91乱伦视频| 超碰911| 99伊人| 熟女亚洲观看| 熟妇人妻激情偷爽文| 青青草一区二区免费精品| 亚洲性无码一区二区三区| 亚洲天堂va| 蜜桃视频无码区在线观看| 亚洲大尺度无码无码专线| 毛片在线播放网址| 成人丝袜激情一区二区| 国产免费va| XXXX18HD亚州护土| 亚洲?欧美?自拍?另类?日韩?人妻| 少妇高潮喷水久久久久久久久久| 超碰人人超碰人人| 亚洲第一福利网站在线观看| 国产精品日本熟女| 人妻少妇乱子伦精品| 久久久91精品人妻无码夜色_国产v| 国产国拍精品av在线观看|