![]()
機(jī)器之心報(bào)道
機(jī)器之心編輯部
近期,強(qiáng)化學(xué)習(xí)(RL)技術(shù)在提升語(yǔ)言模型的推理能力方面取得了顯著成效。
然而,后訓(xùn)練究竟是真正擴(kuò)展了模型的推理能力,還是僅僅挖掘了預(yù)訓(xùn)練中已有的潛力?目前尚不明確。
一個(gè)核心挑戰(zhàn)在于現(xiàn)代訓(xùn)練流程缺乏可控性:大規(guī)模預(yù)訓(xùn)練語(yǔ)料庫(kù)不夠透明,中期訓(xùn)練往往缺乏充分研究,且 RL 目標(biāo)函數(shù)與未知的先驗(yàn)知識(shí)之間存在復(fù)雜的交互作用。
為了回答這個(gè)問(wèn)題,來(lái)自卡耐基梅隆大學(xué)(CMU)的研究者通過(guò)構(gòu)建基于 GSM-Infinite 的可控合成數(shù)據(jù)框架,在完全解耦的環(huán)境下,定量分析了預(yù)訓(xùn)練、Mid-training(中期訓(xùn)練/CPT)和 RL 三者對(duì)模型推理泛化能力的因果影響。旨在剝離并獨(dú)立分析預(yù)訓(xùn)練、中期訓(xùn)練以及基于 RL 的后訓(xùn)練各自的因果貢獻(xiàn)。
![]()
https://x.com/xiangyue96/status/1998488030836044112
研究者從兩個(gè)維度對(duì)模型進(jìn)行評(píng)估:針對(duì)更復(fù)雜組合的外推泛化能力,以及跨越不同表層語(yǔ)境的情境泛化能力。利用該框架,研究者調(diào)和了關(guān)于 RL 有效性的不同觀點(diǎn)。
研究表明:
- 僅當(dāng)預(yù)訓(xùn)練留有足夠提升空間,且 RL 數(shù)據(jù)針對(duì)模型的能力邊界(即那些雖具難度但尚未超出模型能力范圍的任務(wù))時(shí),RL 才能帶來(lái)真正的能力增益(pass@128)。
- 情境泛化需要極少但充分的預(yù)訓(xùn)練接觸,在此之后 RL 便能實(shí)現(xiàn)可靠的遷移。
- 在固定計(jì)算量下,相比于僅使用 RL,中期訓(xùn)練能顯著提升性能,證明了其在訓(xùn)練流程中處于核心地位卻未被充分探索。
- 過(guò)程級(jí)獎(jiǎng)勵(lì)能減少獎(jiǎng)勵(lì)破解(Reward Hacking)現(xiàn)象并提高推理的忠實(shí)度。
![]()
- 論文標(biāo)題:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
- 論文地址:https://arxiv.org/abs/2512.07783
- Github:https://github.com/Interplay-LM-Reasoning/Interplay-LM-Reasoning
- HuggingFace:https://huggingface.co/Interplay-LM-Reasoning
綜上所述,這些結(jié)果闡明了預(yù)訓(xùn)練、中期訓(xùn)練和 RL 之間的相互作用,為理解和改進(jìn)推理語(yǔ)言模型的訓(xùn)練策略奠定了基礎(chǔ)。
該工作登上了 Alphaxiv 榜一。
![]()
同時(shí)該工作在 AI 社區(qū)收獲了一大波好評(píng),ViT 作者之一 Lucas Beyer 也現(xiàn)身評(píng)論區(qū)。
![]()
核心方法:
完全可控的實(shí)驗(yàn)沙盒
為了從因果層面解構(gòu)大模型的推理能力來(lái)源,研究團(tuán)隊(duì)并未直接使用現(xiàn)有的黑盒大模型或不可知的互聯(lián)網(wǎng)語(yǔ)料,而是設(shè)計(jì)了一套嚴(yán)密的可控合成數(shù)據(jù)框架。該框架基于 GSM-Infinite 生成技術(shù),旨在從源頭控制數(shù)據(jù)分布、推理深度與語(yǔ)境廣度。
![]()
數(shù)據(jù)生成框架與任務(wù)設(shè)置概覽
基于依賴圖(DAG)的數(shù)據(jù)生成
該框架的核心理念是將「推理結(jié)構(gòu)」與「表面語(yǔ)境」完全解耦。
![]()
語(yǔ)境渲染:在確定了推理骨架后,系統(tǒng)通過(guò)應(yīng)用不同的「語(yǔ)境模板」(如動(dòng)物園、學(xué)校等場(chǎng)景),將抽象的數(shù)學(xué)圖渲染為自然語(yǔ)言問(wèn)題。這種分離使得研究者能夠考察模型是真正學(xué)會(huì)了推理邏輯,還是僅僅記住了特定的文本模式。
三階段訓(xùn)練流程的嚴(yán)格隔離
為了避免數(shù)據(jù)污染導(dǎo)致的評(píng)估偏差,研究者定義了三個(gè)互不重疊的訓(xùn)練階段,并在各階段精確調(diào)配數(shù)據(jù)分布:
- 預(yù)訓(xùn)練:使用 10B token 的數(shù)據(jù),主要包含基礎(chǔ)的推理原語(yǔ)(Primitives)和規(guī)則。重點(diǎn)在于讓模型掌握基礎(chǔ)能力(op=2-10),同時(shí)保留更深層任務(wù)作為未見(jiàn)過(guò)的測(cè)試集。
- 中期訓(xùn)練:這是一個(gè)連接預(yù)訓(xùn)練與 RL 的「橋梁」階段。它使用與 RL 階段相似的數(shù)據(jù)分布(即模型能力邊緣的數(shù)據(jù)),旨在對(duì)齊模型的內(nèi)部表征,使其做好「RL 就緒(RL-ready)」的準(zhǔn)備。
- 后訓(xùn)練(Post-training / RL):采用 GRPO 算法,針對(duì)特定的任務(wù)難度和語(yǔ)境進(jìn)行強(qiáng)化學(xué)習(xí),以探索模型在特定獎(jiǎng)勵(lì)信號(hào)下的能力邊界。
過(guò)程級(jí)驗(yàn)證評(píng)估
為了防止模型「猜對(duì)答案」或通過(guò)錯(cuò)誤的推理路徑得出正確結(jié)果(即 Reward Hacking),該研究引入了過(guò)程級(jí)驗(yàn)證。系統(tǒng)不僅檢查最終答案,還會(huì)解析模型生成的思維鏈,將其還原為依賴圖,并與真實(shí)的一步步推理過(guò)程(Ground Truth DAG)進(jìn)行比對(duì)。只有當(dāng)推理步驟和最終答案全對(duì)時(shí),才被判定為通過(guò)。
解構(gòu)能力涌現(xiàn)的四個(gè)關(guān)鍵發(fā)現(xiàn)
基于上述框架,研究者進(jìn)行了一系列控制變量實(shí)驗(yàn),得出了關(guān)于 RL、預(yù)訓(xùn)練和中期訓(xùn)練相互作用的四個(gè)關(guān)鍵結(jié)論,有力地調(diào)和了學(xué)術(shù)界關(guān)于「RL 是否能創(chuàng)造新能力」的爭(zhēng)議。
RL 的效用取決于「能力邊緣」
RL 并非在任何情況下都能提升推理能力。
對(duì)于預(yù)訓(xùn)練中已充分掌握的簡(jiǎn)單任務(wù),RL 只能提升 pass@1(即減少失誤),無(wú)法提升模型的上限(pass@128)。
真正的能力躍遷發(fā)生在模型「能力邊緣」的任務(wù)上(例如預(yù)訓(xùn)練覆蓋了 op=2-10,RL 針對(duì) op=11-14)。在這一區(qū)間,RL 能夠通過(guò)探索帶來(lái)顯著的外推性泛化增益。如果任務(wù)難度過(guò)大(op=15-20),超出了模型的探索范圍,RL 的收益也會(huì)消失。
因此,RL 的訓(xùn)練數(shù)據(jù)必須經(jīng)過(guò)精心校準(zhǔn),瞄準(zhǔn)模型的「能力邊緣」,既不能太簡(jiǎn)單也不能太難。
![]()
不同難度任務(wù)下的 RL 表現(xiàn)
泛化的種子:1% 的預(yù)訓(xùn)練暴露至關(guān)重要
在考察模型能否將推理能力遷移到全新語(yǔ)境時(shí),研究發(fā)現(xiàn),如果預(yù)訓(xùn)練中完全沒(méi)有接觸過(guò)某種長(zhǎng)尾語(yǔ)境(0%),即便 RL 階段大量訓(xùn)練,模型也無(wú)法實(shí)現(xiàn)有效遷移。
![]()
因此,RL 無(wú)法無(wú)中生有,它需要預(yù)訓(xùn)練提供最基礎(chǔ)的「原語(yǔ)」作為抓手。
![]()
預(yù)訓(xùn)練數(shù)據(jù)混合比例對(duì)情境泛化的影響
中期訓(xùn)練是計(jì)算效率的關(guān)鍵杠桿
在固定的計(jì)算預(yù)算(Compute Budget)下,如何分配中期訓(xùn)練和 RL 的比例?
Mid-Training + RL > Pure RL:引入中期訓(xùn)練階段比單純?cè)黾?RL 步數(shù)效果更好。
分配策略:實(shí)驗(yàn)表明,對(duì)于極難任務(wù)(OOD-Hard),「少量中期訓(xùn)練(建立先驗(yàn))+ 大量 RL(深度探索)」的組合是最佳策略;而對(duì)于中等難度任務(wù),增加中期訓(xùn)練的比重能帶來(lái)更穩(wěn)定的 pass@1 表現(xiàn)。
中期訓(xùn)練起到了「分布橋梁」的作用,極大地提升了 RL 的樣本效率和最終性能上限。
![]()
不同算力分配策略下的性能對(duì)比
過(guò)程獎(jiǎng)勵(lì)抑制投機(jī)取巧
針對(duì) RL 常見(jiàn)的獎(jiǎng)勵(lì)破解問(wèn)題——即模型利用捷徑獲取高分但推理邏輯錯(cuò)誤,研究引入了過(guò)程監(jiān)督。
實(shí)驗(yàn)數(shù)據(jù)表明,將稀疏的結(jié)果獎(jiǎng)勵(lì)與密集的過(guò)程獎(jiǎng)勵(lì)相結(jié)合,能顯著減少結(jié)構(gòu)性錯(cuò)誤(如遺漏步驟或依賴關(guān)系錯(cuò)誤)。這種混合獎(jiǎng)勵(lì)機(jī)制在長(zhǎng)鏈條推理任務(wù)($op=15\text{-}20$)中帶來(lái)了穩(wěn)定的 pass@1 提升。
過(guò)程級(jí)信號(hào)能夠規(guī)范 RL 的搜索方向,確保能力的提升是建立在忠實(shí)推理基礎(chǔ)之上的。
![]()
不同獎(jiǎng)勵(lì)機(jī)制的效果對(duì)比
結(jié)語(yǔ)
這項(xiàng)工作通過(guò)解構(gòu)訓(xùn)練流程,給出了明確的實(shí)踐指導(dǎo):
RL 數(shù)據(jù)設(shè)計(jì):應(yīng)針對(duì)模型的「能力邊緣」構(gòu)建數(shù)據(jù)集,不要浪費(fèi)算力在過(guò)易或過(guò)難的任務(wù)上。
預(yù)訓(xùn)練策略:必須確保長(zhǎng)尾領(lǐng)域的原子能力(Primitives)有至少 1% 的覆蓋率,為 RL 留出接口。
算力分配:根據(jù)目標(biāo)任務(wù)的難度,動(dòng)態(tài)調(diào)整中期訓(xùn)練與 RL 的比例。攻克難題需要更多 RL,提升穩(wěn)定性需要更多中期訓(xùn)練。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.