網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

RL是「點(diǎn)金石」還是「挖掘機(jī)」？CMU 用可控實(shí)驗(yàn)給出答案

金石探文明

2025-12-15 10:14:24　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

近期，強(qiáng)化學(xué)習(xí)（RL）技術(shù)在提升語(yǔ)言模型的推理能力方面取得了顯著成效。

然而，后訓(xùn)練究竟是真正擴(kuò)展了模型的推理能力，還是僅僅挖掘了預(yù)訓(xùn)練中已有的潛力？目前尚不明確。

一個(gè)核心挑戰(zhàn)在于現(xiàn)代訓(xùn)練流程缺乏可控性：大規(guī)模預(yù)訓(xùn)練語(yǔ)料庫(kù)不夠透明，中期訓(xùn)練往往缺乏充分研究，且 RL 目標(biāo)函數(shù)與未知的先驗(yàn)知識(shí)之間存在復(fù)雜的交互作用。

為了回答這個(gè)問(wèn)題，來(lái)自卡耐基梅隆大學(xué)（CMU）的研究者通過(guò)構(gòu)建基于 GSM-Infinite 的可控合成數(shù)據(jù)框架，在完全解耦的環(huán)境下，定量分析了預(yù)訓(xùn)練、Mid-training（中期訓(xùn)練/CPT）和 RL 三者對(duì)模型推理泛化能力的因果影響。旨在剝離并獨(dú)立分析預(yù)訓(xùn)練、中期訓(xùn)練以及基于 RL 的后訓(xùn)練各自的因果貢獻(xiàn)。

https://x.com/xiangyue96/status/1998488030836044112

研究者從兩個(gè)維度對(duì)模型進(jìn)行評(píng)估：針對(duì)更復(fù)雜組合的外推泛化能力，以及跨越不同表層語(yǔ)境的情境泛化能力。利用該框架，研究者調(diào)和了關(guān)于 RL 有效性的不同觀點(diǎn)。

研究表明：

僅當(dāng)預(yù)訓(xùn)練留有足夠提升空間，且 RL 數(shù)據(jù)針對(duì)模型的能力邊界（即那些雖具難度但尚未超出模型能力范圍的任務(wù)）時(shí)，RL 才能帶來(lái)真正的能力增益（pass@128）。
情境泛化需要極少但充分的預(yù)訓(xùn)練接觸，在此之后 RL 便能實(shí)現(xiàn)可靠的遷移。
在固定計(jì)算量下，相比于僅使用 RL，中期訓(xùn)練能顯著提升性能，證明了其在訓(xùn)練流程中處于核心地位卻未被充分探索。
過(guò)程級(jí)獎(jiǎng)勵(lì)能減少獎(jiǎng)勵(lì)破解（Reward Hacking）現(xiàn)象并提高推理的忠實(shí)度。

論文標(biāo)題：On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
論文地址：https://arxiv.org/abs/2512.07783
Github：https://github.com/Interplay-LM-Reasoning/Interplay-LM-Reasoning
HuggingFace：https://huggingface.co/Interplay-LM-Reasoning

綜上所述，這些結(jié)果闡明了預(yù)訓(xùn)練、中期訓(xùn)練和 RL 之間的相互作用，為理解和改進(jìn)推理語(yǔ)言模型的訓(xùn)練策略奠定了基礎(chǔ)。

該工作登上了 Alphaxiv 榜一。

同時(shí)該工作在 AI 社區(qū)收獲了一大波好評(píng)，ViT 作者之一 Lucas Beyer 也現(xiàn)身評(píng)論區(qū)。

核心方法：

完全可控的實(shí)驗(yàn)沙盒

為了從因果層面解構(gòu)大模型的推理能力來(lái)源，研究團(tuán)隊(duì)并未直接使用現(xiàn)有的黑盒大模型或不可知的互聯(lián)網(wǎng)語(yǔ)料，而是設(shè)計(jì)了一套嚴(yán)密的可控合成數(shù)據(jù)框架。該框架基于 GSM-Infinite 生成技術(shù)，旨在從源頭控制數(shù)據(jù)分布、推理深度與語(yǔ)境廣度。

數(shù)據(jù)生成框架與任務(wù)設(shè)置概覽

基于依賴圖（DAG）的數(shù)據(jù)生成

該框架的核心理念是將「推理結(jié)構(gòu)」與「表面語(yǔ)境」完全解耦。

語(yǔ)境渲染：在確定了推理骨架后，系統(tǒng)通過(guò)應(yīng)用不同的「語(yǔ)境模板」（如動(dòng)物園、學(xué)校等場(chǎng)景），將抽象的數(shù)學(xué)圖渲染為自然語(yǔ)言問(wèn)題。這種分離使得研究者能夠考察模型是真正學(xué)會(huì)了推理邏輯，還是僅僅記住了特定的文本模式。

三階段訓(xùn)練流程的嚴(yán)格隔離

為了避免數(shù)據(jù)污染導(dǎo)致的評(píng)估偏差，研究者定義了三個(gè)互不重疊的訓(xùn)練階段，并在各階段精確調(diào)配數(shù)據(jù)分布：

預(yù)訓(xùn)練：使用 10B token 的數(shù)據(jù)，主要包含基礎(chǔ)的推理原語(yǔ)（Primitives）和規(guī)則。重點(diǎn)在于讓模型掌握基礎(chǔ)能力（op=2-10），同時(shí)保留更深層任務(wù)作為未見(jiàn)過(guò)的測(cè)試集。
中期訓(xùn)練：這是一個(gè)連接預(yù)訓(xùn)練與 RL 的「橋梁」階段。它使用與 RL 階段相似的數(shù)據(jù)分布（即模型能力邊緣的數(shù)據(jù)），旨在對(duì)齊模型的內(nèi)部表征，使其做好「RL 就緒（RL-ready）」的準(zhǔn)備。
后訓(xùn)練（Post-training / RL）：采用 GRPO 算法，針對(duì)特定的任務(wù)難度和語(yǔ)境進(jìn)行強(qiáng)化學(xué)習(xí)，以探索模型在特定獎(jiǎng)勵(lì)信號(hào)下的能力邊界。

過(guò)程級(jí)驗(yàn)證評(píng)估

為了防止模型「猜對(duì)答案」或通過(guò)錯(cuò)誤的推理路徑得出正確結(jié)果（即 Reward Hacking），該研究引入了過(guò)程級(jí)驗(yàn)證。系統(tǒng)不僅檢查最終答案，還會(huì)解析模型生成的思維鏈，將其還原為依賴圖，并與真實(shí)的一步步推理過(guò)程（Ground Truth DAG）進(jìn)行比對(duì)。只有當(dāng)推理步驟和最終答案全對(duì)時(shí)，才被判定為通過(guò)。

解構(gòu)能力涌現(xiàn)的四個(gè)關(guān)鍵發(fā)現(xiàn)

基于上述框架，研究者進(jìn)行了一系列控制變量實(shí)驗(yàn)，得出了關(guān)于 RL、預(yù)訓(xùn)練和中期訓(xùn)練相互作用的四個(gè)關(guān)鍵結(jié)論，有力地調(diào)和了學(xué)術(shù)界關(guān)于「RL 是否能創(chuàng)造新能力」的爭(zhēng)議。

RL 的效用取決于「能力邊緣」

RL 并非在任何情況下都能提升推理能力。

對(duì)于預(yù)訓(xùn)練中已充分掌握的簡(jiǎn)單任務(wù)，RL 只能提升 pass@1（即減少失誤），無(wú)法提升模型的上限（pass@128）。

真正的能力躍遷發(fā)生在模型「能力邊緣」的任務(wù)上（例如預(yù)訓(xùn)練覆蓋了 op=2-10，RL 針對(duì) op=11-14）。在這一區(qū)間，RL 能夠通過(guò)探索帶來(lái)顯著的外推性泛化增益。如果任務(wù)難度過(guò)大（op=15-20），超出了模型的探索范圍，RL 的收益也會(huì)消失。

因此，RL 的訓(xùn)練數(shù)據(jù)必須經(jīng)過(guò)精心校準(zhǔn)，瞄準(zhǔn)模型的「能力邊緣」，既不能太簡(jiǎn)單也不能太難。

不同難度任務(wù)下的 RL 表現(xiàn)

泛化的種子：1% 的預(yù)訓(xùn)練暴露至關(guān)重要

在考察模型能否將推理能力遷移到全新語(yǔ)境時(shí)，研究發(fā)現(xiàn)，如果預(yù)訓(xùn)練中完全沒(méi)有接觸過(guò)某種長(zhǎng)尾語(yǔ)境（0%），即便 RL 階段大量訓(xùn)練，模型也無(wú)法實(shí)現(xiàn)有效遷移。

因此，RL 無(wú)法無(wú)中生有，它需要預(yù)訓(xùn)練提供最基礎(chǔ)的「原語(yǔ)」作為抓手。

預(yù)訓(xùn)練數(shù)據(jù)混合比例對(duì)情境泛化的影響

中期訓(xùn)練是計(jì)算效率的關(guān)鍵杠桿

在固定的計(jì)算預(yù)算（Compute Budget）下，如何分配中期訓(xùn)練和 RL 的比例？

Mid-Training + RL > Pure RL：引入中期訓(xùn)練階段比單純?cè)黾?RL 步數(shù)效果更好。

分配策略：實(shí)驗(yàn)表明，對(duì)于極難任務(wù)（OOD-Hard），「少量中期訓(xùn)練（建立先驗(yàn)）+ 大量 RL（深度探索）」的組合是最佳策略；而對(duì)于中等難度任務(wù)，增加中期訓(xùn)練的比重能帶來(lái)更穩(wěn)定的 pass@1 表現(xiàn)。

中期訓(xùn)練起到了「分布橋梁」的作用，極大地提升了 RL 的樣本效率和最終性能上限。

不同算力分配策略下的性能對(duì)比

過(guò)程獎(jiǎng)勵(lì)抑制投機(jī)取巧

針對(duì) RL 常見(jiàn)的獎(jiǎng)勵(lì)破解問(wèn)題——即模型利用捷徑獲取高分但推理邏輯錯(cuò)誤，研究引入了過(guò)程監(jiān)督。

實(shí)驗(yàn)數(shù)據(jù)表明，將稀疏的結(jié)果獎(jiǎng)勵(lì)與密集的過(guò)程獎(jiǎng)勵(lì)相結(jié)合，能顯著減少結(jié)構(gòu)性錯(cuò)誤（如遺漏步驟或依賴關(guān)系錯(cuò)誤）。這種混合獎(jiǎng)勵(lì)機(jī)制在長(zhǎng)鏈條推理任務(wù)（$op=15\text{-}20$）中帶來(lái)了穩(wěn)定的 pass@1 提升。

過(guò)程級(jí)信號(hào)能夠規(guī)范 RL 的搜索方向，確保能力的提升是建立在忠實(shí)推理基礎(chǔ)之上的。

不同獎(jiǎng)勵(lì)機(jī)制的效果對(duì)比

結(jié)語(yǔ)

這項(xiàng)工作通過(guò)解構(gòu)訓(xùn)練流程，給出了明確的實(shí)踐指導(dǎo)：

RL 數(shù)據(jù)設(shè)計(jì)：應(yīng)針對(duì)模型的「能力邊緣」構(gòu)建數(shù)據(jù)集，不要浪費(fèi)算力在過(guò)易或過(guò)難的任務(wù)上。

預(yù)訓(xùn)練策略：必須確保長(zhǎng)尾領(lǐng)域的原子能力（Primitives）有至少 1% 的覆蓋率，為 RL 留出接口。

算力分配：根據(jù)目標(biāo)任務(wù)的難度，動(dòng)態(tài)調(diào)整中期訓(xùn)練與 RL 的比例。攻克難題需要更多 RL，提升穩(wěn)定性需要更多中期訓(xùn)練。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.