網易首頁 > 網易號 > 正文申請入駐

監督式強化學習：從專家軌跡到逐步推理

2026-02-01 19:24:10　來源: CreateAMind

上海舉報

分享至

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

監督式強化學習：從專家軌跡到逐步推理

https://arxiv.org/pdf/2510.25992

大型語言模型（LLMs）在處理需要多步推理的問題時常常表現不佳。對于小規模開源模型而言，基于可驗證獎勵的強化學習（Reinforcement Learning with Verifiable Rewards, RLVR）在即使經過多次嘗試也極少采樣到正確解的情況下會失效；而監督微調（Supervised Fine-Tuning, SFT）則傾向于通過對長演示進行僵化的逐詞模仿而導致過擬合。為彌補這一差距，我們提出了監督強化學習（Supervised Reinforcement Learning, SRL）——一種將問題求解重新建模為生成一系列邏輯“動作”的訓練框架。SRL 訓練模型在執行每個動作前先生成內部推理獨白，并基于模型動作與從 SFT 數據集中提取的專家動作之間的相似度，以逐步方式提供更平滑的獎勵信號。這種監督機制即使在所有推理軌跡均錯誤的情況下也能提供更豐富的學習信號，同時借助專家演示引導模型進行靈活推理。因此，SRL 使小型模型能夠學會以往通過 SFT 或 RLVR 無法掌握的復雜問題。此外，先以 SRL 初始化訓練、再通過 RLVR 進行精調，可獲得整體最優性能。除推理基準任務外，SRL 還能有效泛化至智能體軟件工程任務，確立其作為面向推理的大型語言模型的一種穩健且通用的訓練框架的地位。

引言

大語言模型（LLMs）在一系列推理任務中展現出卓越的能力，包括解決數學問題（Wang et al., 2025）、生成代碼（Jiang et al., 2024）以及智能體規劃（Li et al., 2025c; Xie et al., 2024）。近期一項重要進展是利用強化學習（RL）來增強LLMs的復雜推理能力（Ahmadian et al., 2024; Lambert et al., 2024; Shao et al., 2024）。通過基于可驗證結果（如最終答案的正確性）的獎勵信號對模型進行優化，強化學習為激發有益的問題求解策略（如自我反思（Guo et al., 2025; Xie et al., 2025））提供了一條可擴展且前景廣闊的路徑。

這類基于結果的強化學習方法的有效性從根本上依賴于策略模型在有限軌跡采樣（rollout）預算內發現正確解的能力（Brown et al., 2024）。然而，受實際計算資源的限制，當面對訓練數據中具有挑戰性的問題時，該學習范式往往難以奏效——在這些問題上，模型的成功率實際上為零（即使采樣條軌跡后，pass@率仍為零）。此類情況在需要復雜多步推理的任務中日益普遍（Wang et al., 2024; Yue et al., 2025）。對于7B規模的LLM而言，一個錯誤的中間步驟就可能導致整個推理鏈偏離正軌，從而無論是否存在部分正確的中間結果，都會產生負面的學習信號。此外，簡單地懲罰所有錯誤的最終輸出還可能進一步引入訓練不穩定性并阻礙學習進展，使得這些困難的推理任務對標準的基于結果的強化學習方法而言基本不可解（Xiong et al., 2025）。

另一種方法是模仿學習，通常通過在專家示范上進行監督微調（SFT）來實現（Ross et al., 2011）。盡管SFT能夠注入有價值的推理行為，但其下一詞預測目標強制模型進行嚴格、逐詞級別的模仿，限制了模型在訓練數據之外的泛化能力。當訓練數據規模有限且模型本身能力相對較弱時，這一問題尤為突出。在此類條件下，冗長復雜的示范往往導致過擬合和淺層推理行為（Chu et al., 2025a; Li et al., 2025b），正如我們在圖1中觀察到的性能下降所示。因此，無論是SFT還是基于結果的強化學習，在困難推理任務上均面臨挑戰，這為訓練小型開源模型以有效學習難題留下了關鍵空白。

為填補這一空白，我們提出監督強化學習（Supervised Reinforcement Learning, SRL），一個將問題求解重新形式化為序列決策過程的框架。與優化最終答案或模仿完整專家軌跡不同，SRL依據強化學習風格的目標，訓練模型復現專家推理背后的關鍵動作序列。具體而言，專家示范被分解為一系列中間動作，每個動作代表一個有意義的決策步驟。在訓練過程中，模型首先生成內部獨白（internal monologue）以闡明其推理過程，隨后執行一個“動作”。在每一步，SRL根據模型預測動作與對應專家動作之間的相似性提供獎勵，從而提供細粒度、高效可計算的監督信號，并可擴展至大規模數據集。

本工作的貢獻如下： ? 我們提出SRL，一種新穎的框架，旨在使模型在SFT和RLVR難以應對的困難推理任務上實現有效學習，其通過基于與專家動作相似性的密集且平滑的獎勵實現這一目標。 ? 我們在具有挑戰性的數學推理和智能體軟件工程基準測試上進行了大量實驗，驗證了SRL的有效性與魯棒性。結果表明，SRL在兩個領域均顯著優于強基線方法（見5.1與5.3節）。 ? 通過詳細分析，我們揭示了細粒度指導對SRL獎勵機制及其對模型行為影響的關鍵作用。我們觀察到，SRL能夠誘導出靈活而復雜的推理模式，例如交錯式的規劃與驗證，從而在不單純增加輸出長度的情況下提升解的質量（見5.2節）。

相關工作

2.1. 用于LLM推理的SFT（知識蒸餾）

通過對教師模型生成的長思維鏈（Chain-of-Thought, CoT）推理過程進行監督微調（SFT）以將推理能力蒸餾至小型模型，已被證明是遷移復雜問題求解技能的有效方法（Huang et al., 2024; Li et al., 2023; Min et al., 2024; Yeo et al., 2025），DeepSeek R1蒸餾所得的小型模型即為典型案例（Guo et al., 2025）。研究表明，該過程具有驚人的數據效率，小型但高質量的數據集通常已足夠（Muennighoff et al., 2025; Ye et al., 2025）。鑒于其成功，研究者開始關注實現有效SFT蒸餾的底層因素（Chen et al., 2025a）。部分研究強調推理軌跡的邏輯結構而非其語義正確性（Luo et al., 2025; Stechly et al., 2025），因為模型甚至能夠從包含事實性錯誤的示范中學習（Li et al., 2025a）。此外，學生-教師能力差距仍構成顯著挑戰：當學生模型面對過于復雜的數據時往往難以有效學習（Li et al., 2025b）；同時存在“教師模型攻擊”（teacher hacking）風險，即學生模型過度擬合教師模型的特定缺陷（Tiapkin et al., 2025）。歸根結底，從教師模型進行蒸餾為學生模型的性能設定了上限（Huang et al., 2024）。

2.2. 用于LLM推理的強化學習

DeepSeek-R1的開發（Guo et al., 2025）展示了基于規則的強化學習在增強LLM推理能力方面的有效性。該方法采用基于最終答案正確性的可擴展獎勵系統，典型代表包括組相對策略優化（Group Relative Policy Optimization, GRPO）算法（Shao et al., 2024）以及各類并行算法（Ahmadian et al., 2024; Lambert et al., 2024; Xie et al., 2025）。在此基礎上，后續研究引入了眾多算法改進。例如，Dr. GRPO（Liu et al., 2025）通過移除方差歸一化以減輕偏差；DAPO（Yu et al., 2025）引入了詞元級損失函數，并通過提高裁剪閾值放松策略更新約束。其他值得注意的進展包括對裁剪方法、歸一化技術、KL散度損失以及動態采樣策略的改進（Chen et al., 2025b; Chu et al., 2025b; Zhang and Zuo, 2025; Zhang et al., 2025）。盡管存在這些算法變體，這些方法主要仍依賴于最終結果的獎勵信號。當面對困難查詢時，若軌跡采樣（rollout）無法找到正確解路徑，便會引發關鍵挑戰。例如，DAPO（Yu et al., 2025）通過過濾掉無法產生任何成功軌跡的指令來應對這一問題。

3. 預備知識

4. 方法論 4.1. 困難推理問題的挑戰

4.2. 監督強化學習（SRL）

然后使用此獎勵信號優化策略，優化目標為公式 1 中定義的 GRPO 目標函數。值得注意的是，我們的獎勵僅根據邏輯動作計算，而非內心獨白。這使得模型在確保其外部動作與專家策略對齊的同時，擁有靈活性來發展自身的內部推理風格。這種設計提供了密集的、步驟級別的反饋，并支持快速獎勵計算，使 SRL 框架既高效又可擴展。

實驗

5.1 主要結果：數學推理

實驗設置。我們在s1K-1.1數據集（Muennighoff et al., 2025）上對Qwen2.5-7B-Instruct模型（Yang et al., 2024）進行微調。該數據集包含1,000道多樣且具挑戰性的問題，每道問題均附有由DeepSeek R1生成的詳細推理軌跡和最終解答。DeepSeek R1的解答采用結構化、帶編號的步

驟格式（例如，“1. 步驟1標題”）。我們利用此結構，通過解析這些解答并將每個完整步驟視為真實后續內容，來生成中間訓練目標。任何不符合此格式的數據點均被排除。我們從數據集中預留60道問題作為驗證集。

基線方法。我們將所提出的方法與多個基線方法進行對比，所有基線均基于Qwen2.5-7B-Instruct模型初始化。這些基線包括：(i) 對完整推理軌跡（R1推理）或s1K-1.1數據集的最終解答（R1概要）進行監督微調（SFT）；(ii) s1K-7B，即數據集作者發布的官方蒸餾模型；(iii) RLVR，我們使用GRPO算法實現。為確保公平比較，我們采用Yu等人（2025）提出的額外動態采樣方法，該方法會移除所有軌跡采樣結果全對或全錯的樣本。我們以兩種不同設置評估RLVR：直接應用于基礎模型，以及在初始監督微調階段后應用。我們提出的方法SRL同樣以兩種方式評估：作為獨立技術，以及在RLVR之前的順序配置中（SRL后接RLVR）。所有模型最多訓練30輪，并為每種方法選擇驗證集上性能最佳的檢查點。

評估。我們在以下四個競賽級數學推理基準測試上評估所有模型：AMC232、AIME243、AIME25?和Minerva Math（Lewkowycz et al., 2022）。所有基準測試的評估協議嚴格遵循Qwen2.5-Math?設定的方案，并報告貪婪采樣的準確率。此外，針對AMC23、AIME24和AIME25，我們為所有基線方法報告溫度參數為1.0時的average@32分數，以確保評估結果更具魯棒性。

性能表現。我們模型的性能結果總結于表1。與官方發布的S1K-7B模型一致，我們在相同數據集上通過監督微調訓練的模型表現出顯著的性能下降。具體而言，雖然RLVR保持了性能水平，但SRL平均提供了3.0%的顯著提升。此外，在SRL訓練后應用RLVR平均帶來了3.7%的提升，且僅利用了1k訓練數據。

5.2 分析：數學推理

SRL中動態采樣的影響。在表2中，我們分析了SRL中動態采樣組件的影響，該組件基于對軌跡采樣內序列相似性獎勵的標準差進行閾值化處理。對于兩個模型，我們均訓練至訓練獎勵收斂，并根據驗證分數選擇檢查點。我們的結果與DAPO（Yu et al., 2025）的研究發現一致，該研究指出：移除提供零學習信號的樣本對強化學習訓練循環的有效性至關重要，這帶來了顯著的性能提升。

解耦SRL中指導粒度的影響。為將指導粒度的影響與序列相似性獎勵的益處分離，我們將多步方法與兩種簡化的單步基線進行對比：

最終答案獎勵：該基線采用基于GRPO訓練的RLVR，僅依據最終答案的正確性對模型進行獎勵。
整體序列相似性獎勵：模型在單一步驟中生成完整解答，隨后將整個解答與完整的標準軌跡進行相似性評估。

如表3所示，結果突顯了序列相似性獎勵中細粒度指導的價值。盡管整體序列相似性獎勵平均提升了性能，但提供細粒度、逐步指導在各基準測試中帶來了顯著更優的性能。

交錯式推理行為。除取得更優性能外，經SRL訓練的模型還展現出獨特而靈活的推理模式。傳統模型通常在解題起始階段生成單一、整體式的推理段落。相比之下，我們的模型——尤其是經過RLVR微調的模型——能夠動態地將推理步驟與解題生成過程交錯進行。該行為主要體現為三種形式：(1) 前置規劃：在初始階段制定全面計劃，預先勾勒后續所有步驟；(2) 即時調整：在解題過程中插入多個獨立的推理塊，以進行迭代式規劃與調整；(3) 反思性驗證：模型在輸出最終答案前暫停，對自身解答進行反思與驗證。示例1（如下）及附錄中的示例2源自經SRL→RLVR方法訓練的模型，展示了這些涌現的推理模式。

推理長度。我們進一步探究SRL帶來的性能提升是否單純源于推理長度的增加。在圖4中，我們繪制了基礎模型與經SRL微調模型的推理長度分布（即解答中的單詞數量）。觀察發現，兩種分布之間不存在顯著差異。這一結果表明，性能提升源于規劃能力的增強與推理質量的提高，而非推理時單純增加token預算。

5.3. 擴展：軟件工程中的智能體推理

任務。我們將SRL框架擴展至軟件工程領域，訓練智能體解決真實世界的編程問題。此類任務通常在SWE-Bench等基準測試上進行評估（Jimenez et al., 2023），該基準要求智能體與大型代碼庫進行復雜的多輪交互，并對代碼功能進行深度推理。

然而，與數學領域不同，強化學習在軟件工程中的直接在線應用面臨顯著的實際挑戰。這些挑戰包括處理長上下文窗口、環境反饋的高延遲以及補丁驗證速度緩慢（Golubev et al., 2025; Wei et al., 2025）。因此，這些障礙阻礙了穩定且可擴展的端到端強化學習方法的發展，促使當前主流做法轉向收集專家智能體軌跡，并通過監督微調（SFT）將其蒸餾為策略模型（Pan et al., 2024; Yang et al., 2025）。

實驗設置。我們應用SRL對Qwen2.5-Coder-7B-Instruct（Hui et al., 2024）進行進一步微調，該模型已專門針對編碼任務進行優化。我們采用Yang等人（2025）提供的數據集，其中包含5,000條專家智能體軌跡。這些軌跡由claude-3-7-sonnet-20250219（Anthropic, 2025）生成，隨后經過驗證以確保其能產生正確的代碼補丁。

每條軌跡由智能體與編碼環境交互的多個步驟構成。如下方示例所示，單個步驟包含自然語言推理，隨后是一個可執行動作：

與我們的SRL公式化方法一致（第4.2節），我們將"action"（動作）定義為環境可消費的命令（例如bash調用）。基于此分解方式，我們對完整軌跡進行處理，生成了13.4萬個步驟級訓練樣本。為進行驗證，我們預留了30條完整軌跡，并從中整理出包含650個步驟級樣本的驗證集。

評估。我們參照Wei等人（2025）的做法，在兩種不同配置下通過測量模型的解決率（%）來評估其補丁生成性能：(1) Oracle文件編輯評估：向模型提供需修復的Oracle代碼文件。該配置隔離并衡量模型的核心補丁生成能力；(2) 端到端評估：該設置采用Agentless-mini智能體框架（Wei et al., 2025），首先識別需修改的文件，隨后生成補丁。該配置聯合測試模型的故障定位與代碼修復能力。

我們將經SRL訓練的模型與兩個關鍵基線進行對比：原始基礎模型（Qwen2.5-Coder-Instruct）以及SWE-Gym-7B（Pan et al., 2024）。由于SWE-Gym-7B是基于相同基礎模型通過SFT微調得到的模型，這為SFT與我們提出的SRL訓練方法提供了直接且公平的比較基準。如表4所示，SRL顯著優于兩個基線模型。在Oracle設置下，SRL達到了14.8%的解決率，相較強大的SWE-Gym-7B基線實現了74%的相對提升。在更具挑戰性的端到端評估設置中，性能增益同樣保持一致，SRL的性能可達基線的兩倍。

5.4. 討論

最后，我們指出SRL的有效性從根本上取決于學生模型的初始任務熟練度，以及所獲取的步驟級數據與軌跡采樣樣本的質量。一個關鍵前提是：學生模型必須展現出基本的指令遵循能力。這確保了初始軌跡采樣樣本與任務相關且結構正確，從而為學習奠定堅實基礎。此外，盡管我們的步驟級分解方法降低了任務復雜度，但所得數據必須使策略模型能夠以一定概率獲得良好的獎勵。

結論

總之，我們提出了監督強化學習（Supervised Reinforcement Learning, SRL），一種旨在使大語言模型從專家示范中學習復雜推理技能的新方法，尤其適用于傳統強化學習或監督微調方法難以應對的困難問題。通過將專家解答分解為可管理的步驟，并利用密集的序列相似性獎勵，SRL提供了有效的細粒度指導，彌合了模仿學習與強化學習之間的鴻溝。我們的實證結果表明，SRL不僅在數學推理與軟件工程任務中顯著優于基線方法，而且與RLVR結合時還能實現強大的課程學習策略。本工作確立了SRL作為一種魯棒且可泛化的技術，能夠釋放模型從具有挑戰性的多步問題中學習的潛力，為訓練能力更強、適應性更廣的人工智能智能體開辟了道路。

原文鏈接：https://arxiv.org/pdf/2510.25992

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.