網易首頁 > 網易號 > 正文申請入駐

ProRL：延長強化學習突破大語言模型推理極限

2026-02-06 00:05:12　來源: CreateAMind

上海舉報

分享至

ProRL：延長強化學習突破大語言模型推理極限

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

https://arxiv.org/pdf/2505.24864

摘要

推理中心化語言模型的最新進展凸顯了強化學習（RL）作為一種有前景的方法，可用于將模型與可驗證獎勵進行對齊。然而，關于RL是否真正擴展了模型的推理能力，還是僅僅放大了基礎模型分布中已經潛在的高獎勵輸出，以及持續擴大RL計算規模是否能可靠地提升推理性能，這些問題仍存在爭議。在本研究中，我們通過實驗證明，延長RL（ProRL）訓練可以發現基礎模型無法觸及的新型推理策略，即使進行大量采樣也無法獲得。我們提出了ProRL，一種新穎的訓練方法，結合了KL散度控制、參考策略重置以及多樣化的任務套件。我們的實證分析表明，經過RL訓練的模型在各種pass@k評估中始終優于基礎模型，包括在基礎模型無論嘗試多少次都完全失敗的場景中。我們進一步證明，推理邊界的提升與基礎模型的任務能力和訓練時長密切相關，這表明RL能夠隨著時間的推移探索和填充解空間的新區域。這些發現為RL在何種條件下能夠有意義地擴展語言模型的推理邊界提供了新的見解，并為未來關于推理的長程RL研究奠定了基礎。我們發布了模型權重以支持進一步研究：https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B

1 引言

以OpenAI-O1 [1]和DeepSeek-R1 [2]為代表的推理聚焦語言模型的最新進展，通過擴展測試時計算標志著人工智能領域的范式轉變。具體而言，測試時擴展實現了長形式思維鏈（CoT）思考，并誘導出復雜的推理行為，從而在數學問題求解 [3-6] 和代碼生成 [7, 8] 等復雜任務上取得了顯著改進。通過在推理過程中持續消耗計算資源——通過探索、驗證和回溯——模型以生成更長推理軌跡為代價提升了性能。

這些進展的核心在于強化學習（RL），它已成為發展復雜推理能力的關鍵工具。通過針對可驗證的目標獎勵而非學習得到的獎勵模型進行優化，基于RL的系統可以緩解獎勵作弊 [9-11] 的陷阱，并與正確的推理過程更緊密地對齊。然而，一個根本性問題仍在研究界積極爭論中：強化學習是否真正解鎖了基礎模型的新推理能力，還是僅僅優化了已嵌入基礎模型中的解決方案的采樣效率？

近期研究 [13-15] 支持后者觀點，聲稱基于pass@k指標，RL訓練模型并未獲得超出其基礎模型已有能力的新的推理能力。我們認為，這些結論可能源于方法論限制，而非RL方法本身的根本局限。具體而言，我們識別出現有研究中的兩個關鍵限制：（1）過度依賴數學等專業領域，模型通常在預訓練和后訓練階段都經過過度訓練，從而限制了探索的潛力；（2）在模型能夠充分探索和發展新推理能力之前就過早終止RL訓練，通常基于有限的RL訓練量，不超過數百個步驟 [13]。

在本研究中，我們通過幾項關鍵貢獻來解決這些限制。首先，我們提出了ProRL，一種旨在實現延長RL訓練周期的方案，以促進對推理策略的更深入探索。它實現了超過2k個訓練步驟，并在多樣化任務中擴展訓練數據——從傳統的數學和代碼任務到STEM問題、邏輯謎題和指令遵循，我們假設這些對于泛化至關重要。使用ProRL，我們開發了Nemotron-Research-Reasoning-Qwen-1.5B，這是世界上最好的1.5B推理模型，顯著優于其基礎模型DeepSeek-R1-1.5B，并在各種基準測試中達到甚至超越了DeepSeek-R1-7B的性能。值得注意的是，與DeepSeek-R1-1.5B相比，我們在數學基準測試上實現了平均14.7%的pass@1提升，代碼13.9%，邏輯謎題54.8%，STEM推理25.1%，指令遵循任務18.1%（圖1，右）。更重要的是，ProRL在前所未有的2k個訓練步驟后仍持續展示性能改進（圖1，左），表明RL訓練隨著計算增加而有效擴展。

此外，Nemotron-Research-Reasoning-Qwen-1.5B提供了令人驚訝的新見解——當給予足夠的訓練時間并應用于新穎的推理任務時，RL確實可以發現基礎模型中完全不存在的新解決方案路徑。通過全面分析，我們表明我們的模型生成新穎的見解，并在日益困難和域外任務上表現異常出色，表明其推理能力真正超越了初始訓練。最引人注目的是，我們識別出許多任務，其中基礎模型無論采樣多少次都無法產生任何正確解決方案，而我們的RL訓練模型實現了100%的通過率（圖4）。有趣的是，我們發現RL在每個任務上的增益量可以通過基礎模型的性能來預測——RL在基礎模型初始表現困難的領域中最為有效地擴展了模型的推理邊界。此外，我們使用創造力指數 [12] 量化了模型推理軌跡的新穎性，該指數衡量與預訓練語料庫的重疊程度。我們發現延長RL訓練導致具有更高新穎性的軌跡（圖1，中），表明RL期間出現了新的推理模式。

我們的發現對更廣泛的AI社區具有重要影響，證明RL方法確實可以在不需要額外訓練數據的情況下增強模型能力。通過持續探索，模型可以發展出可能超越人類見解的新知識和推理策略。這項工作重申了強化學習作為通向更有能力和更可泛化AI系統途徑的價值，挑戰了關于這些方法固有局限性的先前假設。

2 ProRL：延長強化學習

我們首先簡要概述GRPO [16]算法。然后，我們通過引入KL散度懲罰和參考策略的周期性重置，來解決延長RL訓練中的關鍵挑戰，如熵崩潰和不穩定性。這確保了跨多個epoch的穩定訓練和持續的性能提升。

2.1 背景：組相對策略優化

我們采用組相對策略優化（GRPO）[16]作為核心RL算法。與近端策略優化（PPO）[17]相比，它移除了價值模型，轉而使用基于組分數的基線估計。形式上，GRPO最大化以下目標：

2.2 延長強化學習（ProRL） 2.2.1 緩解熵崩潰

延長策略優化中的一個關鍵挑戰是熵崩潰，這是一種現象，即模型的輸出分布在訓練早期變得過于尖銳，導致熵急劇降低。當熵崩潰發生時，策略過早地局限于狹窄的輸出生成范圍，嚴重限制了探索。這在GRPO等方法中尤其有害，因為學習信號依賴于擁有多樣化的采樣輸出來有效估計相對優勢。沒有足夠的探索，策略更新會變得有偏，導致訓練停滯。

一種常見的緩解策略是在rollout過程中增加采樣溫度。然而，我們發現這種方法只是延遲了熵崩潰的發生，而非完全阻止它，因為隨著訓練進行，熵持續穩步下降。盡管如此，我們確實采用了高rollout溫度，因為它通過增加初始熵來鼓勵探索。

2.3 解耦裁剪與動態采樣策略優化（DAPO）

為了解決熵崩潰問題，我們采用了DAPO算法 [4] 的幾個組件，這些組件專門設計用于維持探索和輸出多樣性。首先，DAPO引入了解耦裁剪，其中PPO目標中的下裁剪界和上裁剪界被視為獨立的超參數：

此外，DAPO采用動態采樣，過濾掉模型始終成功或始終失敗的提示（即準確率1或0），因為這些提示不提供學習信號。這種對中等難度示例的關注進一步有助于在訓練期間維持多樣化的學習信號。

2.3.1 KL正則化與參考策略重置

這一懲罰不僅有助于維持熵，還作為正則化器防止在線策略偏離穩定參考點過遠，從而穩定學習并緩解對虛假獎勵信號的過擬合。

近期研究 [4, 7, 5, 18] 主張移除KL懲罰，理由是模型在思維鏈推理任務訓練期間會自然發散。我們觀察到，這種觀點通常適用于未經任何監督微調的基礎模型。相比之下，我們從一個已經能夠生成連貫CoT輸出的良好初始化檢查點（DeepSeek-R1-Distill-Qwen-1.5B）開始。在這種情況下，保留KL懲罰對穩定性和持續熵仍然有益。

3 Nemotron-Research-Reasoning-Qwen-1.5B：世界上最好的1.5B推理模型

我們推出了Nemotron-Research-Reasoning-Qwen-1.5B，這是一個通過強化學習在涵蓋數學、代碼、STEM、邏輯謎題和指令遵循的136K問題的多樣化、可驗證數據集上訓練的通用模型。利用穩定的獎勵計算、改進的GRPO和延長訓練，我們的模型在各個領域實現了強大的泛化能力。它在數學上比DeepSeek-R1-Distill-Qwen-1.5B高出+15.7%，代碼+14.4%，STEM+25.9%，指令遵循+22.0%，基于文本的邏輯謎題Reasoning Gym1+54.8%。它還超越了數學（+4.6%）和代碼（+6.5%）領域的專業基線，證明了通用延長RL訓練的有效性。

3.1 訓練數據集

我們構建了一個多樣化且可驗證的訓練數據集，涵蓋五個任務領域的136K個示例：數學、代碼、STEM、邏輯謎題和指令遵循，以實現從廣泛推理問題中進行穩健的強化學習。每種任務類型都配有清晰的獎勵信號（二元或連續），允許在訓練期間提供可靠的反饋。這種廣泛的任務覆蓋鼓勵了超越狹窄領域的泛化，并使得能夠在多樣化獎勵結構中對RL算法進行有意義的比較。訓練數據集組成的詳細信息見附錄D。

3.2 訓練設置

3.3 ProRL訓練動態

為了實現有效的長程強化學習，我們使用從評估基準派生的混合驗證集來監控訓練進度。當驗證性能停滯或下降時，我們對參考模型和優化器執行硬重置。這不僅恢復了訓練穩定性，還促進了策略與基礎模型的更大發散。在訓練的大部分時間里，我們將響應長度限制在8k token以保持簡潔和穩定的生成。在最后階段（約200步），我們將上下文窗口增加到16k token，觀察到模型快速適應并實現了可測量的改進。我們在附錄E中詳細介紹了我們的訓練方案。

圖2展示了在多個階段的擴展強化學習過程中訓練動態的關鍵統計數據。通過應用DAPO [4]提出的各種增強方法，以及引入KL散度損失，模型成功避免了熵崩潰。盡管我們觀察到平均響應長度與驗證分數之間存在正相關關系，但這一因素似乎并非決定性的，因為在某些訓練階段中，性能的提升并不需要更長的響應。與此同時，驗證性能（通過pass@1和pass@16衡量）隨著訓練計算量的增加而持續改進和擴展。

3.4 評估

評估基準。 我們在數學、編程、推理和指令遵循等多個任務領域對模型進行評估。對于數學任務，我們遵循DeepScaleR [3]和SimpleRL [21]的做法，在AIME2024 [22]、AIME2025 [23]、AMC [24]（由AMC2022和AMC2023組成）、MATH [25]、Minerva Math [26]和Olympiad Bench [27]上進行評估。對于編程任務，我們使用PRIME [28]的驗證集，包括APPS [29]、Codecontests [30]、Codeforces2和TACO [31]。我們還加入了HumanevalPlus [32]和LiveCodeBench [33]基準測試。對于邏輯謎題，我們從每個推理健身房任務中預留100個樣本作為測試數據集進行評估。此外，我們使用GPQA Diamond [34]和IFEval [35]的精選子集3來評估模型在STEM推理和指令遵循方面的能力 [36]。

評估設置。 我們使用vllm [37]作為推理后端，采樣溫度為0.6，采用核采樣 [38]，top_p = 0.95，最大響應長度為32k。對于數學、編程和STEM推理任務，我們從每個基準測試提示的16個樣本中基于嚴格二元獎勵估計pass@1。對于其他任務（邏輯謎題和指令遵循），我們基于規則驗證器計算平均連續獎勵分數。我們使用自己的評估設置對開源模型進行評估并報告基準測試結果。

評估結果。 我們提供了DeepSeek-R1-Distill-Qwen-1.5B與我們最終模型Nemotron-Research-Reasoning-Qwen-1.5B在多個領域的詳細對比。在表1所示的數學領域，我們的模型在各個基準測試上始終優于基礎模型，平均提升15.7%。在表2所示的編程領域結果中，我們的最終模型在競爭性編程任務中以pass@1準確率超越基礎模型14.4%。我們的模型在STEM推理和指令遵循方面也表現出顯著提升，GPQA Diamond提升25.9%，IFEval提升22.0%。盡管基礎模型在格式處理和具有挑戰性的子任務上存在困難，但我們的模型在訓練后在Reasoning Gym邏輯謎題上實現了高準確率，獎勵提升54.8%。即使與更大的模型DeepSeek-R1-Distill-Qwen-7B相比，我們的模型在多個領域也達到了相當甚至更好的性能。

對OOD任務的泛化。 在表3中，我們還展示了Reasoning Gym中分布外（OOD）任務的結果。我們的模型在三個OOD任務上顯示出顯著改進，證明了在訓練分布之外的強大泛化能力。這凸顯了我們的訓練方法在使模型適應并在未見挑戰上表現良好的有效性。

與領域專用模型的比較。 我們將Nemotron-Research-Reasoning-Qwen-1.5B與兩個領域專用基線進行比較：專為數學推理定制的DeepScaleR-1.5B [3]，以及專注于競爭性編程任務的DeepCoder-1.5B [7]。我們的ProRL訓練模型實現了強大的泛化能力，在數學（+4.6%）和編程（+6.5%）基準測試上均取得了更優的pass@1分數。此外，ProRL能夠在有限的響應長度內進行更深入的探索和優化，而先前的工作往往過早增加訓練響應長度，導致"過度思考" [39]和冗長的推理。

4 分析：ProRL是否激發新的推理模式？

為了評估延長ProRL訓練是否能在基礎模型之外增強推理能力，我們將推理樣本增加到256并重新評估性能。由于計算資源限制，我們從96個Reasoning Gym任務中隨機選擇18個，并重新運行所有其他基準測試：數學、編程、STEM推理和指令遵循。我們比較了基礎模型（DeepSeek-R1-Distilled-1.5B）、中間檢查點以及Nemotron-Research-Reasoning-Qwen-1.5B（延長訓練后的最終模型）。

4.1 起點越弱，ProRL收益越強

我們研究的一個關鍵發現是，強化學習在擴展模型推理邊界（以pass@128衡量）方面的有效性受到基礎模型初始能力的強烈影響。如圖3所示，我們觀察到基礎模型的推理邊界與RL訓練后推理改進程度之間存在顯著的負相關關系。具體而言，基礎模型已經表現良好的任務（即高pass@128）在RL后往往表現出最小甚至負面的推理廣度增益。這表明推理邊界正在收窄，模型對其已理解的解決方案子集變得更加自信，而非探索新的推理模式。相比之下，在基礎模型表現困難的領域，特別是初始pass@128較低的任務中，RL訓練最為有效。在這種情況下，ProRL不僅提高了pass@1，還擴展了模型探索和成功應對更廣泛推理路徑的能力。

為了進一步證實我們的直覺——即RL后收益最小的任務是基礎模型已經熟悉的任務——我們計算了基礎模型對每個任務響應的創造力指數 [40]，并與最大的開源預訓練語料庫DOLMA [41]進行對比。創造力指數量化了模型響應與預訓練語料之間的重疊程度。圓圈中突出顯示的一些數學和編程任務往往具有較低的創造力指數，表明基礎模型在預訓練期間已經見過大量類似數據。

4.2 解析ProRL的推理邊界：減弱、平臺期和持續收益

我們分析了各個基準測試的性能趨勢，并根據pass@k在訓練過程中的演變情況進行分類。我們的分析表明，強化學習可以有意義地擴展模型的推理能力，特別是在超出基礎模型能力的挑戰性任務上。雖然某些任務表現出早期飽和甚至推理廣度回歸，但我們也觀察到模型推理能力隨著持續訓練而擴展的明顯實例。最值得注意的是，在某些領域如代碼生成中，ProRL實現了持續收益，表明延長訓練使模型能夠探索并內化更復雜的推理模式。這證明，在適當條件下，ProRL可以將模型的推理能力前沿推向超越基礎模型所達到的水平。

推理邊界減弱在某些基準測試中（特別是在數學領域），與基礎模型相比，Nemotron-Research-Reasoning-Qwen-1.5B表現出推理能力的下降或不變，這與先前工作[13]的觀察結果一致。盡管pass@1有所提升，但反映更廣泛推理能力的pass@128分數往往下降。這些任務通常具有較高的基線pass@128，表明基礎模型已經具備足夠的推理能力，而RL訓練僅僅是以犧牲探索和泛化為代價來銳化輸出分布。

RL帶來的收益趨于平臺期對于這些任務，RL訓練同時提升了pass@1和pass@128，表明推理能力得到改善。然而，這些收益主要在訓練早期實現。對比中間檢查點和最終檢查點顯示，ProRL幾乎未提供額外收益，意味著模型對這些任務的學習潛力很快達到飽和。

ProRL帶來的持續收益相比之下，在某些基準測試中，特別是更復雜的任務如編程領域，Nemotron-Research-Reasoning-Qwen-1.5B隨著RL訓練的延長顯示出推理能力的持續提升。這些任務可能需要在訓練期間對多樣化的問題實例進行廣泛探索，才能有效泛化到測試集。在這種情況下，ProRL擴展了模型的推理邊界。

4.3 ProRL增強分布外推理能力

我們重點研究ProRL如何影響模型在其訓練數據分布之外進行泛化的能力。這些研究旨在分離延長RL更新在擴展模型推理邊界方面的作用，特別是在初始訓練期間未遇到的結構新穎或語義具有挑戰性的任務上。

分布外（OOD）任務我們在訓練期間未見過的Reasoning Gym任務boxnet上評估模型。如圖5所示（示例見附錄C.3），基礎模型表現出無法解決該任務的能力。相比之下，使用ProRL訓練的模型展現出顯著的問題解決能力，表明模型的推理邊界明顯擴展，能夠泛化到訓練期間未見的分布外任務。此外，當比較中間RL檢查點與最終延長RL模型時，我們觀察到延長訓練在所有k值上持續保持并放大了性能收益。這些結果進一步支持了ProRL使模型能夠內化抽象推理模式的結論，這些模式能夠泛化到特定的訓練分布或復雜度水平之外。

增加任務難度我們通過生成具有不同節點數量的圖問題，在graph_color任務（示例見附錄C.1）的不同難度級別上評估性能。雖然訓練數據僅包含大小為10的圖，但我們在更大的圖上進行測試以評估超出訓練范圍的泛化能力。圖6繪制了不同模型的pass@1（實線）和pass@128（虛線）。結果顯示，隨著任務難度增加，性能持續下降，考慮到解空間的組合增長，這是預期的。然而，與基礎模型和中間模型相比，我們的延長RL模型在所有圖大小上保持了顯著更高的準確率。這表明延長RL更新不僅提高了分布內任務的pass@1，還增強了模型對更復雜、未見過場景的魯棒性。

4.4 隨著ProRL的推進，pass@1分布如何演變？

Dang等人[14]推導出了pass@k的數學上界：

其中表示任務 x 的 pass@1 準確率。雖然提高預期 pass@1 會提升這個上界，但更高的方差會降低它。與[14]觀察到的訓練期間 pass@k 下降相反，我們在圖1中的結果顯示 pass@1 和 pass@16 均持續改進，復現了 OpenAI O1 RL 訓練[42]中報告的擴展定律模式。我們的 ProRL 方法在多樣化任務中產生了顯著的性能提升。圖7(a)和7(b)展示了編程和邏輯謎題任務中顯著的分布右移。最初集中在零附近且具有長尾分布的 pass@1 分布在訓練后發生了顯著演變。Codeforces 問題在訓練后表現出更廣泛的分布模式，而 family_relationships 任務（示例見附錄C.2）作為一種新穎的推理挑戰，展示了從主要為零準確率到峰值達到完美準確率的戲劇性轉變，表明在大多數提示上成功發現了解決方案。這些由延長 RL 訓練驅動的顯著分布變化，在預期 pass@1 方面產生了足夠的改進，以克服方差增加帶來的任何負面影響。

5 相關工作

推理模型 推理模型代表了一類專門的人工智能系統，它們在生成最終答案之前會進行詳細的、長鏈的思維過程，這一概念最初由 OpenAI 的 o1 系列模型 [43] 引入。隨后，DeepSeek [2] 和 Kimi [44] 詳細介紹了使用可驗證獎勵的強化學習（RLVR）訓練推理模型的方法。這兩種方法都普及了 GRPO [16]、鏡像下降 [45]、RLOO [46] 等 RL 算法及其他變體。雖然眾多開源工作嘗試復現 o1 類模型，但大多數專注于單一領域 [3, 7, 6] 或研究測試時計算擴展 [47]，很少涉及延長強化學習訓練或考察 RL 訓練時間擴展定律。正如強化學習界廣泛認可的，RL 訓練由于對超參數的敏感性 [48] 而帶來重大挑戰。各種強化學習技術 [5, 4] 已被研究用于增強訓練穩定性以實現持續優化周期。我們的研究表明，實現延長 RL 訓練可以顯著擴展這些模型的推理能力邊界。

RL 推理邊界 實現超人類表現一直是機器學習的圣杯，強化學習算法成功地實現了這一期望，始于用于 Atari 游戲的 DeepQ 網絡 [49, 50]。最近，AlphaGo 和 AlphaZero [51] 表明，AI 智能體可以通過在蒙特卡洛樹搜索數據收集和策略改進之間持續迭代來無限提升性能。這些例子表明，RL 訓練幫助智能體發展出基礎模型中不存在的新技術 [52-56]。然而，對這一觀點提出挑戰的是，最近幾項研究質疑 RL 訓練是否真正增強了 LLM 的推理能力。一項工作 [13] 認為 RLVR 方法未能擴展這一能力，pass@k 指標顯示與基礎模型相比沒有改進甚至在某些情況下惡化，其他研究人員 [14] 也呼應了這一趨勢。同樣，另一項工作 [15] 發現 RL 算法傾向于收斂到主導輸出分布，僅僅放大現有的預訓練模式。除了 pass@k 指標，替代測量如創造力指數 [12] 也可以確定模型是否通過 RL 訓練學習到新思想，我們在研究中采用了這一方法。

6 結論

在本工作中，我們探討了強化學習是否真正能擴展語言模型的推理邊界。通過引入 ProRL，我們提供了令人信服的證據，表明延長且穩定的 RL 訓練能夠發展出超越基礎模型初始能力的新穎推理模式。

ProRL 結合了 KL 散度懲罰和周期性參考策略重置，以在長時間內保持訓練穩定性。使用這一方法，我們開發了一個最先進的 15 億參數通用推理模型，在涵蓋數學、編程、STEM、邏輯謎題和指令遵循任務的多樣化數據集上進行訓練。我們的分析揭示，ProRL 在基礎模型初始表現困難的任務上尤為有效。最重要的是，ProRL 實現了對分布外任務和日益復雜問題的強泛化能力，證明延長 RL 訓練幫助模型內化可遷移到訓練分布之外的抽象推理模式。

這些結果挑戰了先前關于 RL 局限性的假設，并確立了通過適當技術進行充分訓練時間可以有意義地擴展推理邊界，為開發更強大的推理模型提供了有價值的方向。

原文鏈接：https://arxiv.org/pdf/2505.24864

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.