![]()
從 DeepSeek-R1 到 Kimi K2.5,強化學習(RL)后訓練已經成為提升大模型推理能力的核心手段。
但一個關鍵問題始終懸而未決:RL 后訓練的 Scaling 行為到底遵循什么規律?能否像預訓練 Scaling Law 那樣,給定模型參數量、計算預算和數據量,就能定量預測 RL 后訓練所能達到的性能?又能否像預訓練 Scaling Law 那樣,為實踐者指明一條清晰的擴展路徑?
來自中國科學技術大學和上海人工智能實驗室等機構的研究團隊給出了系統性的回答。團隊在 Qwen2.5 全系列密集模型(0.5B–72B)上開展了大規模 RL 訓練實證研究,并在 Llama 3 系列(1B–70B)上完成了跨架構驗證,首次全面刻畫了大模型強化學習后訓練在數學推理任務上的 Scaling 行為,提出了一套能夠預測模型學習效率與訓練軌跡的冪律公式。
目前該工作已被 ACL 2026 主會議接收。
![]()
- 論文地址:https://arxiv.org/abs/2509.25300
- 代碼鏈接:https://github.com/tanzelin430/Mathematical-Reasoning-RL-Scaling-Law
- 數據集:https://huggingface.co/datasets/Artemis0430/GURU-MATH-CL
預訓練有 Scaling Law,RL 后訓練呢?
Scaling Law 的故事并不陌生。OpenAI 早在 2020 年便揭示了預訓練階段的 Scaling 法則,證明模型性能隨參數量、數據量和計算量的增長呈現可預測的冪律關系,奠定了現代大模型「規模即力量」的范式基礎。
然而,當訓練范式從預訓練 / 監督微調階段延伸到強化學習后訓練時,這套 Scaling 規律便難以直接套用。RL 的核心目標是通過策略優化來最大化獎勵,而非最小化 next-token prediction 的交叉熵損失,其訓練動態、數據利用方式和計算消耗模式都與預訓練有著本質區別。
這意味著,要理解 RL 后訓練的 Scaling 行為,需要回到實驗中去,重新建立屬于 RL 自身的經驗規律。
研究團隊選擇數學推理作為實驗平臺,原因在于數學任務具有天然的答案可驗證性,能夠為 RL 提供精確的獎勵信號,是當前 RL 后訓練最成熟的基準場景。在此基礎上,團隊圍繞計算受限、數據受限和數據重用三種典型場景展開了大規模受控實驗。
實驗設計與評測框架
為確保結論的魯棒性,研究團隊在實驗設計上做了充分的控制。
模型方面,主實驗覆蓋了 Qwen2.5 全系列 Dense 模型(0.5B 至 72B),共享相同架構,確保模型規模是唯一變量。
同時,為了保證 Scaling Law 的通用性,研究人員還在 Llama 3 系列(1B 至 70B)上進行了跨架構驗證。訓練統一采用 VeRL 分布式 RL 平臺和 GRPO 算法,每個配置重復 3 次,覆蓋 Base 和 Instruct 兩種模型變體,以保證統計可靠性。
訓練數據來自 guru-RL-92k 數據集的數學子集(約 5.4 萬道題,由 OR1、DeepScaler、DAPO 三個數據集組成),按難度排序實現課程學習。
評測方面,研究團隊定義測試損失 L = 1 - Pass@1 作為核心指標,以期與預訓練 Scaling Law 文獻中的 test loss 概念對齊。域內評測基于 500 道保持原始難度分布的數學題用于擬合 Scaling Law,跨領域評測則覆蓋數學、代碼、邏輯、科學等 8 個 benchmark 共約 3000 道題。
基于這套實驗框架,研究團隊得到了三個關鍵發現。
核心發現
發現一:具有 RL 性能預測能力 Scaling Law
研究的核心發現是一個簡潔而強大的 scaling 公式。模型的測試損失 L 與訓練資源 X(計算量 C 或數據量 D)之間存在對數線性關系:
![]()
其中,k (N) 是模型在強化學習后訓練階段的學習效率,它隨模型參數量 N 單調遞增。
實驗表明,該 Scaling 公式不僅能高精度擬合已有數據(R2 > 0.99),并且具備實際的預測能力,具體體現在兩個方面。
- 跨模型外推(Inter-model Extrapolation):該 Scaling Law 支持利用小參數量模型的訓練數據來預測更大參數量模型的訓練軌跡。以本文為例,研究人員基于 0.5B 至 32B 模型的實驗數據擬合公式參數后,可直接預測 72B 模型的完整訓練曲線,且預測所得的學習效率等關鍵指標與 72B 模型的實際表現高度吻合。
這意味著,研究人員只需通過小模型實驗,便能預判大模型的訓練走向,從而大幅降低試錯成本。
![]()
圖 (1).Scaling Law 的擬合與跨模型外推能力
- 訓練軌跡預測(Intra-model Prediction):該 Scaling Law 同樣支持對單一模型訓練過程的走勢預測。研究人員僅需使用訓練早期約 20%–30% 的數據點,便可準確外推出模型在完整數據集上的最終收斂性能。
這意味著,無需等待訓練全程結束,研究人員便能大致預判模型的收斂走向,從而為訓練過程中的資源分配與早停決策提供直接的指導依據,有效降低不必要的算力消耗。
![]()
![]()
圖 (2).Scaling Law 的擬合與模型內軌跡預測能力
需要特別指出的是,這一公式在 Compute(C)和 Data(D)兩個維度上具有統一的函數形式,即無論以算力還是數據量作為自變量,性能的 scaling 行為都遵循相同的數學結構。這種理論一致性為公式的可靠性提供了額外支撐。
發現二:學習效率的飽和趨勢
為了更精確的研究 Scaling Law,研究團隊對強化學習效率 k (N) 也進行了大量實證分析。
研究發現,更大的模型的確會學得更快。從 0.5B 到 72B,學習效率系數 k (N) 持續增長。但關鍵在于:這種增長并非線性的,而是逐漸趨于飽和。據此現象,研究團隊將強化學習的學習效率 k (N) 建模為
![]()
![]()
![]()
圖 (3). 強化學習后訓練的學習效率隨模型參數量的變化趨勢
這在實驗中表現為一個有趣的「性能交叉」現象,如圖 1.(a) 所示,在等量計算預算下,32B 模型在訓練初期的表現甚至優于 72B,因為更小的模型在相同計算量下能完成更多訓練步數。
研究團隊認為該現象揭示了一個關鍵的隱性權衡,即在計算受限的場景下,盲目堆大模型未必是最優策略。在有限預算內,找到模型規模和訓練步數之間的平衡點,可能比簡單地選擇最大模型更為明智。這一發現為 RL 后訓練的資源分配提供了重要的定量依據。
發現三:數據重用是有效策略
在探究 Scaling Law 之外,團隊還對在 RL 中一個非常實際的問題進行了探究:反復使用同一批數據訓練效果如何?數據重用是否會對訓練軌跡和最終性能造成顯著影響?
![]()
![]()
圖 (4). 數據重用對強化學習訓練軌跡的影響
![]()
研究團隊證實,在高質量推理數據有限的場景下,適度的數據重用是一種低成本、高回報的訓練策略。無需費力搜集更多數據,反復利用現有的高質量數據即可獲得接近等價的訓練效果,且不會對訓練軌跡造成明顯的偏差。
Scaling Law 的跨架構驗證
以上發現均基于 Qwen2.5 系列。一個自然的問題是:這些 scaling 行為是特定架構的產物,還是 RL 后訓練的普遍規律?
為此,研究團隊在Llama 3 模型族(Llama-3.2-1B/3B-Instruct、Llama-3.1-8B/70B-Instruct)上重復了完整實驗。
結果表明,同一冪律公式在 Llama 上同樣成立,且擬合后與實際訓練數據點的 R2 > 0.99。盡管 Llama 在訓練后的絕對性能上低于 Qwen,但scaling 關系的函數形式完全一致,k (N) 的飽和趨勢也保持不變。
![]()
圖 (5).Scaling Law 在 Llama 系列模型上的擬合效果
這一跨架構驗證確認了研究團隊所揭示的 Scaling Law 刻畫的是 RL 后訓練優化過程本身的內在規律,而非特定模型架構的特性。無論底層架構如何,只要采用相同的 RL 后訓練范式,性能的 scaling 行為就遵循統一的數學描述。
總結
這項工作的核心貢獻在于,通過對 Qwen2.5 和 Llama 3 兩個模型家族上的所有參數量級模型進行實證分析,為 RL 后訓練建立了系統性的 scaling 理論框架,并給出了可預測強化學習訓練軌跡的數學公式(Scaling Law)。
對于正在用 RL 提升大模型推理能力的研究者和工程師來說,這篇論文提供了一套可量化、可預測、可指導實踐的分析框架。而效率飽和這一發現,也在提醒我們:scale up 是有力的手段,但不是萬能的,理解 scaling 的邊界,才能更聰明地 scale。
作者介紹
本文由中國科學技術大學聯合上海人工智能實驗室、牛津大學等多家機構研究者合作完成。主要作者為上海人工智能實驗室聯培博士譚澤霖、牛津大學研究員耿鶴嘉等。其中論文第一作者譚澤霖是中科大與上海人工智能實驗室聯合培養博士生,其研究方向主要為智能體強化學習和機器學習系統。導師為白磊研究員,該篇文章由上海人工智能實驗室青年研究員張晨、牛津大學博后尹榛菲博士聯合執導。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.