![]()
本文第一作者是來自香港科技大學的博士生李欣然,并由胡張廣達、廈門大學沈思淇副教授、阿里集團陳慶國、徐昭、駱衛華、張凱夫和香港科技大學張軍教授合作完成。
自 2025 年以來,強化學習(RL)逐漸成為了大語言模型(LLM)后訓練(Post-training)階段的默認范式。大量研究與實踐表明:不依賴海量人工標注,僅靠 RL 就能激發出模型令人驚嘆的復雜推理和長思維鏈(Long-CoT)能力,甚至賦予了模型達成超人類表現的潛力。
然而,盡管強化學習范式提供了極高的理論上限,許多研究者和開發者在復現 RL 訓練時卻遭遇了現實的問題:如果直接把一個普通的基座模型扔給強化學習算法,由于缺乏方向性的引導,RL 算法往往會像個無頭蒼蠅一樣亂撞,在有限的步數內根本探索不出正確的推理路徑。
為了解決這個問題,目前的標準做法是:在 RL 之前,先用少量的優質數據進行監督微調(SFT),給模型做一個「冷啟動(Cold-start)」熱身,以此提高 RL 階段的效率。
但這又引出了一個極具爭議的新問題:冷啟動 SFT 到底要訓練到什么程度?SFT 的分數越高,后續的 RL 效果就一定越好嗎?
近期,來自香港科技大學、阿里巴巴以及廈門大學的研究團隊,聯合發表了一項已被ICLR 2026接收的重磅研究。他們首次揭示了 SFT 冷啟動階段的一個「致命陷阱」——冷啟后表現最好的 Checkpoint,往往并不對應最大的強化學習潛力
研究團隊指出,想要模型最終在后訓練整體效果達到最佳,SFT 冷啟階段就不應過度追求測試集準確率,而必須兼顧準確率與多樣性(Diversity)。基于此,團隊提出了一種全新的自適應早停損失函數(AESL),為大模型的 RL 訓練打造了最完美的起跑線。
目前,該論文的代碼已全面開源。
![]()
- 論文標題:GETTING YOUR LLMS READY FOR REINFORCEMENT LEARNING WITH LIGHTWEIGHT SFT
- 論文鏈接:https://openreview.net/pdf?id=yezWGJmODg
- 代碼主頁:https://github.com/LXXXXR/AESL
一個反直覺的真相:
「好學生」反而跑不遠?
在傳統認知里,SFT 的目標是讓模型完美模仿訓練數據。損失(Loss)越低、準確率越高,說明學得越好。但研究團隊發現了一個極度反直覺的現象:把 SFT 階段評估性能最好的 Checkpoint 拿去跑 RL,最終成績往往不是最好的,甚至會倒退!
為什么會「南轅北轍」?
研究人員指出,這主要是因為「作為 RL 冷啟動的 SFT」與「單純的 SFT」在核心目標上存在根本分歧。
在以往只依靠 SFT 的后訓練范式中,目的是盡可能多地從數據集中學習,且數據集往往充足且豐富,因此傳統的交叉熵(CE)損失完美契合這一目標。但在作為 RL 準備的冷啟動階段,情況發生了變化:
- 數據量有限:過度優化會導致模型過擬合(Overfit),變成單純「背誦」小數據集。
- 探索與利用的失衡:RL 算法的成功高度依賴于「探索(Exploration)」與「利用(Exploitation)」的平衡。如果模型在進入 RL 階段之前就丟失了輸出的多樣性,RL 階段就會因為探索空間不足,導致最終效果大打折扣。
我們可以打個比方:基座模型就像是一個充滿想象力但缺乏解題套路的孩子。SFT 冷啟動的目的,是為了教他一些基本的解題格式(比如長思維鏈的思考模式)。但是,如果 SFT 訓練過度,傳統的交叉熵損失函數會強迫模型「死記硬背」演示數據中的每一個細節。模型雖然學會了套路,卻丟失了原本豐富的知識分布和生成多樣性。當這個「做題機器」進入 RL 階段時,它已失去探索新路徑的能力,RL 的上限就被死死鎖住了。
![]()
圖1:研究團隊發現,隨著 SFT 步數的增加,模型在驗證集上的性能(黃線)還在上升,但經過 RL 訓練后的最終潛力(藍線)卻早早開始下滑。
破局關鍵:
尋找「多樣性」的黃金拐點
既然準確率不能作為 SFT 冷啟動停止的標準,那我們該看什么?
研究團隊將目光投向了「輸出多樣性」,追蹤了模型在冷啟動訓練過程中的熵(Entropy)和 self-BLEU 分數。
奇妙的現象出現了:在 SFT 的早期,模型在學習新推理格式的同時,還保留著基座的原始知識,此時模型的多樣性會達到一個峰值。而隨著訓練繼續,模型開始過擬合,多樣性迅速暴跌。
這個多樣性的「黃金拐點」,恰恰就對應著模型 RL 潛力的最高點!
![]()
![]()
冷啟動過程中的多樣性指標變化。多樣性達到頂峰的時刻,正是開啟 RL 訓練的最佳時機。
基于這一洞察,最簡單的改進方法就是「基于多樣性早停(Diversity-based Early Stopping)」。但這還不夠完美,因為「一刀切」的全局早停忽略了一個事實:模型對不同 Token 和不同上下文的掌握速度是完全不同的。
AESL:深入大模型
「毛細血管」的自適應冷啟動
為了實現更靈活、更極致的冷啟動,研究團隊改進了傳統的交叉熵損失,提出了一種全新的輕量級訓練目標——自適應早停損失(Adaptive Early-Stop Loss,簡稱 AESL)。
AESL 的核心數學表達如下:
![]()
其中的自適應權重定義為:
![]()
AESL 的核心哲學是「因材施教」:它不再盲目要求模型在所有地方都完美擬合演示數據,而是在 Token 和子序列(Subsequence)兩個微觀層面上,動態調節學習的力度。
- Token 級別的調控
生成每個詞時,如果模型當前預測概率已經很高,AESL 會自動降低該 Token 的損失權重。就像告訴模型:「這道題你已經會了,不用反復抄寫,保留你原本的直覺吧。」這有效防止了對特定詞匯的過擬合。
- Subsequence 級別的調控
AESL 會實時計算當前生成前綴的平均置信度。如果前半句話已經非常符合目標分布,AESL 會在后續生成中放寬限制。就像走迷宮:前面走對了方向,后面就可以大膽探索;前面不確定,后面就老實跟著指示走。
通過這種精細的動態平衡,AESL 成功地讓模型在「學會長思維鏈推理模式」和「保留基座原始探索能力」之間,找到了完美的平衡點。
以退為進:更優的 RL 后性能
研究團隊在極具挑戰性的數學推理任務上進行了大規模實驗。選用了Qwen2.5-7B-Instruct、Qwen2.5-Math-7B 及 Llama-3.1-8B-Instruct作為基座,在 AIME 24/25、AMC 23、MATH-500 等榜單上進行了測試。
結果令人振奮:無論是在哪種基座模型上,使用 AESL 作為冷啟動策略,其后續經過 RL 訓練的最終性能,全面碾壓了直接 RL、標準 CE 損失 SFT 以及現有的其他前沿方法。AESL 真正做到了「贏在起跑線」。
![]()
在 Qwen2.5 系列模型上,AESL + RL 的組合在各項數學競賽級榜單中均取得了最高平均分。
此外,研究團隊還測試了不同數據量以及不同難度數據切分下的表現。結果證明,無論數據多寡、無論數據難易,AESL 都能穩定發揮,始終提供優于傳統方法的 RL 潛力。
![]()
不同冷啟動數據量下,AESL都能帶來更好的冷啟動性能
![]()
不同冷啟動數據難度下,AESL都能帶來更好的冷啟動性能
結語:重塑我們對「后訓練」的認知
在通往 AGI 的征程上,強化學習(RL)無疑是極具潛力的一條道路,因為它具有其他范式所沒有的「超越人類本身能力」的潛力。
但比起傳統的監督學習,RL 的過程更加復雜,特別是需要注意探索(Exploration)和利用(Exploitation)的平衡。而探索的能力,本質上來源于模型的基礎能力和它產生多種「Educated Guess(有根據的猜測)」的能力,因此保持輸出多樣性至關重要
ICLR 2026 的這項研究給我們敲響了警鐘:多樣性的丟失,甚至可能早于 RL 階段的開始。因此,我們需要在后訓練的每一個環節都對多樣性保持敬畏。
AESL 的提出,不僅僅是一個損失函數的改進,更是一次對 LLM 后訓練范式的認知刷新。它打破了「SFT 擬合越好越好」的迷思,證明了在冷啟動階段,「保持多樣性」比「滿分模仿」在后續的 RL 訓練中更具長期價值。
未來,我們相信在從 SFT 到 RL 范式的轉變過程中,會有更多的研究去探索這兩種范式帶來的根本不同。而 AESL,無疑為這場探索提供了一個絕佳的起點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.