網易首頁 > 網易號 > 正文申請入駐

大模型SFT后效果≠RL潛力！港科大、阿里提出自適應冷啟動新范式

2026-04-07 13:37:51　來源: 機器之心Pro

河北舉報

分享至

本文第一作者是來自香港科技大學的博士生李欣然，并由胡張廣達、廈門大學沈思淇副教授、阿里集團陳慶國、徐昭、駱衛華、張凱夫和香港科技大學張軍教授合作完成。

自 2025 年以來，強化學習（RL）逐漸成為了大語言模型（LLM）后訓練（Post-training）階段的默認范式。大量研究與實踐表明：不依賴海量人工標注，僅靠 RL 就能激發出模型令人驚嘆的復雜推理和長思維鏈（Long-CoT）能力，甚至賦予了模型達成超人類表現的潛力。

然而，盡管強化學習范式提供了極高的理論上限，許多研究者和開發者在復現 RL 訓練時卻遭遇了現實的問題：如果直接把一個普通的基座模型扔給強化學習算法，由于缺乏方向性的引導，RL 算法往往會像個無頭蒼蠅一樣亂撞，在有限的步數內根本探索不出正確的推理路徑。

為了解決這個問題，目前的標準做法是：在 RL 之前，先用少量的優質數據進行監督微調（SFT），給模型做一個「冷啟動（Cold-start）」熱身，以此提高 RL 階段的效率。

但這又引出了一個極具爭議的新問題：冷啟動 SFT 到底要訓練到什么程度？SFT 的分數越高，后續的 RL 效果就一定越好嗎？

近期，來自香港科技大學、阿里巴巴以及廈門大學的研究團隊，聯合發表了一項已被ICLR 2026接收的重磅研究。他們首次揭示了 SFT 冷啟動階段的一個「致命陷阱」——冷啟后表現最好的 Checkpoint，往往并不對應最大的強化學習潛力

研究團隊指出，想要模型最終在后訓練整體效果達到最佳，SFT 冷啟階段就不應過度追求測試集準確率，而必須兼顧準確率與多樣性（Diversity）。基于此，團隊提出了一種全新的自適應早停損失函數（AESL），為大模型的 RL 訓練打造了最完美的起跑線。

目前，該論文的代碼已全面開源。

論文標題：GETTING YOUR LLMS READY FOR REINFORCEMENT LEARNING WITH LIGHTWEIGHT SFT
論文鏈接：https://openreview.net/pdf?id=yezWGJmODg
代碼主頁：https://github.com/LXXXXR/AESL

一個反直覺的真相：

「好學生」反而跑不遠？

在傳統認知里，SFT 的目標是讓模型完美模仿訓練數據。損失（Loss）越低、準確率越高，說明學得越好。但研究團隊發現了一個極度反直覺的現象：把 SFT 階段評估性能最好的 Checkpoint 拿去跑 RL，最終成績往往不是最好的，甚至會倒退！

為什么會「南轅北轍」？

研究人員指出，這主要是因為「作為 RL 冷啟動的 SFT」與「單純的 SFT」在核心目標上存在根本分歧。

在以往只依靠 SFT 的后訓練范式中，目的是盡可能多地從數據集中學習，且數據集往往充足且豐富，因此傳統的交叉熵（CE）損失完美契合這一目標。但在作為 RL 準備的冷啟動階段，情況發生了變化：

數據量有限：過度優化會導致模型過擬合（Overfit），變成單純「背誦」小數據集。
探索與利用的失衡：RL 算法的成功高度依賴于「探索（Exploration）」與「利用（Exploitation）」的平衡。如果模型在進入 RL 階段之前就丟失了輸出的多樣性，RL 階段就會因為探索空間不足，導致最終效果大打折扣。

我們可以打個比方：基座模型就像是一個充滿想象力但缺乏解題套路的孩子。SFT 冷啟動的目的，是為了教他一些基本的解題格式（比如長思維鏈的思考模式）。但是，如果 SFT 訓練過度，傳統的交叉熵損失函數會強迫模型「死記硬背」演示數據中的每一個細節。模型雖然學會了套路，卻丟失了原本豐富的知識分布和生成多樣性。當這個「做題機器」進入 RL 階段時，它已失去探索新路徑的能力，RL 的上限就被死死鎖住了。

圖1：研究團隊發現，隨著 SFT 步數的增加，模型在驗證集上的性能（黃線）還在上升，但經過 RL 訓練后的最終潛力（藍線）卻早早開始下滑。

破局關鍵：

尋找「多樣性」的黃金拐點

既然準確率不能作為 SFT 冷啟動停止的標準，那我們該看什么？

研究團隊將目光投向了「輸出多樣性」，追蹤了模型在冷啟動訓練過程中的熵（Entropy）和 self-BLEU 分數。

奇妙的現象出現了：在 SFT 的早期，模型在學習新推理格式的同時，還保留著基座的原始知識，此時模型的多樣性會達到一個峰值。而隨著訓練繼續，模型開始過擬合，多樣性迅速暴跌。

這個多樣性的「黃金拐點」，恰恰就對應著模型 RL 潛力的最高點！

冷啟動過程中的多樣性指標變化。多樣性達到頂峰的時刻，正是開啟 RL 訓練的最佳時機。

基于這一洞察，最簡單的改進方法就是「基于多樣性早停（Diversity-based Early Stopping）」。但這還不夠完美，因為「一刀切」的全局早停忽略了一個事實：模型對不同 Token 和不同上下文的掌握速度是完全不同的。

AESL：深入大模型

「毛細血管」的自適應冷啟動

為了實現更靈活、更極致的冷啟動，研究團隊改進了傳統的交叉熵損失，提出了一種全新的輕量級訓練目標——自適應早停損失（Adaptive Early-Stop Loss，簡稱 AESL）。

AESL 的核心數學表達如下：

其中的自適應權重定義為：

AESL 的核心哲學是「因材施教」：它不再盲目要求模型在所有地方都完美擬合演示數據，而是在 Token 和子序列（Subsequence）兩個微觀層面上，動態調節學習的力度。

Token 級別的調控

生成每個詞時，如果模型當前預測概率已經很高，AESL 會自動降低該 Token 的損失權重。就像告訴模型：「這道題你已經會了，不用反復抄寫，保留你原本的直覺吧。」這有效防止了對特定詞匯的過擬合。

Subsequence 級別的調控

AESL 會實時計算當前生成前綴的平均置信度。如果前半句話已經非常符合目標分布，AESL 會在后續生成中放寬限制。就像走迷宮：前面走對了方向，后面就可以大膽探索；前面不確定，后面就老實跟著指示走。

通過這種精細的動態平衡，AESL 成功地讓模型在「學會長思維鏈推理模式」和「保留基座原始探索能力」之間，找到了完美的平衡點。

以退為進：更優的 RL 后性能

研究團隊在極具挑戰性的數學推理任務上進行了大規模實驗。選用了Qwen2.5-7B-Instruct、Qwen2.5-Math-7B 及 Llama-3.1-8B-Instruct作為基座，在 AIME 24/25、AMC 23、MATH-500 等榜單上進行了測試。

結果令人振奮：無論是在哪種基座模型上，使用 AESL 作為冷啟動策略，其后續經過 RL 訓練的最終性能，全面碾壓了直接 RL、標準 CE 損失 SFT 以及現有的其他前沿方法。AESL 真正做到了「贏在起跑線」。

在 Qwen2.5 系列模型上，AESL + RL 的組合在各項數學競賽級榜單中均取得了最高平均分。

此外，研究團隊還測試了不同數據量以及不同難度數據切分下的表現。結果證明，無論數據多寡、無論數據難易，AESL 都能穩定發揮，始終提供優于傳統方法的 RL 潛力。

不同冷啟動數據量下，AESL都能帶來更好的冷啟動性能

不同冷啟動數據難度下，AESL都能帶來更好的冷啟動性能

結語：重塑我們對「后訓練」的認知

在通往 AGI 的征程上，強化學習（RL）無疑是極具潛力的一條道路，因為它具有其他范式所沒有的「超越人類本身能力」的潛力。

但比起傳統的監督學習，RL 的過程更加復雜，特別是需要注意探索（Exploration）和利用（Exploitation）的平衡。而探索的能力，本質上來源于模型的基礎能力和它產生多種「Educated Guess（有根據的猜測）」的能力，因此保持輸出多樣性至關重要

ICLR 2026 的這項研究給我們敲響了警鐘：多樣性的丟失，甚至可能早于 RL 階段的開始。因此，我們需要在后訓練的每一個環節都對多樣性保持敬畏。

AESL 的提出，不僅僅是一個損失函數的改進，更是一次對 LLM 后訓練范式的認知刷新。它打破了「SFT 擬合越好越好」的迷思，證明了在冷啟動階段，「保持多樣性」比「滿分模仿」在后續的 RL 訓練中更具長期價值。

未來，我們相信在從 SFT 到 RL 范式的轉變過程中，會有更多的研究去探索這兩種范式帶來的根本不同。而 AESL，無疑為這場探索提供了一個絕佳的起點。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.