<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型SFT后效果≠RL潛力!港科大、阿里提出自適應冷啟動新范式

      0
      分享至



      本文第一作者是來自香港科技大學的博士生李欣然,并由胡張廣達、廈門大學沈思淇副教授、阿里集團陳慶國、徐昭、駱衛華、張凱夫和香港科技大學張軍教授合作完成。

      自 2025 年以來,強化學習(RL)逐漸成為了大語言模型(LLM)后訓練(Post-training)階段的默認范式。大量研究與實踐表明:不依賴海量人工標注,僅靠 RL 就能激發出模型令人驚嘆的復雜推理和長思維鏈(Long-CoT)能力,甚至賦予了模型達成超人類表現的潛力。

      然而,盡管強化學習范式提供了極高的理論上限,許多研究者和開發者在復現 RL 訓練時卻遭遇了現實的問題:如果直接把一個普通的基座模型扔給強化學習算法,由于缺乏方向性的引導,RL 算法往往會像個無頭蒼蠅一樣亂撞,在有限的步數內根本探索不出正確的推理路徑。

      為了解決這個問題,目前的標準做法是:在 RL 之前,先用少量的優質數據進行監督微調(SFT),給模型做一個「冷啟動(Cold-start)」熱身,以此提高 RL 階段的效率。

      但這又引出了一個極具爭議的新問題:冷啟動 SFT 到底要訓練到什么程度?SFT 的分數越高,后續的 RL 效果就一定越好嗎?

      近期,來自香港科技大學、阿里巴巴以及廈門大學的研究團隊,聯合發表了一項已被ICLR 2026接收的重磅研究。他們首次揭示了 SFT 冷啟動階段的一個「致命陷阱」——冷啟后表現最好的 Checkpoint,往往并不對應最大的強化學習潛力

      研究團隊指出,想要模型最終在后訓練整體效果達到最佳,SFT 冷啟階段就不應過度追求測試集準確率,而必須兼顧準確率與多樣性(Diversity)。基于此,團隊提出了一種全新的自適應早停損失函數(AESL),為大模型的 RL 訓練打造了最完美的起跑線。

      目前,該論文的代碼已全面開源。



      • 論文標題:GETTING YOUR LLMS READY FOR REINFORCEMENT LEARNING WITH LIGHTWEIGHT SFT
      • 論文鏈接:https://openreview.net/pdf?id=yezWGJmODg
      • 代碼主頁:https://github.com/LXXXXR/AESL

      一個反直覺的真相:

      「好學生」反而跑不遠?

      在傳統認知里,SFT 的目標是讓模型完美模仿訓練數據。損失(Loss)越低、準確率越高,說明學得越好。但研究團隊發現了一個極度反直覺的現象:把 SFT 階段評估性能最好的 Checkpoint 拿去跑 RL,最終成績往往不是最好的,甚至會倒退!

      為什么會「南轅北轍」?

      研究人員指出,這主要是因為「作為 RL 冷啟動的 SFT」與「單純的 SFT」在核心目標上存在根本分歧。

      在以往只依靠 SFT 的后訓練范式中,目的是盡可能多地從數據集中學習,且數據集往往充足且豐富,因此傳統的交叉熵(CE)損失完美契合這一目標。但在作為 RL 準備的冷啟動階段,情況發生了變化:

      • 數據量有限:過度優化會導致模型過擬合(Overfit),變成單純「背誦」小數據集。
      • 探索與利用的失衡:RL 算法的成功高度依賴于「探索(Exploration)」與「利用(Exploitation)」的平衡。如果模型在進入 RL 階段之前就丟失了輸出的多樣性,RL 階段就會因為探索空間不足,導致最終效果大打折扣。

      我們可以打個比方:基座模型就像是一個充滿想象力但缺乏解題套路的孩子。SFT 冷啟動的目的,是為了教他一些基本的解題格式(比如長思維鏈的思考模式)。但是,如果 SFT 訓練過度,傳統的交叉熵損失函數會強迫模型「死記硬背」演示數據中的每一個細節。模型雖然學會了套路,卻丟失了原本豐富的知識分布和生成多樣性。當這個「做題機器」進入 RL 階段時,它已失去探索新路徑的能力,RL 的上限就被死死鎖住了。



      圖1:研究團隊發現,隨著 SFT 步數的增加,模型在驗證集上的性能(黃線)還在上升,但經過 RL 訓練后的最終潛力(藍線)卻早早開始下滑。

      破局關鍵:

      尋找「多樣性」的黃金拐點

      既然準確率不能作為 SFT 冷啟動停止的標準,那我們該看什么?

      研究團隊將目光投向了「輸出多樣性」,追蹤了模型在冷啟動訓練過程中的熵(Entropy)和 self-BLEU 分數。

      奇妙的現象出現了:在 SFT 的早期,模型在學習新推理格式的同時,還保留著基座的原始知識,此時模型的多樣性會達到一個峰值。而隨著訓練繼續,模型開始過擬合,多樣性迅速暴跌。

      這個多樣性的「黃金拐點」,恰恰就對應著模型 RL 潛力的最高點!





      冷啟動過程中的多樣性指標變化。多樣性達到頂峰的時刻,正是開啟 RL 訓練的最佳時機。

      基于這一洞察,最簡單的改進方法就是「基于多樣性早停(Diversity-based Early Stopping)」。但這還不夠完美,因為「一刀切」的全局早停忽略了一個事實:模型對不同 Token 和不同上下文的掌握速度是完全不同的。

      AESL:深入大模型

      「毛細血管」的自適應冷啟動

      為了實現更靈活、更極致的冷啟動,研究團隊改進了傳統的交叉熵損失,提出了一種全新的輕量級訓練目標——自適應早停損失(Adaptive Early-Stop Loss,簡稱 AESL)。

      AESL 的核心數學表達如下:



      其中的自適應權重定義為:



      AESL 的核心哲學是「因材施教」:它不再盲目要求模型在所有地方都完美擬合演示數據,而是在 Token 和子序列(Subsequence)兩個微觀層面上,動態調節學習的力度。

      • Token 級別的調控

      生成每個詞時,如果模型當前預測概率已經很高,AESL 會自動降低該 Token 的損失權重。就像告訴模型:「這道題你已經會了,不用反復抄寫,保留你原本的直覺吧。」這有效防止了對特定詞匯的過擬合。

      • Subsequence 級別的調控

      AESL 會實時計算當前生成前綴的平均置信度。如果前半句話已經非常符合目標分布,AESL 會在后續生成中放寬限制。就像走迷宮:前面走對了方向,后面就可以大膽探索;前面不確定,后面就老實跟著指示走。

      通過這種精細的動態平衡,AESL 成功地讓模型在「學會長思維鏈推理模式」和「保留基座原始探索能力」之間,找到了完美的平衡點。

      以退為進:更優的 RL 后性能

      研究團隊在極具挑戰性的數學推理任務上進行了大規模實驗。選用了Qwen2.5-7B-Instruct、Qwen2.5-Math-7B 及 Llama-3.1-8B-Instruct作為基座,在 AIME 24/25、AMC 23、MATH-500 等榜單上進行了測試。

      結果令人振奮:無論是在哪種基座模型上,使用 AESL 作為冷啟動策略,其后續經過 RL 訓練的最終性能,全面碾壓了直接 RL、標準 CE 損失 SFT 以及現有的其他前沿方法。AESL 真正做到了「贏在起跑線」。



      在 Qwen2.5 系列模型上,AESL + RL 的組合在各項數學競賽級榜單中均取得了最高平均分。

      此外,研究團隊還測試了不同數據量以及不同難度數據切分下的表現。結果證明,無論數據多寡、無論數據難易,AESL 都能穩定發揮,始終提供優于傳統方法的 RL 潛力。



      不同冷啟動數據量下,AESL都能帶來更好的冷啟動性能



      不同冷啟動數據難度下,AESL都能帶來更好的冷啟動性能

      結語:重塑我們對「后訓練」的認知

      在通往 AGI 的征程上,強化學習(RL)無疑是極具潛力的一條道路,因為它具有其他范式所沒有的「超越人類本身能力」的潛力。

      但比起傳統的監督學習,RL 的過程更加復雜,特別是需要注意探索(Exploration)和利用(Exploitation)的平衡。而探索的能力,本質上來源于模型的基礎能力和它產生多種「Educated Guess(有根據的猜測)」的能力,因此保持輸出多樣性至關重要

      ICLR 2026 的這項研究給我們敲響了警鐘:多樣性的丟失,甚至可能早于 RL 階段的開始。因此,我們需要在后訓練的每一個環節都對多樣性保持敬畏。

      AESL 的提出,不僅僅是一個損失函數的改進,更是一次對 LLM 后訓練范式的認知刷新。它打破了「SFT 擬合越好越好」的迷思,證明了在冷啟動階段,「保持多樣性」比「滿分模仿」在后續的 RL 訓練中更具長期價值。

      未來,我們相信在從 SFT 到 RL 范式的轉變過程中,會有更多的研究去探索這兩種范式帶來的根本不同。而 AESL,無疑為這場探索提供了一個絕佳的起點。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      秋瓷炫透露兒子9月上三年級:很辛苦,要學中韓英三門語言,曾因語言不通,要求“換個會韓語的爸爸”

      秋瓷炫透露兒子9月上三年級:很辛苦,要學中韓英三門語言,曾因語言不通,要求“換個會韓語的爸爸”

      臺州交通廣播
      2026-04-09 00:37:05
      太可憐了!全紅嬋被霸凌,282人微信群聊天曝光,人民日報發聲

      太可憐了!全紅嬋被霸凌,282人微信群聊天曝光,人民日報發聲

      烏娛子醬
      2026-04-08 14:10:45
      哈登21分,騎士贏下一場尷尬的比賽!老鷹無緣逆轉,庫明加24分

      哈登21分,騎士贏下一場尷尬的比賽!老鷹無緣逆轉,庫明加24分

      老梁體育漫談
      2026-04-09 09:39:53
      全紅嬋被集體霸凌,隊友潛伏攻擊全紅嬋內部群,聊天記錄被曝光!

      全紅嬋被集體霸凌,隊友潛伏攻擊全紅嬋內部群,聊天記錄被曝光!

      眼光很亮
      2026-04-08 12:10:03
      歐爾班竟會輸這么多!最新民調:歐爾班將獲得52席,馬扎爾141席

      歐爾班竟會輸這么多!最新民調:歐爾班將獲得52席,馬扎爾141席

      小影的娛樂
      2026-04-09 03:34:59
      掘金10連勝穩西部第三!約基奇198次三雙早早打卡 ESPN曬又一偉業

      掘金10連勝穩西部第三!約基奇198次三雙早早打卡 ESPN曬又一偉業

      顏小白的籃球夢
      2026-04-09 11:18:48
      隨著本澤馬獨造4球+C羅爭冠勁敵6-0碾壓,沙特聯最新積分榜出爐

      隨著本澤馬獨造4球+C羅爭冠勁敵6-0碾壓,沙特聯最新積分榜出爐

      側身凌空斬
      2026-04-09 04:33:45
      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      李橑在北漂
      2026-04-02 10:22:26
      三峽大壩收支出爐:運行20余年,總投資近2500億,如今回本了嗎?

      三峽大壩收支出爐:運行20余年,總投資近2500億,如今回本了嗎?

      丁丁鯉史紀
      2026-04-07 10:44:35
      NBA調查!國王回應故意犯規罰球高手小庫里:戰術失誤而非擺爛

      NBA調查!國王回應故意犯規罰球高手小庫里:戰術失誤而非擺爛

      羅說NBA
      2026-04-09 06:14:42
      又打起來了?以色列無視停火,特朗普惱羞成怒,伊朗點名感謝中國

      又打起來了?以色列無視停火,特朗普惱羞成怒,伊朗點名感謝中國

      古史青云啊
      2026-04-09 09:48:53
      王立群教授:用權力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

      王立群教授:用權力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

      深度知局
      2026-04-08 07:41:14
      有趣的醫學案例:直腸射精!

      有趣的醫學案例:直腸射精!

      黯泉
      2026-04-07 21:58:25
      4周實現100%清除腫瘤!國研TIL療法再傳捷報,狂攻肺癌、腦膠質瘤

      4周實現100%清除腫瘤!國研TIL療法再傳捷報,狂攻肺癌、腦膠質瘤

      無癌家園i
      2026-04-08 12:03:23
      做了連戰馬英九沒敢做的事,鄭麗文專機將飛進北京,島內風向要變

      做了連戰馬英九沒敢做的事,鄭麗文專機將飛進北京,島內風向要變

      共工之錨
      2026-04-09 00:12:56
      曝廣東男籃鎖定救火外援,NBL蓋帽王將加盟,身高2米13場均17+11

      曝廣東男籃鎖定救火外援,NBL蓋帽王將加盟,身高2米13場均17+11

      籃球看比賽
      2026-04-09 10:10:07
      特別巨大是多大

      特別巨大是多大

      言立方
      2026-04-07 12:02:41
      花蚊子入侵中國才不到50年,就讓我們連大樹底下乘涼的資格都沒了

      花蚊子入侵中國才不到50年,就讓我們連大樹底下乘涼的資格都沒了

      阿鳧愛吐槽
      2026-04-08 06:32:40
      國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

      國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

      比利
      2026-01-23 12:41:53
      男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

      男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

      詭譎怪談
      2025-04-01 17:37:59
      2026-04-09 11:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12713文章數 142619關注度
      往期回顧 全部

      科技要聞

      Meta凌晨首發閉源大模型 扎克伯格又行了?

      頭條要聞

      福建45歲女子駕車墜河5人遇難有3名兒童 家屬最新發聲

      頭條要聞

      福建45歲女子駕車墜河5人遇難有3名兒童 家屬最新發聲

      體育要聞

      40歲,但實力倒退12年

      娛樂要聞

      具俊曄最新露面,又黑又瘦情緒低迷

      財經要聞

      談判基礎已被破壞!霍爾木茲海峽關閉

      汽車要聞

      8155芯片+L2智駕 瑞虎5運動版上市 置換補貼價6.79萬元起

      態度原創

      手機
      旅游
      親子
      房產
      公開課

      手機要聞

      蘋果要花3年重新定義iPhone!探索無開孔終極形態

      旅游要聞

      文旅新探|當海棠花遇見小洋樓,天津最美的春天藏在這里

      親子要聞

      如何判斷孩子肚子里有沒有蛔蟲?兒科醫生來教你

      房產要聞

      超級卷王登場!海口首個抬板四代宅,徹底刷新認知!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版