![]()
機器之心編輯部
2026 年剛拉開序幕,大模型(LLM)領域的研究者們似乎達成了一種默契。
當你翻開最近 arXiv 上最受關注的幾篇論文,會發現一個高頻出現的詞匯:Self-Distillation
近年來,基礎模型取得了顯著的成功,為語言、視覺、機器人等領域的 AI 應用提供了強大的支持。
但在真正落地、長期使用的過程中,研究者逐漸發現:如何讓模型在不斷吸收新知識的同時,不丟失已有的核心能力 —— 即「持續學習」,正成為制約大模型進化的關鍵瓶頸。
傳統的強教師依賴范式因成本與數據依賴,難以適配高頻的持續進化。Self-Distillation(自蒸餾)隨之成為破局點 ——通過合理的上下文引導或反饋機制,模型完全可以構建出一個比當前權重更聰明的臨時自我,讓模型在沒有外部強教師的情況下實現內生增長。
基于這一深刻洞察,由 MIT、ETH Zurich、Meta 及斯坦福等頂尖機構組成的緊密學術圈,在 2026 年 1 月密集發布了三項研究成果。
1.Self-Distillation Enables Continual Learning
![]()
- 論文標題:Self-Distillation Enables Continual Learning
- 論文鏈接:https://www.alphaxiv.org/abs/2601.19897
- 代碼鏈接:https://github.com/idanshen/Self-Distillation
在持續學習領域,傳統的監督微調(SFT)常因「災難性遺忘」備受詬病,它的副作用非常明顯:當你教模型學會一套新的知識,它原有的代碼能力或常識推理往往會發生斷崖式下跌。
研究團隊提出了一種自蒸餾微調(SDFT)方法,該方法能夠直接從演示中實現基于策略的學習。
![]()
SDFT 機制概覽
核心機制:該方法假設預訓練模型已具備強大的 ICL 潛力。在學習新知識時,首先構造包含少量專家演示(Few-shot)的上下文,誘導模型生成高質量的教師分布;隨后要求模型在不帶演示的情況下,通過自蒸餾去擬合這一分布。
技術突破:該方法將持續學習轉化為一個策略內對齊問題。由于訓練信號源于模型自身的 ICL 狀態,它能最大限度地保持模型原始的概率流分布,避免參數在微調過程中產生劇烈漂移,從而解決了監督微調(SFT)中常見的災難性遺忘。
![]()
在技能學習和知識獲取任務中,SDFT 的表現一致優于 SFT:它不僅實現了更高的新任務準確率,還顯著減少了災難性遺忘。在順序學習實驗中,SDFT 使單一模型能夠隨時間累積多種技能而不會出現性能退化,證明了同策略蒸餾是從演示中實現持續學習的一種實用路徑。
2.Reinforcement Learning via Self-Distillation
![]()
- 論文標題:Reinforcement Learning via Self-Distillation
- 論文鏈接:https://arxiv.org/pdf/2601.20802
- 代碼鏈接:https://github.com/lasgroup/SDPO
目前的強化學習(如 GRPO)通常只能拿到一個二值反饋,這在長程推理中會導致嚴重的「信用分配」問題。此外,在 GRPO 等算法中,如果模型在某組嘗試中全軍覆沒(獎勵均為 0),學習信號就會消失,導致模型進化停滯。
研究團隊認為,問題的關鍵并不在于強化學習本身,而在于常見的二值反饋信息密度極低,無法為長邏輯鏈條提供精細的指導。
針對這一困境,研究團隊提出了 SDPO(自蒸餾策略優化) 框架,旨在將環境中的 「富反饋」 轉化為高效的學習信號
![]()
RLVR 與 RLRF 強化學習范式對比
核心機制:SDPO 引入了 富反饋(Rich Feedback) 環境。當模型生成錯誤答案時,環境會返回具體的報錯信息(如邏輯判讀)。模型將這些報錯信息重新注入上下文,作為一個 「自省教師」 來重新審視并校準之前的錯誤嘗試。
技術突破:該方法通過自蒸餾機制,將原本模糊的標量獎勵轉化為Token 級的密集監督信號。通過對比 「反饋后分布」 與 「初始分布」 的差異,SDPO 能精準定位導致失敗的關鍵 Token,指引模型降低錯誤路徑的概率,并提高修正后邏輯的置信度。
![]()
在極難任務(左圖)中,SDPO(綠線)展現了極高的采樣效率,僅需約1/3 的嘗試次數(3× speedup)即可達到其他算法的解發現率。而在整體訓練維度上,它能以更少的樣本量快速收斂,在 k=1000 時已能解決70%的困難任務,顯著突破了傳統算法的性能瓶頸。
在 LiveCodeBench 等競賽級編程測試中,SDPO 展現了驚人的學習效率:它僅需傳統 GRPO 算法1/4 的生成樣本量即可達到同等精度。它證明了即便沒有外部強教師,模型也能通過利用環境反饋進行深度自省,從而打破標量獎勵帶來的進化僵局。
3.Self-Distilled Reasoner:
On-Policy Self-Distillation for Large Language Models
![]()
- 論文標題:Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models
- 論文鏈接:https://arxiv.org/pdf/2601.18734
在復雜推理任務中,大模型往往面臨搜索空間過大獎勵信號稀疏的問題。盡管強化學習能提升模型上限,但在沒有外部 「強教師」 輔助的在線學習場景中,模型很難在短時間內找到通往正確答案的深層邏輯路徑。
研究團隊提出了 OPSD(策略內自蒸餾) 框架,通過在同一模型內部構建 「信息不對稱」 來引導自我進化。
![]()
OPSD 框架概覽
核心機制:該框架將模型配置為兩種狀態。教師策略在輸入中包含 「特權信息」(如標準答案或經過驗證的推理軌跡),能夠產生高質量的 Token 概率分布;而學生策略則在不接觸特權信息的情況下僅憑題目進行作答。
技術突破:OPSD 采用 策略內(On-Policy)采樣,核心訓練目標是最小化學生分布與教師分布之間的 KL 散度。這種設計強制模型在不借助外部參考的情況下,通過內生分布的對齊,學會如何從題目直接推導出具有邏輯深度的推理鏈路。
![]()
在 MATH 和 GSM8K 等高難度推理基準測試中,OPSD 展現了極高的學習效率:它在 Token 利用率上比傳統的 GRPO 算法高出4-8 倍。實驗證明,SFT 雖然能提供初始方向,但 OPSD 能夠更進一步地挖掘模型內在的“推理潛力”,證明了通過特權信息誘導出的自我博弈,是實現推理能力飛躍的一條捷徑。
這三篇論文核心邏輯高度一致:利用模型已有的內生能力,通過不同的上下文構造出 「信息差」,從而實現自驅動的閉環升級,Self-Distillation 正在成為大模型后訓練階段(Post-training)的標準配置。
2026 年,也許我們不再需要教模型怎么變強,只需要給它一個「持續學習」的機會。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.