網易首頁 > 網易號 > 正文申請入駐

2026開年關鍵詞：Self-Distillation，大模型真正走向持續學習

2026-02-10 14:10:22　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

2026 年剛拉開序幕，大模型（LLM）領域的研究者們似乎達成了一種默契。

當你翻開最近 arXiv 上最受關注的幾篇論文，會發現一個高頻出現的詞匯：Self-Distillation

近年來，基礎模型取得了顯著的成功，為語言、視覺、機器人等領域的 AI 應用提供了強大的支持。

但在真正落地、長期使用的過程中，研究者逐漸發現：如何讓模型在不斷吸收新知識的同時，不丟失已有的核心能力 —— 即「持續學習」，正成為制約大模型進化的關鍵瓶頸。

傳統的強教師依賴范式因成本與數據依賴，難以適配高頻的持續進化。Self-Distillation（自蒸餾）隨之成為破局點 ——通過合理的上下文引導或反饋機制，模型完全可以構建出一個比當前權重更聰明的臨時自我，讓模型在沒有外部強教師的情況下實現內生增長。

基于這一深刻洞察，由 MIT、ETH Zurich、Meta 及斯坦福等頂尖機構組成的緊密學術圈，在 2026 年 1 月密集發布了三項研究成果。

1.Self-Distillation Enables Continual Learning

論文標題：Self-Distillation Enables Continual Learning
論文鏈接：https://www.alphaxiv.org/abs/2601.19897
代碼鏈接：https://github.com/idanshen/Self-Distillation

在持續學習領域，傳統的監督微調（SFT）常因「災難性遺忘」備受詬病，它的副作用非常明顯：當你教模型學會一套新的知識，它原有的代碼能力或常識推理往往會發生斷崖式下跌。

研究團隊提出了一種自蒸餾微調（SDFT）方法，該方法能夠直接從演示中實現基于策略的學習。

SDFT 機制概覽

核心機制：該方法假設預訓練模型已具備強大的 ICL 潛力。在學習新知識時，首先構造包含少量專家演示（Few-shot）的上下文，誘導模型生成高質量的教師分布；隨后要求模型在不帶演示的情況下，通過自蒸餾去擬合這一分布。

技術突破：該方法將持續學習轉化為一個策略內對齊問題。由于訓練信號源于模型自身的 ICL 狀態，它能最大限度地保持模型原始的概率流分布，避免參數在微調過程中產生劇烈漂移，從而解決了監督微調（SFT）中常見的災難性遺忘。

在技能學習和知識獲取任務中，SDFT 的表現一致優于 SFT：它不僅實現了更高的新任務準確率，還顯著減少了災難性遺忘。在順序學習實驗中，SDFT 使單一模型能夠隨時間累積多種技能而不會出現性能退化，證明了同策略蒸餾是從演示中實現持續學習的一種實用路徑。

2.Reinforcement Learning via Self-Distillation

論文標題：Reinforcement Learning via Self-Distillation
論文鏈接：https://arxiv.org/pdf/2601.20802
代碼鏈接：https://github.com/lasgroup/SDPO

目前的強化學習（如 GRPO）通常只能拿到一個二值反饋，這在長程推理中會導致嚴重的「信用分配」問題。此外，在 GRPO 等算法中，如果模型在某組嘗試中全軍覆沒（獎勵均為 0），學習信號就會消失，導致模型進化停滯。

研究團隊認為，問題的關鍵并不在于強化學習本身，而在于常見的二值反饋信息密度極低，無法為長邏輯鏈條提供精細的指導。

針對這一困境，研究團隊提出了 SDPO（自蒸餾策略優化）框架，旨在將環境中的「富反饋」轉化為高效的學習信號

RLVR 與 RLRF 強化學習范式對比

核心機制：SDPO 引入了富反饋（Rich Feedback）環境。當模型生成錯誤答案時，環境會返回具體的報錯信息（如邏輯判讀）。模型將這些報錯信息重新注入上下文，作為一個「自省教師」來重新審視并校準之前的錯誤嘗試。

技術突破：該方法通過自蒸餾機制，將原本模糊的標量獎勵轉化為Token 級的密集監督信號。通過對比「反饋后分布」與「初始分布」的差異，SDPO 能精準定位導致失敗的關鍵 Token，指引模型降低錯誤路徑的概率，并提高修正后邏輯的置信度。

在極難任務（左圖）中，SDPO（綠線）展現了極高的采樣效率，僅需約1/3 的嘗試次數（3× speedup）即可達到其他算法的解發現率。而在整體訓練維度上，它能以更少的樣本量快速收斂，在 k=1000 時已能解決70%的困難任務，顯著突破了傳統算法的性能瓶頸。

在 LiveCodeBench 等競賽級編程測試中，SDPO 展現了驚人的學習效率：它僅需傳統 GRPO 算法1/4 的生成樣本量即可達到同等精度。它證明了即便沒有外部強教師，模型也能通過利用環境反饋進行深度自省，從而打破標量獎勵帶來的進化僵局。

3.Self-Distilled Reasoner:

On-Policy Self-Distillation for Large Language Models

論文標題：Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models
論文鏈接：https://arxiv.org/pdf/2601.18734

在復雜推理任務中，大模型往往面臨搜索空間過大獎勵信號稀疏的問題。盡管強化學習能提升模型上限，但在沒有外部「強教師」輔助的在線學習場景中，模型很難在短時間內找到通往正確答案的深層邏輯路徑。

研究團隊提出了 OPSD（策略內自蒸餾）框架，通過在同一模型內部構建「信息不對稱」來引導自我進化。

OPSD 框架概覽

核心機制：該框架將模型配置為兩種狀態。教師策略在輸入中包含「特權信息」（如標準答案或經過驗證的推理軌跡），能夠產生高質量的 Token 概率分布；而學生策略則在不接觸特權信息的情況下僅憑題目進行作答。

技術突破：OPSD 采用策略內（On-Policy）采樣，核心訓練目標是最小化學生分布與教師分布之間的 KL 散度。這種設計強制模型在不借助外部參考的情況下，通過內生分布的對齊，學會如何從題目直接推導出具有邏輯深度的推理鏈路。

在 MATH 和 GSM8K 等高難度推理基準測試中，OPSD 展現了極高的學習效率：它在 Token 利用率上比傳統的 GRPO 算法高出4-8 倍。實驗證明，SFT 雖然能提供初始方向，但 OPSD 能夠更進一步地挖掘模型內在的“推理潛力”，證明了通過特權信息誘導出的自我博弈，是實現推理能力飛躍的一條捷徑。

這三篇論文核心邏輯高度一致：利用模型已有的內生能力，通過不同的上下文構造出「信息差」，從而實現自驅動的閉環升級，Self-Distillation 正在成為大模型后訓練階段（Post-training）的標準配置。

2026 年，也許我們不再需要教模型怎么變強，只需要給它一個「持續學習」的機會。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.