<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      2026開年關鍵詞:Self-Distillation,大模型真正走向持續學習

      0
      分享至



      機器之心編輯部

      2026 年剛拉開序幕,大模型(LLM)領域的研究者們似乎達成了一種默契。

      當你翻開最近 arXiv 上最受關注的幾篇論文,會發現一個高頻出現的詞匯:Self-Distillation

      近年來,基礎模型取得了顯著的成功,為語言、視覺、機器人等領域的 AI 應用提供了強大的支持。

      但在真正落地、長期使用的過程中,研究者逐漸發現:如何讓模型在不斷吸收新知識的同時,不丟失已有的核心能力 —— 即「持續學習」,正成為制約大模型進化的關鍵瓶頸。

      傳統的強教師依賴范式因成本與數據依賴,難以適配高頻的持續進化。Self-Distillation(自蒸餾)隨之成為破局點 ——通過合理的上下文引導或反饋機制,模型完全可以構建出一個比當前權重更聰明的臨時自我,讓模型在沒有外部強教師的情況下實現內生增長。

      基于這一深刻洞察,由 MIT、ETH Zurich、Meta 及斯坦福等頂尖機構組成的緊密學術圈,在 2026 年 1 月密集發布了三項研究成果。

      1.Self-Distillation Enables Continual Learning



      • 論文標題:Self-Distillation Enables Continual Learning
      • 論文鏈接:https://www.alphaxiv.org/abs/2601.19897
      • 代碼鏈接:https://github.com/idanshen/Self-Distillation

      在持續學習領域,傳統的監督微調(SFT)常因「災難性遺忘」備受詬病,它的副作用非常明顯:當你教模型學會一套新的知識,它原有的代碼能力或常識推理往往會發生斷崖式下跌。

      研究團隊提出了一種自蒸餾微調(SDFT)方法,該方法能夠直接從演示中實現基于策略的學習。



      SDFT 機制概覽

      核心機制:該方法假設預訓練模型已具備強大的 ICL 潛力。在學習新知識時,首先構造包含少量專家演示(Few-shot)的上下文,誘導模型生成高質量的教師分布;隨后要求模型在不帶演示的情況下,通過自蒸餾去擬合這一分布。

      技術突破:該方法將持續學習轉化為一個策略內對齊問題。由于訓練信號源于模型自身的 ICL 狀態,它能最大限度地保持模型原始的概率流分布,避免參數在微調過程中產生劇烈漂移,從而解決了監督微調(SFT)中常見的災難性遺忘。



      在技能學習和知識獲取任務中,SDFT 的表現一致優于 SFT:它不僅實現了更高的新任務準確率,還顯著減少了災難性遺忘。在順序學習實驗中,SDFT 使單一模型能夠隨時間累積多種技能而不會出現性能退化,證明了同策略蒸餾是從演示中實現持續學習的一種實用路徑。

      2.Reinforcement Learning via Self-Distillation



      • 論文標題:Reinforcement Learning via Self-Distillation
      • 論文鏈接:https://arxiv.org/pdf/2601.20802
      • 代碼鏈接:https://github.com/lasgroup/SDPO

      目前的強化學習(如 GRPO)通常只能拿到一個二值反饋,這在長程推理中會導致嚴重的「信用分配」問題。此外,在 GRPO 等算法中,如果模型在某組嘗試中全軍覆沒(獎勵均為 0),學習信號就會消失,導致模型進化停滯。

      研究團隊認為,問題的關鍵并不在于強化學習本身,而在于常見的二值反饋信息密度極低,無法為長邏輯鏈條提供精細的指導。

      針對這一困境,研究團隊提出了 SDPO(自蒸餾策略優化) 框架,旨在將環境中的 「富反饋」 轉化為高效的學習信號



      RLVR 與 RLRF 強化學習范式對比

      核心機制:SDPO 引入了 富反饋(Rich Feedback) 環境。當模型生成錯誤答案時,環境會返回具體的報錯信息(如邏輯判讀)。模型將這些報錯信息重新注入上下文,作為一個 「自省教師」 來重新審視并校準之前的錯誤嘗試。

      技術突破:該方法通過自蒸餾機制,將原本模糊的標量獎勵轉化為Token 級的密集監督信號。通過對比 「反饋后分布」 與 「初始分布」 的差異,SDPO 能精準定位導致失敗的關鍵 Token,指引模型降低錯誤路徑的概率,并提高修正后邏輯的置信度。



      在極難任務(左圖)中,SDPO(綠線)展現了極高的采樣效率,僅需約1/3 的嘗試次數(3× speedup)即可達到其他算法的解發現率。而在整體訓練維度上,它能以更少的樣本量快速收斂,在 k=1000 時已能解決70%的困難任務,顯著突破了傳統算法的性能瓶頸。

      在 LiveCodeBench 等競賽級編程測試中,SDPO 展現了驚人的學習效率:它僅需傳統 GRPO 算法1/4 的生成樣本量即可達到同等精度。它證明了即便沒有外部強教師,模型也能通過利用環境反饋進行深度自省,從而打破標量獎勵帶來的進化僵局。

      3.Self-Distilled Reasoner:

      On-Policy Self-Distillation for Large Language Models



      • 論文標題:Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models
      • 論文鏈接:https://arxiv.org/pdf/2601.18734

      在復雜推理任務中,大模型往往面臨搜索空間過大獎勵信號稀疏的問題。盡管強化學習能提升模型上限,但在沒有外部 「強教師」 輔助的在線學習場景中,模型很難在短時間內找到通往正確答案的深層邏輯路徑。

      研究團隊提出了 OPSD(策略內自蒸餾) 框架,通過在同一模型內部構建 「信息不對稱」 來引導自我進化。



      OPSD 框架概覽

      核心機制:該框架將模型配置為兩種狀態。教師策略在輸入中包含 「特權信息」(如標準答案或經過驗證的推理軌跡),能夠產生高質量的 Token 概率分布;而學生策略則在不接觸特權信息的情況下僅憑題目進行作答。

      技術突破:OPSD 采用 策略內(On-Policy)采樣,核心訓練目標是最小化學生分布與教師分布之間的 KL 散度。這種設計強制模型在不借助外部參考的情況下,通過內生分布的對齊,學會如何從題目直接推導出具有邏輯深度的推理鏈路。



      在 MATH 和 GSM8K 等高難度推理基準測試中,OPSD 展現了極高的學習效率:它在 Token 利用率上比傳統的 GRPO 算法高出4-8 倍。實驗證明,SFT 雖然能提供初始方向,但 OPSD 能夠更進一步地挖掘模型內在的“推理潛力”,證明了通過特權信息誘導出的自我博弈,是實現推理能力飛躍的一條捷徑。

      這三篇論文核心邏輯高度一致:利用模型已有的內生能力,通過不同的上下文構造出 「信息差」,從而實現自驅動的閉環升級,Self-Distillation 正在成為大模型后訓練階段(Post-training)的標準配置。

      2026 年,也許我們不再需要教模型怎么變強,只需要給它一個「持續學習」的機會。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      大年初五返程!廣東年輕人直言:這個年,過比上班還累!

      大年初五返程!廣東年輕人直言:這個年,過比上班還累!

      生活魔術專家
      2026-02-21 05:10:19
      凱特王妃絕地反擊!威廉棄白月光選王位,愛情在權力前不堪一擊

      凱特王妃絕地反擊!威廉棄白月光選王位,愛情在權力前不堪一擊

      歷史小胡
      2026-02-20 16:19:15
      看了《鏢人》,才發現吳京最正確的決定,就是換掉女主選擇陳麗君

      看了《鏢人》,才發現吳京最正確的決定,就是換掉女主選擇陳麗君

      斷翼的鳥兒
      2026-02-20 23:15:57
      26.4萬!豐田官宣:新車正式亮相

      26.4萬!豐田官宣:新車正式亮相

      高科技愛好者
      2026-02-20 22:58:44
      寧忠巖擊敗美國速滑之神,美媒沮喪:史上最出色的運動員被重創了

      寧忠巖擊敗美國速滑之神,美媒沮喪:史上最出色的運動員被重創了

      楊華評論
      2026-02-20 02:11:06
      早年的林青霞和第一任男友趙寧的一張留影,那時候她剛情竇初開。

      早年的林青霞和第一任男友趙寧的一張留影,那時候她剛情竇初開。

      陳意小可愛
      2026-02-21 13:29:29
      7連勝到手!趙心童迎生死戰,或追平3名中國球員紀錄,連奪2冠?

      7連勝到手!趙心童迎生死戰,或追平3名中國球員紀錄,連奪2冠?

      劉姚堯的文字城堡
      2026-02-21 10:12:45
      下一個吃餅中鋒?莫布利:我在學習哈登如何指揮內線

      下一個吃餅中鋒?莫布利:我在學習哈登如何指揮內線

      大眼瞄世界
      2026-02-20 15:40:32
      俄外交部:日本出資為烏軍采購的裝備將成為俄軍的合法目標

      俄外交部:日本出資為烏軍采購的裝備將成為俄軍的合法目標

      俄羅斯衛星通訊社
      2026-02-20 15:30:33
      震驚,北京知名建筑裝飾公司暴雷了!

      震驚,北京知名建筑裝飾公司暴雷了!

      黯泉
      2026-02-20 21:21:41
      米蘭冬奧會賽程全掌握!一鍵收藏,觀賽不迷路→

      米蘭冬奧會賽程全掌握!一鍵收藏,觀賽不迷路→

      海外網
      2026-02-04 15:03:52
      崔永熙+四外援齊亮相!廣東男籃正式集結 杜鋒朱芳雨發紅包引關注

      崔永熙+四外援齊亮相!廣東男籃正式集結 杜鋒朱芳雨發紅包引關注

      狼叔評論
      2026-02-21 12:22:03
      吳京又賭對了!《鏢人》票房口碑井噴,越劇小花一出場引全場驚呼

      吳京又賭對了!《鏢人》票房口碑井噴,越劇小花一出場引全場驚呼

      動物奇奇怪怪
      2026-02-21 13:27:29
      張藝謀新片帶火深圳!有觀眾留“后遺癥”:看見垃圾桶就想掏

      張藝謀新片帶火深圳!有觀眾留“后遺癥”:看見垃圾桶就想掏

      南方都市報
      2026-02-21 11:52:41
      評測:以色列武器工業公司Zion-15短管步槍 最理想的萬能武器?

      評測:以色列武器工業公司Zion-15短管步槍 最理想的萬能武器?

      hawk26講武堂
      2026-02-20 12:19:15
      湖南新化6名消防員隨車墜崖犧牲,當地村民:事發處山路又彎又陡,車頭變形嚴重,多人步行抬擔架救援

      湖南新化6名消防員隨車墜崖犧牲,當地村民:事發處山路又彎又陡,車頭變形嚴重,多人步行抬擔架救援

      極目新聞
      2026-02-20 15:48:20
      2026年人口大遷徙地圖出爐,未來半數國人將涌入這五大核心圈

      2026年人口大遷徙地圖出爐,未來半數國人將涌入這五大核心圈

      老特有話說
      2026-02-20 12:34:15
      中國打造重機槍,不小心犯一個低級錯誤,結果卻意外造就世界之最

      中國打造重機槍,不小心犯一個低級錯誤,結果卻意外造就世界之最

      墨蘭史書
      2026-02-08 16:55:05
      日本,一個發達國家,為何把日子過成“全民還債”的困局?

      日本,一個發達國家,為何把日子過成“全民還債”的困局?

      包明說
      2026-02-13 13:03:50
      官方實錘!那藝娜被認定劣跡藝人,演出許可直接撤銷

      官方實錘!那藝娜被認定劣跡藝人,演出許可直接撤銷

      陳意小可愛
      2026-02-21 10:51:17
      2026-02-21 14:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12325文章數 142569關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      夫婦撿到裝20多個紅包帆布袋:4個孩子7萬多的壓歲錢

      頭條要聞

      夫婦撿到裝20多個紅包帆布袋:4個孩子7萬多的壓歲錢

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      游戲
      教育
      藝術
      旅游
      軍事航空

      老任意外泄露重磅消息!《DOOM黑暗時代》或登NS2

      教育要聞

      一個教師的2026年“不做清單”

      藝術要聞

      史洪生油畫作品

      旅游要聞

      可當天往返!鄭州周邊適合春節自駕游的7個好去處!

      軍事要聞

      硬核揭秘!福建艦“一馬當先”底氣何在

      無障礙瀏覽 進入關懷版