<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      SFT遠(yuǎn)不如RL?永不過時(shí)的剃刀原則打開終身學(xué)習(xí)大模型訓(xùn)練的大門

      0
      分享至



      機(jī)器之心報(bào)道

      編輯:冷貓

      我們已經(jīng)進(jìn)入了大模型時(shí)代,越來(lái)越多的應(yīng)用依賴大模型的能力,可以說(shuō)大模型已經(jīng)成為智能化基礎(chǔ)設(shè)施的核心組成部分,支撐著語(yǔ)言,視覺分析,智能駕駛,機(jī)器人等各種下游應(yīng)用。

      在大模型的實(shí)際使用中我們發(fā)現(xiàn),大部分的模型還只是某個(gè)細(xì)分領(lǐng)域任務(wù)的大牛,離我們理想中的 AGI 仍然遙遙無(wú)期。

      準(zhǔn)確的說(shuō),這些投入部署的大模型大多是「靜態(tài)」模型,對(duì)于其預(yù)訓(xùn)練或微調(diào)時(shí)優(yōu)化的系列任務(wù)表現(xiàn)良好,但是在動(dòng)態(tài)學(xué)習(xí),自我提升這部分能力是缺位的。

      如果我們希望實(shí)現(xiàn)更加通用的大模型,使其能像長(zhǎng)期的智能助手一樣,隨時(shí)間不斷適應(yīng)新的任務(wù)與需求,很多技術(shù)瓶頸亟待突破。而最大的挑戰(zhàn)之一就是「災(zāi)難性遺忘」。

      相信大家對(duì)這個(gè)概念已經(jīng)非常熟悉了,災(zāi)難性遺忘指的是模型在學(xué)習(xí)新任務(wù)時(shí),會(huì)丟掉之前學(xué)到的技能。擴(kuò)大模型規(guī)模、增加預(yù)訓(xùn)練數(shù)據(jù)確實(shí)能稍微緩解遺忘現(xiàn)象,但始終不能徹底解決。



      圖源:小紅書 @機(jī)器壞人(AI 版)

      針對(duì)災(zāi)難性遺忘的問題,研究者們提出了各種各樣的改進(jìn)方法,包括正則化、經(jīng)驗(yàn)回放、參數(shù)微調(diào)等等。

      但有沒有一種可能,我們對(duì)大模型遺忘的研究想的有些太復(fù)雜了,如無(wú)必要勿增實(shí)體的剃刀原則才是根治問題的最佳手段。

      幾天前,來(lái)自麻省理工學(xué)院(MIT)Improbable AI Lab 的研究者針對(duì)該問題發(fā)表了一篇研究論文,將奧卡姆的剃刀伸向了大模型后訓(xùn)練,揭示了大模型遺忘現(xiàn)象的基本規(guī)律和訓(xùn)練策略,目前已在 Alphaxiv 上熱度排名第一。



      • 論文標(biāo)題:RL's Razor: Why Online Reinforcement Learning Forgets Less
      • 論文鏈接:https://www.arxiv.org/abs/2509.04259v1

      現(xiàn)代 AI 系統(tǒng)面臨一個(gè)根本性挑戰(zhàn):在學(xué)習(xí)新任務(wù)時(shí),它們常常災(zāi)難性地遺忘先前獲得的知識(shí)。這種現(xiàn)象嚴(yán)重限制了基礎(chǔ)模型作為長(zhǎng)期、持續(xù)學(xué)習(xí)代理的能力。

      這項(xiàng)研究集中在一個(gè)驚人的實(shí)證觀察上:

      研究者比較了兩種常見的后訓(xùn)練方式:監(jiān)督微調(diào)(SFT) 和 強(qiáng)化學(xué)習(xí)(RL)。結(jié)果很出乎意料:

      • 即便 SFT 和 RL 在新任務(wù)上表現(xiàn)一樣好,SFT 往往是通過 「犧牲舊知識(shí)」 來(lái)?yè)Q取新任務(wù)的提升;
      • RL 卻能在學(xué)習(xí)新技能的同時(shí),更多地保留原有能力。

      那么問題來(lái)了:為什么 RL 不容易遺忘?

      遺忘定律

      研究揭示了一個(gè)新的規(guī)律,稱為 「遺忘定律」:

      當(dāng)模型 π 在新任務(wù) τ 上進(jìn)行微調(diào)時(shí),遺忘程度可以通過 精確預(yù)測(cè),即在新任務(wù)上評(píng)估的微調(diào)策略和基線策略之間的KL散度



      這條定律在實(shí)踐中非常有用,因?yàn)樗梢栽谖⒄{(diào)過程中進(jìn)行測(cè)量甚至影響,而無(wú)需訪問舊任務(wù)數(shù)據(jù)。盡管其機(jī)制仍有待充分理解,但這條定律在不同模型和領(lǐng)域之間的一致性表明它反映了遺忘的一個(gè)基本屬性。

      也就是說(shuō),微調(diào)后模型與原始模型在新任務(wù)分布上的差異越大,遺忘就越嚴(yán)重。



      偏向 KL - 最小解減少了遺忘。左圖顯示,在能夠解決新任務(wù)的策略中,RL 收斂到 KL 散度上最接近基模型的那些策略。右圖顯示,在相同的新任務(wù)性能下,這種 KL 偏向使得 RL 相比 SFT 能更好地保留先驗(yàn)任務(wù)的知識(shí)。

      研究者進(jìn)行了廣泛的實(shí)驗(yàn),以確定什么因素預(yù)示著災(zāi)難性遺忘。他們測(cè)試了各種假設(shè),包括權(quán)重級(jí)變化、表示偏移和分布差異。通過對(duì)多個(gè)領(lǐng)域和模型架構(gòu)進(jìn)行系統(tǒng)性消融研究,他們發(fā)現(xiàn)微調(diào)策略和基礎(chǔ)策略之間的前向 KL 散度是遺忘的一個(gè)驚人一致的預(yù)測(cè)指標(biāo)

      前向 KL 散度定義為:



      其中代表微調(diào)策略,代表原始模型。





      這種關(guān)系適用于不同的訓(xùn)練算法和超參數(shù),形成了作者所稱的「經(jīng)驗(yàn)性遺忘定律」。在使用簡(jiǎn)化 ParityMNIST 任務(wù)的對(duì)照實(shí)驗(yàn)中,這種關(guān)系實(shí)現(xiàn)了 0.96 的 R2,證明了其預(yù)測(cè)能力。



      該圖顯示,在帕累托前沿上,RL 始終優(yōu)于 SFT,在語(yǔ)言模型(數(shù)學(xué)、科學(xué)問答、工具使用)和機(jī)器人任務(wù)中,RL 在新任務(wù)性能和先驗(yàn)知識(shí)保留之間實(shí)現(xiàn)了更好的權(quán)衡。

      RL 的剃刀:KL 最小路徑原理

      更有意思的是,RL 的優(yōu)勢(shì)正來(lái)自于它的 「KL 偏好」。

      • 在新任務(wù)上,存在許多能達(dá)到高表現(xiàn)的解。
      • RL 天然偏向選擇那些 離原始模型更近(KL 更小) 的解;
      • 而 SFT 則可能收斂到距離原始模型很遠(yuǎn)的解,從而帶來(lái)嚴(yán)重遺忘。

      核心理論貢獻(xiàn)是「RL 的剃刀」—— 即在解決新任務(wù)的所有方法中,RL 偏好與原始模型在 KL 散度上最接近的解決方案。這種偏向 KL 最小解的偏好解釋了為什么 RL 比 SFT 遺忘得少。

      為了驗(yàn)證 KL 假設(shè),研究者構(gòu)造了一個(gè)理想的 「oracle SFT」 分布:它在保證新任務(wù)完美準(zhǔn)確的同時(shí),也做到 KL 最小化。結(jié)果顯示,在這個(gè)分布上訓(xùn)練,遺忘比 RL 還少。這說(shuō)明 RL 的優(yōu)勢(shì)并不是來(lái)自某種「本質(zhì)上的不同」,而是源于它 隱式地執(zhí)行了 KL 最小化。只要訓(xùn)練過程偏向 KL 最小解,模型遺忘就會(huì)隨之減少。



      左圖通過使用一個(gè)「Oracle SFT」分布來(lái)證明這一原理,該分布在實(shí)現(xiàn)完美新任務(wù)準(zhǔn)確性的同時(shí),解析地最小化了 KL 散度。使用這種 Oracle 分布進(jìn)行訓(xùn)練產(chǎn)生的遺忘比標(biāo)準(zhǔn) RL 更少,證實(shí)了 KL 最小化是關(guān)鍵機(jī)制。中圖展示了 KL 散度與遺忘之間的強(qiáng)關(guān)聯(lián)(R2 = 0.961),而右圖則說(shuō)明了與 SFT 相比,RL 如何通過較小的 KL 偏移實(shí)現(xiàn)高準(zhǔn)確性。

      機(jī)制分析:在線策略學(xué)習(xí)與離線策略學(xué)習(xí)

      為了理解 RL 何種機(jī)制驅(qū)動(dòng)了其 KL 保守行為,研究人員比較了四種不同的訓(xùn)練范式:

      分析揭示,數(shù)據(jù)收集的在線策略性質(zhì)是關(guān)鍵因素,而不是負(fù)面示例的使用。在線策略方法(GRPO 和 1-0 Reinforce)保持較小的 KL 偏移和更好的先驗(yàn)任務(wù)保留,而離線方法(SFT 和 SimPO)無(wú)論是否使用負(fù)面示例,其行為都相似。

      理論基礎(chǔ)

      作者通過信息幾何的視角,為強(qiáng)化學(xué)習(xí)的 KL - 最小收斂提供了理論基礎(chǔ)。他們表明,帶有二元獎(jiǎng)勵(lì)的策略梯度方法可以被理解為在概率空間中執(zhí)行交替的信息(I-)投影和期望(M-)投影:



      這種迭代過程收斂到可表示策略類中的 KL - 最小最優(yōu)策略,為「RL 的剃刀」提供了形式化解釋。I - 投影步驟在滿足獎(jiǎng)勵(lì)約束的同時(shí)最小化 KL 散度,而 M - 投影步驟則朝著更高獎(jiǎng)勵(lì)的動(dòng)作更新。

      更多數(shù)據(jù)

      這項(xiàng)研究表明,這一原理超越了簡(jiǎn)單的實(shí)驗(yàn)環(huán)境。使用中心核對(duì)齊(Centered Kernel Alignment)進(jìn)行的表示保留分析表明,與 SFT 相比,RL 保持與基礎(chǔ)模型更高的相似性:



      此外,對(duì)更大模型(70 億和 140 億參數(shù))的實(shí)驗(yàn)證實(shí),僅僅擴(kuò)大規(guī)模并不能消除 SFT 中固有的遺忘權(quán)衡:



      總結(jié)

      本篇論文的核心貢獻(xiàn)有三點(diǎn):

      1. 實(shí)驗(yàn)證明:在相同性能下,RL 比 SFT 更不容易遺忘

      2. 提出遺忘定律:新任務(wù)上的KL 散度是預(yù)測(cè)遺忘的關(guān)鍵指標(biāo)。

      3. 理論與實(shí)證結(jié)合,解釋了RL 的優(yōu)勢(shì)來(lái)自其 on-policy 特性

      這項(xiàng)研究為后訓(xùn)練提供了新的視角:為了實(shí)現(xiàn)無(wú)遺忘的持續(xù)適應(yīng),算法應(yīng)該明確地旨在最小化與基模型之間的 KL 散度,確立了 KL 散度作為持續(xù)學(xué)習(xí)系統(tǒng)的基本設(shè)計(jì)原則。

      這一原則為設(shè)計(jì)未來(lái)的訓(xùn)練方法打開了大門,這些方法將 RL 保留先驗(yàn)知識(shí)的能力與 SFT 的效率相結(jié)合,使基礎(chǔ)模型能夠真正地「終身學(xué)習(xí)」。

      對(duì)于使用基礎(chǔ)模型的實(shí)踐者來(lái)說(shuō),這項(xiàng)研究提供了明確的指導(dǎo):當(dāng)持續(xù)適應(yīng)很重要時(shí),在線策略 RL 方法比標(biāo)準(zhǔn)微調(diào)方法具有顯著優(yōu)勢(shì)。KL 散度指標(biāo)還為模型適應(yīng)期間的遺忘監(jiān)測(cè)和預(yù)測(cè)提供了一個(gè)實(shí)用工具。

      這項(xiàng)工作有助于我們理解為什么像 RLHF 中的 KL 正則化這樣的常見實(shí)踐是有效的,將經(jīng)驗(yàn)觀察提升到理論基礎(chǔ)。這種原則性理解為開發(fā)真正長(zhǎng)壽、能夠持續(xù)學(xué)習(xí)而不會(huì)災(zāi)難性遺忘的 AI 代理開辟了新方向。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      4死1傷!柳州69歲老人砍鄰居跳樓身亡疑長(zhǎng)期忍受被小孩吵不得休息

      4死1傷!柳州69歲老人砍鄰居跳樓身亡疑長(zhǎng)期忍受被小孩吵不得休息

      歷史偉人錄
      2025-12-17 15:01:17
      被欠錢的山東球迷已去世,戴琳在其離世當(dāng)天還5000元,球迷家屬發(fā)文

      被欠錢的山東球迷已去世,戴琳在其離世當(dāng)天還5000元,球迷家屬發(fā)文

      瀟湘晨報(bào)
      2025-12-16 12:07:50
      大瓜!西安一健身教練被指勾引45歲有夫之婦,更多出軌細(xì)節(jié)流出…

      大瓜!西安一健身教練被指勾引45歲有夫之婦,更多出軌細(xì)節(jié)流出…

      火山詩(shī)話
      2025-12-17 10:21:05
      事業(yè)巔峰遠(yuǎn)赴美國(guó),被老外“玩膩”后晚年回國(guó),如今變成了這樣!

      事業(yè)巔峰遠(yuǎn)赴美國(guó),被老外“玩膩”后晚年回國(guó),如今變成了這樣!

      歸史
      2025-12-09 11:10:44
      80后已經(jīng)有1100萬(wàn)人提前下車了。

      80后已經(jīng)有1100萬(wàn)人提前下車了。

      愛吃糖的貓cat
      2025-11-16 18:27:38
      買了5輛車后才知道,普通家庭買車優(yōu)先看品牌,很多人不明白!

      買了5輛車后才知道,普通家庭買車優(yōu)先看品牌,很多人不明白!

      涵豆說(shuō)娛
      2025-12-02 09:36:15
      知名演員官宣:已退出美國(guó)國(guó)籍,正式成為中國(guó)公民!

      知名演員官宣:已退出美國(guó)國(guó)籍,正式成為中國(guó)公民!

      草莓解說(shuō)體育
      2025-12-17 10:08:45
      阿薩德一家在莫斯科近況曝光:重操眼科醫(yī)生舊業(yè)、女兒從莫斯科國(guó)際關(guān)系學(xué)院剛畢業(yè)

      阿薩德一家在莫斯科近況曝光:重操眼科醫(yī)生舊業(yè)、女兒從莫斯科國(guó)際關(guān)系學(xué)院剛畢業(yè)

      紅星新聞
      2025-12-16 14:13:17
      王炸登場(chǎng),電腦端最強(qiáng)輸入法來(lái)了!

      王炸登場(chǎng),電腦端最強(qiáng)輸入法來(lái)了!

      黑貓科技迷
      2025-12-17 11:40:01
      越南軍艦強(qiáng)闖臺(tái)海?轟6K掛彈起飛!中越這筆賬,今天必須算清

      越南軍艦強(qiáng)闖臺(tái)海?轟6K掛彈起飛!中越這筆賬,今天必須算清

      大國(guó)知識(shí)局
      2025-12-14 18:16:05
      iOS 26.2正式版真正有用的 7 個(gè)新功能,更新后不打開等于白升

      iOS 26.2正式版真正有用的 7 個(gè)新功能,更新后不打開等于白升

      小兔子發(fā)現(xiàn)大事情
      2025-12-16 00:27:59
      12月17日人民幣對(duì)美元中間價(jià)調(diào)升29個(gè)基點(diǎn)

      12月17日人民幣對(duì)美元中間價(jià)調(diào)升29個(gè)基點(diǎn)

      證券時(shí)報(bào)
      2025-12-17 09:31:03
      普京智囊做出預(yù)言:下一個(gè)爆發(fā)戰(zhàn)爭(zhēng)的地方既不是臺(tái)海,也不是南海

      普京智囊做出預(yù)言:下一個(gè)爆發(fā)戰(zhàn)爭(zhēng)的地方既不是臺(tái)海,也不是南海

      古史青云啊
      2025-12-13 14:25:22
      女生小肚子突出,千萬(wàn)警惕這種情況(不是胖)!

      女生小肚子突出,千萬(wàn)警惕這種情況(不是胖)!

      瑜伽解剖學(xué)
      2025-12-14 21:05:04
      糖尿病最怕的早餐!醫(yī)生再三強(qiáng)調(diào):寧可餓著,也別碰這5種早餐

      糖尿病最怕的早餐!醫(yī)生再三強(qiáng)調(diào):寧可餓著,也別碰這5種早餐

      讀懂世界歷史
      2025-12-17 21:28:48
      人類對(duì)某魚的開發(fā)不足1%,網(wǎng)友:只有你想不到,沒有你買不到的

      人類對(duì)某魚的開發(fā)不足1%,網(wǎng)友:只有你想不到,沒有你買不到的

      奇特短尾矮袋鼠
      2025-12-02 07:45:05
      英國(guó)游客吃燒烤沒給錢,次日帶翻譯來(lái)道歉,攤主一句話老外瞪大眼睛

      英國(guó)游客吃燒烤沒給錢,次日帶翻譯來(lái)道歉,攤主一句話老外瞪大眼睛

      卡西莫多的故事
      2025-11-02 14:02:25
      FBI全美收網(wǎng)!13名華人跨州偷“地溝油”被捕

      FBI全美收網(wǎng)!13名華人跨州偷“地溝油”被捕

      華人生活網(wǎng)
      2025-12-17 04:59:45
      孫穎莎的診斷結(jié)果出來(lái)了,醫(yī)生直接下了禁賽令

      孫穎莎的診斷結(jié)果出來(lái)了,醫(yī)生直接下了禁賽令

      最愛乒乓球
      2025-12-18 00:06:58
      張含韻的奶欲更勾人,36歲依舊童顏,身材卻飽滿成熟韻味滿滿

      張含韻的奶欲更勾人,36歲依舊童顏,身材卻飽滿成熟韻味滿滿

      草莓解說(shuō)體育
      2025-11-20 13:10:19
      2025-12-18 02:28:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11943文章數(shù) 142512關(guān)注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬(wàn)億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      墜亡女教師有已婚哥哥和未婚弟弟 父母被指不愿退彩禮

      頭條要聞

      墜亡女教師有已婚哥哥和未婚弟弟 父母被指不愿退彩禮

      體育要聞

      短短一年,從爭(zhēng)冠到0勝墊底...

      娛樂要聞

      狗仔曝?zé)岵〗愕軕僬嬲劻耍浚浚?/h3>

      財(cái)經(jīng)要聞

      重磅信號(hào)!收入分配制度或迎重大突破

      汽車要聞

      一車多動(dòng)力+雙姿態(tài) 長(zhǎng)城歐拉5上市 限時(shí)9.18萬(wàn)元起

      態(tài)度原創(chuàng)

      親子
      手機(jī)
      本地
      教育
      公開課

      親子要聞

      撒潑打滾的娃媽媽只有一早就制服了

      手機(jī)要聞

      真我16 Pro系列外觀曝光,還有10000mAh±電池機(jī)型

      本地新聞

      云游安徽|踏過戰(zhàn)壕與石板,讀一部活的淮北史

      教育要聞

      高三一輪復(fù)習(xí),別太聰明,踏實(shí)一點(diǎn)

      公開課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 武隆县| 果冻传媒一区| 亚洲69视频| 99在线观看视频| 永久黄片| 国产麻豆精品一区二区三区v视界 久久99精品久久久久久 | 日韩精品内射视频免费观看| 国产精品无码不卡在线播放| 91肉丝| 亚洲无码精品人妻| 国精产品999国精产品官网| 亚洲精品久久久中文字幕痴女| 亚洲熟妇AV乱码在线观看| 伊人精品在线| 一本精品99久久精品77| 青青草大香焦在线综合视频| 亚洲综合精品第一页| 中文字幕在线v| 亚洲国产色图| 国产女同疯狂作爱系列| 久久精品国产久精国产| 人妻精品一区| 国产精品xxx| 亚洲男人在线| 大陆一级毛片免费播放| 18岁日韩内射颜射午夜久久成人| 线在女熟产国| 人妻资源站| 大肉大捧一进一出好爽视色大师 | 国产精品女同一区二区| 日韩中文字幕v亚洲中文字幕| 能把下面看湿的视频| 秋霞二区| 一区二区三区无码高清视频| 日本肥老妇色xxxxx日本老妇 | 国产制服丝袜在线视频| 人人天天久久| 中文字幕无码不卡免费视频| 国产精品一区在线蜜臀 | 福泉市| 丰满熟妇人妻av无码区|