<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      終結Transformer統治!清華姚班校友出手,劍指AI「災難性遺忘」

      0
      分享至

      大模型「災難性遺忘」問題或將迎來突破。近日,NeurIPS 2025收錄了谷歌研究院的一篇論文,其中提出一種全新的「嵌套學習(Nested Learning)」架構。實驗中基于該框架的「Hope」模型在語言建模與長上下文記憶任務中超越Transformer模型,這意味著大模型正邁向具備自我改進能力的新階段。

      「災難性遺忘」,是神經網絡最根深蒂固的毛病之一,比如:

      ·剛學會減法,就忘記了以前學到的加法;

      ·切換到一個新游戲,模型在前一游戲的得分就會掉到隨機水平;

      ·微調大模型,常出現「風格漂移」與「舊知識遺忘」現象

      它的存在,使得大模型難以像人類那樣持續學習。

      在過去十年中,得益于強大的神經網絡結構及其訓練算法,機器學習取得了驚人的進步。

      但「災難性遺忘」的老毛病并沒有被根治。

      為破解這一難題,來自谷歌的研究人員提出了一種持續學習的全新范式——嵌套學習(Nested Learning),并且已被NeurIPS 2025接收。


      論文地址:https://abehrouz.github.io/files/NL.pdf

      「嵌套學習」將模型視為一系列更小的、相互嵌套的優化問題,每個問題都有其獨立的內部工作流程。

      這樣的設計旨在緩解甚至完全避免大模型的「災難性遺忘」。


      破解「災難性遺忘」根源

      在「持續學習」與「自我改進」方面,人類大腦無疑是黃金標準。

      它通過「神經可塑性」不斷重構自身結構,以應對新的經驗、記憶與學習任務。

      缺乏這種能力的人,會陷入類似「順行性遺忘」的狀態——只能依賴即時情境而無法積累知識。

      當前的大模型同樣存在類似局限:

      它們的知識要么局限于輸入窗口的即時上下文,要么被固定在預訓練階段學到的靜態信息中。

      這正是大模型出現「災難性遺忘」的根源——在學習新任務時會犧牲對舊任務的掌握能力。

      這也是長期困擾機器學習的核心問題。

      簡單地不斷用新數據更新模型參數的方法,往往會導致「災難性遺忘」。

      研究者通常通過修改網絡結構(Architecture Tweaks)或優化算法(Optimization Rules)來緩解這種問題。

      然而這樣做,長期存在一個誤區:我們一直將模型結構(網絡架構)與優化算法視作兩個獨立的部分。

      這阻礙了統一且高效學習系統的構建。

      在論文中,研究人員提出了「嵌套學習」,打破了結構與算法的界限,以彌合二者之間的鴻溝。

      也就是說「嵌套學習」不再將機器學習模型視作一種單一、連續的過程,而是一個由多層相互關聯的優化問題組成的系統,這些問題同時進行優化。

      研究人員認為,「模型結構」與「訓練規則」本質上是同一概念,只是處于不同的「優化層級」上,每個層級都有獨立的信息流動與更新速率。

      通過識別這種內在結構,使得我們能夠構建更深層的學習組件,從而解決像「災難性遺忘」這類長期難題。

      為了驗證這一理論假設,研究人員提出了一個概念驗證型的自我修正架構,命名為「Hope(希望)」。

      該模型在語言建模任務中表現出色,并在長上下文記憶管理上優于當前最先進的模型。

      嵌套學習的新范式

      在嵌套學習的框架下,一個復雜的機器學習模型,是由多個一致且相互連接的優化問題組成的系統。

      這些優化問題可以是層層嵌套的,也可以并行運行。


      每個內部優化子問題,都有自己獨立的信息,即其學習所依賴的信息集合。

      這一視角意味著:現有的深度學習方法,從本質上是在壓縮其內部信息流。

      嵌套學習允許我們設計出具備更深計算深度的學習組件。

      為了說明這一范式,研究人員以「聯想記憶」為例,這是一種能夠通過一個刺激喚起另一個記憶的能力,就像我們看到一張臉就想起一個名字。

      研究人員推論,在訓練過程中,尤其是「反向傳播」階段,可以被建模為一種聯想記憶。該模型學習將數據點映射到其對應的局部誤差值,該局部誤差值衡量了該數據點的「驚奇度」或「意外性」。

      根據前人研究,研究人員發現關鍵的網絡結構組件,比如Transformer模型的「注意力機制」,也可形式化為簡單的聯想記憶模塊,用于學習序列中各個token之間的映射關系。


      如上圖所示,大腦中統一且可重用的結構以及多時間尺度的更新是人類持續學習的關鍵組成部分。

      嵌套學習允許大腦的每個組成部分進行多時間尺度的更新,同時表明諸如Transformer等眾所周知的架構,實際上是具有不同更新頻率的線性層。

      嵌套學習模型中的統一結構與多頻率更新機制,與人腦的神經波動與神經可塑性結構十分相似。

      它使我們能夠在人工模型中定義「多時間尺度更新」:每個學習組件可在不同頻率下更新參數。

      通過定義「更新頻率」,即每個組件參數被調整的頻率,我們可以將這些優化問題組織成有序的層級結構。

      這一結構正是嵌套學習范式的核心。

      嵌套學習的應用

      嵌套學習視角,為我們提供了改進現有算法和架構的原則性方法:

      深度優化器(Deep Optimizers)

      嵌套學習將優化器(Optimizer,例如基于動量的優化器)視為一種聯想記憶模塊。

      這使我們能從聯想記憶的角度重新設計優化算法。

      傳統優化器通常依賴「點積相似度」來衡量樣本間相似性,但這一機制無法考慮樣本間的復雜關系。

      通過將優化目標改為標準損失函數,研究人員提出了新的動量更新公式,使優化過程對不完美數據更具魯棒性。

      連續記憶系統(Continuum Memory Systems)

      在標準的Transformer模型中,序列建模層承擔短期記憶,保存當前上下文信息;而前饋神經網絡層則充當長期記憶,存儲訓練前的知識。

      嵌套學習擴展了這一思想,提出「連續記憶系統」,這是一種由多個模塊組成的記憶譜系,每個模塊以不同頻率進行更新,這為持續學習創建了一個更加豐富、高效的記憶系統。

      Hope:具備連續記憶的自我修正架構

      研究人員基于以上嵌套學習原則設計了「Hope」模型,它是「Titans架構」的改進版本。

      Titans架構是一種長期記憶機制,會根據記憶的「驚奇度」來優先保留信息。

      但它僅支持兩層參數更新,因此只能實現一階的「上下文內學習」。


      上圖比較了Hope與Transformers的架構主干。

      相比之下,Hope是一種可自我修改的遞歸架構,能實現無限層級的上下文內學習。

      它還結合了連續記憶系統(CMS),能夠擴展到更大的上下文窗口。

      換言之,Hope可以通過自指過程優化自身記憶,形成具有無限嵌套學習層級的架構。

      研究人員進行了多組實驗,來評估深度優化器與Hope架構在語言建模、長上下文推理、持續學習及知識整合等任務上的表現。

      實驗結果顯示:

      在常用的語言建模與常識推理任務上,Hope相較現代遞歸模型與標準Transformer模型展現出更低的困惑度與更高的準確率。


      在長上下文任務中,Hope與Titans模型均顯著優于TTT與Mamba2,證明連續記憶系統能更高效地處理超長序列信息。


      Hope框架在標準基準上表現優于現有模型,印證了當架構與算法被統一后,學習系統可以變得更具表現力、更高效、更具自我改進能力。

      這意味著,我們對深度學習的理解邁出了新的一步。

      通過將「模型結構」與「優化過程」統一為一個連貫的、層層嵌套的優化系統,Hope框架為模型設計提供了一種新范式。

      這一發現,為彌合當前大模型遺忘特性與人腦持續學習能力之間的差距奠定了堅實基礎,或許將有助于破解大模型「災難性遺忘」的根源性問題。

      作者介紹

      Peilin Zhong


      Peilin Zhong

      Peilin Zhong是谷歌紐約(Google NYC)算法與優化團隊的一名研究科學家,該團隊由Vahab Mirrokni領導。

      他的博士畢業于哥倫比亞大學,師從Alex Andoni、Cliff Stein及Mihalis Yannakakis教授,本科畢業于清華大學交叉信息研究院(姚班)。

      Peilin Zhong致力于理論計算機科學,尤其側重于算法的設計與分析。他的具體研究方向有并行與大規模并行算法、Sketching算法、流式算法、圖算法、機器學習、高維幾何、度量嵌入等。

      參考資料:

      https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

      文章來源:新智元。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      月熊福安離世,陳喬恩發文告別:不再疼痛,也不再受苦,她曾長期關注并支持福安的救助與康復

      月熊福安離世,陳喬恩發文告別:不再疼痛,也不再受苦,她曾長期關注并支持福安的救助與康復

      極目新聞
      2025-12-21 08:03:38
      浙江一小伙為愛接受考驗,與“女友姑媽”同住三年,才知竟是女友本人,最后的結局亮了

      浙江一小伙為愛接受考驗,與“女友姑媽”同住三年,才知竟是女友本人,最后的結局亮了

      品讀時刻
      2025-12-21 09:05:00
      又老又丑,連普通話都說不好,為何能讓千億富豪對她情有獨鐘?

      又老又丑,連普通話都說不好,為何能讓千億富豪對她情有獨鐘?

      素衣讀史
      2025-12-20 16:26:36
      3連勝遮不住迷之用人:開拓者勝利背后楊瀚森蟄伏與斯普利特短視

      3連勝遮不住迷之用人:開拓者勝利背后楊瀚森蟄伏與斯普利特短視

      方臉妹
      2025-12-21 15:27:39
      詹姆斯快41歲單核帶全替補憾負快船、36分破紀錄!

      詹姆斯快41歲單核帶全替補憾負快船、36分破紀錄!

      氧氣是個地鐵
      2025-12-21 15:40:53
      持刀威脅,同伙把風!緬北一村莊10歲女孩遭性侵!網友:禽獸

      持刀威脅,同伙把風!緬北一村莊10歲女孩遭性侵!網友:禽獸

      緬甸中文網
      2025-12-21 15:01:20
      軍統活閻王谷正文晚年直言:毀了吳石,是我這輩子最重的包袱

      軍統活閻王谷正文晚年直言:毀了吳石,是我這輩子最重的包袱

      老橝說體育
      2025-12-21 14:41:09
      賴昌星發妻曾明娜現狀:逃亡10年后回國,守著3000平老宅安靜養老

      賴昌星發妻曾明娜現狀:逃亡10年后回國,守著3000平老宅安靜養老

      古書記史
      2025-12-12 11:21:38
      越南為何敢挑釁中國?越軍將領認為:1個越軍能打30個解放軍

      越南為何敢挑釁中國?越軍將領認為:1個越軍能打30個解放軍

      鳶飛九天
      2024-08-30 08:00:15
      年輕人痛風“真兇”!很多人天天喝

      年輕人痛風“真兇”!很多人天天喝

      廣東發布
      2025-12-20 19:05:58
      曼城體驗卡到期!約克雷斯點射19連中,阿森納1-0埃弗頓重返榜首

      曼城體驗卡到期!約克雷斯點射19連中,阿森納1-0埃弗頓重返榜首

      釘釘陌上花開
      2025-12-21 06:01:13
      落毛鳳凰不如雞,消失6個月,玲花自曝近況,擔心的事還是發生了

      落毛鳳凰不如雞,消失6個月,玲花自曝近況,擔心的事還是發生了

      石場阿鑫
      2025-12-21 15:40:17
      林峯撞臉西安兵馬俑事件,回應直言有點嚇到

      林峯撞臉西安兵馬俑事件,回應直言有點嚇到

      TVB的四小花
      2025-12-21 04:50:34
      上海浦東一校花好漂亮, 身高166cm,體重47kg 美的讓人移不開眼

      上海浦東一校花好漂亮, 身高166cm,體重47kg 美的讓人移不開眼

      老吳教育課堂
      2025-12-21 12:35:16
      15艘!訂單暴跌!韓國船企強勢包攬!中國船企全力“破零”

      15艘!訂單暴跌!韓國船企強勢包攬!中國船企全力“破零”

      今日美食分享
      2025-12-21 12:25:25
      恒大的悲歌。從許家印兩個兒子的學歷,對比中美教育的成果

      恒大的悲歌。從許家印兩個兒子的學歷,對比中美教育的成果

      鷹視狼顧之天下
      2025-12-20 12:19:05
      為什么你嫁不到香港醫生?揭開兩地醫療生態的天壤之別

      為什么你嫁不到香港醫生?揭開兩地醫療生態的天壤之別

      醫脈圈
      2025-12-21 12:29:19
      季米特洛夫鎮已是囊中之物!俄羅斯官方解放公告即將發布。

      季米特洛夫鎮已是囊中之物!俄羅斯官方解放公告即將發布。

      精彩一網打盡
      2025-12-21 15:15:27
      耗資33億,首日票房僅5000萬,卡梅隆懵了:中國觀眾憑啥不買賬?

      耗資33億,首日票房僅5000萬,卡梅隆懵了:中國觀眾憑啥不買賬?

      八卦南風
      2025-12-19 14:40:36
      江暢同志突發心梗,不幸逝世

      江暢同志突發心梗,不幸逝世

      新京報政事兒
      2025-12-20 22:27:40
      2025-12-21 16:28:49
      算法與數學之美 incentive-icons
      算法與數學之美
      分享知識,交流思想
      5273文章數 64595關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      廣州上千人補繳社保被騙涉案金額過億元 央視披露詳情

      頭條要聞

      廣州上千人補繳社保被騙涉案金額過億元 央視披露詳情

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      鹿晗關曉彤戀愛期間毫不避諱?

      財經要聞

      老房子“強制體檢”,政府出手了

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      數碼
      藝術
      本地
      手機
      公開課

      數碼要聞

      中大戶型專屬!米家中央空調Pro雙風輪最大覆蓋190㎡ 一年電費省約784元

      藝術要聞

      河北美術學院教授,黃勝賢人物油畫

      本地新聞

      云游安徽|訪黃山云海古村,讀一城山水風骨

      手機要聞

      vivo+小米+OPPO都打不過,它怎么這么強?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美精品久久久| 甘南县| 中文字幕久久久久人妻中出| 亚洲色欲精品综合网| 一个色的导航| 水蜜桃av导航| 淳安县| 亚洲1234区| 开心久久婷婷综合中文字幕| 国产激情免费视频在线观看| 91口爆| 少妇视频网站| 国内自拍偷拍| 人妻巨大乳hd免费看| 精品人妻大屁股白浆无码| www.成人网| 精品日韩亚洲av无码| 十八岁以下禁止观看黄下载链接| 色综合一区| 国产v片中文字幕| 亚洲另类激情专区小说婷婷久| 极品人妻videosss人妻| 怼嫩草白浆国产一区| 久久成人网站,一本一| 一区二区三区国产亚洲网站| 精品久久久久久无码专区| 国产人妻精品午夜福利免费| 内射91| 无码伊人66久久大杳蕉网站谷歌 | 午夜精品久久久久久99热| 日韩无| 欧洲一区二区三区| 国产成人无码A区在线观| 躁躁躁日日躁| 潮喷视频免费| 亚洲日韩AV无码专区影院| 午夜福利看片在线观看| 少妇下面好紧好多水真爽播放| 中文性爱片| 城固县| 人操人人|