大模型「災難性遺忘」問題或將迎來突破。近日,NeurIPS 2025收錄了谷歌研究院的一篇論文,其中提出一種全新的「嵌套學習(Nested Learning)」架構。實驗中基于該框架的「Hope」模型在語言建模與長上下文記憶任務中超越Transformer模型,這意味著大模型正邁向具備自我改進能力的新階段。
「災難性遺忘」,是神經網絡最根深蒂固的毛病之一,比如:
·剛學會減法,就忘記了以前學到的加法;
·切換到一個新游戲,模型在前一游戲的得分就會掉到隨機水平;
·微調大模型,常出現「風格漂移」與「舊知識遺忘」現象
它的存在,使得大模型難以像人類那樣持續學習。
在過去十年中,得益于強大的神經網絡結構及其訓練算法,機器學習取得了驚人的進步。
但「災難性遺忘」的老毛病并沒有被根治。
為破解這一難題,來自谷歌的研究人員提出了一種持續學習的全新范式——嵌套學習(Nested Learning),并且已被NeurIPS 2025接收。
![]()
論文地址:https://abehrouz.github.io/files/NL.pdf
「嵌套學習」將模型視為一系列更小的、相互嵌套的優化問題,每個問題都有其獨立的內部工作流程。
這樣的設計旨在緩解甚至完全避免大模型的「災難性遺忘」。
![]()
破解「災難性遺忘」根源
在「持續學習」與「自我改進」方面,人類大腦無疑是黃金標準。
它通過「神經可塑性」不斷重構自身結構,以應對新的經驗、記憶與學習任務。
缺乏這種能力的人,會陷入類似「順行性遺忘」的狀態——只能依賴即時情境而無法積累知識。
當前的大模型同樣存在類似局限:
它們的知識要么局限于輸入窗口的即時上下文,要么被固定在預訓練階段學到的靜態信息中。
這正是大模型出現「災難性遺忘」的根源——在學習新任務時會犧牲對舊任務的掌握能力。
這也是長期困擾機器學習的核心問題。
簡單地不斷用新數據更新模型參數的方法,往往會導致「災難性遺忘」。
研究者通常通過修改網絡結構(Architecture Tweaks)或優化算法(Optimization Rules)來緩解這種問題。
然而這樣做,長期存在一個誤區:我們一直將模型結構(網絡架構)與優化算法視作兩個獨立的部分。
這阻礙了統一且高效學習系統的構建。
在論文中,研究人員提出了「嵌套學習」,打破了結構與算法的界限,以彌合二者之間的鴻溝。
也就是說「嵌套學習」不再將機器學習模型視作一種單一、連續的過程,而是一個由多層相互關聯的優化問題組成的系統,這些問題同時進行優化。
研究人員認為,「模型結構」與「訓練規則」本質上是同一概念,只是處于不同的「優化層級」上,每個層級都有獨立的信息流動與更新速率。
通過識別這種內在結構,使得我們能夠構建更深層的學習組件,從而解決像「災難性遺忘」這類長期難題。
為了驗證這一理論假設,研究人員提出了一個概念驗證型的自我修正架構,命名為「Hope(希望)」。
該模型在語言建模任務中表現出色,并在長上下文記憶管理上優于當前最先進的模型。
嵌套學習的新范式
在嵌套學習的框架下,一個復雜的機器學習模型,是由多個一致且相互連接的優化問題組成的系統。
這些優化問題可以是層層嵌套的,也可以并行運行。
![]()
每個內部優化子問題,都有自己獨立的信息,即其學習所依賴的信息集合。
這一視角意味著:現有的深度學習方法,從本質上是在壓縮其內部信息流。
嵌套學習允許我們設計出具備更深計算深度的學習組件。
為了說明這一范式,研究人員以「聯想記憶」為例,這是一種能夠通過一個刺激喚起另一個記憶的能力,就像我們看到一張臉就想起一個名字。
研究人員推論,在訓練過程中,尤其是「反向傳播」階段,可以被建模為一種聯想記憶。該模型學習將數據點映射到其對應的局部誤差值,該局部誤差值衡量了該數據點的「驚奇度」或「意外性」。
根據前人研究,研究人員發現關鍵的網絡結構組件,比如Transformer模型的「注意力機制」,也可形式化為簡單的聯想記憶模塊,用于學習序列中各個token之間的映射關系。
![]()
如上圖所示,大腦中統一且可重用的結構以及多時間尺度的更新是人類持續學習的關鍵組成部分。
嵌套學習允許大腦的每個組成部分進行多時間尺度的更新,同時表明諸如Transformer等眾所周知的架構,實際上是具有不同更新頻率的線性層。
嵌套學習模型中的統一結構與多頻率更新機制,與人腦的神經波動與神經可塑性結構十分相似。
它使我們能夠在人工模型中定義「多時間尺度更新」:每個學習組件可在不同頻率下更新參數。
通過定義「更新頻率」,即每個組件參數被調整的頻率,我們可以將這些優化問題組織成有序的層級結構。
這一結構正是嵌套學習范式的核心。
嵌套學習的應用
嵌套學習視角,為我們提供了改進現有算法和架構的原則性方法:
深度優化器(Deep Optimizers)
嵌套學習將優化器(Optimizer,例如基于動量的優化器)視為一種聯想記憶模塊。
這使我們能從聯想記憶的角度重新設計優化算法。
傳統優化器通常依賴「點積相似度」來衡量樣本間相似性,但這一機制無法考慮樣本間的復雜關系。
通過將優化目標改為標準損失函數,研究人員提出了新的動量更新公式,使優化過程對不完美數據更具魯棒性。
連續記憶系統(Continuum Memory Systems)
在標準的Transformer模型中,序列建模層承擔短期記憶,保存當前上下文信息;而前饋神經網絡層則充當長期記憶,存儲訓練前的知識。
嵌套學習擴展了這一思想,提出「連續記憶系統」,這是一種由多個模塊組成的記憶譜系,每個模塊以不同頻率進行更新,這為持續學習創建了一個更加豐富、高效的記憶系統。
Hope:具備連續記憶的自我修正架構
研究人員基于以上嵌套學習原則設計了「Hope」模型,它是「Titans架構」的改進版本。
Titans架構是一種長期記憶機制,會根據記憶的「驚奇度」來優先保留信息。
但它僅支持兩層參數更新,因此只能實現一階的「上下文內學習」。
![]()
上圖比較了Hope與Transformers的架構主干。
相比之下,Hope是一種可自我修改的遞歸架構,能實現無限層級的上下文內學習。
它還結合了連續記憶系統(CMS),能夠擴展到更大的上下文窗口。
換言之,Hope可以通過自指過程優化自身記憶,形成具有無限嵌套學習層級的架構。
研究人員進行了多組實驗,來評估深度優化器與Hope架構在語言建模、長上下文推理、持續學習及知識整合等任務上的表現。
實驗結果顯示:
在常用的語言建模與常識推理任務上,Hope相較現代遞歸模型與標準Transformer模型展現出更低的困惑度與更高的準確率。
![]()
在長上下文任務中,Hope與Titans模型均顯著優于TTT與Mamba2,證明連續記憶系統能更高效地處理超長序列信息。
![]()
Hope框架在標準基準上表現優于現有模型,印證了當架構與算法被統一后,學習系統可以變得更具表現力、更高效、更具自我改進能力。
這意味著,我們對深度學習的理解邁出了新的一步。
通過將「模型結構」與「優化過程」統一為一個連貫的、層層嵌套的優化系統,Hope框架為模型設計提供了一種新范式。
這一發現,為彌合當前大模型遺忘特性與人腦持續學習能力之間的差距奠定了堅實基礎,或許將有助于破解大模型「災難性遺忘」的根源性問題。
作者介紹
Peilin Zhong
![]()
Peilin Zhong
Peilin Zhong是谷歌紐約(Google NYC)算法與優化團隊的一名研究科學家,該團隊由Vahab Mirrokni領導。
他的博士畢業于哥倫比亞大學,師從Alex Andoni、Cliff Stein及Mihalis Yannakakis教授,本科畢業于清華大學交叉信息研究院(姚班)。
Peilin Zhong致力于理論計算機科學,尤其側重于算法的設計與分析。他的具體研究方向有并行與大規模并行算法、Sketching算法、流式算法、圖算法、機器學習、高維幾何、度量嵌入等。
參考資料:
https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/
文章來源:新智元。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.