網易首頁 > 網易號 > 正文申請入駐

嵌套學習:深度學習架構的幻覺

2026-02-05 16:35:28　來源: CreateAMind

上海舉報

分享至

Nested Learning: The Illusion of Deep Learning Architectures

嵌套學習:深度學習架構的幻覺

https://arxiv.org/pdf/2512.24695

摘要

在過去幾十年里，開發(fā)更強大的神經架構以及同時設計優(yōu)化算法來有效訓練它們，一直是增強機器學習模型能力研究工作的核心。盡管最近取得了進展，特別是在開發(fā)語言模型（LMs）方面，但在這種模型如何持續(xù)學習/記憶、自我改進和找到有效解決方案方面，仍存在根本性挑戰(zhàn)和未解答的問題。

在本文中，我們提出了一種新的學習范式，稱為嵌套學習（Nested Learning, NL），它將機器學習模型連貫地表示為一組嵌套的、多層次的和/或并行的優(yōu)化問題，每個問題都有其自身的"上下文流"。通過NL的視角，現有的深度學習方法通過壓縮其自身的上下文流來從數據中學習，而上下文學習（in-context learning）則自然地在大型模型中出現。

NL提供了一種設計哲學，用于設計具有更多"層次"的更具表達力的學習算法，從而實現高階上下文學習，并有可能解鎖有效的持續(xù)學習能力。除了其神經科學動機之外，我們通過三項核心貢獻來倡導NL：

(1) 表達性優(yōu)化器： 我們表明，已知的基于梯度的優(yōu)化器（如Adam、帶動量的SGD等）實際上是旨在壓縮梯度信息（通過梯度下降）的關聯(lián)記憶模塊。基于這一洞見，我們提出了其他具有深層記憶和/或更強大學習規(guī)則的"更具表達性"的優(yōu)化器；

(2) 自我修改的學習模塊： 利用NL對學習算法的洞見，我們提出了一種序列模型，它通過學習自身的更新算法來學會如何修改自己；

(3) 連續(xù)記憶系統(tǒng)： 我們提出了一種記憶系統(tǒng)的新形式化方法，它推廣了傳統(tǒng)的"長期/短期記憶"觀點。結合我們的自我修改序列模型與連續(xù)記憶系統(tǒng)，我們提出了一種稱為Hope的持續(xù)學習模塊，在語言建模、知識整合、小樣本泛化任務、持續(xù)學習和長上下文推理任務中顯示出有希望的結果。

1 引言

幾十年來，人工智能研究一直專注于設計從數據（Pitts 1943; McCulloch et al. 1948; McCulloch 1949; Samuel 1959）或經驗（Sutton et al. 1998; Connell et al. 1999; Silver et al. 2025）中學習的機器學習算法；通常通過基于梯度的方法在參數上優(yōu)化目標函數。雖然傳統(tǒng)的機器學習技術需要仔細設計和領域專業(yè)知識來設計特征提取器，這限制了它們直接處理和學習自然數據的能力（LeCun et al. 2015），但深度表示學習提供了一種全自動的替代方案來發(fā)現任務所需的表示。此后，深度學習一直是大規(guī)模計算模型不可分割的一部分，在化學和生物學（Jumper et al. 2021）、游戲（Silver et al. 2016, 2018）、計算機視覺（Krizhevsky et al. 2012; Dosovitskiy et al. 2021）以及多模態(tài)和自然語言理解（Achiam et al. 2023; Liu et al. 2024a; Comanici et al. 2025）方面取得了開創(chuàng)性的成功。

在深度學習模型中堆疊多個層，為模型提供了更好的表達能力來表示復雜特征，以及更多的內部計算（例如，）（Montúfar et al. 2014; Poole et al. 2016; Hestness et al. 2017），這些都是對于需要在先驗固定集合上進行分布內預測的靜態(tài)任務而言關鍵且理想的特性。然而，這種深層設計并非解決所有挑戰(zhàn)的通用方案，也無法在多個方面幫助模型的表達能力，例如：(i) 深度模型的計算深度可能不會隨著層數增加而改變（Merrill et al. 2022; Sanford et al. 2024），與傳統(tǒng)淺層方法相比，其實現復雜算法的能力保持不變（Merrill et al. 2024）；(ii) 某些參數類別的容量可能隨著模型深度/寬度的增加而顯示邊際改善（Kaplan et al. 2020）；(iii) 訓練過程可能收斂到次優(yōu)解，主要是由于優(yōu)化器或其超參數的選擇不當；以及 (iv) 模型快速適應新任務、持續(xù)學習和/或泛化到分布外數據的能力可能不會隨著堆疊更多層而改變，需要更仔細的設計。

克服上述挑戰(zhàn)和增強深度學習模型能力的核心努力集中在：(1) 開發(fā)更具表達力的參數類別（即神經架構）（Fukushima 1980; Schmidhuber et al. 1997; Krizhevsky et al. 2012; Vaswani et al. 2017; Behrouz et al. 2025c）；(2) 引入能夠更好建模任務的目標函數（Rumelhart et al. 1986; Kingma et al. 2014b; Hjelm et al. 2019; Goodfellow et al. 2020; Alshammari et al. 2025）；(3) 設計更高效/有效的優(yōu)化算法以找到更好的解或具有更強的抗遺忘能力（Kingma et al. 2014a; Gupta et al. 2018; Farajtabar et al. 2020; Jordan et al. 2024）；以及 (4) 在做出架構、目標函數和優(yōu)化算法的"正確"選擇時，擴大模型規(guī)模以增強其表達能力（Brown et al. 2020; Kaplan et al. 2020; Hoffmann et al. 2022）。總體而言，這些進展以及關于深度模型擴展模式的新發(fā)現，為大型語言模型（LLMs）的建立奠定了基礎。

LLMs的發(fā)展標志著深度學習研究的一個關鍵里程碑：從特定任務模型到更通用的系統(tǒng)的范式轉變，這是擴展"正確"架構的結果（Brown et al. 2020; Schaeffer et al. 2023）。盡管LLMs在各種任務集中取得了成功和顯著的能力（Nijkamp et al. 2023; Wang et al. 2023; Comanici et al. 2025），但它們在初始部署階段后基本上是靜態(tài)的，這意味著它們成功地執(zhí)行在預訓練或后訓練期間學習的任務，但無法在其直接上下文之外持續(xù)獲取新能力。LLMs唯一可適應的組件是它們的上下文學習能力——這是LLMs的一種（已知是涌現的）特性，能夠實現對上下文的快速適應，從而執(zhí)行零樣本或少樣本任務（Brown et al. 2020）。除了上下文學習之外，近期克服LLMs靜態(tài)特性的努力要么計算成本高昂，需要外部組件，缺乏泛化能力，和/或可能遭受災難性遺忘（Akyürek et al. 2024a; Eyuboglu et al. 2025; yu et al. 2025），這導致研究人員質疑是否需要重新審視如何設計機器學習模型，以及是否需要超越層堆疊的新學習范式來釋放LLMs在持續(xù)設置中的能力。

當前模型只體驗即時當下。 作為類比，為了更好地說明LLMs的靜態(tài)特性，我們使用了順行性遺忘癥的例子——一種神經系統(tǒng)疾病，患者在疾病發(fā)作后無法形成新的長期記憶，而現有記憶保持完整（Scoville et al. 1957）。這種情況將患者的知識和經驗限制在短暫的當下窗口和遙遠的過去——在疾病發(fā)作之前——導致持續(xù)地將即時當下體驗為全新的。當前LLMs的記憶處理系統(tǒng)遭受著類似的模式。它們的知識僅限于：要么適合其上下文窗口的即時上下文，要么存儲在MLPs中的"預訓練結束"之前的長期過去知識。這個類比促使我們從神經生理學文獻以及大腦如何鞏固其短期記憶中汲取靈感。

1.1 人腦視角與神經生理學動機

人腦在持續(xù)學習方面非常高效和有效，這通常歸因于神經可塑性——大腦根據新經驗、記憶、學習甚至損傷來改變自身的卓越能力（Pascual-Leone et al. 2005; Johnston 2009）。近期研究支持，長期記憶的形成涉及至少兩個不同但互補的鞏固過程（Frey et al. 1997; Goto et al. 2021; Yang et al. 2024）：(1) 快速的"在線"鞏固（也稱為突觸鞏固）階段在學習后立即或很快發(fā)生，甚至在清醒狀態(tài)下也是如此。這時新的、最初脆弱的記憶痕跡被穩(wěn)定下來，并開始從短期存儲轉移到長期存儲；(2) "離線"鞏固（也稱為系統(tǒng)鞏固）過程在海馬體的尖波漣漪（SWRs）期間，與皮層的睡眠紡錘波和慢振蕩相協(xié)調，重復重放最近編碼的模式——加強和重組記憶，并支持向皮層位點的轉移（Foster et al. 2006; Ji et al. 2007; Peyrache et al. 2009）。

回到順行性遺忘癥的類比，證據表明該疾病可能影響兩個階段，但特別是影響在線鞏固階段，主要是由于海馬體是編碼新陳述性記憶的門戶，因此其損傷意味著新信息永遠不會被存儲在長期記憶中。如上所述，LLMs的設計，更具體地說基于Transformer的架構，在預訓練階段后遭受類似的狀況。也就是說，上下文中提供的信息永遠不會影響長期記憶參數（例如前饋層），因此模型無法獲取新知識或技能，除非信息仍然存儲在短期記憶中（例如上下文或注意力中）。為此，雖然第二階段對于記憶的鞏固同等重要，甚至更為關鍵，且其缺失可能損害過程并可能導致記憶喪失（Drummond et al. 2000; Yoo et al. 2007），但在本工作中，我們關注第一階段：作為在線過程的記憶鞏固。如前所述，人類的記憶處理、其在線鞏固以及持續(xù)學習能力被認為高度依賴于神經可塑性以及神經振蕩（Bliss et al. 1993; Buzsaki et al. 2004; Klinzing et al. 2019）。

多時間尺度處理系統(tǒng)。 腦振蕩（也稱為腦波）——大腦活動中的節(jié)律性波動——不僅僅是大腦功能的副產品，而是越來越被理解為在各種認知功能（如注意力、記憶和決策）中發(fā)揮關鍵作用，并且是組織神經計算、協(xié)調腦區(qū)之間通信以及門控構成學習和記憶基礎的突觸可塑性的核心機制（Fell et al. 2011; Cavanagh et al. 2014; Fries 2015）。這些腦波是大腦在不同時間尺度和頻率更新中協(xié)調其計算的結果，其中每個頻率決定腦神經元群組變得活躍并共享更新信息的頻率。更具體地說，這種神經振蕩通常被分類為不同的頻率，每個頻率都與不同的認知功能相關，關鍵的是，與不同時間尺度的信息處理相關：范圍從(1) 主要與感覺信息相關的快速Gamma波（30-150 Hz頻率）到(2) 主要與主動思考相關的Beta波（13-30 Hz頻率）（Buzsaki et al. 2004; Buschman et al. 2007; Lundqvist et al. 2016），以及(3) 主要負責記憶鞏固和學習的慢Delta和Theta波（0.5-8 Hz頻率）（Marshall et al. 2006; Diekelmann et al. 2010; Ngo et al. 2013; Staresina et al. 2015; Heusser et al. 2016; Daume et al. 2024）。

然而，在深度學習模型中，架構的權重在測試時是固定的，而且在預訓練中對模型的所有塊/層使用相同的更新率也很常見。然而，在第6節(jié)中，我們表明上下文學習提供了這種設計的一個極端案例，事實上，Transformer架構基于兩個極端的更新頻率：即對于注意力塊和MLP塊分別為∞和0。

大腦的統(tǒng)一和可重用結構。 如前所述，神經可塑性是大腦根據新記憶、知識甚至損傷來改變自身的卓越能力（Pascual-Leone et al. 2005; Johnston 2009）。這一特征表明了一種統(tǒng)一的架構，其中神經元素并非嚴格專用于某一功能，而是可重用的，能夠被靈活地重新部署以支持不同的認知需求。神經可重用性的一個真實世界例子是大腦半球切除術——通常是為了緩解嚴重癲癇而切除或禁用一側大腦半球。令人驚奇的是，如果在兒童時期進行這種手術，患者可以在成年期過上大體正常的生活，具有高功能認知和完整的神經網絡組織，其中包含與典型雙半球大腦中存在的所有相同核心腦網絡（語言、視覺等網絡）。這種非凡的結果為大腦的統(tǒng)一架構提供了現實生活中的證明。也就是說，即使只有半個大腦，也可以重新分配資源和重組，使人能夠極好地運作。這類案例，以及有記錄的個體在缺失部分皮層的情況下仍能相對正常生活的實例，突顯了大腦的統(tǒng)一和可重用結構。

此外，這種對大腦統(tǒng)一和可重用結構的解釋表明，人腦中的記憶并非某些特定區(qū)域的孤立系統(tǒng)，而主要是分布在大腦各處的。也就是說，與傳統(tǒng)記憶模型通常暗示的不同類型的記憶駐留在不同的腦結構中（例如，前額葉皮層的短期記憶與海馬體和皮層的長期記憶）相反，現代研究倡導分布在多個區(qū)域的神經回路進行記憶處理（Christophel et al. 2017; Kitamura et al. 2017; Roy et al. 2022）。

然而，近年來的現代深度學習架構至少在表面上看起來是異質的，并且基于以下部分的組合：自注意力機制的變體（Vaswani et al. 2017）、現代循環(huán)神經網絡（Katharopoulos et al. 2020; Schlag et al. 2021; Behrouz et al. 2025c; Peng et al. 2025b）、標準層（Allen-Zhu 2025）、全局卷積（Hasani et al. 2023; Poli et al. 2023）和MLP塊（Shazeer 2020）。這提出了一個問題：我們是否需要一個統(tǒng)一的架構，或者我們是否需要重新審視關于當前模型異質性的認知。

1.2 貢獻與路線圖

在本文中，我們旨在呈現一種統(tǒng)一的學習范式，它不僅為現有算法、方法和架構提供新的見解，而且還揭示了深度學習中層堆疊的新維度，增強了模型的計算深度和持續(xù)學習能力。在第2節(jié)討論預備概念和背景之后，我們呈現：

嵌套學習范式（第3節(jié)）。 為了回答上述提出的問題，并為克服現代深度學習模型在持續(xù)學習、架構設計和計算深度方面的設計挑戰(zhàn)提供新的見解，我們提出了嵌套學習（Nested Learning, NL）——一種學習范式，允許機器學習模型的每個組件在其自身的上下文中擁有多層次的內部梯度流，將模型及其學習過程（即優(yōu)化）表示為一個相互連接的嵌套、多層級和/或并行優(yōu)化問題的系統(tǒng)。我們認為，優(yōu)化過程與學習算法/架構本質上是相同的概念，只是處于具有不同上下文（即梯度與詞元）的系統(tǒng)中的不同層次。此外，它們是相互連接的組件，學習算法/架構為優(yōu)化器生成上下文（即梯度），這倡導了設計架構特定優(yōu)化器的理念。我們討論了不同層次之間的知識遷移方式，從而統(tǒng)一和泛化了元學習、上下文學習、循環(huán)神經網絡、超網絡等概念。

優(yōu)化器與架構作為學習模塊（第4、5節(jié)）。 基于NL的觀點，我們認為使用反向傳播過程和梯度下降訓練深度神經網絡是一個壓縮和優(yōu)化問題，旨在訓練一個關聯(lián)記憶模塊，將各層的輸入映射到其在預測中的相應局部誤差。據此，我們認為預訓練是上下文學習的一種形式，其中上下文是整個預訓練數據，而各層將上下文壓縮到其參數中。我們證明，這些論點對于其他流行的基于梯度的優(yōu)化器同樣有效——它們都是旨在將梯度壓縮到其參數中的關聯(lián)記憶模塊。

從NL的術語來看，諸如帶動量的梯度下降、Adam（Kingma et al. 2014a）和AdaGrad（Duchi et al. 2011）等基于梯度的優(yōu)化器可以被分解為兩級嵌套優(yōu)化問題，每一級都通過簡單的梯度下降進行優(yōu)化。特別地，這一觀點清楚地表明，從理論上講，對于壓縮梯度，Adam是關于逐元素L2回歸目標的最優(yōu)關聯(lián)記憶。

我們重新審視了將架構表示為關聯(lián)記憶的先前發(fā)現（Behrouz et al. 2025b），并將其優(yōu)化過程分解為一組嵌套優(yōu)化問題，所有這些問題都通過梯度下降進行優(yōu)化。基于上述發(fā)現——即流行的基于梯度的優(yōu)化器和現代架構都是一組嵌套和/或并行優(yōu)化問題——我們認為這兩者的組合——即使用特定優(yōu)化器訓練架構——也可以表示為一組嵌套和/或并行優(yōu)化問題。因此，神經學習模塊（架構及其訓練/優(yōu)化過程的聯(lián)合系統(tǒng)）是一個統(tǒng)一模型，其中所有元素都是線性或深層MLP，同時它們在不同層次以不同頻率優(yōu)化其自身的內部目標。

基于優(yōu)化器的關聯(lián)記憶視角，我們設計了一組具有更具表達性的記憶結構或記憶管理的新學習更新（優(yōu)化步驟），用于壓縮梯度。特別地，我們認為優(yōu)化器的選擇取決于優(yōu)化的上下文。一個用于壓縮梯度的強大優(yōu)化器可能不是壓縮詞元的最佳選擇。為此，我們提出了一種新的梯度下降變體，稱為Delta梯度下降（Delta Gradient Descent, DGD），其更新不僅依賴于當前輸入，還依賴于神經網絡的權重狀態(tài)，從而能夠在不假設獨立同分布（i.i.d.）的情況下捕捉數據樣本之間的依賴關系。

主要收獲與重新審視常用術語：持續(xù)學習與上下文學習、預訓練和學習（第6節(jié)）。 我們討論了NL關于核心概念的主要收獲，并重新審視了一些常用術語：(1) 我們認為持續(xù)學習可以被視為在傳入上下文或片段序列上的學習問題，其中不同層次負責壓縮其自身的上下文內知識并將其轉移到更高層次。基于此，我們倡導設計不依賴測試/訓練階段的模型和流程，而是持續(xù)管理其知識和記憶；(2) 上下文學習是"具有多個嵌套層次"的特性。據此，Transformer的上下文學習源于其作為對詞元特定回歸目標的非參數解，而現代循環(huán)模型在其較低層次使用參數學習過程；(3) 我們進一步重新審視了其他術語，如學習/記憶、混合架構、循環(huán)架構和學習優(yōu)化器。

連續(xù)記憶系統(tǒng)、自指代Titans與Hope（第7、8節(jié)）。 我們通過提出連續(xù)記憶系統(tǒng)（Continuum Memory Systems, CMSs）來泛化傳統(tǒng)的"長期/短期記憶"（LSM）觀點，將記憶視為具有頻率更新頻譜的分布式相互連接系統(tǒng)。在這種設計中，高頻率神經元負責快速適應，但將記憶/知識存儲較短時間，而低頻率神經元負責更持久的知識。與LSM相比，我們表明這種多頻率設計導致模型記憶的循環(huán)過程，這意味著知識在被遺忘時可以部分恢復。雖然我們將這種記憶系統(tǒng)主要設計為Transformer中MLP塊的替代品，但我們利用這一直覺設計了多尺度動量Muon（Multi-scale Momentum Muon, M3）優(yōu)化器——一種具有多個動量項的優(yōu)化算法——進一步支持CMSs設計在不同上下文中的重要性。

評估（第9節(jié)）。 為了支持我們概念驗證的有效性以及嵌套學習設計的重要性，我們在以下方面進行了實驗評估：(1) 持續(xù)學習和上下文學習任務，包括(i)學習新語言，(ii)類別增量學習，以及(iii)在新語料庫上的問答；(2) 長上下文理解任務，包括大海撈針（needle-in-a-haystack）（Hsieh et al. 2024）和BABILong（Kuratov et al. 2024）基準測試；(3) 語言建模和常識推理任務；(4) 上下文回憶和記憶任務；(5) 語言識別任務；以及(6) 比較不同的優(yōu)化器，包括我們的M3優(yōu)化器。我們的結果表明NL觀點在設計具有持續(xù)學習能力、多層次計算和自指代過程的模型方面的有效性。

2 預備知識

本節(jié)討論相關符號約定并回顧背景概念。

上下文學習。“上下文學習”這一概念最初由 Brown 等人（2020）定義為語言模型利用預訓練期間獲得的知識，僅基于其上下文（例如，少量示例或自然語言指令）推斷和執(zhí)行新任務的能力。這個廣泛且通用的定義，原則上適用于任何架構主干和/或目標函數的語言模型，后來被形式化地描述為僅適用于通過下一個詞預測目標訓練的 Transformer 架構的上下文學習。因此，盡管對基于 Transformer 的模型可以在上下文中學習的算法/問題進行了廣泛研究（Akyürek 等人，2022，2024b；Zhang 等人，2024a；Dherin 等人，2025），但作為其一般形式的上下文學習相對而言尚未得到充分探索。在本文中，我們使用“上下文學習”最通用的定義，并將其指代為模型根據給定上下文自適應和學習的能力。我們的自然語言公式將上下文學習與聯(lián)想記憶的概念聯(lián)系起來，為模型的上下文學習能力提供了一個統(tǒng)一的解釋，無論其架構主干和/或目標函數如何。

3 嵌套學習

本節(jié)討論嵌套學習的動機、形式定義以及一般性的高層次影響。我們首先提出聯(lián)想記憶的公式，然后通過逐步示例，建立架構分解的直覺及其與將神經網絡建模為優(yōu)化問題集成系統(tǒng)的聯(lián)系。我們旨在首先展示深度學習中現有的方法和概念如何歸入嵌套學習范式，然后提出超越傳統(tǒng)方法的新公式，并/或提供關于如何改進現有算法和設計的見解。

3.1 聯(lián)想記憶

聯(lián)想記憶——即形成并檢索事件之間聯(lián)系的能力——是一種基本的心理過程，也是人類學習中不可分割的組成部分（Terry 2017）。在文獻中，記憶和學習這兩個概念經常被混用；然而，在神經心理學文獻中，這兩者被明確區(qū)分。更具體地說，遵循神經心理學文獻（Okano 等人，2000），我們基于以下關于記憶和學習的定義來構建我們的術語：

在這項工作中，我們的目標是首先證明計算序列模型的所有元素（包括優(yōu)化器和神經網絡）都是壓縮其自身上下文流的聯(lián)想記憶系統(tǒng)。廣義而言，聯(lián)想記憶是將一組鍵映射到一組值的算子。我們遵循 Behrouz 等人（2025b）提出的聯(lián)想記憶的通用定義：

該算子本身是一種記憶，而其映射過程則充當了記憶行為（即記憶上下文中事件之間的聯(lián)系）。基于數據來獲得這種有效的算子，則是一個學習過程。請注意，這里的鍵和值可以是任意事件，記憶旨在對它們進行映射，并不局限于令牌。稍后我們將討論，在給定的上下文流中，鍵和值可能是令牌、梯度、子序列等等。此外，雖然聯(lián)想記憶這一術語在神經科學和神經心理學文獻中更為常見，但上述公式也與數據壓縮和低維表示密切相關。也就是說，我們可以將公式（6）中的優(yōu)化過程解釋為網絡 M ( ? )
的訓練過程，該網絡旨在將映射關系壓縮到其參數中，并在低維空間中表示它們。

在序列建模中，當鍵和值是輸入令牌（例如，經過分詞的文本）時，目標函數的選擇以及用于求解公式（6）的優(yōu)化過程，可以產生不同的序列建模架構（參見 Liu 等人，2024b 和 Behrouz 等人，2025b），例如全局/局部 softmax 注意力機制（Vaswani 等人，2017），或其他現代循環(huán)模型（Katharopoulos 等人，2020；Sun 等人，2023；Behrouz 等人，2025c）。這種簡單的序列模型公式化表述，使我們能更好地理解其內部過程，同時也提供了一種工具，可以根據其目標函數和優(yōu)化過程來簡單比較它們的建模能力。接下來，我們將通過逐步的示例，探討如何將此公式應用于神經架構的所有組件（包括其在預訓練中的優(yōu)化過程），并實際上說明一個模型是如何成為一個多層次、嵌套、且可能并行的記憶集成系統(tǒng)，其中每個層次都有自己的上下文流。

因此，該公式將模型的訓練階段轉化為一個獲取有效記憶的過程，該記憶將數據樣本映射到其表示空間中的 局部驚奇信號（LSS） ——衡量其對應輸出的驚奇程度。該梯度可視為預測中的誤差（當損失最小時梯度為零）。在第4節(jié)中，我們將更詳細地討論反向傳播過程作為一種聯(lián)想記憶，但作為這個簡單示例的初步啟示：

包含更多層級的架構分解 。在上述兩個示例中，我們討論了它們如何被視為一個 雙層優(yōu)化過程 （這與它們的FWPs解釋相符）。然而，在實踐中，我們可能需要使用更強大的優(yōu)化過程和/或更強大的記憶循環(huán)更新規(guī)則。舉個簡單的例子，假設我們使用帶動量的梯度下降來訓練一個線性注意力模型。如上所述，線性注意力組件可以被分解為兩個嵌套的優(yōu)化過程。類似地，這里的模型可以表示為一個雙層優(yōu)化問題，其中（1）內層使用梯度下降優(yōu)化記憶以壓縮上下文（公式 17），（2）外層使用帶動量的梯度下降優(yōu)化投影層。有趣的是，我們發(fā)現“帶動量的梯度下降”算法本身也可以被視為一個雙層優(yōu)化過程，其中動量項本身就是一個將過往梯度壓縮到其參數中的聯(lián)想記憶。

3.2 嵌套優(yōu)化過程

在上一節(jié)中，我們通過示例展示了如何將機器學習模型分解為一組嵌套或多層次的優(yōu)化過程。接下來，我們首先給出嵌套學習問題的形式化定義，然后定義神經學習模塊——一個從數據中學習的集成計算系統(tǒng)。

在之前的章節(jié)中，我們將模型分解為一組優(yōu)化過程。然而，目前尚不清楚我們是否能在這些過程中定義一種層級（或順序）關系，并以這種格式唯一地表示模型。受大腦波層級（指示各部分信息處理頻率，第1節(jié)已討論）的啟發(fā)，我們利用每個優(yōu)化過程的更新速率來對多個層級的組件進行排序。為此，我們設每處理一個數據點的一次更新步驟為一個時間單位，并將每個組件的更新頻率定義如下：

定義2（更新頻率）。對于組件 A A的任意部分，它可以是參數化組件（例如，可學習權重或帶動量的梯度下降中的動量項）或非參數化組件（例如，注意力塊），我們將其頻率（記為）定義為單位時間內其更新的次數。

請注意，每個優(yōu)化過程都有其自身的梯度流，因此有時我們將其稱為對應于某個優(yōu)化問題的梯度流盒子。在本文中，我們進一步推廣了嵌套系統(tǒng)的定義，并允許為某些盒子（即優(yōu)化問題）尋找非參數化解。

上述定義為嵌套系統(tǒng)提供了一個通用且靈活的定義，它并未指定不同盒子之間是否存在依賴關系（即，一個盒子可以決定另一個盒子的上下文或參數空間）。在接下來的章節(jié)中，我們將討論知識/信息如何在不同的層級或盒子之間傳遞。在整篇論文中，我們主要關注聯(lián)想記憶的嵌套系統(tǒng)，這是一個嵌套系統(tǒng)，其中每個優(yōu)化過程都是一個聯(lián)想記憶。更正式地說，

上述示例也適用于在 Transformer 架構中使用更先進、更深的 MLP 塊（如 SwiGLU（Shazeer 2020）），并將其與其對應的循環(huán)記憶版本（Behrouz 等人，2025a）進行比較。此外，這個簡單的示例表明，當前將混合架構視為表達性強大的 softmax 注意力與高效循環(huán)模型結合的觀點有些誤導性，它遵循了傳統(tǒng)的 Transformer 骨干設計，但為 MLP 塊增加了上下文學習能力。我們將在第 6 節(jié)和第 7 節(jié)進一步討論這一點。

作為本小節(jié)關于嵌套系統(tǒng)和嵌套學習概念討論的要點：

如先前所討論，在文獻中，將架構與其優(yōu)化過程分離并視其為獨立的設計選擇是常見的做法，旨在組合在各方面都能實現最大表達能力的算法。然而，在實踐中，使用隨機梯度下降優(yōu)化的Transformer架構（Vaswani等人，2017）所學得的解決方案，與使用Adam優(yōu)化器（Kingma等人，2014a）的同一架構所學得的方案可能有很大不同。因此，在與這類機器學習算法交互時，我們觀察到，盡管架構軸相似，但整體訓練出的模型展現出不同的預測或生成不同的輸出。然而，從嵌套學習的視角來看，一個機器學習算法被表示為一個優(yōu)化問題與模型行為、預測及輸出生成的互聯(lián)系統(tǒng)；模型的預測和輸出生成取決于這個系統(tǒng)整體，而非其各子組件的簡單疊加。為此，我們定義神經學習模塊這一術語來指代模型的這種表示，其中架構和優(yōu)化過程共同決定了模型及其輸出。雖然在當前存在訓練階段和測試階段的機器學習流程中，這種聯(lián)合表示可能顯得不那么重要，但在我們所倡導的持續(xù)學習設置中（即沒有明確的訓練/測試階段，詳見第8節(jié)），它變得更加重要。

公式 23 中模型 f ( ? ; ? ) 優(yōu)化過程的一種解讀，是將模型視為該優(yōu)化過程的數據生成器。也就是說，正如第 3.1 節(jié)第一個示例所討論的，以及我們將在第 4 節(jié)展示的那樣，優(yōu)化過程是一種聯(lián)想記憶，旨在壓縮訓練數據與其梯度（或驚奇度）之間的模式。因此，內部訓練這種記憶（即模型的梯度）所用的數據集是由模型生成的。這樣一來，模型的類型可能導致生成的數據集（即梯度）隨著時間推移具有不同的模式和分布。優(yōu)化過程的影響以及這種數據生成也會反饋到模型自身，模型中參數的下一狀態(tài)由優(yōu)化算法決定。正如我們將在第 4 節(jié)討論的，將優(yōu)化器視為對模型梯度的聯(lián)想記憶，意味著每個優(yōu)化器都具有某些特殊屬性，例如更好的記憶管理、更高的壓縮率等。因此，選擇這類算法需要理解生成的梯度以及模型在參數空間中的變化。

3.3 層級間的知識傳遞

層級的直接連接（參數化）。第一種知識傳遞類型是直接整合不同層級或塊的權重。為此，低頻（即高層級）記憶系統(tǒng)的前向傳遞或檢索過程也以高頻（即低層級）記憶的參數為條件：

作為這種變體的一個示例，可以參見 Transformer 和 softmax 注意力模塊（Vaswani 等人，2017）。上述兩種變體都有一個重要特征：在不同層級的兩個塊之間，沒有經過任何狀態(tài)的反向傳播，知識傳遞是通過直接將一個層級的輸出以另一個層級的輸出/參數為條件來實現的。因此，在這個過程中，每個塊的狀態(tài)都被視為另一個塊的超參數。

通過反向傳播的知識傳遞。另一種知識傳遞形式是通過反向傳播，即在不同層級的塊之間存在梯度流。這種設計的前向傳播過程與上面討論的前向傳播相同。然而，反向傳播是主要區(qū)別所在：在上述兩種情況下，每個聯(lián)想記憶的狀態(tài)被視為另一個記憶的超參數，但在這里，兩種狀態(tài)都在同一個梯度流中進行優(yōu)化。因此，對于一個簡單的兩層塊結構，我們有：

通過初始化的知識傳遞。模型無關元學習（MAML）（Finn 等人，2017）是元學習（或稱學會學習）中最受歡迎的形式之一，其目標是學習模型的一個全局初始點，以便能夠快速學習新任務。從嵌套學習的視角看，存在兩個嵌套的優(yōu)化過程：其中內層問題在其自身上下文上進行迭代，并基于其內部目標；高層級問題則將其自身學習到的權重作為內層問題的初始點進行衡量。更正式地，我們定義：

其中高層級塊在所有低層級問題可能遇到的上下文上學習最佳初始值。如前所述，任何基于 MAML 的學習模型都是這種情況的一個實例，但作為一個更具體的例子，我們參考第 3.2 節(jié)和圖 3 討論的（MLP 層與線性注意力）示例。

與生成的聯(lián)系。知識傳遞最常見的形式之一是通過生成權重或上下文。也就是說，一個較低頻率（或較高頻率）的塊生成較高頻率（或較低頻率）塊的權重。更正式地，

上述形式的知識傳遞有兩個重要示例：（1）超網絡：目標神經網絡的權重由另一個（生成器）網絡生成。（2）優(yōu)化過程：架構為優(yōu)化器生成輸入。也就是說，優(yōu)化器的上下文（或輸入數據）是架構生成的梯度。關于此主題的更多討論，請參見第 4 節(jié)。請注意，此示例不一定涉及“學習到的優(yōu)化器”，它同樣適用于常用的優(yōu)化過程和算法，例如梯度下降、Adam（Kingma 等人，2014a）、AdaGrad（Duchi 等人，2011）等。

關于設計神經學習模塊的說明。以上我們僅討論了一些可能的知識傳遞方法的示例，以及不同層級間的潛在聯(lián)系。然而，嵌套學習和神經學習模塊的表述是通用的，因此不僅限于上述特定的方法集合。因此，要從嵌套學習的角度設計神經學習模塊，有兩個重要的步驟和設計選擇：

值得注意的是，通過不同的知識傳遞方式選擇，一些學習范式可以被視為神經學習模型的一部分。例如：（1）元學習，當兩個層級的塊之間進行知識傳遞，其中一個層級通過元學習來指導另一個層級；（2）模型無關元學習（MAML）（Finn 等人，2017），當知識傳遞通過學習初始化實現時；（3）超網絡，當一個較高頻率的塊為另一個較低頻率的塊生成權重時；（4）學習到的優(yōu)化器，當知識傳遞通過數據生成實現時（即一個高頻率塊為另一個低頻率塊生成梯度）。

4 優(yōu)化器作為學習模塊

在本節(jié)中，我們首先從聯(lián)想記憶和數據壓縮的角度來審視反向傳播過程以及對神經網絡的優(yōu)化。接著，我們將討論諸如基于動量的優(yōu)化器等變體如何成為嵌套聯(lián)想記憶系統(tǒng)的實例。最后，我們將從聯(lián)想記憶的角度探討其他方法，這些方法可以產生具有更強表達能力深度優(yōu)化器。

4.1 反向傳播作為聯(lián)想記憶

反向傳播 ≠ 線性注意力。對公式 30 的一個常見誤解是假設 δ ?
是一個預先計算好的項，因此反向傳播（至少在線性層上）恢復了赫布學習規(guī)則，從而導致優(yōu)化過程等同于在梯度上執(zhí)行線性注意力。然而，我們的公式表明，反向傳播中的更新規(guī)則是一個自指過程（Schmidhuber 1993），其中聯(lián)想記憶的值由其自身生成，這使得它成為一種比簡單的梯度線性注意力更復雜的聯(lián)想記憶（參見第 4.5 節(jié)）。

4.2 基于動量的優(yōu)化器作為聯(lián)想記憶

基于動量的優(yōu)化器是現代機器學習模型訓練的主要組成部分（Duchi 等人，2011；Kingma 等人，2014a；Jordan 等人，2024）。為了將基于動量的優(yōu)化器解釋為聯(lián)想記憶，讓我們從一個簡單的梯度下降算法開始：

該規(guī)則根據瞬時梯度（或驚奇度）更新權重的當前狀態(tài)。此更新規(guī)則沒有納入先前處理的令牌以及迄今已探索的損失函數地形，導致在許多情況下收斂速度較慢（或魯棒性較差）。為了解決這個問題，基于動量的梯度下降方法納入了過去梯度的指數移動平均（EMAs）：

預處理與海森矩陣近似。另一類算法是預處理算法，其核心思想是近似海森矩陣的逆以模擬牛頓算法的行為。形式上，帶有預處理的梯度下降定義如下：

基于這一視角，核心問題在于找到能夠增強壓縮過程的最佳坐標系。最簡單的變體是恒等映射，即我們保持度量系統(tǒng)不變，并利用 P P將 g g（在本例中為梯度）映射到其自身，從而產生 Adam（Kingma 等人，2014a）和 AdaGrad（Duchi 等人，2011）中的預處理項，如附錄 B 所述。這些結果，以及將 Adam 及其變體表示為聯(lián)想記憶，表明不僅基于動量的優(yōu)化器是聯(lián)想記憶，它們還可以被分解為一組嵌套的學習問題，每個問題都通過梯度下降進行優(yōu)化。然而，在更一般的形式中，可以使用更多嵌套層級，并通過梯度下降優(yōu)化公式 40 中的內部問題，從而得到：

在 NL 框架中，要設計有效的預處理，需要找到的正確選擇。這一視角還可以引出其他類別的算法，例如具有梯度/動量正交化特性的算法：例如 Muon 及其變體（Jordan 等人，2024；Cesista，2025；Keigwin 等人，2025）。回顧 Muon 優(yōu)化器（Jordan 等人，2024）：

受這一觀察啟發(fā)，我們接下來將討論更具表達能力的動量變體，這些變體能夠實現更好的記憶管理和更高的記憶容量：

4.4 作為聯(lián)想記憶的動量的更具表達能力的設計

到目前為止，我們討論了（1）動量項可被視為一種旨在將（過去的）梯度壓縮到其參數中的聯(lián)想記憶；以及（2）對于能夠長時間持續(xù)學習多樣任務集的模型，優(yōu)化過程需要關于久遠過去和損失地形全局特性的適當信息。接下來，我們將討論嵌套學習和聯(lián)想記憶視角如何能夠促成具有多樣化記憶管理/結構的優(yōu)化器的設計：

擴展：更具表達力的關聯(lián)。如前所述，原始動量項可被視為無值的聯(lián)想記憶。為了允許更具表達力的聯(lián)想記憶，并遵循聯(lián)想記憶的原始定義（即將鍵映射到值），我們令值參數，因此動量旨在最小化：

這種更新基于 delta 規(guī)則（Prados 等人，1989），因此它允許記憶（動量）更好地管理其有限的容量（即 O ( N )
），并更好地記憶過去的梯度序列。例如，我們可以在優(yōu)化過程中學會遺忘某些過去的梯度（類似于從聯(lián)想記憶中的線性注意力轉向 delta 規(guī)則時發(fā)生的情況）。我們將此類動量項的變體稱為 Delta 動量變體。

擴展：更具表達力的記憶。將動量視為一個壓縮器或一個將過去梯度存儲到其元素（參數）中的記憶，其容量不僅取決于其更新規(guī)則（如上所述），還需要更具表達力的結構以允許更大的容量。當前的公式基于一個線性層（即矩陣值）來壓縮過去的梯度值，但這種線性特性可能限制其僅學習過去梯度的線性映射。為了提高該模塊的學習能力，可以使用更復雜的映射，例如用 MLP 替換動量中的線性矩陣值記憶。這種設計允許動量記憶更多的梯度，從而為優(yōu)化過程提供更好的信息。我們將公式 33 擴展為：

優(yōu)化器中長上下文的玩具示例。在第 4.3 節(jié)中，我們討論到在復雜設置（包括正交任務的持續(xù)學習）中，我們可能需要更復雜的動量項，要么具有更高的容量，要么具有更好的記憶管理能力。為了更好地說明其他動量記憶設計的潛在收益，我們使用一個時變曲率的玩具示例。由于標準動量充當低通濾波器，如果損失地形以高頻變化，那么旨在使用過去梯度加權平均的標準動量將受到不相關梯度項的影響，從而延遲收斂。作為一個說明性示例，考慮如下情形：

并旨在使用標準動量和我們的 delta 動量來優(yōu)化它。我們從點 ( r 0 , θ 0 ) = ( ? 3.5 , 2 )
開始優(yōu)化過程，并持續(xù)到其中一個算法收斂到最優(yōu)解為止。結果如圖 4 所示。delta 動量更快地找到了解，這主要是由于其依賴于梯度的權重衰減有助于動量項在需要時衰減或停止。

4.5 超越簡單梯度下降與動量

這種基于Delta規(guī)則的新算法（Prados等人，1989），我們稱之為Delta梯度下降，它不僅基于當前元素更新權重，還結合了權重的先前狀態(tài)，從而產生了一個基于當前數據樣本的自適應衰減項。接下來，我們將討論關于使用梯度下降的反向傳播過程的一種廣義視角，這將有助于我們后續(xù)構建廣義梯度下降系列的學習規(guī)則：

基于上述解釋，我們可以將使用梯度下降的反向傳播以一種通用形式定義，即任何旨在將訓練樣本壓縮為鍵，并將它們映射到自生成的值，以更好地控制其自身學習過程的自指模型。根據此定義，我們附錄 C 中的上述公式僅是一個使用回歸損失的簡單實例；然而，通常來說，我們可以將廣義梯度下降定義如下：

定義 5（廣義梯度下降學習規(guī)則）。廣義梯度下降學習規(guī)則是一種自指的聯(lián)想記憶，旨在壓縮數據樣本并將其映射到一組自生成的鍵：

同樣地，這一公式可以適用于動量項，從而產生廣義動量。然而，值得注意的是，動量本身是一種傳統(tǒng)的聯(lián)想記憶，其鍵和值是給定的，或者更具體地說，是由一個較低頻率的層級生成的。在第 4.2 節(jié)中，我們探討了這一公式的一個特殊情況，其中回歸損失。

關于持續(xù)學習設置中優(yōu)化器的說明。如上所述，優(yōu)化器本身就是學習模塊或聯(lián)想記憶，旨在將梯度壓縮到其參數中。這些參數在傳統(tǒng)術語中不一定是可訓練的，但事實上，基于動量的優(yōu)化器存儲了關于損失地形的知識，幫助它們更好地更新權重。當神經學習模塊的“預訓練結束”時，存儲在動量項中的關于梯度/數據分布的知識會從模型中移除，因此，在不恢復動量狀態(tài)的情況下繼續(xù)訓練可能會影響模型學習新能力的效果。當模型處于持續(xù)學習設置時，關于數據的知識存儲在傳統(tǒng)參數中（通過反向傳播優(yōu)化），而關于模型如何優(yōu)化自身以及目標空間的知識則在較低頻率的優(yōu)化層級（例如動量項）中進行優(yōu)化。

5 現有架構作為神經學習模塊

諸如 Transformer（Vaswani 等人，2017）和循環(huán)模型（Katharopoulos 等人，2020；Schlag 等人，2021；Sun 等人，2024；Behrouz 等人，2025c）等現代序列模型是近期語言模型進展的基石。最近，這類模型與旨在從數據中學習從鍵到值映射的聯(lián)想記憶之間的等價性已在不同設置和目標下得到了研究（Liu 等人，2024b；Sun 等人，2024；Behrouz 等人，2025b；Wang 等人，2025）。特別地，我們關注 Miras（Behrouz 等人，2025b）的通用框架，該框架將聯(lián)想記憶定義為定義 1，并在任意函數類（即記憶架構）上，通過選擇一種優(yōu)化算法來優(yōu)化內部目標（稱為“注意力偏置”）。盡管這一表述本身表明，眾所周知的架構是聯(lián)想記憶嵌套系統(tǒng)的實例，但接下來，我們將針對一些學習規(guī)則和架構回顧這種等價性。

關于現代序列模型中門控機制的說明。現代語言模型中最近的架構變化之一，是用序列模型的輸出對線性層的輸出進行門控處理。盡管這種方法帶來了顯著的性能提升，但其具體如何增強性能仍不明確。正如我們在圖 3 及其對應示例中所討論的，當記憶的初始狀態(tài)經過元學習時，前饋網絡與現代循環(huán)記憶模塊（如線性注意力（Katharopoulos 等人，2020）或深度記憶模塊（Behrouz 等人，2025c））的主要區(qū)別在于，記憶模塊的第二層級會進行上下文學習并根據上下文調整其狀態(tài)。從這個角度看，當記憶的初始值未經元學習時，它僅依賴于記憶的上下文自適應，因此在該模塊中不存在存儲預訓練知識的持久記憶系統(tǒng)。所以，在記憶初始值未經元學習的情況下（這在早期線性 Transformer 變體中很常見），線性注意力的門控機制充當了持久記憶以及記憶模塊初始化的角色。

5.1 重新審視嵌套學習的人腦視角

在第 1.1 節(jié)中，我們討論了人腦結構的均勻性和可復用性，以及我們是否需要在深度學習中設計新的架構，或者是否需要重新審視當前模型異質性的看法。在前面的章節(jié)中，我們觀察到神經網絡的優(yōu)化過程以及神經架構都可以被形式化為一組嵌套和/或并行的優(yōu)化問題，其中記憶結構是前饋層（例如深度 MLP、線性層等），而目標則通過梯度下降或牛頓法進行優(yōu)化。

原文鏈接：https://arxiv.org/pdf/2512.24695

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.