網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI向人腦「黃金標(biāo)準(zhǔn)」又近一步，谷歌發(fā)布嵌套學(xué)習(xí)，賦予大模型持續(xù)學(xué)習(xí)的能力

2025-11-09 21:17:07　來(lái)源: AI寒武紀(jì)

江蘇舉報(bào)

分享至

剛剛，谷歌發(fā)布了一項(xiàng)名為“嵌套學(xué)習(xí)”（Nested Learning）的全新機(jī)器學(xué)習(xí)范式，它將模型視為嵌套優(yōu)化問(wèn)題，從而增強(qiáng)對(duì)長(zhǎng)上下文的處理能力。基于嵌套學(xué)習(xí)的概念驗(yàn)證模型 Hope 在語(yǔ)言建模方面展現(xiàn)出更優(yōu)異的性能，谷歌的野心是緩解乃至徹底解決LLM遺忘問(wèn)題，實(shí)現(xiàn)類似人腦的持續(xù)學(xué)習(xí)能力

相關(guān)論文《Nested Learning: The Illusion of Deep Learning Architectures》已在NeurIPS 2025上發(fā)表

在過(guò)去十年，機(jī)器學(xué)習(xí)取得了巨大進(jìn)步，但LLM的成功之下，一些根本性挑戰(zhàn)依然存在，尤其是在持續(xù)學(xué)習(xí)方面。

人腦是持續(xù)學(xué)習(xí)的黃金標(biāo)準(zhǔn)，其通過(guò)神經(jīng)可塑性不斷調(diào)整自身結(jié)構(gòu)以適應(yīng)新體驗(yàn)。相比之下，當(dāng)前LLM的知識(shí)局限于其輸入窗口的即時(shí)上下文或預(yù)訓(xùn)練期間學(xué)到的靜態(tài)信息。

最直接的解決方法——用新數(shù)據(jù)持續(xù)更新模型參數(shù)，往往會(huì)導(dǎo)致“災(zāi)難性遺忘”（Catastrophic Forgetting, CF）。傳統(tǒng)上，研究人員通過(guò)調(diào)整架構(gòu)或優(yōu)化規(guī)則來(lái)對(duì)抗CF，但長(zhǎng)期以來(lái)，模型架構(gòu)與優(yōu)化算法被視為兩個(gè)獨(dú)立部分，阻礙了真正統(tǒng)一高效的學(xué)習(xí)系統(tǒng)誕生。

谷歌提出的“嵌套學(xué)習(xí)”則打破了這一壁壘。

什么是嵌套學(xué)習(xí)？

嵌套學(xué)習(xí)范式提出，一個(gè)復(fù)雜的ML模型并非單一的連續(xù)過(guò)程，而是一個(gè)由相互關(guān)聯(lián)、多層次的學(xué)習(xí)問(wèn)題組成的系統(tǒng)，這些問(wèn)題被嵌套或并行地同時(shí)優(yōu)化。

該理論認(rèn)為，模型架構(gòu)和訓(xùn)練規(guī)則（即優(yōu)化算法）本質(zhì)上是同一概念，它們只是處于不同“層級(jí)”的優(yōu)化問(wèn)題，每個(gè)層級(jí)都有其自身的信息流（“上下文流”）和更新速率

通過(guò)識(shí)別這種內(nèi)在結(jié)構(gòu)，“嵌套學(xué)習(xí)”為設(shè)計(jì)更強(qiáng)大的AI提供了一個(gè)全新的、此前不可見的維度，允許構(gòu)建具有更深計(jì)算深度的學(xué)習(xí)組件，從而最終解決災(zāi)難性遺忘等問(wèn)題。

為了闡釋這一范式，研究人員以“聯(lián)想記憶”（associative memory）為例。

他們指出，訓(xùn)練過(guò)程本身（尤其是反向傳播）就可以被建模為一個(gè)聯(lián)想記憶。模型學(xué)習(xí)將給定數(shù)據(jù)點(diǎn)映射到其局部誤差值，該誤差值衡量了數(shù)據(jù)點(diǎn)的“意外”程度。同樣，像Transformer中的注意力機(jī)制等關(guān)鍵架構(gòu)組件，也可以被形式化為學(xué)習(xí)序列中Token之間映射關(guān)系的簡(jiǎn)單聯(lián)想記憶模塊。

通過(guò)為每個(gè)組件定義一個(gè)“更新頻率”，即權(quán)重調(diào)整的頻率，這些相互關(guān)聯(lián)的優(yōu)化問(wèn)題就可以被排列成不同的“層級(jí)”。這個(gè)有序集合構(gòu)成了嵌套學(xué)習(xí)范式的心臟。

研究人員表示，人腦中統(tǒng)一且可復(fù)用的結(jié)構(gòu)以及多時(shí)間尺度的更新，是人類持續(xù)學(xué)習(xí)的關(guān)鍵。嵌套學(xué)習(xí)允許模型的每個(gè)組件進(jìn)行多時(shí)間尺度更新，并證明了Transformer等知名架構(gòu)實(shí)際上是具有不同更新頻率的線性層。

嵌套學(xué)習(xí)的應(yīng)用

基于“嵌套學(xué)習(xí)”的視角，可以直接獲得改進(jìn)現(xiàn)有算法和架構(gòu)的原則性方法：

1. 深度優(yōu)化器 (Deep optimizers)

由于嵌套學(xué)習(xí)將優(yōu)化器（如動(dòng)量?jī)?yōu)化器）也視為聯(lián)想記憶模塊，因此可以將聯(lián)想記憶的原理應(yīng)用于優(yōu)化器設(shè)計(jì)。研究人員觀察到，許多標(biāo)準(zhǔn)優(yōu)化器依賴于簡(jiǎn)單的點(diǎn)積相似度，其更新并未考慮不同數(shù)據(jù)樣本之間的關(guān)聯(lián)。通過(guò)將優(yōu)化器的底層目標(biāo)更改為更標(biāo)準(zhǔn)的損失度量，例如L2回歸損失，他們?yōu)閯?dòng)量等核心概念推導(dǎo)出了新的公式，使其對(duì)不完美數(shù)據(jù)更具魯棒性。

2. 連續(xù)譜記憶系統(tǒng) (Continuum memory systems, CMS)

在標(biāo)準(zhǔn)Transformer中，序列模型充當(dāng)短期記憶，保存即時(shí)上下文；前饋網(wǎng)絡(luò)則充當(dāng)長(zhǎng)期記憶，存儲(chǔ)預(yù)訓(xùn)練知識(shí)。嵌套學(xué)習(xí)將這一概念擴(kuò)展為一個(gè)“連續(xù)譜記憶系統(tǒng)”，其中記憶被視為由一系列模塊組成的光譜，每個(gè)模塊都以特定的不同頻率進(jìn)行更新，為持續(xù)學(xué)習(xí)創(chuàng)造了更豐富、更有效的記憶系統(tǒng)。

Hope：一個(gè)自修改的驗(yàn)證架構(gòu)

作為概念驗(yàn)證，研究團(tuán)隊(duì)利用嵌套學(xué)習(xí)原理設(shè)計(jì)了一款名為“Hope”的自修改架構(gòu)。

Hope是Titans架構(gòu)的一個(gè)變體。Titans架構(gòu)是一種長(zhǎng)期記憶模塊，能根據(jù)記憶的“意外”程度確定其優(yōu)先級(jí)，但它只有兩個(gè)參數(shù)更新層級(jí)。

而Hope是一個(gè)自修改的循環(huán)架構(gòu)，它能夠利用無(wú)限層級(jí)的上下文學(xué)習(xí)，并通過(guò)CMS模塊增強(qiáng)，以擴(kuò)展到更大的上下文窗口。它本質(zhì)上可以通過(guò)一個(gè)自引用過(guò)程來(lái)優(yōu)化自身的記憶，從而創(chuàng)造出一個(gè)具有無(wú)限循環(huán)學(xué)習(xí)層級(jí)的架構(gòu)。

實(shí)驗(yàn)結(jié)果

在語(yǔ)言建模、長(zhǎng)上下文推理、持續(xù)學(xué)習(xí)和知識(shí)整合等一系列任務(wù)上的實(shí)驗(yàn)證明了嵌套學(xué)習(xí)、連續(xù)譜記憶系統(tǒng)和自修改Titans架構(gòu)的有效性。

通用性能：在一系列公開的語(yǔ)言建模和常識(shí)推理任務(wù)上，Hope架構(gòu)展現(xiàn)出比現(xiàn)代循環(huán)模型（如Titans、Samba）和標(biāo)準(zhǔn)Transformer更低的困惑度和更高的準(zhǔn)確率

長(zhǎng)上下文處理：在“大海撈針”（Needle-In-Haystack, NIAH）下游任務(wù)中，Hope展示了卓越的記憶管理能力，證明了CMS是處理擴(kuò)展信息序列的一種更高效的方式，其性能在不同難度的任務(wù)上均優(yōu)于Titans、TTT和Mamba2

結(jié)論

谷歌研究團(tuán)隊(duì)認(rèn)為，“嵌套學(xué)習(xí)”范式代表了對(duì)深度學(xué)習(xí)理解的一次飛躍。通過(guò)將架構(gòu)和優(yōu)化視為一個(gè)統(tǒng)一、連貫的嵌套優(yōu)化問(wèn)題系統(tǒng)，它為模型設(shè)計(jì)解鎖了一個(gè)新的維度

像Hope這樣的模型證明，采用原則性方法統(tǒng)一這些元素，可以帶來(lái)表達(dá)能力更強(qiáng)、功能更強(qiáng)大、效率更高的學(xué)習(xí)算法。

團(tuán)隊(duì)相信，“嵌套學(xué)習(xí)”為彌合當(dāng)前LLM的遺忘特性與人腦卓越的持續(xù)學(xué)習(xí)能力之間的鴻溝，提供了一個(gè)堅(jiān)實(shí)的基礎(chǔ)，并期待研究社區(qū)能共同探索這一新維度，以構(gòu)建下一代自我完善的AI

參考：

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.