![]()
剛剛,谷歌發(fā)布了一項(xiàng)名為“嵌套學(xué)習(xí)”(Nested Learning)的全新機(jī)器學(xué)習(xí)范式,它將模型視為嵌套優(yōu)化問(wèn)題,從而增強(qiáng)對(duì)長(zhǎng)上下文的處理能力。基于嵌套學(xué)習(xí)的概念驗(yàn)證模型 Hope 在語(yǔ)言建模方面展現(xiàn)出更優(yōu)異的性能,谷歌的野心是緩解乃至徹底解決LLM遺忘問(wèn)題,實(shí)現(xiàn)類似人腦的持續(xù)學(xué)習(xí)能力
相關(guān)論文《Nested Learning: The Illusion of Deep Learning Architectures》已在NeurIPS 2025上發(fā)表
![]()
在過(guò)去十年,機(jī)器學(xué)習(xí)取得了巨大進(jìn)步,但LLM的成功之下,一些根本性挑戰(zhàn)依然存在,尤其是在持續(xù)學(xué)習(xí)方面。
人腦是持續(xù)學(xué)習(xí)的黃金標(biāo)準(zhǔn),其通過(guò)神經(jīng)可塑性不斷調(diào)整自身結(jié)構(gòu)以適應(yīng)新體驗(yàn)。相比之下,當(dāng)前LLM的知識(shí)局限于其輸入窗口的即時(shí)上下文或預(yù)訓(xùn)練期間學(xué)到的靜態(tài)信息。
最直接的解決方法——用新數(shù)據(jù)持續(xù)更新模型參數(shù),往往會(huì)導(dǎo)致“災(zāi)難性遺忘”(Catastrophic Forgetting, CF)。傳統(tǒng)上,研究人員通過(guò)調(diào)整架構(gòu)或優(yōu)化規(guī)則來(lái)對(duì)抗CF,但長(zhǎng)期以來(lái),模型架構(gòu)與優(yōu)化算法被視為兩個(gè)獨(dú)立部分,阻礙了真正統(tǒng)一高效的學(xué)習(xí)系統(tǒng)誕生。
谷歌提出的“嵌套學(xué)習(xí)”則打破了這一壁壘。
什么是嵌套學(xué)習(xí)?
嵌套學(xué)習(xí)范式提出,一個(gè)復(fù)雜的ML模型并非單一的連續(xù)過(guò)程,而是一個(gè)由相互關(guān)聯(lián)、多層次的學(xué)習(xí)問(wèn)題組成的系統(tǒng),這些問(wèn)題被嵌套或并行地同時(shí)優(yōu)化。
該理論認(rèn)為,模型架構(gòu)和訓(xùn)練規(guī)則(即優(yōu)化算法)本質(zhì)上是同一概念,它們只是處于不同“層級(jí)”的優(yōu)化問(wèn)題,每個(gè)層級(jí)都有其自身的信息流(“上下文流”)和更新速率
通過(guò)識(shí)別這種內(nèi)在結(jié)構(gòu),“嵌套學(xué)習(xí)”為設(shè)計(jì)更強(qiáng)大的AI提供了一個(gè)全新的、此前不可見的維度,允許構(gòu)建具有更深計(jì)算深度的學(xué)習(xí)組件,從而最終解決災(zāi)難性遺忘等問(wèn)題。
為了闡釋這一范式,研究人員以“聯(lián)想記憶”(associative memory)為例。
他們指出,訓(xùn)練過(guò)程本身(尤其是反向傳播)就可以被建模為一個(gè)聯(lián)想記憶。模型學(xué)習(xí)將給定數(shù)據(jù)點(diǎn)映射到其局部誤差值,該誤差值衡量了數(shù)據(jù)點(diǎn)的“意外”程度。同樣,像Transformer中的注意力機(jī)制等關(guān)鍵架構(gòu)組件,也可以被形式化為學(xué)習(xí)序列中Token之間映射關(guān)系的簡(jiǎn)單聯(lián)想記憶模塊。
通過(guò)為每個(gè)組件定義一個(gè)“更新頻率”,即權(quán)重調(diào)整的頻率,這些相互關(guān)聯(lián)的優(yōu)化問(wèn)題就可以被排列成不同的“層級(jí)”。這個(gè)有序集合構(gòu)成了嵌套學(xué)習(xí)范式的心臟。
研究人員表示,人腦中統(tǒng)一且可復(fù)用的結(jié)構(gòu)以及多時(shí)間尺度的更新,是人類持續(xù)學(xué)習(xí)的關(guān)鍵。嵌套學(xué)習(xí)允許模型的每個(gè)組件進(jìn)行多時(shí)間尺度更新,并證明了Transformer等知名架構(gòu)實(shí)際上是具有不同更新頻率的線性層。
嵌套學(xué)習(xí)的應(yīng)用
基于“嵌套學(xué)習(xí)”的視角,可以直接獲得改進(jìn)現(xiàn)有算法和架構(gòu)的原則性方法:
1. 深度優(yōu)化器 (Deep optimizers)
由于嵌套學(xué)習(xí)將優(yōu)化器(如動(dòng)量?jī)?yōu)化器)也視為聯(lián)想記憶模塊,因此可以將聯(lián)想記憶的原理應(yīng)用于優(yōu)化器設(shè)計(jì)。研究人員觀察到,許多標(biāo)準(zhǔn)優(yōu)化器依賴于簡(jiǎn)單的點(diǎn)積相似度,其更新并未考慮不同數(shù)據(jù)樣本之間的關(guān)聯(lián)。通過(guò)將優(yōu)化器的底層目標(biāo)更改為更標(biāo)準(zhǔn)的損失度量,例如L2回歸損失,他們?yōu)閯?dòng)量等核心概念推導(dǎo)出了新的公式,使其對(duì)不完美數(shù)據(jù)更具魯棒性。
2. 連續(xù)譜記憶系統(tǒng) (Continuum memory systems, CMS)
在標(biāo)準(zhǔn)Transformer中,序列模型充當(dāng)短期記憶,保存即時(shí)上下文;前饋網(wǎng)絡(luò)則充當(dāng)長(zhǎng)期記憶,存儲(chǔ)預(yù)訓(xùn)練知識(shí)。嵌套學(xué)習(xí)將這一概念擴(kuò)展為一個(gè)“連續(xù)譜記憶系統(tǒng)”,其中記憶被視為由一系列模塊組成的光譜,每個(gè)模塊都以特定的不同頻率進(jìn)行更新,為持續(xù)學(xué)習(xí)創(chuàng)造了更豐富、更有效的記憶系統(tǒng)。
Hope:一個(gè)自修改的驗(yàn)證架構(gòu)
作為概念驗(yàn)證,研究團(tuán)隊(duì)利用嵌套學(xué)習(xí)原理設(shè)計(jì)了一款名為“Hope”的自修改架構(gòu)。
Hope是Titans架構(gòu)的一個(gè)變體。Titans架構(gòu)是一種長(zhǎng)期記憶模塊,能根據(jù)記憶的“意外”程度確定其優(yōu)先級(jí),但它只有兩個(gè)參數(shù)更新層級(jí)。
而Hope是一個(gè)自修改的循環(huán)架構(gòu),它能夠利用無(wú)限層級(jí)的上下文學(xué)習(xí),并通過(guò)CMS模塊增強(qiáng),以擴(kuò)展到更大的上下文窗口。它本質(zhì)上可以通過(guò)一個(gè)自引用過(guò)程來(lái)優(yōu)化自身的記憶,從而創(chuàng)造出一個(gè)具有無(wú)限循環(huán)學(xué)習(xí)層級(jí)的架構(gòu)。
實(shí)驗(yàn)結(jié)果
在語(yǔ)言建模、長(zhǎng)上下文推理、持續(xù)學(xué)習(xí)和知識(shí)整合等一系列任務(wù)上的實(shí)驗(yàn)證明了嵌套學(xué)習(xí)、連續(xù)譜記憶系統(tǒng)和自修改Titans架構(gòu)的有效性。
通用性能:在一系列公開的語(yǔ)言建模和常識(shí)推理任務(wù)上,Hope架構(gòu)展現(xiàn)出比現(xiàn)代循環(huán)模型(如Titans、Samba)和標(biāo)準(zhǔn)Transformer更低的困惑度和更高的準(zhǔn)確率
![]()
長(zhǎng)上下文處理:在“大海撈針”(Needle-In-Haystack, NIAH)下游任務(wù)中,Hope展示了卓越的記憶管理能力,證明了CMS是處理擴(kuò)展信息序列的一種更高效的方式,其性能在不同難度的任務(wù)上均優(yōu)于Titans、TTT和Mamba2
![]()
結(jié)論
谷歌研究團(tuán)隊(duì)認(rèn)為,“嵌套學(xué)習(xí)”范式代表了對(duì)深度學(xué)習(xí)理解的一次飛躍。通過(guò)將架構(gòu)和優(yōu)化視為一個(gè)統(tǒng)一、連貫的嵌套優(yōu)化問(wèn)題系統(tǒng),它為模型設(shè)計(jì)解鎖了一個(gè)新的維度
像Hope這樣的模型證明,采用原則性方法統(tǒng)一這些元素,可以帶來(lái)表達(dá)能力更強(qiáng)、功能更強(qiáng)大、效率更高的學(xué)習(xí)算法。
團(tuán)隊(duì)相信,“嵌套學(xué)習(xí)”為彌合當(dāng)前LLM的遺忘特性與人腦卓越的持續(xù)學(xué)習(xí)能力之間的鴻溝,提供了一個(gè)堅(jiān)實(shí)的基礎(chǔ),并期待研究社區(qū)能共同探索這一新維度,以構(gòu)建下一代自我完善的AI
參考:
https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.