前兩天,Google發(fā)了一個非常有趣的論文:
《Nested Learning: The Illusion of Deep Learning Architectures》
![]()
非常有意思,很多人戲稱,這篇論文,是《Attention is all you need (V2)》。
![]()
《Attention is all you need》,神中神。
這篇論文提出的Transformer架構(gòu),現(xiàn)在是幾乎所有大模型的底層,比如GPT、Gemini、Claude、Qwen、DeepSeek等等等等。
2017 年的論文,到了 2025 年,引用次數(shù)已經(jīng) 17 萬+,進(jìn)入 21 世紀(jì)被引用最多的論文前十名,被正式稱為現(xiàn)代 AI 的奠基工作之一。
而現(xiàn)在,所謂的《Attention is all you need (V2)》雖然是個純粹的戲稱,但是也能看出來,如今的大模型發(fā)展到了個瓶頸,也急需一種新方法突破的階段了。
所以,《Nested Learning: The Illusion of Deep Learning Architectures》應(yīng)運(yùn)而生。
有趣的是,2017年的來自于《Attention is all you need》來自于Google Research,這次,依然是Google Research。
遙相呼應(yīng)了屬于是。
![]()
在我花了一些時間讀完這篇論文后。
我覺得我還是學(xué)到了非常多的東西,有一種我之前看DeepSeek-OCR那篇論文的美感。
我盡可能的用大白話,來聊聊這篇論文到底說了個啥,以及它為啥可能這么牛逼。
話不多說,直接開始。
要理解這篇論文的牛逼之處,我們得先理解現(xiàn)在的大模型有個非常致命的缺陷。
這個缺陷,就是:
失憶。
更準(zhǔn)確地說,是:
順行性遺忘癥。
![]()
我們常說,人腦這東西,最厲害的一點(diǎn),從來不是計算的多又快,有多省功耗,而是能記多久,又能多聰明。
你肯定見過那種經(jīng)典的神經(jīng)科普。
比如告訴你,大腦有短期記憶、長期記憶,短期記憶大概能同時存 7±2 個東西,然后很容易忘掉,長期記憶存得久,但寫入很慢,要反復(fù)出現(xiàn)、要睡覺鞏固、要和別的東西勾連,你才能記很久很久很久。
然后呢,現(xiàn)在的神經(jīng)科學(xué)也會提到一個觀點(diǎn),就是說:
記憶是分階段鞏固的,有在線的那一段,也有離線的那一段。
大概就是你白天學(xué)的東西,會先在海馬體里寫個草稿,晚上睡覺的時候,大腦會在各種腦波里反復(fù)replay,慢慢把重要的東西刻進(jìn)皮層,變成真正的長期記憶。
所以啊,睡眠不好,會讓你的記憶力越來越差,不是沒有根據(jù)的,我現(xiàn)在就能明顯的感覺到,記憶力越來越差了。。。
但是啊,如果你的這里出問題,就會出現(xiàn)我們在上文說的那個很典型的病。
順行性遺忘癥。
這類病人以前的記憶都在,但從某個時間點(diǎn)以后,新東西統(tǒng)統(tǒng)寫不進(jìn)長期記憶。
他們的世界只有“很久很久以前”和“剛剛這幾分鐘”,剩下的時間一片空白,每一天都像被困在剛剛發(fā)生的循環(huán)里。
不知道大家有沒有看過諾蘭的一個很經(jīng)典的電影《記憶碎片》。
![]()
主角只能記住幾分鐘內(nèi)發(fā)生的事,一旦超過這個時間,記憶就清零了,只能靠身上的紋身和紙條來提醒自己。
他知道自己是誰,知道自己過去的一切,但他無法形成新的、長久的記憶。
現(xiàn)在所有的大模型,GPT-5.1也好,Gemini 3 pro也好,再牛逼的模型,現(xiàn)在本質(zhì)上都是《記憶碎片》的主角。
它們那個龐大的、包含了半個互聯(lián)網(wǎng)知識的模型參數(shù),就是主角過去的人生記憶,也是他的長期記憶。
而我們跟它聊天時的那個上下文窗口,就是他那幾分鐘的短期記憶。
你在一個對話里教它一個新知識,它能記住,還能舉一反三。
但只要你關(guān)掉對話框,重新開一個,再問它,它就一臉無辜地看著你:“咱倆之前聊過這個嗎?”
這里咱們不聊ChatGPT和Gemini里面那種記憶的能力,那個本質(zhì)上是RAG,不能算從模型層面,真的記住了那些你說過的知識。
所以,我們其實(shí)可以看到,大模型的知識,被永遠(yuǎn)凍結(jié)在了預(yù)訓(xùn)練結(jié)束的那一刻。
從那以后,它就失去了形成新長期記憶的能力。
每一次對話都是一場絢爛的煙火,美則美矣,但消散后,什么都不會留下。
所以,這也意味著,現(xiàn)在你能用到的
AI,也永遠(yuǎn)無法真正地成長。
它無法從與你的互動中真正地了解你,也無法從解決了一個新問題后把經(jīng)驗(yàn)固化下來。
所以,其實(shí)我們每次跟AI開啟一個新的對話,都是在和一個全新的、只有出廠設(shè)置的AI打交道。
這里還是再強(qiáng)調(diào)一下,我說的一直都是模型層面,不是ChatGPT上面的那種記憶功能,那是工程層面,跟模型本身沒啥關(guān)系。
![]()
講到這里,我相信大家,都已經(jīng)理解了,在現(xiàn)在的AI架構(gòu)之下,這個致命的弊端。
就是,順行性遺忘。
所以,這篇《Nested Learning》(嵌套學(xué)習(xí),簡稱NL)的論文,就是沖著這個根本問題來的。
他們關(guān)注到了人腦里,一個特別有意思的現(xiàn)象,就是腦電波。
![]()
我們的大腦里,其實(shí)是有各種不同頻率的腦電波,他們各自騎著不同的作用。
比如睡覺時的Delta波(0.5-4Hz),放松時的Alpha波(8-12Hz),專注時的Beta波(12-30Hz)等等。
這些不同程度的腦電波,其實(shí)都代表著不同的神經(jīng)元在處理一些不同的任務(wù)。
比如有些神經(jīng)元在飛速地處理眼前的信息,像電腦的GPU一樣,這是高頻活動。
有些則在慢悠悠地整理、歸納、存儲信息,把短期記憶變成長期記憶,這是低頻活動。
所以,我們的大腦,其實(shí)一直是一個非常復(fù)雜的多頻率多層次協(xié)同工作的系統(tǒng)。
我用開車這事來舉個例子,比如你正在學(xué)開車。
你的最高頻系統(tǒng),是你的手腳肌肉記憶。
方向盤往左打多少,油門踩多深,這個反應(yīng)得非常快,幾乎是毫秒級的。這是最表層的、最快的學(xué)習(xí)。
你的中頻系統(tǒng),是你的戰(zhàn)術(shù)決策。
比如“前面紅燈了,我該踩剎車了”、“旁邊有車要并線,我得讓一下”。這個決策過程比肌肉反應(yīng)要慢,可能是秒級的,你需要一點(diǎn)點(diǎn)時間來處理路況信息,這是中頻。
你的低頻系統(tǒng),是你的戰(zhàn)略規(guī)劃。
比如“我今天要去A地,導(dǎo)航顯示這條路堵車,我應(yīng)該換一條路走”。
這個學(xué)習(xí)和決策過程就更慢了,你可能在出發(fā)前就想好了,路上還會根據(jù)情況調(diào)整,這是低頻。
你的最低頻系統(tǒng),是你的核心駕駛理念和能力。
通過幾個月的練習(xí),你從一個新手變成了老司機(jī)。
這個學(xué)會開車的過程,徹底改變了你大腦中關(guān)于駕駛的神經(jīng)連接,而這個變化是非常緩慢的,是以天、周、月為單位的,用AI的話說,就是,你的駕駛模型被重塑了。
從這個學(xué)會開車這么一個小事上來說,你應(yīng)該能發(fā)現(xiàn),
我們?nèi)祟惖膶W(xué)習(xí),天然就是嵌套式的,也是分層次分頻率的。
我們不會用思考人生哲學(xué)的腦回路去控制踩剎車的肌肉,也不會用肌肉記憶去規(guī)劃一次長途旅行。
現(xiàn)在的以Transformer為首的大模型架構(gòu),問題就出在這。它雖然有很多層,但本質(zhì)上,它是個單頻系統(tǒng)。
在訓(xùn)練的時候,所有參數(shù)的更新節(jié)奏基本是一致的,訓(xùn)練結(jié)束后,整個系統(tǒng)就被鎖死,所有頻率都?xì)w零了。
他再也沒有辦法學(xué)習(xí)了。
而再《Nested Learning》這套框架下,論文又提出了一個新的模型模塊 ,HOPE,名字非常好聽,叫希望。
![]()
HOPE里面,混了兩個東西,一部分是會自我修改權(quán)重的序列模型,一部分是多時間尺度的連續(xù)記憶帶(Continuum Memory System)。
從而,讓HOPE,擁有了帶自我更新機(jī)制的記憶單元。
它要把一個AI模型,明確地拆分成不同更新頻率的層級。
再這套框架下,AI在跟你對話的時候:
它的高頻層,在飛速處理你說的每個詞,理解你的意圖,生成回復(fù),這部分記憶是臨時的,對話結(jié)束可能就忘了。
它的中頻層則在以一個稍慢的速度,分析你這整個對話的主題、你的情緒、你的知識盲區(qū),試圖形成一個關(guān)于這次互動的概要記憶。
它的低頻層則更慢,它在整合過去一段時間里,跟你的所有互動。它可能會發(fā)現(xiàn):“哦,這個用戶最近總是在問關(guān)于古典音樂的問題,而且他似乎對巴赫特別感興趣。我應(yīng)該把‘該用戶是古典音樂愛好者’這個標(biāo)簽存入關(guān)于他的長期檔案里。”
這個過程,就非常非常像人腦的記憶鞏固機(jī)制了。
我們白天經(jīng)歷了很多事,這些都是碎片化的短期記憶,儲存在我們大腦的海馬體里。
到了晚上睡覺的時候,大腦會像放電影一樣回放這些記憶片段(再論文里叫offline consolidation),把重要的信息篩選出來,然后寫入到大腦皮層,成為穩(wěn)定的長期記憶。
嵌套學(xué)習(xí),就是給了AI一個睡覺和反思的能力。
可以讓AI,成為一個可以日積月累、不斷沉淀的學(xué)習(xí)者。
講到這里,你可能立刻會有一個疑問。
就是這個ChatGPT的記憶。
![]()
你可能會說:“等等,現(xiàn)在的大模型不是已經(jīng)有記憶了嗎?我告訴它我是一個素食主義者,它就能記住,下次會給我推薦素食餐廳。這不就是你說的那個低頻層在起作用嗎?”
但這個地方,我想說,這其實(shí)是個隨身帶個筆記本和記在了腦子里的根本區(qū)別。
你看到的ChatGPT的記憶功能,本質(zhì)上就是一個筆記本,當(dāng)你告訴它一個信息,比如“我是個大呆逼”,它并沒有真正把這個信息學(xué)進(jìn)它那個巨大的神經(jīng)網(wǎng)絡(luò)大腦里去。
它的核心模型,那上萬億個參數(shù),一個子兒都沒動。
它做的是,把“用戶是個大呆逼”這個事實(shí),提煉出來,存進(jìn)一個外掛的數(shù)據(jù)庫里,這個就是非常常見的一個技術(shù),叫檢索增強(qiáng)生成,也就是RAG。
下次你跟它聊天,它會先在這個數(shù)據(jù)庫里迅速翻一下,找到跟你相關(guān)的信息,然后把“已知該用戶是個大呆逼”這句話,悄悄地、自動地塞進(jìn)你們對話的背景信息里,再來回答你的問題。
所以,它的大腦本身還是那個失憶的大腦。
它只是擁有了一個越來越厚的、關(guān)于你的外部參考資料庫。
它不是真的記得,而是在每次對話前,都先看一遍筆記再來回答,僅此而已。
這很強(qiáng)大,非常實(shí)用,但它有極限。這個極限就是,它無法將這些零散的知識點(diǎn)內(nèi)化為真正的理解或直覺。
而《Nested Learning》提出的設(shè)想,是真正地去重塑大腦。
當(dāng)它的低頻層運(yùn)行時,它不是往外掛數(shù)據(jù)庫里寫一行字。
它是用你和它的互動數(shù)據(jù),去微調(diào)和更新它自己神經(jīng)網(wǎng)絡(luò)內(nèi)部的參數(shù)。
這其實(shí)就像我們自己學(xué)習(xí)新技能,通過反復(fù)練習(xí),大腦里負(fù)責(zé)這項(xiàng)技能的神經(jīng)突觸被真正地加強(qiáng)、重塑了。
再舉個例子,一個鋼琴家。
給他一本新樂譜,他可以看著譜子(外部記憶)彈出來,彈得可能很準(zhǔn),但也許沒啥感情,你把樂譜拿走,他就彈不出來了,這就是現(xiàn)在ChatGPT的記憶。
但,如果這位鋼琴家花了一個月的時間練習(xí)這首曲子,他早就已經(jīng)扔掉樂譜,曲子已經(jīng)融入了他的肌肉記憶和情感理解,他的大腦和手指的神經(jīng)也完全緊密連接。
他不僅能彈,還能即興變奏,還能跟你探討這首曲子背后的情感。這就是嵌套學(xué)習(xí)所追求的境界。
所以,你看,這完全是兩個層面的事。
現(xiàn)有記憶,是一種行為上的模擬。它通過外部工具,讓AI看起來像有記憶,但其實(shí)AI的世界觀和底層邏輯是紋絲不動的。
而這個嵌套學(xué)習(xí)的方法,是一種結(jié)構(gòu)上的成長。它能讓AI的神經(jīng)網(wǎng)絡(luò)本身發(fā)生改變,把新的信息和經(jīng)驗(yàn),從零散的數(shù)據(jù)點(diǎn)內(nèi)化成模型自身能力的一部分,從而,讓知識,真正變成了智慧。
這就是為什么這篇論文,為啥讓我如此令人興奮的原因。
這才是未來,真正的AI。
一個真正懂你的個人助理,你不用每次都跟它重復(fù)你的個人偏好和背景信息,它記得你上次跟它聊過你的寵物狗,記得你對貓毛過敏,記得你正在籌備下個月的旅行。
它跟你的互動越多,就越懂你。
這才是真正的。
Personal AI。
而在真正的評測里,論文作者拉來了Transformer++、RetNet、DeltaNet、Titans那些模型,在同樣的參數(shù)量和訓(xùn)練數(shù)據(jù)下,HOPE在一串常見評測上,平均成績都是第一檔。
![]()
這條路,是有可能成功的。
萬物皆是嵌套。
一個細(xì)胞的生命周期,嵌套在一個器官的運(yùn)轉(zhuǎn)中。
一個器官的運(yùn)轉(zhuǎn),嵌套在一個人的生命里。
一個人的生命,嵌套在一部家族史里。
一部家族史,又嵌套在一個文明的興衰中。
每一層都有自己的節(jié)拍和韻律,它們彼此影響,共同構(gòu)成了這個復(fù)雜而美妙的世界。
也許,我們大腦幾百萬年進(jìn)化出來的學(xué)習(xí)機(jī)制,可能真的,非常地道。
而AI要做的,也許不是另起爐灶,而是更謙卑地去模仿這種嵌套的、多層次的、充滿韻律感的智慧。
也許,當(dāng)AI真的學(xué)會了遺忘,學(xué)會丟棄不重要的信息,學(xué)會了沉淀,學(xué)會了鞏固重要的記憶,學(xué)會了在喧囂中保持一份緩慢的思考時。
它才真正開始擁有智能的幻覺。
甚至。
靈魂的雛形。
這條路還很長,但想想就讓人激動,不是嗎?
以上,既然看到這里了,如果覺得不錯,隨手點(diǎn)個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標(biāo)?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.