網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Google又發(fā)布了一篇可能改變AI未來的論文，這次它教AI擁有了記憶。

2025-11-25 09:20:48　來源: 數(shù)字生命卡茲克

天津舉報

分享至

　　前兩天，Google發(fā)了一個非常有趣的論文：

　　《Nested Learning: The Illusion of Deep Learning Architectures》

　　非常有意思，很多人戲稱，這篇論文，是《Attention is all you need (V2)》。

　　《Attention is all you need》，神中神。

　　這篇論文提出的Transformer架構(gòu)，現(xiàn)在是幾乎所有大模型的底層，比如GPT、Gemini、Claude、Qwen、DeepSeek等等等等。

　　 2017 年的論文，到了 2025 年，引用次數(shù)已經(jīng) 17 萬+，進(jìn)入 21 世紀(jì)被引用最多的論文前十名，被正式稱為現(xiàn)代 AI 的奠基工作之一。

　　而現(xiàn)在，所謂的《Attention is all you need (V2)》雖然是個純粹的戲稱，但是也能看出來，如今的大模型發(fā)展到了個瓶頸，也急需一種新方法突破的階段了。

　　所以，《Nested Learning: The Illusion of Deep Learning Architectures》應(yīng)運(yùn)而生。

　　有趣的是，2017年的來自于《Attention is all you need》來自于Google Research，這次，依然是Google Research。

　　遙相呼應(yīng)了屬于是。

　　在我花了一些時間讀完這篇論文后。

　　我覺得我還是學(xué)到了非常多的東西，有一種我之前看DeepSeek-OCR那篇論文的美感。

　　我盡可能的用大白話，來聊聊這篇論文到底說了個啥，以及它為啥可能這么牛逼。

　　話不多說，直接開始。

　　要理解這篇論文的牛逼之處，我們得先理解現(xiàn)在的大模型有個非常致命的缺陷。

　　這個缺陷，就是：

　　 失憶。

　　更準(zhǔn)確地說，是：

　　 順行性遺忘癥。

　　我們常說，人腦這東西，最厲害的一點(diǎn)，從來不是計算的多又快，有多省功耗，而是能記多久，又能多聰明。

　　你肯定見過那種經(jīng)典的神經(jīng)科普。

　　比如告訴你，大腦有短期記憶、長期記憶，短期記憶大概能同時存 7±2 個東西，然后很容易忘掉，長期記憶存得久，但寫入很慢，要反復(fù)出現(xiàn)、要睡覺鞏固、要和別的東西勾連，你才能記很久很久很久。

　　然后呢，現(xiàn)在的神經(jīng)科學(xué)也會提到一個觀點(diǎn)，就是說：

　　 記憶是分階段鞏固的，有在線的那一段，也有離線的那一段。

　　大概就是你白天學(xué)的東西，會先在海馬體里寫個草稿，晚上睡覺的時候，大腦會在各種腦波里反復(fù)replay，慢慢把重要的東西刻進(jìn)皮層，變成真正的長期記憶。

　　所以啊，睡眠不好，會讓你的記憶力越來越差，不是沒有根據(jù)的，我現(xiàn)在就能明顯的感覺到，記憶力越來越差了。。。

　　但是啊，如果你的這里出問題，就會出現(xiàn)我們在上文說的那個很典型的病。

　　 順行性遺忘癥。

　　這類病人以前的記憶都在，但從某個時間點(diǎn)以后，新東西統(tǒng)統(tǒng)寫不進(jìn)長期記憶。

　　他們的世界只有“很久很久以前”和“剛剛這幾分鐘”，剩下的時間一片空白，每一天都像被困在剛剛發(fā)生的循環(huán)里。

　　不知道大家有沒有看過諾蘭的一個很經(jīng)典的電影《記憶碎片》。

　　主角只能記住幾分鐘內(nèi)發(fā)生的事，一旦超過這個時間，記憶就清零了，只能靠身上的紋身和紙條來提醒自己。

　　他知道自己是誰，知道自己過去的一切，但他無法形成新的、長久的記憶。

　　現(xiàn)在所有的大模型，GPT-5.1也好，Gemini 3 pro也好，再牛逼的模型，現(xiàn)在本質(zhì)上都是《記憶碎片》的主角。

　　它們那個龐大的、包含了半個互聯(lián)網(wǎng)知識的模型參數(shù)，就是主角過去的人生記憶，也是他的長期記憶。

　　而我們跟它聊天時的那個上下文窗口，就是他那幾分鐘的短期記憶。

　　你在一個對話里教它一個新知識，它能記住，還能舉一反三。

　　但只要你關(guān)掉對話框，重新開一個，再問它，它就一臉無辜地看著你：“咱倆之前聊過這個嗎？”

　　這里咱們不聊ChatGPT和Gemini里面那種記憶的能力，那個本質(zhì)上是RAG，不能算從模型層面，真的記住了那些你說過的知識。

　　所以，我們其實(shí)可以看到，大模型的知識，被永遠(yuǎn)凍結(jié)在了預(yù)訓(xùn)練結(jié)束的那一刻。

　　從那以后，它就失去了形成新長期記憶的能力。

　　 每一次對話都是一場絢爛的煙火，美則美矣，但消散后，什么都不會留下。

　　所以，這也意味著，現(xiàn)在你能用到的

　　 AI，也永遠(yuǎn)無法真正地成長。

　　它無法從與你的互動中真正地了解你，也無法從解決了一個新問題后把經(jīng)驗(yàn)固化下來。

　　所以，其實(shí)我們每次跟AI開啟一個新的對話，都是在和一個全新的、只有出廠設(shè)置的AI打交道。

　　這里還是再強(qiáng)調(diào)一下，我說的一直都是模型層面，不是ChatGPT上面的那種記憶功能，那是工程層面，跟模型本身沒啥關(guān)系。

　　講到這里，我相信大家，都已經(jīng)理解了，在現(xiàn)在的AI架構(gòu)之下，這個致命的弊端。

　　就是，順行性遺忘。

　　所以，這篇《Nested Learning》（嵌套學(xué)習(xí)，簡稱NL）的論文，就是沖著這個根本問題來的。

　　他們關(guān)注到了人腦里，一個特別有意思的現(xiàn)象，就是腦電波。

　　我們的大腦里，其實(shí)是有各種不同頻率的腦電波，他們各自騎著不同的作用。

　　比如睡覺時的Delta波（0.5-4Hz），放松時的Alpha波（8-12Hz），專注時的Beta波（12-30Hz）等等。

　　這些不同程度的腦電波，其實(shí)都代表著不同的神經(jīng)元在處理一些不同的任務(wù)。

　　比如有些神經(jīng)元在飛速地處理眼前的信息，像電腦的GPU一樣，這是高頻活動。

　　有些則在慢悠悠地整理、歸納、存儲信息，把短期記憶變成長期記憶，這是低頻活動。

　　所以，我們的大腦，其實(shí)一直是一個非常復(fù)雜的多頻率多層次協(xié)同工作的系統(tǒng)。

　　我用開車這事來舉個例子，比如你正在學(xué)開車。

　　 你的最高頻系統(tǒng)，是你的手腳肌肉記憶。

　　方向盤往左打多少，油門踩多深，這個反應(yīng)得非常快，幾乎是毫秒級的。這是最表層的、最快的學(xué)習(xí)。

　　 你的中頻系統(tǒng)，是你的戰(zhàn)術(shù)決策。

　　比如“前面紅燈了，我該踩剎車了”、“旁邊有車要并線，我得讓一下”。這個決策過程比肌肉反應(yīng)要慢，可能是秒級的，你需要一點(diǎn)點(diǎn)時間來處理路況信息，這是中頻。

　　 你的低頻系統(tǒng)，是你的戰(zhàn)略規(guī)劃。

　　比如“我今天要去A地，導(dǎo)航顯示這條路堵車，我應(yīng)該換一條路走”。

　　這個學(xué)習(xí)和決策過程就更慢了，你可能在出發(fā)前就想好了，路上還會根據(jù)情況調(diào)整，這是低頻。

　　 你的最低頻系統(tǒng)，是你的核心駕駛理念和能力。

　　通過幾個月的練習(xí)，你從一個新手變成了老司機(jī)。

　　這個學(xué)會開車的過程，徹底改變了你大腦中關(guān)于駕駛的神經(jīng)連接，而這個變化是非常緩慢的，是以天、周、月為單位的，用AI的話說，就是，你的駕駛模型被重塑了。

　　從這個學(xué)會開車這么一個小事上來說，你應(yīng)該能發(fā)現(xiàn)，

　　我們?nèi)祟惖膶W(xué)習(xí)，天然就是嵌套式的，也是分層次分頻率的。

　　我們不會用思考人生哲學(xué)的腦回路去控制踩剎車的肌肉，也不會用肌肉記憶去規(guī)劃一次長途旅行。

　　現(xiàn)在的以Transformer為首的大模型架構(gòu)，問題就出在這。它雖然有很多層，但本質(zhì)上，它是個單頻系統(tǒng)。

　　在訓(xùn)練的時候，所有參數(shù)的更新節(jié)奏基本是一致的，訓(xùn)練結(jié)束后，整個系統(tǒng)就被鎖死，所有頻率都?xì)w零了。

　　他再也沒有辦法學(xué)習(xí)了。

　　而再《Nested Learning》這套框架下，論文又提出了一個新的模型模塊，HOPE，名字非常好聽，叫希望。

　　 HOPE里面，混了兩個東西，一部分是會自我修改權(quán)重的序列模型，一部分是多時間尺度的連續(xù)記憶帶（Continuum Memory System）。

　　從而，讓HOPE，擁有了帶自我更新機(jī)制的記憶單元。

　　它要把一個AI模型，明確地拆分成不同更新頻率的層級。

　　再這套框架下，AI在跟你對話的時候：

　　它的高頻層，在飛速處理你說的每個詞，理解你的意圖，生成回復(fù)，這部分記憶是臨時的，對話結(jié)束可能就忘了。

　　它的中頻層則在以一個稍慢的速度，分析你這整個對話的主題、你的情緒、你的知識盲區(qū)，試圖形成一個關(guān)于這次互動的概要記憶。

　　它的低頻層則更慢，它在整合過去一段時間里，跟你的所有互動。它可能會發(fā)現(xiàn)：“哦，這個用戶最近總是在問關(guān)于古典音樂的問題，而且他似乎對巴赫特別感興趣。我應(yīng)該把‘該用戶是古典音樂愛好者’這個標(biāo)簽存入關(guān)于他的長期檔案里。”

　　這個過程，就非常非常像人腦的記憶鞏固機(jī)制了。

　　我們白天經(jīng)歷了很多事，這些都是碎片化的短期記憶，儲存在我們大腦的海馬體里。

　　到了晚上睡覺的時候，大腦會像放電影一樣回放這些記憶片段（再論文里叫offline consolidation），把重要的信息篩選出來，然后寫入到大腦皮層，成為穩(wěn)定的長期記憶。

　　嵌套學(xué)習(xí)，就是給了AI一個睡覺和反思的能力。

　　可以讓AI，成為一個可以日積月累、不斷沉淀的學(xué)習(xí)者。

　　講到這里，你可能立刻會有一個疑問。

　　就是這個ChatGPT的記憶。

　　你可能會說：“等等，現(xiàn)在的大模型不是已經(jīng)有記憶了嗎？我告訴它我是一個素食主義者，它就能記住，下次會給我推薦素食餐廳。這不就是你說的那個低頻層在起作用嗎？”

　　但這個地方，我想說，這其實(shí)是個隨身帶個筆記本和記在了腦子里的根本區(qū)別。

　　你看到的ChatGPT的記憶功能，本質(zhì)上就是一個筆記本，當(dāng)你告訴它一個信息，比如“我是個大呆逼”，它并沒有真正把這個信息學(xué)進(jìn)它那個巨大的神經(jīng)網(wǎng)絡(luò)大腦里去。

　　它的核心模型，那上萬億個參數(shù)，一個子兒都沒動。

　　它做的是，把“用戶是個大呆逼”這個事實(shí)，提煉出來，存進(jìn)一個外掛的數(shù)據(jù)庫里，這個就是非常常見的一個技術(shù)，叫檢索增強(qiáng)生成，也就是RAG。

　　下次你跟它聊天，它會先在這個數(shù)據(jù)庫里迅速翻一下，找到跟你相關(guān)的信息，然后把“已知該用戶是個大呆逼”這句話，悄悄地、自動地塞進(jìn)你們對話的背景信息里，再來回答你的問題。

　　所以，它的大腦本身還是那個失憶的大腦。

　　它只是擁有了一個越來越厚的、關(guān)于你的外部參考資料庫。

　　它不是真的記得，而是在每次對話前，都先看一遍筆記再來回答，僅此而已。

　　這很強(qiáng)大，非常實(shí)用，但它有極限。這個極限就是，它無法將這些零散的知識點(diǎn)內(nèi)化為真正的理解或直覺。

　　而《Nested Learning》提出的設(shè)想，是真正地去重塑大腦。

　　當(dāng)它的低頻層運(yùn)行時，它不是往外掛數(shù)據(jù)庫里寫一行字。

　　它是用你和它的互動數(shù)據(jù)，去微調(diào)和更新它自己神經(jīng)網(wǎng)絡(luò)內(nèi)部的參數(shù)。

　　這其實(shí)就像我們自己學(xué)習(xí)新技能，通過反復(fù)練習(xí)，大腦里負(fù)責(zé)這項(xiàng)技能的神經(jīng)突觸被真正地加強(qiáng)、重塑了。

　　再舉個例子，一個鋼琴家。

　　給他一本新樂譜，他可以看著譜子（外部記憶）彈出來，彈得可能很準(zhǔn)，但也許沒啥感情，你把樂譜拿走，他就彈不出來了，這就是現(xiàn)在ChatGPT的記憶。

　　但，如果這位鋼琴家花了一個月的時間練習(xí)這首曲子，他早就已經(jīng)扔掉樂譜，曲子已經(jīng)融入了他的肌肉記憶和情感理解，他的大腦和手指的神經(jīng)也完全緊密連接。

　　他不僅能彈，還能即興變奏，還能跟你探討這首曲子背后的情感。這就是嵌套學(xué)習(xí)所追求的境界。

　　所以，你看，這完全是兩個層面的事。

　　 現(xiàn)有記憶，是一種行為上的模擬。它通過外部工具，讓AI看起來像有記憶，但其實(shí)AI的世界觀和底層邏輯是紋絲不動的。

　　而這個嵌套學(xué)習(xí)的方法，是一種結(jié)構(gòu)上的成長。它能讓AI的神經(jīng)網(wǎng)絡(luò)本身發(fā)生改變，把新的信息和經(jīng)驗(yàn)，從零散的數(shù)據(jù)點(diǎn)內(nèi)化成模型自身能力的一部分，從而，讓知識，真正變成了智慧。

　　這就是為什么這篇論文，為啥讓我如此令人興奮的原因。

　　這才是未來，真正的AI。

　　一個真正懂你的個人助理，你不用每次都跟它重復(fù)你的個人偏好和背景信息，它記得你上次跟它聊過你的寵物狗，記得你對貓毛過敏，記得你正在籌備下個月的旅行。

　　 它跟你的互動越多，就越懂你。

　　 這才是真正的。

　　 Personal AI。

　　而在真正的評測里，論文作者拉來了Transformer++、RetNet、DeltaNet、Titans那些模型，在同樣的參數(shù)量和訓(xùn)練數(shù)據(jù)下，HOPE在一串常見評測上，平均成績都是第一檔。

　　這條路，是有可能成功的。

　　萬物皆是嵌套。

　　一個細(xì)胞的生命周期，嵌套在一個器官的運(yùn)轉(zhuǎn)中。

　　一個器官的運(yùn)轉(zhuǎn)，嵌套在一個人的生命里。

　　一個人的生命，嵌套在一部家族史里。

　　一部家族史，又嵌套在一個文明的興衰中。

　　每一層都有自己的節(jié)拍和韻律，它們彼此影響，共同構(gòu)成了這個復(fù)雜而美妙的世界。

　　也許，我們大腦幾百萬年進(jìn)化出來的學(xué)習(xí)機(jī)制，可能真的，非常地道。

　　而AI要做的，也許不是另起爐灶，而是更謙卑地去模仿這種嵌套的、多層次的、充滿韻律感的智慧。

　　也許，當(dāng)AI真的學(xué)會了遺忘，學(xué)會丟棄不重要的信息，學(xué)會了沉淀，學(xué)會了鞏固重要的記憶，學(xué)會了在喧囂中保持一份緩慢的思考時。

　　它才真正開始擁有智能的幻覺。

　　甚至。

　　靈魂的雛形。

　　這條路還很長，但想想就讓人激動，不是嗎？

　　以上，既然看到這里了，如果覺得不錯，隨手點(diǎn)個贊、在看、轉(zhuǎn)發(fā)三連吧，如果想第一時間收到推送，也可以給我個星標(biāo)?～謝謝你看我的文章，我們，下次再見。

　　>/ 作者：卡茲克

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.