網易首頁 > 網易號 > 正文申請入駐

為什么這篇谷歌論文被稱為「Attention is all you need」V2

2025-12-21 15:15:36　來源: 量子位

北京舉報

分享至

從小老師就愛說“好記性不如爛筆頭”，那么我們為什么不給有“記憶缺陷”的大模型配一個小本本記上總結歸納的要點呢？

繼著名的“Attention Is All You Need”之后，谷歌新論文再度引爆圈內：我們可能忽略了AI的“另一半大腦”。

這篇文章題為
嵌套學習：深度學習架構的幻象（Nested Learning: The Illusion of Deep Learning Architectures）
在圈內被譽為是“Attention is all you need”V2

失憶的巨人

你是否曾對AI感到一絲“恨鐵不成鋼”？你剛剛在對話中詳細解釋過一個概念，三句話之后它就可能完全遺忘，仿佛從未發生。ChatGPT們上知天文下知地理，卻學不會你今天剛教它的一件小事。

這并非偶然的Bug，而是當前所有大型語言模型（LLMs）共同的“先天疾病”——數字失憶癥。

為了“治療”它，過去十年，整個行業幾乎只遵循一條黃金定律：把模型做得更深、更大。我們不斷堆疊Transformer層，追逐萬億參數，相信“規模即智能”，期待著記憶相關的能力也能“涌現”出來。

但是，這個努力方向有著明顯的問題：僅提高算法復雜度可能并不會使能力顯著提升。

具體而言，深度模型的計算深度可能不會隨著層數的增加而改變，模型的擴大對某些參數的容量提升影響十分有限，快速適應新任務、持續學習以及泛化性也很難通過參數量堆疊“自發涌現”。另外，受限于優化器，訓練過程可能收斂到一個次優解。

近日，谷歌一項顛覆性的研究指出，我們可能忽略了一個與“深度”同等重要、甚至更為根本的維度。

這項名為“嵌套學習”的研究，正以燎原之勢在學術圈內引發地震。許多資深研究者將其私下稱為“Attention is All You Need” V2。它沒有提出新的炫酷模塊，而是試圖回答了那個最根本的問題：機器學習的本質，究竟是什么？

優化器竟是記憶體

一切顛覆性的認知，往往始于對常識的重新審視。研究團隊選擇了一個最基礎、最不被注意的起點：優化器。

無論是經典的隨機梯度下降，還是如今廣泛使用的Adam，我們都將其視為訓練模型的“引擎”或“導航儀”——它計算梯度，指引參數朝損失下降的方向前進，僅此而已。

然而，這篇論文給出了一個反直覺的證明：主流的優化器本身，就是一個持續進行著“記憶”的關聯記憶系統。

這是什么意思？想象一下，優化器不僅在看當前的路況（即時梯度），它內部還有一個默默做筆記的黑盒子。這個盒子不斷壓縮、存儲一路走來所有梯度變化的“模式”與歷史。當我們以為自己在做“訓練模型”這一件事時，實際上已經不知不覺地運行了多個嵌套的、在不同時間尺度上并行的小型學習程序。

這個發現，成為了撬動整個新范式的支點。它意味著，從最底層的優化器，到中層的注意力機制，再到整個神經網絡，都可以被統一地重新審視——它們不再是功能各異被拼湊起來的零件，而是在不同速度、不同抽象層級上，嵌套運行的“學習-記憶”模塊。

我們熟悉的、引以為傲的“深度學習”體系，從這個全新的視角看，僅僅是這個更宏大、更立體范式的一個扁平化投影。

缺失的維度

基于這一核心洞察，論文提出了一個簡潔而深刻的新范式：嵌套學習。它認為，真正有效的智能學習需要兩個正交的維度：

1. 深度：即模型的層數與容量，這是我們過去十年全力拓展的。

2. 頻率：即模型內部組件自我更新的節奏與速度，這是我們先前幾乎完全忽略的。

人工智能的進步常受到人腦的啟發，這次也不例外。

人類之所以能持續學習、終身成長，是因為大腦同時用多種“生物時鐘”在工作。有些神經元回路快速反應，處理瞬息萬變的感官信息（如正在進行對話）；有些則緩慢而堅定地鞏固，將重要模式沉淀為長期知識或技能。這是一個連續、平滑的時間頻譜，信息在不同頻率的“通道”間有序流動、加工和儲存。

而當前的大模型就像得了“順行性失憶癥”，這種病的患者在病癥發作后無法形成新的長期記憶，但此前的既有記憶則保持完好。這種狀況將患者的知識與體驗局限在兩個時間片段：一個是很久遠的過去（發病之前），另一個是極其短暫的現在?；颊邥粩嗟亟洑v每一個“當下”，仿佛它們永遠是嶄新的、無法被記住的。

這與當前的大模型情況相似，只有兩種極端的工作頻率：一種是快速響應但轉瞬即逝的對話緩存，另一種是在預訓練完成后便凍結的長期知識。它嚴重缺失了中間所有頻譜的“記憶通道”。因此，任何新知識都無處安放，要么在對話結束后遺忘，要么覆蓋舊記憶為代價以高昂的計算成本更新——這正是“數字失憶癥”的根源。

HOPE與連續記憶光譜

全新的理論，需要全新的架構來證明。基于“嵌套學習”范式，研究團隊構建了名為HOPE的新型架構。其核心創新是一個連續記憶系統。

這不再是一兩個孤立的記憶模塊，而是一系列像光譜一樣排列的MLP模塊。每個模塊都以預設的、不同的頻率進行更新。信息輸入后，會在這些不同節奏的記憶模塊間自動流動與分配：

高頻模塊像“工作記憶”，快速捕捉對話中的即時細節與上下文。

中頻模塊像“近期記憶”，負責提煉和歸納一段時間內出現的模式。

低頻模塊像“長期記憶”，緩慢而穩定地將最重要的知識沉淀為模型固有能力。

這個過程，高度模仿了神經科學中信息從海馬體向新皮層轉移、鞏固的經典機制。在初步實驗中，HOPE已經在標準語言建模和常識推理任務上展現了強大的競爭力。

更重要的是，它顯露出了解決持續學習問題的巨大潛力——新知識可以在這條“記憶光譜”上找到自己合適的位置，被漸進式地消化吸收，而非引發系統性的崩潰或遺忘。

一場靜待發生的范式轉移

“嵌套學習”的價值，或許不在于明天就取代Transformer，成為大模型的主流骨架。它的深遠意義在于，提供了一套全新的設計邏輯和思考框架。

它的成功啟示我們，下一代AI的突破，不一定依賴于發明更復雜的“神經元積木”，而在于為AI設計一套能激發潛能的框架。這正是其被譽為“V2”的原因——如同2017年“注意力”機制統一了序列建模的視野，“嵌套學習”正試圖為學習過程本身，構建一個統一、可解釋的“白箱”模型。

當然，這仍是非常前沿的探索，這場關于“記憶”與“學習”本質的重新思考，才剛剛拉開序幕。人工智能的未來，或許不僅需要更深的網絡，更需要一個能夠學習和演化的系統，而不僅僅是作為一個靜止的、被凝固在訓練完成那一刻的“知識琥珀”。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.