最近跟ChatGPT聊一個冷門歷史概念,前兩句還解釋得頭頭是道,第三句問細節,它直接回“抱歉,我不太理解你的問題”。
當時就懵了,合著這貨是金魚記憶啊?轉頭就忘可還行。
這不是個例,現在的大模型基本都這毛病,剛教的新知識,對話一長就丟,只能靠預訓練那點老本或者臨時緩存撐著。
![]()
過去十年整個行業有點走火入魔了。
一提AI進步,就是“參數又漲了多少億”“模型又深了多少層”。
好像只要堆夠規模,智能就能自動冒出來似的。
結果呢?模型是越來越大,可“記不住新東西”這個老大難,一點沒改善。
這就像我們蓋樓只追求高度,不管地基穩不穩、內部結構合不合理。
![]()
傳統深度學習現在就陷在這種“扁平化陷阱”里,看著熱鬧,實則問題一堆。
先說層數這事兒,按理說,模型層數越多,信息處理應該越深入吧?可實際情況是,很多時候層數堆上去了,計算深度壓根沒變化。
就像疊被子,疊十層和疊二十層,厚度不一樣,但里面的棉花還是那些棉花,沒變得更蓬松。
這種“深度冗余”,純屬浪費資源。
參數規模就更別提了,以前覺得參數越多模型越聰明,現在發現根本不是線性關系。
![]()
有些任務,參數翻十倍,性能就提升一點點。
更頭疼的是持續學習能力,讓模型學個新東西,舊知識就跟著忘,跟狗熊掰棒子似的。
這哪是智能,分明是“一次性記憶”工具。
優化器這個“幕后玩家”也有問題,現在主流的Adam、隨機梯度下降這些,看著挺厲害,實則經常“迷路”。
訓練的時候被局部梯度帶跑偏,最后收斂到一個“次優解”,就像考試時明明會做的題,卻因為粗心選錯答案,潛力根本沒發揮出來。
![]()
最核心的還是“記憶-學習”機制斷裂。
現在的大模型就兩種記憶模式,要么是預訓練時固化的“老知識”,跟刻在石頭上似的改不了,要么是對話時臨時緩存的“即時記憶”,說完就刪。
中間沒有過渡,新知識沉淀不下來。
這就像我們沒有筆記本,要么死記硬背,要么隨手寫在草稿紙上然后扔掉,能記住才怪。
就在大家以為只能這么硬扛的時候,谷歌的嵌套學習研究突然給了個新思路。
![]()
他們發現,我們一直把優化器當“訓練引擎”用,其實這貨本身就是個“關聯記憶系統”。
這話怎么理解?優化器在訓練時,會不斷壓縮、存儲歷史梯度變化的“模式”。
這些模式就像我們記筆記時畫的重點、總結的規律,雖然看不見,但一直藏在“黑盒”里。
以前沒人注意這點,現在才發現,這才是模型“持續記憶”的關鍵。
更有意思的是,優化器在工作時,其實同步跑著好幾個“嵌套的小型學習程序”。
![]()
有的處理即時梯度,有的看短期趨勢,有的總結長期模式。
就像我們學習時,一邊聽課記重點(即時),一邊每天復習(短期),一邊期末總結(長期),多尺度并行處理信息。
搞明白這點,嵌套學習提出了一個“雙維度”理論,真正的智能學習,得“深度”和“頻率”兩手抓。
深度就是傳統說的模型層數和容量,負責縱向抽象信息,頻率則是模型內部組件更新的節奏,負責橫向記憶周期。
以前我們光盯著深度猛干,把頻率維度完全忽略了。
![]()
現在看來,這倆得正交協同才行。
就像種地,不光要深耕土地(深度),還得按時澆水施肥(頻率),缺一個都長不好莊稼。
這理論跟人類記憶機制簡直神似。
我們的工作記憶處理即時信息(高頻),近期記憶歸納幾天內的事(中頻),長期記憶存儲幾年甚至幾十年的知識(低頻)。
神經科學里,海馬體負責把短期記憶轉成長期記憶,新皮層存結構化知識,這個過程就是不同頻率的信息遷移。
![]()
AI要是能學這套,“失憶癥”不就有救了?
基于這個思路,谷歌搞出了HOPE架構。
簡單說,就是弄了一群按“高頻-中頻-低頻”排列的MLP模塊,像光譜一樣覆蓋不同記憶周期。
信息輸入后,在這些模塊間自動流動,該記的記,該忘的忘,形成連續的記憶頻譜。
![]()
實驗效果還真不錯,在語言建模、常識推理任務上,HOPE不光性能能打,關鍵是能“漸進吸收”新知識,不像以前學新忘舊。
這才是AI該有的樣子不是冷冰冰的“知識琥珀”,而是能持續成長的學習系統。
說到底,這十年深度學習的“幻象”,就是把“規模”當成了“智能”的代名詞。
嵌套學習撕開了這層窗戶紙,智能的核心不是存了多少知識,而是怎么平衡“學習-記憶-遺忘”的節奏。
接下來,短期看,在現有模型里加個“頻率調節模塊”,優化優化器的記憶邏輯,讓AI能記住用戶偏好、沉淀新知識,應該不難實現。
![]()
長期的話,搞出自演化學習系統,讓AI自己調整“深度-頻率”配比,實現“終身學習”,也不是沒可能。
到那時候,AI就不再是預訓練知識的“復讀機”,而是能跟我們一起成長的“智能伙伴”。
每個優化器都變成AI的“專屬筆記本”,好記性不如爛筆頭,這話終于能在AI身上實現了。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.