今年剛 25 歲的 00 后浙大碩士生方繼展,如果只聽他的聲音和表達內容,很容易讓人以為這起碼是一位博士生。他有著清晰的表達能力,更樂意針對 AI 主動發表原創見解。他也善于抓住時代趨勢,在天津大學電氣工程專業獲得學士學位之后,考入了浙江大學人工智能專業,目前課余正在阿里集團淘天部門實習。
![]()
圖 | 方繼展(來源:方繼展)
走上了堪稱是“最佳 AI 轉型路徑”之后,他也在讀研期間和合作者針對 AI 記憶開展了一項研究,借此發明出一種名為 LightMem(輕量記憶)的技術。
在 LongMemEval 和 LoCoMo 這兩個專門用于考察 AI 長期記憶能力的基準測試上,LightMem 回答問題的準確率全面超越之前的冠軍模型,最高提升了 7% 以上,在某些數據集上甚至提升了將近 30%。在構建和更新記憶時所消耗的 tokens 數量來說,最低只有其他系統的一百分之一。
方繼展告訴 DeepTech:“以我這樣的 AI 研究生為例,當把我在同一個大模型上的月度聊天記錄全部交由其它主流的 AI 記憶系統來存儲和管理以前需要 1,000 美元,現在有了 LightMem 在同等條件之下只需要 10-30 美元。”同時,它所需要調用昂貴大型 AI 模型的次數,最多可以降至只有以前的 300 分之一,能讓運營成本得到大幅下降,整體運行速度也能加快數倍到十余倍。
假如給大模型裝上 LightMem,大模型將可以更好地理解長對話的上下文,給出更一致、更個性化的回答。如果在對話過程中只考慮用戶能夠直接感受到的在線延遲,LightMem 的優勢將會更加恐怖,其所節省的計算量和請求次數還要更低。
![]()
(來源:https://arxiv.org/pdf/2510.18866)
在學術層面,LightMem 是一個系統性研究并優化現有記憶系統效率問題的工作。此前的工作大多關注如何讓記憶更有效,而方繼展深入分析了這些系統帶來的巨大開銷和時延,并以提升效率為核心目標進行設計。
在工程層面,LightMem 在記憶系統中大規模應用“顯式的 Token 壓縮”技術。方繼展發現,在自然語言交互中,信息冗余度極高,很多時候只需保留關鍵信息(關鍵詞),大模型就足以理解完整語義。研究中,他使用了先進的文本壓縮技術,顯著減少了需要處理的數據量。
LightMem 還將記憶的“構建”與“更新”這兩個階段解耦。方繼展把其中最耗時的記憶更新過程,從與用戶的實時交互鏈路中剝離出來。用戶無需等待更新完成,從而極大提升了交互的即時響應速度。
目前,方繼展已經將 LightMem 代碼完全開源。當前正在做的是讓它兼容市面上所有主流模型(無論是 OpenAI、Google 的閉源模型,還是 Qwen、DeepSeek 等開源模型),做到真正的“即插即用”。
未來,你所經常使用的大模型真的有可能成為你的 AI 助理,它會記得你愛吃的口味和過敏的藥物,真正能夠成為你的數字知己。在醫療、法律和金融等領域,大模型將能記住歷次的案例,提供連續性的分析。
方繼展告訴 DeepTech,他更希望 LightMem 可被用于具身智能領域,因為具身場景對于 AI 記憶的需求更大更迫切,以家庭機器人為例:未來的家庭機器人不僅能夠記住各種物品的擺放位置等事實層面的信息,還能記住每個家庭成員的習慣、偏好、觀念等抽象層面的信息。
![]()
(來源:https://arxiv.org/pdf/2510.18866)
以人類記憶的三層結構為靈感
眾所周知,當前大模型的上下文窗口是有限的,就像電腦內存條一旦滿了,舊有信息就會被擠出去。這導致大模型在開展長對話或處理復雜任務的時候,常常表現得不盡如人意。
LightMem 的核心思想來源于一個著名的人類記憶模型——阿特金森-希弗林模型。科學家發現,我們的大腦在處理信息的時候并不是一股腦全部塞進去,而是遵循一套精妙的流水線。
首先是感覺記憶,眼睛看到和耳朵聽到的信息,會在這里短暫停留,就像照相機的咔嚓一閃一樣,大腦會迅速過濾掉無關緊要的噪音。其次是短時記憶,經過篩選的信息進入這里會被我們注意到,就像我們默念一個剛聽到的抖音號 ID,它只能在我們的大腦中保持十幾秒到一分鐘,必須進行反復背誦才能記住。
再次是長時記憶,一些重要的信息經過整理和鞏固,最終會被存入大腦形成持久的記憶。睡眠則在其中扮演重要角色,當我們睡著的時候,大腦會像圖書管理員一樣,默默地將我們白天的經歷像整理圖書一樣進行分類、歸檔,甚至能夠把相關的知識連接起來。
但是,當前的 AI 記憶系統在這方面顯得有些笨拙。它們會把所有對話內容包括大量的重復信息和無關信息都直接進行一股腦的處理,這就像使用最高性能的游戲電腦去處理一張簡單的照片一樣,不僅浪費資源而且延遲較高,并且會因為信息太多太雜而記不住、記不準確。這就導致這些 AI 記憶系統在對話進行中必須實時更新記憶庫,而這則會拖慢整個聊天的速度。
方繼展表示:“我做這個研究,主要是關注到了大模型傳統訓練范式中的兩個關鍵瓶頸:訓練成本和災難性遺忘。”一方面,大模型訓練需要巨大的算力,成本高昂。另一方面,當你想給模型注入新知識或新技能時,通過傳統的微調改變其參數,往往會導致一個嚴重問題——模型會忘記之前學過的知識,這就是災難性遺忘。因此,他關注到了大模型記憶這個方向,并開展了本次研究。
![]()
(來源:https://arxiv.org/pdf/2510.18866)
LightMem:通過模仿人腦來提高效率
LightMem 通過模仿人類記憶的三層結構,打造了三個可以互相配合的輕量模塊。
第一個輕量模塊是感覺記憶過濾器(Light1)。在長對話中,有許多信息都是重復和無關緊要的,比如“你好”“謝謝”或者一些語氣詞等。面對這一問題,LightMem 使用一個名為 LLMLingua-2 的壓縮模型來讓大模型快速地掃描每輪對話。
LLMLingua-2 能夠識別哪些是關鍵詞、哪些是口水話,從而能夠根據設定的壓縮比例(如保留 60%),動態保留相應比例的最重要的詞語,來將一大段話精簡為一小段精華摘要。這就相當于在信息進入 AI 處理流水線之前,率先進行了一次高效的去噪和提純,能夠極大減少后續處理的工作量。
第二個輕量模塊是短時記憶話題管家(Light2)。大模型里的對話往往是圍繞不同話題展開的,因此光有壓縮還遠遠不夠。如果一股腦地把多個主題的內容混合在一起讓 AI 總結,它很有可能會搞混。
而這里短時記憶話題管家(Light2)會針對壓縮后的對話精華進行分析,利用注意力機制和語義相似度計算,來判斷出話題切換的邊界。比如,當你和 AI 的對話從“討論周末吃什么”過渡到“推薦一部好電影”時,短時記憶話題管家(Light2)就會在這里劃出一條分界線。
接著,屬于同一個話題的多輪對話比如關于熱門電影《瘋狂動物城 2》的幾個問題和幾個回答,會被打包成為一個話題記憶包。只有當這個記憶包積累到一定大小時,才會調用一次大模型來為記憶包生成一個總的概述。以前每輪對話都要調用一次大模型,而使用本次方法將調用次數降低到只有原來的十分之一甚至百分之一。
第三個輕量模塊是長時記憶與睡眠時間更新器,這也是 LightMem 最巧妙的創新。在進行對話的時候,新生成的話題記憶包會帶著時間戳,直接存入長時記憶庫之中,其好處在于只需做簡單的添加,不需要做復雜的整理,因此能夠保證聊天的實時性,并且沒有任何卡頓。
對于大模型來說,記憶庫的整理、去重、知識連接都是“重活”。而 LightMem 為大模型設置了睡眠時間也就是離線時間,讓大模型專門在睡覺的時候干這些重活。這時,系統會悄悄地啟動,就像人腦在睡眠時針對記憶庫進行整理一樣。
大模型會找出內容相似、但是存在新信息的記憶條目進行合并,在此期間還會針對重復內容進行刪除,并能建立不同知識之間的連接。而且,由于各個記憶條目的更新任務是彼此獨立的,因此系統可以同時處理多個任務,就像一家圖書館安排多位管理員整理不同書架一樣,效率自然相對較高。
當然,賦予大模型以長期記憶也伴隨著隱私、安全和倫理等挑戰。方繼展也在論文中表示,對于未來的應用必須建立嚴格的隱私保護措施和糾偏機制,確保 LightMem 能夠產生善意和可信的用途。
下一步,方繼展將從大模型推理的底層硬件原理上進行優化,例如對注意力計算中的 KV Cache 進行預計算和壓縮,實現更極致的加速。同時,他還計劃將這一設計范式拓展到更多行業和模態,例如代碼生成、保險、以及圖像、視頻等多模態場景的壓縮與記憶。還包括“具身智能”場景(如家庭機器人),讓機器人能長期記住用戶的習慣和偏好,避免在錯誤中循環。
方繼展補充稱,“AI 發展一直從人類智能中汲取靈感。我在研究記憶系統時,也深入學習了人類記憶的認知科學理論。我認為,人類的記憶不僅僅是記住事實(Facts),它至少包含三層:知識的抽象與積累、技能的習得、對世界底層規則的建立。”
知識的抽象與積累,是指將具體經驗提煉成可遷移的知識;技能的習得,是指通過練習將操作內化為本能;對世界底層規則的建立,是指形成認知框架。反觀當前的大模型記憶系統,大多還停留在最表層的事實記憶階段(即記住我們說了什么和做了什么)。
方繼展認為,未來的記憶系統,應該向人類學習,不僅要記“事”,更要能抽象出“知識”,并能將解決問題的“過程”轉化為可復用的“技能”。人類的記憶之所以高效,正在于它是一種輕量的、抽象的系統,并非事無巨細地存儲一切,而這正是大模型記憶系統應該借鑒的核心理念。
參考資料:
相關論文 https://arxiv.org/pdf/2510.18866
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.