![]()
在過去兩年里,記憶(Memory)幾乎從 “可選模塊” 迅速變成了 Agent 系統的 “基礎設施”:對話型助手需要記住用戶習慣與歷史偏好;代碼 / 軟件工程 Agent 需要記住倉庫結構、約束與修復策略;深度研究型 Agent 需要記住已閱讀的證據鏈、關鍵假設與失敗路徑,沒有 memory 的智能體難以跨任務保留有效經驗,難以穩定維護用戶偏好與身份設定,也難以在長周期協作中保持行為一致、避免反復犯同樣的錯誤。與此同時 Memory 概念在迅速膨脹、也在迅速碎片化:很多論文都聲稱自己在做 “agent memory”,但實現方式、目標假設、評價協議差別巨大,多術語并行又進一步模糊了邊界。
在這樣的背景下,來自新加坡國立大學、中國人民大學、復旦大學、北京大學等頂級學術機構共同撰寫并發布了百頁綜述《Memory in the Age of AI Agents: A Survey》,嘗試用統一視角為快速擴張、卻日益碎片化的 “Agent Memory” 重新梳理技術路徑。
![]()
- 論文鏈接: https://arxiv.org/abs/2512.13564
- Github 鏈接: https://github.com/Shichun-Liu/Agent-Memory-Paper-List
綜述首先指出傳統的 “長 / 短期記憶” 二分法,已經不足以描述當代系統里更復雜的結構形態與動態機制:有的記憶是顯式 token 存儲,有的寫進參數,有的駐留在潛在狀態;有的服務于事實一致性,有的服務于經驗遷移,有的服務于單次任務的工作臺管理 —— 如果繼續用簡單時間尺度切分,就很難真正解釋這些差異。
基于此,該綜述提出一個統一的分析框架:Forms–Functions–Dynamics(三角框架)。它試圖分別回答三類核心問題:
![]()
記憶以什么形式存在(Forms)——What Carries Memory? 是外部 token、參數,還是潛在狀態?
記憶解決什么問題(Functions)——Why Agents Need Memory? 它服務于事實一致、經驗成長,還是任務內工作記憶?
記憶如何運轉與演化(Dynamics)——How Memory Evolves? 它如何形成、如何被維護與更新、又如何在決策時被檢索與利用?
概念辨析:Agent Memory 到底
和 LLM Memory、RAG、Context Engineering 有何不同?
在大量工程實踐中,“Memory” 這個詞往往被迅速簡化為幾個具體實現:一個向量數據庫加上相似度檢索,或者干脆等同為更長的上下文窗口、更大的 KV cache。在這種理解下,只要模型 “還能看到過去的信息”,系統似乎就已經具備了記憶能力。然而,綜述明確指出:這些技術與 Agent Memory 確實存在交集,但在研究對象和問題層級上并不等價
![]()
Agent Memory:持久的、可自我演化的 “認知狀態”
Agent Memory 關注的是智能體持續維持的認知狀態,它不僅 “存”,還要能在交互中不斷更新、整合、糾錯、抽象,并跨任務保持一致性。獨特性在于維護一個persistent and self-evolving cognitive state,并把事實與經驗整合在一起。Agent Memory 關心的是 “智能體知道什么、經歷過什么,以及這些東西如何隨時間變化”,包括把反復交互沉淀成知識、從成功 / 失敗中抽象程序性知識、跨任務保持身份一致性等。
LLM Memory:“模型內部機制 / 長序列處理”
確實存在一條與 Agent Memory 不同、但同樣重要的研究路線 —— 真正意義上的 LLM-internal memory。這類工作關注的不是智能體如何在長期交互中積累經驗,而是模型在內部計算過程中如何更有效地保留和利用序列信息。這些方法的核心問題是:在一次或有限次推理過程中,如何避免早期 token 的信息衰減,如何在計算與顯存受限的前提下保持對長距離依賴的建模能力。其研究對象,本質上是模型內部的狀態與動態。它們并不假設模型是一個長期存在、需要跨任務保持身份與目標的自主體,也不要求模型與環境進行持續交互或做出一系列有后果的行動決策。換言之,這些方法即便不引入 agentic 行為,也完全成立:模型依然可以在單次問答、長文檔理解或摘要等任務中受益。
RAG:“靜態知識訪問”
RAG 通常強調從外部知識庫檢索靜態信息以提升回答事實性;它可以是 Agent Memory 的一部分實現,但如果系統沒有長期一致性、沒有演化機制、沒有跨任務的 “自我”,那么它更像 “知識訪問模塊”,而非完整記憶系統。這個差別在綜述的概念對照圖說明里也被點明:RAG 更接近 “static knowledge access”。
Context Engineering:“當下推理的外部腳手架”
Context Engineering 的目標常常是:在上下文窗口受限時,如何組織提示、壓縮信息、構建工具輸出格式等 —— 它優化的是 “此刻模型看到什么”。而論文強調:Context Engineering 是外部腳手架;Agent Memory 是支持學習與自主性的內部基底。前者優化當下接口,后者維持跨窗口、跨任務的持續認知狀態。
Forms:記憶的載體是什么?
綜述把 agent memory 的形式歸納為三大類:token-level /parametric/latent
這三類的差別聚焦于:信息以什么表示、在哪里存、如何讀寫、以及可解釋性與可塑性的取舍
Token-level Memory:最 “顯式” 的記憶層
token-level memory 的定義非常直觀:它把信息存成持久、離散、可外部訪問與檢查的單元;這里的 token 不僅是文字 token,也可以是視覺 token、音頻幀等,只要是可寫、可檢索、可重排、可修改的離散元素即可。
為什么它在工程里最常見?因為它天然具備三種優勢:
1.透明:你能看到存了什么;
2.可編輯:能刪改、能糾錯;
3.易組合:適合作為檢索、路由、沖突處理的 “中間層”,并與 parametric/latent memory 協同。
但 token-level 并不是 “一個向量庫” 那么簡單。進一步按 “拓撲結構復雜度” 可以把它分成三種組織方式:
![]()
- Flat Memory(1D):沒有顯式拓撲關系,記憶像序列 / 離散單元一樣累積(例如片段、軌跡)。它的優點是實現簡單、寫入快;缺點是檢索與更新容易退化成 “相似度匹配 + 越存越亂”。
- Planar Memory(2D):單層結構化組織,記憶單元之間通過圖、樹、表等關系連接,但不分層。它更適合多跳推理、關系約束與一致性維護;代價是構建與維護結構更復雜。
- Hierarchical Memory(3D):多層結構并帶跨層鏈接,形成 “分層 / 立體化” 的記憶體系。它的動機往往是:既要保留細節,又要形成抽象總結,并讓檢索可以在不同粒度之間切換。
這反應了當記憶規模增大,單純堆歷史就會暴露弊端,必須引入結構(2D)與分層抽象(3D),才能讓長期存在的外部記憶真正可用。
Parametric Memory:把記憶 “寫進權重”
Parametric memory 的定義是:信息存儲在模型參數中,通過參數空間的統計模式編碼,并在前向計算中被隱式訪問。它更像人類 “內化后的直覺”:不用每次檢索外部庫,模型直接學會并記住這些內容。但代價同樣明顯:
- 需要訓練 / 更新權重(成本高)
- 難以精確編輯與審計
- 容易和遺忘、分布漂移、災難性遺忘問題糾纏在一起
![]()
Latent Memory:藏在隱狀態 / 連續表示里的 “動態記憶”
Latent memory 的定義是:記憶以模型內部隱狀態、連續表示或演化的潛在結構存在,可在推理時或交互周期中持續更新,用于捕捉上下文相關的內部狀態。
![]()
它介于 “外部顯式存儲” 和 “權重內化” 之間:比 token-level 更緊湊、更接近模型計算過程;比 parametric 更容易在推理期更新,但也往往更難解釋、更難審計。
![]()
Functions:記憶的功能是什么?
這一分類角度是這篇綜述的核心觀點之一,它不再用 “長 / 短期” 這種時間尺度粗分,而是用功能角色把 agent memory 分成三類:
- Factual memory(事實記憶):記錄來自用戶與環境交互的知識
- Experiential memory(經驗記憶):從任務執行中增量提升解決問題的能力
- Working memory(工作記憶):管理單個任務實例中的工作區信息
這三個概念的價值在于:它們對應的是三種完全不同的 “記憶失敗模式”,也對應三類不同的系統設計。
![]()
Factual Memory:讓智能體 “記住世界”,并且可核查
事實記憶的一個關鍵目標,是提供一個可更新、可檢索、可治理(governable)的外部事實層,讓系統在跨 session / 跨階段時有穩定參考。 這類記憶不只面向 “用戶偏好”,也面向 “環境事實”:長文檔、代碼庫、工具狀態、交互軌跡等。
環境事實記憶能成為持續可更新、可審計、可復用的外部事實層;在協作維度還能維持跨 agent、跨階段一致性,從而支撐多來源信息與長周期任務下的穩健執行。
如果你做過 “多輪對話 + 多工具 + 多資料” 的系統,你會非常熟悉這種痛點:事實一旦散落在歷史對話里,就會反復被遺忘、被誤引、被編造。事實記憶的意義,就是把 “可核查的世界狀態” 從臨時上下文里抽出來,變成可維護的對象。
Experiential Memory:讓智能體 “吃一塹長一智”
經驗記憶的定義更像能力的積累:它把歷史軌跡、提煉后的策略、交互結果編碼為可持久檢索的表示。它與工作記憶不同:工作記憶管 “眼前這一題”,經驗記憶關心 “跨 episode 的長期積累與遷移”。
綜述把經驗記憶與認知科學里的非陳述性記憶(程序性 / 習慣系統)類比,同時指出 agent 的獨特優勢:它往往用顯式數據結構存儲,因此反而具備生物體沒有的能力 ——可以內省、編輯、并對自己的程序性知識做推理。經驗記憶給了智能體一種避免頻繁參數更新的持續學習路徑,把交互反饋轉化為可復用知識,幫助系統糾錯、抽象啟發式、編譯常規行為,從而減少重復計算并提升決策質量。
經驗記憶按抽象層級分成三類:
- Case-based:幾乎不加工的歷史記錄,強調保真度,用作 in-context exemplars;
- Strategy-based:從軌跡中蒸餾可遷移的推理模式 / 工作流,作為規劃腳手架;
- Skill-based:把策略進一步落到可執行技能(代碼片段、API 協議等),成為可組合的執行底座。
![]()
Working Memory:讓智能體在 “單次任務里” 不被信息淹沒
工作記憶聽起來像短期記憶,但在 agent 場景里,它最典型的問題不是時間短,而是:即時輸入太大、太雜、模態太高維(長文檔、網頁 DOM、視頻流……),在固定 attention / 上下文預算下必須建立一個 “可寫工作區”。
- 一類是 single-turn working memory:目的就是單次調用之內 “減 token”,包括 hard/soft/hybrid 壓縮,以及輸入內容結構化、抽象化;
- 另一類為 multi-turn working memory:關注多輪之間的狀態維持與壓縮、針對子任務的折疊剪切、使用 planning 管理記憶等等。
![]()
Dynamics:記憶是如何運轉的?
如果說 Forms 解決 “記憶放哪兒”、Functions 解決 “記憶干嘛用”,那 Dynamics 解決的就是:記憶系統如何運轉。
記憶的生命周期可以概括為三段:Memory Formation(形成)—Memory Evolution(演化)—Memory Retrieval(檢索),并強調三者構成一個相互反饋的循環:形成階段抽取新信息;演化階段做整合、沖突消解與剪枝;檢索階段提供面向當前任務的訪問;推理結果與環境反饋又反過來影響下一輪形成與演化。
![]()
Formation:從 “原始上下文” 到 “可存可取的知識”
Formation 階段把原始上下文(對話、圖像等)編碼成更緊湊的知識。動機非常直接:full-context prompting 會帶來計算開銷、內存壓力、以及在超長輸入上的推理退化,因此需要把關鍵信息蒸餾成更高效的表示。
formation 操作進一步分成五類:語義總結、知識蒸餾、結構化構建、潛在表示、以及參數內化。這五類幾乎對應了 Forms 的三種載體:總結 / 結構化更偏 token-level;潛在表示偏 latent;參數內化對應 parametric。
Retrieval:決定 “記憶是否真的能幫你做決策”
retrieval 形式化為一個操作:在每個時間步,根據當前觀察與任務構造查詢,并返回相關記憶內容;返回的記憶信號會被格式化成 LLM 策略可直接消費的文本片段或結構化摘要。
檢索不必每步發生,可能只在任務初始化發生,也可能間歇觸發或持續觸發;而 “短期 / 長期” 效果往往不是因為搭載了兩個模塊,而是由 formation/evolution/retrieval 的觸發節奏決定的。這點對工程實踐有指導意義:很多系統并非缺一個長期庫,而是觸發策略不對、導致記憶無法進入決策回路。
![]()
Evolution:記憶庫也需要 “維護與新陳代謝”
Evolution 階段的任務是把新增記憶與已有記憶整合,通過合并相關條目、沖突消解、剪枝等機制,讓記憶保持可泛化、連貫且高效。
這也是為什么 “記憶系統” 遲早會走向更復雜的治理問題:刪什么、留什么、如何避免自相矛盾、如何避免隱私泄漏、如何給多智能體共享時加規則…… 這些都屬于 evolution 的范疇。
![]()
資源整理:Benchmark 與開源框架
綜述專門用 Section 6 匯總 benchmarks 與開源框架資源,這是支持實證研究與落地開發的關鍵基礎設施,方便相關科研工作者查閱。
![]()
![]()
前沿展望:下一代記憶系統走向何方?
與其把記憶當作一個檢索插件,不如把它當作智能體長期能力的 first-class primitive,作為 agent 的核心功能之一:
- Memory RetrievalMemory Generation(記憶從 “找出來” 變成 “生成出來”);
- Hand-craftedAutomated Memory Management(記憶系統從 “人工寫規則” 變成 “自動管理”);
- Heuristic PipelinesRL-driven Control(從啟發式流程走向強化學習端到端優化);
并進一步討論這些變化如何與多模態、多智能體協作、可信安全等主題交織。
記憶檢索 vs 記憶生成:從 “取片段” 到 “做抽象”
傳統檢索范式把記憶看成一個已經 “寫好” 的倉庫:當前任務需要什么,就從向量庫 / 圖結構 / 重排器里把最相關的片段找出來拼進上下文,核心指標是檢索的 precision/recall。大量工作圍繞索引、相似度、重排、結構化來提升 “找得準不準”。 但 Agent 真正的長期能力不只依賴 “取回舊文本”,而更依賴一種面向未來的抽象
- 記憶不必是原始碎片,它可以被壓縮、重組、重寫成更適合后續推理的表示;
- 尤其當原始記錄冗余、噪聲大、與任務不對齊時,“拼接式檢索” 往往把上下文塞滿,卻不一定讓模型更會做事。
這有兩條主線:
1)Retrieve-then-Generate:先檢索,再把檢索到的材料重寫成更緊湊、更一致、更任務相關的 “可用記憶”,如 ComoRAG、G-Memory、CoMEM 這類思路,保留可追溯的歷史 grounding,同時提升可用性;
2)Direct Generation:不顯式檢索,直接從當前上下文 / 交互軌跡 / 潛在狀態中生成記憶表示,比如用 “潛在記憶 token” 的方式繞開傳統查庫。
而未來則更關注三個方面:
- Context-adaptive(上下文自適應):不是一刀切總結,而要能隨任務階段與目標動態調整粒度與抽象層次;
- Integrate heterogeneous signals(融合異質信號):把文本、代碼、工具輸出、環境反饋等碎片 “熔成” 統一表示;
- Learned & self-optimizing(可學習且自優化):什么時候生成、生成成什么樣,不再靠人工規則,而由優化信號(例如 RL 或長期任務表現)驅動,與推理 / 決策共同進化。
自動化記憶管理:從 “寫規則” 到 “讓 Agent 自己管記憶”
如今很多搭載 memory 的 Agent 其記憶行為本質仍是工程規則—— 寫什么、什么時候寫、怎么更新 / 怎么取,都靠提示詞、閾值、人工策略。這樣做的好處是成本低、可解釋、可復現,適合快速原型;但缺點也同樣致命:僵硬、難泛化,在長程或開放式交互里容易失效。因此近期開始出現讓 Agent自主參與記憶管理的方向
- 讓模型把細粒度條目自動聚類成更高層抽象單元;
- 引入專門的 “memory manager” 代理來處理更新。
![]()
但很多方法仍被手工規則牽引,或只在狹窄目標上優化,因此離通用自動記憶還有距離。而未來可能的路線有兩條:
第一條是把記憶操作顯式接入決策
不再把記憶當外部模塊,而是讓 Agent 在每一步都能通過工具調用式接口執行 add/update/delete/retrieve,并且 “知道自己做了什么記憶動作”。這會讓記憶行為更連貫、更透明、更能與當前推理狀態對齊。
第二條是走向自優化的記憶結構
不僅僅 “分層存儲”,更要讓記憶庫能動態鏈接、索引、重構,使存儲結構本身隨時間自組織,從而減少對手工規則的依賴,最終支持更魯棒、可擴展的自主記憶。
強化學習 × 記憶:記憶控制正在被 RL “內化” 進策略
在 Memory 中引入 RL 是一種從 pipeline 到 model-native 的轉向:早期大量系統要么是閾值 / 語義檢索 / 拼接等啟發式;要么看起來很 “agentic”,但其實只是 prompt 驅動,模型并沒受過任何有效記憶控制的訓練。
隨后出現RL-assisted memory:只對記憶生命周期的某一環節上 RL,比如:
- 用輕量 policy gradient 給檢索到的 chunk 排序(后重排);
- 訓練記憶寫入 / 壓縮 / 折疊工作記憶的策略(Context Folding、Memory-as-Action、MemSearcher、IterResearch 等)。這一類已經展示出很強的潛力,RL 很可能會在未來記憶系統里扮演更中心角色。
下一階段則更可能是Fully RL-driven memory。它需要滿足兩個理想特點:
1)盡量減少人類先驗
目前很多記憶系統借鑒人類認知(海馬體 / 皮層類比)、預設層級(episodic/semantic/core),這些抽象對早期探索很有價值,但未必是人工智能體在復雜環境中的最優結構。若進入 fully RL-driven,Agent 有機會在優化驅動下 “發明” 新的記憶組織形式、存儲 schema、更新規則。
2)讓 Agent 對全生命周期擁有完整控制
許多 RL 方法只覆蓋 “寫入” 或 “短期折疊”,卻沒把長期整合、演化、檢索策略真正統一起來。論文認為,要讓形成 - 演化 - 檢索多粒度協同運轉,幾乎必然需要端到端 RL,因為僅靠啟發式或提示詞無法在長時域里協調這些復雜交互。
當記憶成為可學習、可自組織、與 Agent 共進化的子系統時,它就不再是外掛,而會成為長期能力與持續學習的基礎設施。
多模態記憶:缺的不是 “能存圖”,而是 “跨模態統一語義與時間”
隨著 Agent 走向具身、交互式環境,信息來源天然是多模態的:視覺、動作、環境反饋等都會進入記憶系統。未來真正的難點不是把圖片 / 視頻 “塞進庫”,而是讓記憶支持異質信號的統一存取與推理。當前的兩個關鍵缺口在于:
- 目前沒有真正 “omnimodal” 的記憶系統,大多仍是單模態特化或松耦合;
- 多模態記憶需要從被動存儲走向支持抽象、跨模態推理與長期適應。
多智能體共享記憶:從 “各聊各的” 到 “共享認知底座”
MAS 的早期范式:每個 agent 有自己的局部記憶,通過消息傳遞來協作。這避免直接干擾,但會帶來冗余、上下文割裂、溝通開銷爆炸,團隊規模和任務時長一上來就撐不住。因此出現中心化共享記憶,其作為團隊共同 ground truth:支持聯合注意、減少重復、利于長程協作;但也引入新問題:記憶污染、寫沖突、缺少基于角色 / 權限的訪問控制。
共享記憶會從倉庫進化為主動管理的集體表示,有三條可能的方向:
- agent-aware shared memory:讀寫與角色、專長、信任綁定,使聚合更結構化、更可靠;
- learning-driven management:不靠手工同步 / 總結 / 沖突解決策略,而訓練 agent 在長期團隊收益下決定何時寫、寫什么、怎么寫;
- 面向開放與多模態場景,共享記憶需要保持時間與語義一致性,作者認為 latent memory 可能是一條有前景的路徑。
可信記憶:隱私、可解釋與抗幻覺,必須成為 “第一原則”
當記憶進入長期、個性化、跨會話存儲后,問題已經不再是傳統 RAG 的 “是否會胡說”,而是一個更大的可信系統工程:因為 Agent 記憶會保存用戶偏好、歷史交互、行為痕跡等潛在敏感信息,風險維度從 factuality 擴展到隱私、安全、可控與可審計。
隱私保護:需要更細粒度的權限記憶、由用戶主導的保留策略、加密或端側存儲、必要時的聯邦訪問;并可結合差分隱私、記憶脫敏 / 刪改、以及可驗證的 “遺忘” 機制(例如衰減式遺忘或用戶擦除接口)來降低泄露風險。
可解釋性:不僅要看到 “記憶內容”,還要能追蹤 “訪問路徑”:哪些條目被取了、如何影響生成、是否被誤用;甚至支持反事實分析(“如果不取這條記憶,會怎樣”)。論文提出未來可能需要可視化記憶注意、因果圖、面向用戶的調試工具等成為標配。
抗幻覺與沖突魯棒性:在沖突檢測、多文檔推理、不確定性建模上繼續推進;包括低置信檢索時的拒答 / 保守策略、回退到模型先驗、或用多智能體交叉核驗等。論文還特別提到,機制可解釋性方法(例如在表示層面定位幻覺來源)可能會成為 “診斷 + 干預” 的新工具箱。
結語:把 “記憶” 當作
智能體的 first-class primitive
通過 Forms/Functions/Dynamics 的統一視角,記憶不再是附屬插件,而是智能體實現時間一致性、持續適應與長程能力的關鍵基底;未來隨著 RL 融合、多模態與多智能體場景興起,以及從檢索中心走向生成式記憶的趨勢,記憶系統將變得更可學習、更自組織、更具適應性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.