網易首頁 > 網易號 > 正文申請入駐

最火、最全的Agent記憶綜述，NUS、人大、復旦、北大等聯合出品

2025-12-22 18:13:47　來源: 機器之心Pro

河北舉報

分享至

在過去兩年里，記憶（Memory）幾乎從 “可選模塊” 迅速變成了 Agent 系統的 “基礎設施”：對話型助手需要記住用戶習慣與歷史偏好；代碼 / 軟件工程 Agent 需要記住倉庫結構、約束與修復策略；深度研究型 Agent 需要記住已閱讀的證據鏈、關鍵假設與失敗路徑，沒有 memory 的智能體難以跨任務保留有效經驗，難以穩定維護用戶偏好與身份設定，也難以在長周期協作中保持行為一致、避免反復犯同樣的錯誤。與此同時 Memory 概念在迅速膨脹、也在迅速碎片化：很多論文都聲稱自己在做 “agent memory”，但實現方式、目標假設、評價協議差別巨大，多術語并行又進一步模糊了邊界。

在這樣的背景下，來自新加坡國立大學、中國人民大學、復旦大學、北京大學等頂級學術機構共同撰寫并發布了百頁綜述《Memory in the Age of AI Agents: A Survey》，嘗試用統一視角為快速擴張、卻日益碎片化的 “Agent Memory” 重新梳理技術路徑。

論文鏈接： https://arxiv.org/abs/2512.13564
Github 鏈接： https://github.com/Shichun-Liu/Agent-Memory-Paper-List

綜述首先指出傳統的 “長 / 短期記憶” 二分法，已經不足以描述當代系統里更復雜的結構形態與動態機制：有的記憶是顯式 token 存儲，有的寫進參數，有的駐留在潛在狀態；有的服務于事實一致性，有的服務于經驗遷移，有的服務于單次任務的工作臺管理 —— 如果繼續用簡單時間尺度切分，就很難真正解釋這些差異。

基于此，該綜述提出一個統一的分析框架：Forms–Functions–Dynamics（三角框架）。它試圖分別回答三類核心問題：

記憶以什么形式存在（Forms）——What Carries Memory? 是外部 token、參數，還是潛在狀態？

記憶解決什么問題（Functions）——Why Agents Need Memory? 它服務于事實一致、經驗成長，還是任務內工作記憶？

記憶如何運轉與演化（Dynamics）——How Memory Evolves? 它如何形成、如何被維護與更新、又如何在決策時被檢索與利用？

概念辨析：Agent Memory 到底

和 LLM Memory、RAG、Context Engineering 有何不同？

在大量工程實踐中，“Memory” 這個詞往往被迅速簡化為幾個具體實現：一個向量數據庫加上相似度檢索，或者干脆等同為更長的上下文窗口、更大的 KV cache。在這種理解下，只要模型 “還能看到過去的信息”，系統似乎就已經具備了記憶能力。然而，綜述明確指出：這些技術與 Agent Memory 確實存在交集，但在研究對象和問題層級上并不等價

Agent Memory：持久的、可自我演化的 “認知狀態”

Agent Memory 關注的是智能體持續維持的認知狀態，它不僅 “存”，還要能在交互中不斷更新、整合、糾錯、抽象，并跨任務保持一致性。獨特性在于維護一個persistent and self-evolving cognitive state，并把事實與經驗整合在一起。Agent Memory 關心的是 “智能體知道什么、經歷過什么，以及這些東西如何隨時間變化”，包括把反復交互沉淀成知識、從成功 / 失敗中抽象程序性知識、跨任務保持身份一致性等。

LLM Memory：“模型內部機制 / 長序列處理”

確實存在一條與 Agent Memory 不同、但同樣重要的研究路線 —— 真正意義上的 LLM-internal memory。這類工作關注的不是智能體如何在長期交互中積累經驗，而是模型在內部計算過程中如何更有效地保留和利用序列信息。這些方法的核心問題是：在一次或有限次推理過程中，如何避免早期 token 的信息衰減，如何在計算與顯存受限的前提下保持對長距離依賴的建模能力。其研究對象，本質上是模型內部的狀態與動態。它們并不假設模型是一個長期存在、需要跨任務保持身份與目標的自主體，也不要求模型與環境進行持續交互或做出一系列有后果的行動決策。換言之，這些方法即便不引入 agentic 行為，也完全成立：模型依然可以在單次問答、長文檔理解或摘要等任務中受益。

RAG：“靜態知識訪問”

RAG 通常強調從外部知識庫檢索靜態信息以提升回答事實性；它可以是 Agent Memory 的一部分實現，但如果系統沒有長期一致性、沒有演化機制、沒有跨任務的 “自我”，那么它更像 “知識訪問模塊”，而非完整記憶系統。這個差別在綜述的概念對照圖說明里也被點明：RAG 更接近 “static knowledge access”。

Context Engineering：“當下推理的外部腳手架”

Context Engineering 的目標常常是：在上下文窗口受限時，如何組織提示、壓縮信息、構建工具輸出格式等 —— 它優化的是 “此刻模型看到什么”。而論文強調：Context Engineering 是外部腳手架；Agent Memory 是支持學習與自主性的內部基底。前者優化當下接口，后者維持跨窗口、跨任務的持續認知狀態。

Forms：記憶的載體是什么？

綜述把 agent memory 的形式歸納為三大類：token-level /parametric/latent

這三類的差別聚焦于：信息以什么表示、在哪里存、如何讀寫、以及可解釋性與可塑性的取舍

Token-level Memory：最 “顯式” 的記憶層

token-level memory 的定義非常直觀：它把信息存成持久、離散、可外部訪問與檢查的單元；這里的 token 不僅是文字 token，也可以是視覺 token、音頻幀等，只要是可寫、可檢索、可重排、可修改的離散元素即可。

為什么它在工程里最常見？因為它天然具備三種優勢：

1.透明：你能看到存了什么；

2.可編輯：能刪改、能糾錯；

3.易組合：適合作為檢索、路由、沖突處理的 “中間層”，并與 parametric/latent memory 協同。

但 token-level 并不是 “一個向量庫” 那么簡單。進一步按 “拓撲結構復雜度” 可以把它分成三種組織方式：

Flat Memory（1D）：沒有顯式拓撲關系，記憶像序列 / 離散單元一樣累積（例如片段、軌跡）。它的優點是實現簡單、寫入快；缺點是檢索與更新容易退化成 “相似度匹配 + 越存越亂”。
Planar Memory（2D）：單層結構化組織，記憶單元之間通過圖、樹、表等關系連接，但不分層。它更適合多跳推理、關系約束與一致性維護；代價是構建與維護結構更復雜。
Hierarchical Memory（3D）：多層結構并帶跨層鏈接，形成 “分層 / 立體化” 的記憶體系。它的動機往往是：既要保留細節，又要形成抽象總結，并讓檢索可以在不同粒度之間切換。

這反應了當記憶規模增大，單純堆歷史就會暴露弊端，必須引入結構（2D）與分層抽象（3D），才能讓長期存在的外部記憶真正可用。

Parametric Memory：把記憶 “寫進權重”

Parametric memory 的定義是：信息存儲在模型參數中，通過參數空間的統計模式編碼，并在前向計算中被隱式訪問。它更像人類 “內化后的直覺”：不用每次檢索外部庫，模型直接學會并記住這些內容。但代價同樣明顯：

需要訓練 / 更新權重（成本高）
難以精確編輯與審計
容易和遺忘、分布漂移、災難性遺忘問題糾纏在一起

Latent Memory：藏在隱狀態 / 連續表示里的 “動態記憶”

Latent memory 的定義是：記憶以模型內部隱狀態、連續表示或演化的潛在結構存在，可在推理時或交互周期中持續更新，用于捕捉上下文相關的內部狀態。

它介于 “外部顯式存儲” 和 “權重內化” 之間：比 token-level 更緊湊、更接近模型計算過程；比 parametric 更容易在推理期更新，但也往往更難解釋、更難審計。

Functions：記憶的功能是什么？

這一分類角度是這篇綜述的核心觀點之一，它不再用 “長 / 短期” 這種時間尺度粗分，而是用功能角色把 agent memory 分成三類：

Factual memory（事實記憶）：記錄來自用戶與環境交互的知識
Experiential memory（經驗記憶）：從任務執行中增量提升解決問題的能力
Working memory（工作記憶）：管理單個任務實例中的工作區信息

這三個概念的價值在于：它們對應的是三種完全不同的 “記憶失敗模式”，也對應三類不同的系統設計。

Factual Memory：讓智能體 “記住世界”，并且可核查

事實記憶的一個關鍵目標，是提供一個可更新、可檢索、可治理（governable）的外部事實層，讓系統在跨 session / 跨階段時有穩定參考。這類記憶不只面向 “用戶偏好”，也面向 “環境事實”：長文檔、代碼庫、工具狀態、交互軌跡等。

環境事實記憶能成為持續可更新、可審計、可復用的外部事實層；在協作維度還能維持跨 agent、跨階段一致性，從而支撐多來源信息與長周期任務下的穩健執行。

如果你做過 “多輪對話 + 多工具 + 多資料” 的系統，你會非常熟悉這種痛點：事實一旦散落在歷史對話里，就會反復被遺忘、被誤引、被編造。事實記憶的意義，就是把 “可核查的世界狀態” 從臨時上下文里抽出來，變成可維護的對象。

Experiential Memory：讓智能體 “吃一塹長一智”

經驗記憶的定義更像能力的積累：它把歷史軌跡、提煉后的策略、交互結果編碼為可持久檢索的表示。它與工作記憶不同：工作記憶管 “眼前這一題”，經驗記憶關心 “跨 episode 的長期積累與遷移”。

綜述把經驗記憶與認知科學里的非陳述性記憶（程序性 / 習慣系統）類比，同時指出 agent 的獨特優勢：它往往用顯式數據結構存儲，因此反而具備生物體沒有的能力 ——可以內省、編輯、并對自己的程序性知識做推理。經驗記憶給了智能體一種避免頻繁參數更新的持續學習路徑，把交互反饋轉化為可復用知識，幫助系統糾錯、抽象啟發式、編譯常規行為，從而減少重復計算并提升決策質量。

經驗記憶按抽象層級分成三類：

Case-based：幾乎不加工的歷史記錄，強調保真度，用作 in-context exemplars；
Strategy-based：從軌跡中蒸餾可遷移的推理模式 / 工作流，作為規劃腳手架；
Skill-based：把策略進一步落到可執行技能（代碼片段、API 協議等），成為可組合的執行底座。

Working Memory：讓智能體在 “單次任務里” 不被信息淹沒

工作記憶聽起來像短期記憶，但在 agent 場景里，它最典型的問題不是時間短，而是：即時輸入太大、太雜、模態太高維（長文檔、網頁 DOM、視頻流……），在固定 attention / 上下文預算下必須建立一個 “可寫工作區”。

一類是 single-turn working memory：目的就是單次調用之內 “減 token”，包括 hard/soft/hybrid 壓縮，以及輸入內容結構化、抽象化；
另一類為 multi-turn working memory：關注多輪之間的狀態維持與壓縮、針對子任務的折疊剪切、使用 planning 管理記憶等等。

Dynamics：記憶是如何運轉的？

如果說 Forms 解決 “記憶放哪兒”、Functions 解決 “記憶干嘛用”，那 Dynamics 解決的就是：記憶系統如何運轉。

記憶的生命周期可以概括為三段：Memory Formation（形成）—Memory Evolution（演化）—Memory Retrieval（檢索），并強調三者構成一個相互反饋的循環：形成階段抽取新信息；演化階段做整合、沖突消解與剪枝；檢索階段提供面向當前任務的訪問；推理結果與環境反饋又反過來影響下一輪形成與演化。

Formation：從 “原始上下文” 到 “可存可取的知識”

Formation 階段把原始上下文（對話、圖像等）編碼成更緊湊的知識。動機非常直接：full-context prompting 會帶來計算開銷、內存壓力、以及在超長輸入上的推理退化，因此需要把關鍵信息蒸餾成更高效的表示。

formation 操作進一步分成五類：語義總結、知識蒸餾、結構化構建、潛在表示、以及參數內化。這五類幾乎對應了 Forms 的三種載體：總結 / 結構化更偏 token-level；潛在表示偏 latent；參數內化對應 parametric。

Retrieval：決定 “記憶是否真的能幫你做決策”

retrieval 形式化為一個操作：在每個時間步，根據當前觀察與任務構造查詢，并返回相關記憶內容；返回的記憶信號會被格式化成 LLM 策略可直接消費的文本片段或結構化摘要。

檢索不必每步發生，可能只在任務初始化發生，也可能間歇觸發或持續觸發；而 “短期 / 長期” 效果往往不是因為搭載了兩個模塊，而是由 formation/evolution/retrieval 的觸發節奏決定的。這點對工程實踐有指導意義：很多系統并非缺一個長期庫，而是觸發策略不對、導致記憶無法進入決策回路。

Evolution：記憶庫也需要 “維護與新陳代謝”

Evolution 階段的任務是把新增記憶與已有記憶整合，通過合并相關條目、沖突消解、剪枝等機制，讓記憶保持可泛化、連貫且高效。

這也是為什么 “記憶系統” 遲早會走向更復雜的治理問題：刪什么、留什么、如何避免自相矛盾、如何避免隱私泄漏、如何給多智能體共享時加規則…… 這些都屬于 evolution 的范疇。

資源整理：Benchmark 與開源框架

綜述專門用 Section 6 匯總 benchmarks 與開源框架資源，這是支持實證研究與落地開發的關鍵基礎設施，方便相關科研工作者查閱。

前沿展望：下一代記憶系統走向何方？

與其把記憶當作一個檢索插件，不如把它當作智能體長期能力的 first-class primitive，作為 agent 的核心功能之一：

Memory RetrievalMemory Generation（記憶從 “找出來” 變成 “生成出來”）；
Hand-craftedAutomated Memory Management（記憶系統從 “人工寫規則” 變成 “自動管理”）；
Heuristic PipelinesRL-driven Control（從啟發式流程走向強化學習端到端優化）；

并進一步討論這些變化如何與多模態、多智能體協作、可信安全等主題交織。

記憶檢索 vs 記憶生成：從 “取片段” 到 “做抽象”

傳統檢索范式把記憶看成一個已經 “寫好” 的倉庫：當前任務需要什么，就從向量庫 / 圖結構 / 重排器里把最相關的片段找出來拼進上下文，核心指標是檢索的 precision/recall。大量工作圍繞索引、相似度、重排、結構化來提升 “找得準不準”。但 Agent 真正的長期能力不只依賴 “取回舊文本”，而更依賴一種面向未來的抽象

記憶不必是原始碎片，它可以被壓縮、重組、重寫成更適合后續推理的表示；
尤其當原始記錄冗余、噪聲大、與任務不對齊時，“拼接式檢索” 往往把上下文塞滿，卻不一定讓模型更會做事。

這有兩條主線：

1）Retrieve-then-Generate：先檢索，再把檢索到的材料重寫成更緊湊、更一致、更任務相關的 “可用記憶”，如 ComoRAG、G-Memory、CoMEM 這類思路，保留可追溯的歷史 grounding，同時提升可用性；

2）Direct Generation：不顯式檢索，直接從當前上下文 / 交互軌跡 / 潛在狀態中生成記憶表示，比如用 “潛在記憶 token” 的方式繞開傳統查庫。

而未來則更關注三個方面：

Context-adaptive（上下文自適應）：不是一刀切總結，而要能隨任務階段與目標動態調整粒度與抽象層次；
Integrate heterogeneous signals（融合異質信號）：把文本、代碼、工具輸出、環境反饋等碎片 “熔成” 統一表示；
Learned & self-optimizing（可學習且自優化）：什么時候生成、生成成什么樣，不再靠人工規則，而由優化信號（例如 RL 或長期任務表現）驅動，與推理 / 決策共同進化。

自動化記憶管理：從 “寫規則” 到 “讓 Agent 自己管記憶”

如今很多搭載 memory 的 Agent 其記憶行為本質仍是工程規則—— 寫什么、什么時候寫、怎么更新 / 怎么取，都靠提示詞、閾值、人工策略。這樣做的好處是成本低、可解釋、可復現，適合快速原型；但缺點也同樣致命：僵硬、難泛化，在長程或開放式交互里容易失效。因此近期開始出現讓 Agent自主參與記憶管理的方向

讓模型把細粒度條目自動聚類成更高層抽象單元；
引入專門的 “memory manager” 代理來處理更新。

但很多方法仍被手工規則牽引，或只在狹窄目標上優化，因此離通用自動記憶還有距離。而未來可能的路線有兩條：

第一條是把記憶操作顯式接入決策

不再把記憶當外部模塊，而是讓 Agent 在每一步都能通過工具調用式接口執行 add/update/delete/retrieve，并且 “知道自己做了什么記憶動作”。這會讓記憶行為更連貫、更透明、更能與當前推理狀態對齊。

第二條是走向自優化的記憶結構

不僅僅 “分層存儲”，更要讓記憶庫能動態鏈接、索引、重構，使存儲結構本身隨時間自組織，從而減少對手工規則的依賴，最終支持更魯棒、可擴展的自主記憶。

強化學習 × 記憶：記憶控制正在被 RL “內化” 進策略

在 Memory 中引入 RL 是一種從 pipeline 到 model-native 的轉向：早期大量系統要么是閾值 / 語義檢索 / 拼接等啟發式；要么看起來很 “agentic”，但其實只是 prompt 驅動，模型并沒受過任何有效記憶控制的訓練。

隨后出現RL-assisted memory：只對記憶生命周期的某一環節上 RL，比如：

用輕量 policy gradient 給檢索到的 chunk 排序（后重排）；
訓練記憶寫入 / 壓縮 / 折疊工作記憶的策略（Context Folding、Memory-as-Action、MemSearcher、IterResearch 等）。這一類已經展示出很強的潛力，RL 很可能會在未來記憶系統里扮演更中心角色。

下一階段則更可能是Fully RL-driven memory。它需要滿足兩個理想特點：

1）盡量減少人類先驗

目前很多記憶系統借鑒人類認知（海馬體 / 皮層類比）、預設層級（episodic/semantic/core），這些抽象對早期探索很有價值，但未必是人工智能體在復雜環境中的最優結構。若進入 fully RL-driven，Agent 有機會在優化驅動下 “發明” 新的記憶組織形式、存儲 schema、更新規則。

2）讓 Agent 對全生命周期擁有完整控制

許多 RL 方法只覆蓋 “寫入” 或 “短期折疊”，卻沒把長期整合、演化、檢索策略真正統一起來。論文認為，要讓形成 - 演化 - 檢索多粒度協同運轉，幾乎必然需要端到端 RL，因為僅靠啟發式或提示詞無法在長時域里協調這些復雜交互。

當記憶成為可學習、可自組織、與 Agent 共進化的子系統時，它就不再是外掛，而會成為長期能力與持續學習的基礎設施。

多模態記憶：缺的不是 “能存圖”，而是 “跨模態統一語義與時間”

隨著 Agent 走向具身、交互式環境，信息來源天然是多模態的：視覺、動作、環境反饋等都會進入記憶系統。未來真正的難點不是把圖片 / 視頻 “塞進庫”，而是讓記憶支持異質信號的統一存取與推理。當前的兩個關鍵缺口在于：

目前沒有真正 “omnimodal” 的記憶系統，大多仍是單模態特化或松耦合；
多模態記憶需要從被動存儲走向支持抽象、跨模態推理與長期適應。

多智能體共享記憶：從 “各聊各的” 到 “共享認知底座”

MAS 的早期范式：每個 agent 有自己的局部記憶，通過消息傳遞來協作。這避免直接干擾，但會帶來冗余、上下文割裂、溝通開銷爆炸，團隊規模和任務時長一上來就撐不住。因此出現中心化共享記憶，其作為團隊共同 ground truth：支持聯合注意、減少重復、利于長程協作；但也引入新問題：記憶污染、寫沖突、缺少基于角色 / 權限的訪問控制。

共享記憶會從倉庫進化為主動管理的集體表示，有三條可能的方向：

agent-aware shared memory：讀寫與角色、專長、信任綁定，使聚合更結構化、更可靠；
learning-driven management：不靠手工同步 / 總結 / 沖突解決策略，而訓練 agent 在長期團隊收益下決定何時寫、寫什么、怎么寫；
面向開放與多模態場景，共享記憶需要保持時間與語義一致性，作者認為 latent memory 可能是一條有前景的路徑。

可信記憶：隱私、可解釋與抗幻覺，必須成為 “第一原則”

當記憶進入長期、個性化、跨會話存儲后，問題已經不再是傳統 RAG 的 “是否會胡說”，而是一個更大的可信系統工程：因為 Agent 記憶會保存用戶偏好、歷史交互、行為痕跡等潛在敏感信息，風險維度從 factuality 擴展到隱私、安全、可控與可審計。

隱私保護：需要更細粒度的權限記憶、由用戶主導的保留策略、加密或端側存儲、必要時的聯邦訪問；并可結合差分隱私、記憶脫敏 / 刪改、以及可驗證的 “遺忘” 機制（例如衰減式遺忘或用戶擦除接口）來降低泄露風險。

可解釋性：不僅要看到 “記憶內容”，還要能追蹤 “訪問路徑”：哪些條目被取了、如何影響生成、是否被誤用；甚至支持反事實分析（“如果不取這條記憶，會怎樣”）。論文提出未來可能需要可視化記憶注意、因果圖、面向用戶的調試工具等成為標配。

抗幻覺與沖突魯棒性：在沖突檢測、多文檔推理、不確定性建模上繼續推進；包括低置信檢索時的拒答 / 保守策略、回退到模型先驗、或用多智能體交叉核驗等。論文還特別提到，機制可解釋性方法（例如在表示層面定位幻覺來源）可能會成為 “診斷 + 干預” 的新工具箱。

結語：把 “記憶” 當作

智能體的 first-class primitive

通過 Forms/Functions/Dynamics 的統一視角，記憶不再是附屬插件，而是智能體實現時間一致性、持續適應與長程能力的關鍵基底；未來隨著 RL 融合、多模態與多智能體場景興起，以及從檢索中心走向生成式記憶的趨勢，記憶系統將變得更可學習、更自組織、更具適應性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.