網易首頁 > 網易號 > 正文申請入駐

全球27 家AI 研究機構聯合發布系統性綜述：基礎智能體下半場的真正戰場不是推理，而是記憶

2026-02-12 03:22:30　來源: 人工智能學家

北京舉報

分享至

人工智能的敘事正在悄悄換軌。過去幾年，行業沉浸在“更大模型、更高分數”的狂熱里，仿佛只要參數堆得夠高、benchmark 刷得夠亮，智能體就能自動跨入通用智能的門檻。但當模型能力逼近平臺期，現實世界的復雜性卻開始反向壓迫整個技術體系：任務變長、環境變亂、用戶變得不可預測，智能體必須在持續交互中保持穩定、連貫、可控。

在這樣的背景下，記憶從一個“附屬模塊”躍升為基礎智能體的核心能力。它不再是錦上添花，而是決定智能體能否真正進入“下半場”的關鍵變量。

圖1：基礎智能體記憶路線圖。展示基礎代理記憶框架趨勢的時間線，按記憶基質和主題（以用戶或代理為中心）分類。

01記憶成為基礎智能體“下半場”的關鍵變量

當 AI 從單輪問答走向多輪協作，從靜態任務走向動態環境，從一次性推理走向長時執行，模型的上下文窗口再大，也終究無法承載真實世界的復雜性。用戶的偏好會變化，任務會跨天跨周，環境會不斷更新，智能體必須在不斷累積的信息洪流中保持穩定、連貫、可控。

這正是記憶的價值所在。

它讓智能體不再是“每次都從零開始的聊天機器人”，而是一個能理解你、記住你、陪伴你、并在任務中不斷成長的長期伙伴。隨著任務從短期推理轉向長時執行，記憶成為連接模型能力與真實世界效用的橋梁。沒有記憶，智能體只能在有限的上下文里掙扎；有了記憶，它才能真正跨越會話、跨越任務、跨越時間。

這也是為什么 2025 年開始，記憶相關研究呈現爆發式增長。基礎智能體的競爭，已經從“誰的模型更大”轉向“誰的記憶更聰明”。

近日發布的《Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey》這篇綜述由來自 27 家國際頂尖高校與產業機構的研究者共同完成，陣容橫跨北美、歐洲與亞洲，幾乎覆蓋當前全球最強的 AI 研究力量。學術機構包括伊利諾伊大學厄巴納-香檳分校（UIUC）、斯坦福大學（Stanford）、加州大學洛杉磯分校（UCLA）、劍橋大學（Cambridge）、哈佛大學（Harvard）、南洋理工大學（NTU）、埃默里大學（Emory）、亞利桑那州立大學（ASU）等世界級名校；產業機構則來自 Salesforce（賽富時）、Google（谷歌）、Meta（原 Facebook）、Roblox（羅布樂思）、Cisco（思科）、Capital One（第一資本銀行）等全球科技巨頭。

這支跨機構、跨學科、跨地域的團隊共同推動了基礎智能體記憶機制的系統化研究，也讓這篇綜述成為當前智能體記憶領域最具代表性的國際協作成果之一。

項目地址為：https://github.com/AgentMemoryWorld/Awesome-Agent-Memory

該倉庫收錄了 200+ 記憶系統綜述，是當前最系統的智能體記憶研究索引庫。

02基礎智能體記憶的三維統一框架

為了理解智能體記憶的全貌，綜述提出了一個極具系統性的三維框架：記憶載體、認知機制、記憶主體。這三個維度共同構成了基礎智能體記憶系統的“骨架”，也為未來的記憶架構設計提供了清晰的坐標系。

圖2:Foundation Agent記憶的分類。基礎試劑的記憶基質（所代表的形式）包括內部和外部記憶。在記憶認知機制（記憶如何運作）的視角下，記憶分為情景記憶、語義記憶、感覺記憶、工作記憶和程序記憶。基于記憶主體（受支持者），記憶被分為以用戶為中心和以代理為中心的視角。

記憶載體：智能體的“存儲介質”

記憶首先要有地方放。基礎智能體的記憶載體大致分為三類。

內部記憶是模型自身的記憶，包括權重中的知識、隱狀態中的短期信息、KV Cache 中的即時上下文。它速度快、耦合緊，但難以更新，也無法跨會話持久保存。

外部記憶則是智能體的“外接硬盤”，包括向量數據庫、結構化知識庫、層級化的記憶樹等。它容量大、可編輯、可持久化，但檢索質量和延遲是關鍵挑戰。

混合記憶正在成為主流趨勢。內部記憶負責即時推理，外部記憶負責長期積累，兩者通過檢索、壓縮、反思等機制協同工作，形成類似人類“短期記憶 + 長期記憶”的雙系統結構。

圖3：2023年第一季度至2025年第四季度期間，LLM智能體中與記憶相關研究的累積發表趨勢。圖中展示了所收集的218篇論文在三個關鍵維度上的分布：記憶載體（左）、記憶認知機制（中）以及記憶主體（右）。陰影區域標示了2025年研究產出顯著加速的階段。

認知機制：記憶的“功能分工”

記憶不僅要存，還要“會用”。綜述借鑒認知科學，將智能體的記憶功能劃分為五類，每一類都對應著智能體在真實任務中的一種能力。

感官記憶負責短暫緩存視覺、音頻等原始輸入，讓智能體能在多模態環境中保持連續性。

工作記憶是智能體的“思考空間”，用于在線推理、規劃、工具調用，是執行復雜任務的核心。

情節記憶記錄發生過的事件、對話、任務軌跡，是跨會話一致性和長期協作的基礎。

語義記憶則是智能體的“知識庫”，存儲抽象概念、事實、規則，支持跨任務遷移。

程序性記憶負責技能與策略的積累，讓智能體能在反復執行中形成穩定的 workflow 與操作習慣。

這五類記憶共同構成了智能體的“認知結構”，讓它不僅能記住信息，還能在任務中靈活調度、推理和應用。

圖 4：基礎智能體記憶系統的分類體系。

記憶主體：記憶“為誰服務”

記憶不是抽象存在，它總是服務于某個主體。綜述將主體分為兩類。

用戶中心的記憶關注用戶的偏好、身份、歷史行為、長期目標，是個性化體驗的基礎。一個能記住你旅行偏好、寫作風格、工作習慣的智能體，才算真正“懂你”。

代理中心的記憶則關注智能體自身的成長，包括技能、策略、經驗、世界模型。它讓智能體能在任務中不斷學習、優化、反思，形成類似“經驗值”的累積。

這兩類記憶共同構成了智能體的“內外雙循環”：對外理解用戶，對內提升自己。

圖5：記憶認知機制與記憶主體之間的聯系。每個集群對應于以主體或用戶為中心的記憶工作的記憶認知機制（感官、工作、語義、情景、程序）的論文數量，面積大小與論文數量成正比。

03基礎智能體記憶的操作機制

當智能體開始在真實環境中執行任務，它的記憶不再是靜態存儲，而是一條不斷流動的操作流水線。每一次寫入、檢索、更新、壓縮與遺忘，都是智能體在“思考”和“成長”的過程。

圖6:Foundation Agent內存系統的操作機制。該圖說明了foundation agent存儲系統的完整操作機制。對于單代理系統，它定義了五個核心操作：存儲和索引、加載和檢索、更新和刷新、壓縮和摘要以及遺忘和保留，這些操作控制著如何保存和訪問歷史信息以支持下游工作。對于多代理系統，該框架通過內存架構定義、路由協議以及隔離和沖突解決策略來解決協調挑戰，確保分布式代理之間的數據一致性和高效協作。

單智能體的記憶操作流水線

記憶的第一步是寫入。智能體需要判斷哪些信息值得留下：用戶的偏好？任務的關鍵節點？失敗的原因？成功的策略？寫入不是簡單的記錄，而是一次“選擇性注意”。

接下來是檢索。智能體必須在海量歷史中找到當前任務真正需要的那一小部分信息。檢索的質量直接決定智能體的表現：檢索錯了，智能體就會答非所問；檢索不到，它就會像失憶一樣重復犯錯。

更新是智能體的“自我修正”。當任務狀態變化、用戶偏好改變、環境發生偏移，智能體必須及時刷新記憶，否則就會陷入過時信息的陷阱。

壓縮是記憶系統的“減肥術”。隨著交互變多，記憶會迅速膨脹，智能體必須學會把冗余內容合并，把長對話總結成短語，把復雜軌跡提煉成策略。

遺忘則是最被低估的能力。沒有遺忘，記憶會變成垃圾堆；有了遺忘，智能體才能保持輕盈、敏捷、可控。

綜述強調，記憶的生命周期必須與任務耦合。智能體不是機械地存取，而是根據任務階段、目標變化、環境反饋動態調整記憶策略。這種“任務驅動的記憶調度”正在成為下一代智能體的核心能力。

多智能體系統中的記憶協作

當多個智能體開始協作，記憶不再是單體問題，而是一個復雜的“知識流動系統”。

私有記憶是每個智能體的“個人經驗庫”。它記錄各自的技能、偏好、失敗教訓，確保每個智能體都有獨立的行為風格。

共享記憶則像團隊的“公共白板”。任務目標、環境狀態、關鍵決策都需要在共享空間中同步，讓所有智能體保持一致的世界觀。

協調式記憶是更高階的結構。它由一個“調度者”負責管理不同智能體的記憶訪問權限，決定誰能寫、誰能讀、誰能修改，避免沖突和混亂。

記憶沖突是多智能體系統的常見問題。例如兩個智能體對同一事件的理解不同，或者一個智能體寫入了另一個無法接受的策略。權限控制和角色分工因此變得至關重要。

記憶路由則決定知識如何在智能體之間流動。是廣播式同步？還是按需分發？是由調度者統一管理？還是智能體之間點對點交流？不同的路由方式會直接影響系統的效率與穩定性。

綜述指出，多智能體記憶協作將成為未來復雜系統（如科研助手、企業級 AI、機器人群體）的關鍵基礎設施。

圖7:Foundation Agent記憶系統的學習策略。我們說明了學習策略如何指導代理決定存儲什么、何時存儲、如何表示以及何時何地檢索或丟棄記憶。該圖總結了三種常見的方法，包括提示、微調和強化學習，這些方法逐步將記憶決策從不精確的記憶管理提高到有效和準確的記憶管理。

04記憶策略的學習：從提示工程到自進化

記憶不是死的，它需要策略。而策略不是寫死的，它需要學習。綜述把記憶策略的演化分成三個階段：提示工程、參數化學習、強化學習。

基于提示的記憶策略

提示工程是最早期的記憶策略。靜態提示告訴智能體“你應該記住什么”，例如“請總結用戶偏好并存入記憶”。這種方式簡單直接，但缺乏靈活性。

動態反思與自我修正是提示策略的升級版。智能體會在任務結束后反思：“我哪里做得不好？哪些信息應該寫入記憶？”這種機制讓智能體具備了最初級的“自我改進能力”。

提示策略的優勢是可控、可解釋，但缺點也明顯：策略不穩定、難以適應復雜環境。

基于微調的參數化記憶

當記憶策略被寫入模型權重，智能體就擁有了“內化的記憶能力”。它不再依賴提示，而是通過訓練學會何時寫入、如何總結、如何檢索。

這種方式讓記憶操作變得更自然、更高效，但也帶來了新的挑戰：穩定性與可控性。記憶策略一旦寫進權重，就不容易修改；如果策略學偏了，智能體可能會出現“過度記憶”或“錯誤記憶”的問題。

綜述提到，參數化記憶正在成為主流趨勢，但仍需要更強的安全機制與可解釋性工具。

強化學習驅動的記憶策略

強化學習讓記憶策略真正進入“自進化時代”。在這種框架下，記憶操作被視為動作，智能體通過長期獎勵來學習最優策略。

它會自主探索什么時候該記？記什么最有價值？哪些信息應該被遺忘？如何壓縮才能保留關鍵知識？

強化學習的優勢在于它能優化長期收益，而不是短期表現。這意味著智能體可以通過大量交互逐漸形成成熟的記憶體系，甚至發展出類似人類的“經驗積累能力”。

綜述認為，強化學習將成為未來記憶系統的關鍵方向，因為它讓智能體真正具備了“學習如何學習”的能力。

05記憶的規模化挑戰：上下文、環境與多模態

當智能體從實驗室走向真實世界，記憶系統面臨的挑戰不再是“能不能記”，而是“記得動、記得穩、記得對”。規模化帶來的壓力來自三個方向：上下文、環境、多模態。

上下文長度的極限與突破

上下文窗口的擴展曾被視為解決記憶問題的“蠻力方案”。從幾千 token 到幾十萬 token，再到百萬級上下文，模型似乎越來越“能記”。但綜述指出，這種擴展很快觸及兩個瓶頸：

一是成本。長上下文意味著更高的計算開銷，推理成本呈指數級增長。

二是噪聲。上下文越長，模型越容易被無關信息干擾，檢索難度也隨之上升。

因此，真正的突破不在于“無限擴窗”，而在于“智能調度”。智能體需要學會把上下文當作資源，而不是垃圾桶：哪些信息應該進入工作記憶？哪些應該進入長期記憶？哪些應該被壓縮？哪些應該被遺忘？這是一套動態的、策略性的、任務驅動的記憶管理體系。

上下文不再是“越長越好”，而是“越精準越好”。

真實世界環境的復雜性

實驗室里的智能體面對的是干凈、靜態、可控的環境；現實世界則完全不同。

任務是開放的，目標是模糊的，信息是動態的，用戶是多變的，工具是異構的，環境是不可預測的。

智能體必須在這樣的環境中持續運行，而記憶系統必須承擔起“穩定器”的角色：

它要記錄環境狀態的變化，讓智能體不會在下一步突然“失憶”；它要保存任務鏈條，讓智能體不會在長流程中迷路；它要追蹤用戶行為，讓智能體能在混亂中保持一致性。

綜述強調，真實世界的復雜性讓記憶不再是“存儲問題”，而是“系統問題”。記憶必須與規劃、工具調用、感知、執行深度耦合，成為智能體的核心循環的一部分。

多模態、具身智能體與世界模型的記憶需求

當智能體開始擁有視覺、聽覺、動作能力，甚至能在虛擬或物理世界中移動時，記憶的維度瞬間擴張。

視覺幀需要短暫緩存，形成感官記憶；動作序列需要記錄，形成程序性記憶；環境變化需要建模，形成世界模型記憶；多模態信息需要對齊，形成統一的語義記憶。

具身智能體的記憶系統更像是“神經系統”，而不是“數據庫”。它必須實時響應、持續更新、跨模態整合，并在復雜的感知-行動循環中保持穩定。

綜述指出，多模態與具身智能體將推動記憶系統從“文本中心”走向“世界中心”，這是未來幾年最重要的技術趨勢之一。

06記憶系統的評測體系

記憶系統的評測一直是行業的痛點。傳統的 NLP 指標無法衡量智能體在真實世界中的長期表現，而記憶系統的好壞往往只有在長時間、多任務、多會話的場景中才能顯現。

綜述將評測體系拆解為四類指標，構成一個更貼近真實應用的評估框架。

準確性指標

這是最直觀的一類，包括記憶召回是否正確、事實是否被準確提取、用戶偏好是否被正確識別、任務狀態是否被正確記錄，它衡量的是“記得對不對”。

但綜述指出，準確性只能評估“靜態記憶”，無法評估記憶的動態行為。

相似度指標

這類指標用于衡量記憶內容與原始信息的相似程度，例如ROUGE、BLEU、BERTScore、embedding 相似度。

它衡量的是“記得像不像”。

但相似度高不代表記憶有用，甚至可能意味著智能體“記得太多”，缺乏抽象能力。

LLM-as-a-Judge

隨著任務變復雜，人工評估成本高昂，LLM-as-a-Judge 成為主流趨勢。它可以評估記憶是否被正確使用，記憶是否提升了任務表現，記憶是否保持一致性，記憶是否符合用戶意圖，它衡量的是“記得是否有價值”。

綜述指出這類評估更貼近真實任務，但也依賴評審模型的質量。

真實世界任務評測的缺口

盡管已有大量指標，但綜述強調，當前評測體系仍然缺乏對以下能力的衡量長期一致性，多會話穩定性，任務鏈條的連續性，記憶的可控性與安全性，記憶在復雜環境中的魯棒性，多模態與具身場景下的記憶表現。

換句話說，行業仍缺少“真實世界級”的記憶 benchmark。

綜述呼吁構建跨天、跨任務、跨工具、跨模態的評測體系，讓記憶系統真正接受“實戰檢驗”。

07基礎智能體記憶的應用版圖

當記憶能力從實驗室走向真實世界，它的價值開始在各個行業中顯現。綜述列出的 12 大應用領域，幾乎覆蓋了所有需要長期交互、復雜任務鏈條、個性化體驗的場景。

圖 8：基礎智能體記憶系統的應用場景。該圖展示了基礎智能體記憶系統的主要應用領域，包括教育、科學研究、游戲與模擬、機器人、對話系統、醫療健康、工作流自動化、軟件工程、在線流媒體與推薦系統、信息檢索、金融與會計，以及法律與咨詢等方向。

教育領域的智能導師不再是“答題機器”，而是能記住學生的知識薄弱點、學習節奏、興趣偏好，甚至能跨學期追蹤成長軌跡的“長期陪伴者”。記憶讓教育 AI 從工具變成伙伴。

科研領域的智能研究助手需要跨文獻、跨實驗、跨項目地積累知識。沒有記憶，它只能重復檢索；有了記憶，它能形成自己的“研究語境”，甚至能在長期項目中保持一致的推理風格。

機器人與具身智能體的記憶更像是“世界模型的延伸”。它們必須記住空間結構、任務步驟、失敗原因、環境變化，才能在物理世界中穩定運行。

醫療場景對記憶的要求極高。智能體需要理解患者的長期病史、用藥記錄、生活習慣、診療反饋，才能提供真正個性化的輔助決策。記憶在這里不僅是效率問題，更是安全問題。

推薦系統的記憶能力決定了它能否理解用戶的長期興趣，而不是只靠短期行為做“即時推薦”。記憶讓推薦從“猜你喜歡”變成“懂你是誰”。

金融領域的智能體需要跨交易周期、跨市場狀態、跨風險事件地積累經驗。記憶讓它能識別長期模式，而不是被短期噪聲牽著走。

軟件工程與工作流自動化的智能體需要記住項目結構、代碼風格、歷史 bug、團隊習慣，才能真正成為“工程協作者”而不是“代碼生成器”。

這些應用共同指向一個事實，記憶是智能體從“工具”走向“角色”的關鍵。只有能記住、能理解、能延續，智能體才能真正融入人類的工作與生活。

圖 9：基礎智能體記憶的未來方向與挑戰。該圖強調了未來智能體記憶研究中的關鍵機遇，包括面向自進化智能體的記憶、多智能體記憶組織、人機協作記憶、記憶效率優化、面向多模態與具身智能體的記憶、持續學習記憶、終身個性化記憶，以及真實世界基準測試與評估體系的構建。

08未來走向“可持續、自進化、可信賴”的智能體記憶

綜述在未來方向的部分呈現出一種非常明確的趨勢，記憶系統正在從“工程模塊”走向“生態系統”。未來的智能體記憶將具備可持續性、自進化能力、可信賴性，并且能夠在復雜環境中穩定運行。

持續學習與自進化記憶是第一條主線。智能體不能永遠依賴人工提示或靜態規則，它必須學會在長期交互中自主調整記憶策略：哪些信息值得保留？哪些應該被壓縮？哪些必須遺忘？這種自進化能力將決定智能體能否在真實世界中長期生存。

多人多智能體的記憶組織是第二條主線。當智能體開始協作，記憶不再是單體問題，而是一個“知識流動系統”。團隊智能體需要共享任務狀態、同步環境理解、協調策略分工，同時保持各自的私有記憶。這種“群體記憶結構”將成為未來企業級 AI 的基礎設施。

記憶基礎設施與效率優化是第三條主線。隨著記憶規模不斷膨脹，如何構建高效、低延遲、可擴展的記憶系統，將成為工程層面的核心挑戰。未來的記憶系統可能會像數據庫一樣擁有自己的“索引、緩存、分片、壓縮、調度”機制。

隱私、安全與可信記憶是第四條主線。用戶中心的記憶必須可控、可審計、可刪除、可隔離。智能體不能“記太多”，也不能“記錯人”。可信記憶將成為智能體能否進入醫療、金融、政務等高敏感領域的關鍵門檻。

多模態與具身智能體的記憶是第五條主線。隨著智能體擁有視覺、聽覺、動作能力，記憶將從文本擴展到世界模型。它需要記住空間、物體、動作、反饋、環境變化，形成類似“感知—行動—記憶”的閉環。

真實世界評測體系的構建是第六條主線。當前的 benchmark 無法衡量智能體在長期任務中的表現。未來需要跨天、跨任務、跨工具、跨模態的評測體系，真正檢驗記憶系統的穩定性、魯棒性與價值。

這些方向共同指向一個未來圖景：智能體的記憶系統將成為 AI 的“第二大腦”，負責長期理解、經驗積累、策略演化與世界建模。它不僅決定智能體能否完成任務，更決定它能否在真實世界中“活得久、活得穩、活得好”。（END）

參考資料：https://arxiv.org/abs/2602.06052

關于波動智能——

波動智能旨在建立一個基于人類意圖與反應的真實需求洞察及滿足的價值體系，融合人工智能與意識科學，構建覆蓋情緒識別、建模與推薦的智能引擎，自主研發面向社交、電商等場景的多模態意圖識別引擎、意圖標簽系統及意圖智能推薦算法，形成從情緒采集、意圖建模到商業轉化的完整解決方案。波動智能提出“意圖是連接人、物與內容的新型接口”，其產品廣泛應用于AI社交、個性化內容推薦、虛擬陪伴、電商體驗優化等領域。波動智能正在探索“EMO-as-a-Service”技術服務架構，賦能企業實現更高效的用戶洞察與精準情緒交互，推動從功能驅動到意圖驅動的產業范式升級。

親愛的人工智能研究者，為了確保您不會錯過*波動智能*的最新推送，請星標*波動智能*。我們傾心打造并精選每篇內容，只為為您帶來啟發和深思，希望能成為您理性思考路上的伙伴！

加入AI交流群請掃碼加微信

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.