網易首頁 > 網易號 > 正文申請入駐

Agent記憶賽道大洗牌！LoCoMo-Refined重磅發布，主流記憶框架迎來核心檢驗

2026-04-15 16:34:01　來源: AI科技評論

廣東舉報

分享至

南京大學&上海人工智能實驗室聯合推出LoCoMo-Refined：嚴苛的Agent記憶評測基準，主流記憶系統真實水平大比拼！

引言：Agent記憶系統高分背后，

評測“標尺”仍待校準

隨著 Agent 應用持續走向復雜任務，"記憶能力"正逐漸成為影響系統可用性與用戶體驗的關鍵基礎能力之一。盡管模型的長上下文窗口不斷擴展（從 128K 擴展到 1M、2M），但其仍無法有效解決真實長周期對話中頻發的"失憶"問題。因此，圍繞Agent的記憶框架迅速興起，成為當前業界提升長期記憶能力的一條重要技術路徑。

在當下各大主流記憶評測榜單中（如 Agent Memory 領域的代表性基準 LoCoMo），主流記憶框架動輒獲得90%以上的高分。但在接入真實的業務場景時，卻發現 Agent 依然頻頻失效：昨天說好的日程今天搞錯時間、用戶偏好被張冠李戴、甚至還會"腦補"出從未發生過的對話細節。明明在評測基準里拿了高分，為什么一到真實應用就表現不佳？

南京大學強化學習實驗室聯合上海人工智能實驗室群體智能團隊，在深度剖析了超長對話記憶基準 LoCoMo 后，找到了核心原因——現有的評測“標尺”本身存在偏差，并總結出當前記憶評測基準普遍存在的兩大漏洞：

第一，評判標準過于寬容:行業通用的 LLM 裁判（Judger）基本邏輯是"相關即正確"，這種寬松的判定掩蓋了當前記憶外掛的核心缺陷——召回冗余信息與過度生成；

第二，考卷本身也存在錯漏:數據集中潛藏著部分邏輯顛倒、事實偏差的"臟數據"，干擾了評測精度。

如果評測“標尺”本身不夠準確，Agent 記憶系統的研究將在高分的假象中迷失方向，導致記憶系統的真實瓶頸被持續忽視。為此，在LoCoMo基礎上，聯合團隊正式推出專為驗證真實記憶架構而生的嚴謹測試基準 LoCoMo-Refined：

? 新 Judger 的核心原則：包含且不矛盾，完整且不越界——對冗余生成和未驗證細節明確扣分。

? 數據修正方面，人工逐題核驗核心四類題目，修訂了題目模糊、主客體顛倒、時間不符等問題，最終形成高質量新數據集。

在 LoCoMo-Refined 的嚴苛標準下，MemPalace、EverMemOS等主流記憶框架的得分普遍下降15–22個百分點——它們此前的高分，在很大程度上是評測標尺本身的寬松所致。

揭秘舊基準得分虛高的兩大原因

那些在真實場景中表現不佳的記憶系統，究竟是如何斬獲高分的？我們深入分析了現有的LoCoMo評測體系，發現了兩個關鍵原因。

原因一：寬松的裁判——“相關即正確”掩蓋了記憶系統的缺陷

主流記憶框架在實際使用中容易產生冗余信息——既可能在檢索階段召回無關記憶，也可能在生成階段引入未經驗證的細節。然而，現有評測體系中，通用 LLM Judger（裁判）的判定門檻較低，其核心邏輯是"相關即正確"——只要回答在語義上與標準答案相關，就傾向于判定為正確，極易產生評判幻覺。具體表現為：

?忽視時間漂移：比如問題問“Deborah 何時去巴西”，標準答案是“2020年”。如果記憶系統回答“2020年8月30日”（強加了未經驗證的具體日期），通用 Judger 依然會判定為正確。

?縱容過度生成與冗余：比如問題問“他喜歡什么類型的電影”，標準答案是“動作片和科幻片”。如果記憶系統召回了多余的信息，回答“動作、科幻和奇幻片”，在舊規則下，這依然是一個“滿分答案”。

這種寬松的裁判標準，實際上導致了嚴重的假陽性。它讓那些記憶混亂、時間線模糊、生成額外事實的結果，獲得了遠超其真實能力的高分。當評測失去了區分度，得分的參考價值也就大打折扣。

原因二：帶瑕疵的考卷——考題和標準答案存在誤導

除了評判標準的過度寬容，測試數據本身的問題同樣會干擾評測的客觀性。通過 AI 初篩結合人工核驗，在原始 LoCoMo 中精確定位了 337 道存在邏輯或事實偏差的題目。這類錯誤一旦作為“金標準”，會直接干擾對 Agent記憶系統的準確評估。

?以"主客體顛倒"為例：例如原數據集題目：“Nate 去 Joanna 家玩時想做什么？”但回溯長達數百輪的原始對話記錄發現，Nate 說的實際上是：“我很高興你能再來我家玩”——訪客與主人的關系完全相反。如果記憶系統依據這樣的標注進行學習或評測，會導致錯誤的結果被判定為正確。

LoCoMo-Refined 怎么做？

——專為“記憶架構”打造的客觀標尺

為了精準評估 Agent 外掛記憶系統的真實能力，團隊從評測標準和數據質量兩個維度進行了系統性重構。

嚴格標尺：精準識別“幻覺”與“冗余”的新 Judger

針對舊裁判過度寬松的問題，圍繞記憶任務的本質要求，首先重新界定“什么才算真正答對”。與開放式生成任務不同，記憶評測關注的并不是僅僅是回答是否“看起來合理”或“主題相關”，而是系統能否在給定問題下準確、完整、邊界清晰地回憶目標信息。基于這一認識，首先給出新Judger的設計哲學——

包含且不矛盾，完整且不越界。

?必要信息完整覆蓋：回答必須覆蓋標準答案的所有關鍵要素，命中一部分不算答對——從相關性匹配升級為信息完備性檢驗。

?冗余生成邊界控制：回答不能超出標準答案的可驗證范圍。未經證實的補充細節，即便看似合理，也應被扣分——評測關注的是"忠實復現"，而非"合理擴展"。

精修考卷：AI 與人工的協同校準

有了精確的標尺，考卷本身的質量同樣需要保證。團隊引入了前沿 AI 模型作為初篩工具，對全部數據執行了基于證據（Evidence-based）的測試檢驗。隨后，人工對初篩出的錯題及 AI 修復建議進行了逐題復核。

在剔除無效題型后，在剩余的 1540 道核心考題中，精修了 337 道存在邏輯或事實瑕疵的題目，數據集的純凈度得到了極大提升，最終獲得1382道精修后的題目。

One More Thing：引入“多模態”記憶標記

業界往往忽略了一個歸因盲區：當 Agent 面對混合了圖片的長期對話答錯時，到底是因為“文本記憶沒存好”，還是因為“沒看懂圖片”？

為了剝離這種干擾，在 LoCoMo-Refined 中引入了多模態標記。其中 521 道題目（占比37.70%）被清晰地打上了該標簽，這讓開發者能夠更精細化地評估記憶框架在“純文本”與“圖文交織”場景下的能力邊界。

評測結果：

嚴苛標尺下的重測，主流記憶框架真實水平展現

▎標尺校準：舊版裁判模型為何不再適用？

在測試真實記憶系統之前，團隊先用對比數據驗證了舊版評測結果為何缺乏區分度。

通過抽取的 300 條高難度樣本進行雙盲測試。結果顯示，人類專家標注表現出較強的一致性——達到 0.9373，其中更是有高達 92.33% 的樣本一致性超過 0.8。這表明“記憶是否準確”在人類視角下有著清晰的共識。

LLM Judger裁判評分的核心包括兩部分：大模型 + 評判規則，二者共同影響評判都準確率。以人類標注的300道題目為基礎，對這兩個因素進行了測評，從而衡量“評判標尺”是否準確。

?大模型的選擇：業界通用LoCoMo裁判采用GPT-4o mini作為后端LLM，在人工精標測試集上只有43.67%的準確率。Qwen3-14B 在相同配置下高出近 15%，因此LoCoMo-Refined 默認采用 Qwen3-14B。

?評判標準的校驗：現有LoCoMo裁判的標準（舊評判標準）較為寬松，這是造成評測標尺不準確的核心原因。團隊對前面所提出的新評判標準進行了測評，以 Qwen3-14B 作為后端 LLM 時，新評判標準與人類標注的一致準確率達到 86.33%，顯著優于舊評判標準。

?新裁判在高共識樣本上更穩定：結合大模型和評判標準的結構，在LoCoMo-Refined中使用Qwen3-14B + 新評判標準作為默認裁判，即新裁判。當人工標注者本身更容易達成一致時，新裁判的優勢會變得更明顯。對于一致性大于0.8 的樣本，新裁判的準確率達到 89.5%；而在一致性小于 0.8 的樣本上，則下降到 47.8%。相比之下，舊裁判在這兩類樣本上的準確率幾乎沒有變化，分別只有 48.4% 和 47.8%。

重測結果：主流記憶框架回歸真實水平

為了驗證LoCoMo-Refined基準以及新裁判的有效性和區分度，團隊針對主流記憶系統——如 Mem0、MemOS、EverMemOS和MemPalace進行了測評。

在舊裁判下，這些框架的表現看起來相當不錯，但在嚴懲信息冗余和時間漂移的新裁判下，它們的得分顯著下降：

這組對比結果也揭示了一個此前被寬松評判標準所掩蓋的事實：現有記憶系統在長對話場景中的實際表現，與舊基準所呈現的高分之間存在較大的差距。許多涉及時間推理、多事件區分和精確細節回憶的題目，對當前主流框架而言仍是未解決的難題——只是在舊裁判下，這些錯誤未被有效識別。我們希望 LoCoMo-Refined 能讓這些真實的瓶頸充分暴露出來，為后續記憶架構的改進提供更準確的方向。

開源與生態：

建立更健康的 Agent 記憶測評基礎設施

LoCoMo-Refined 的目標不是否定特定框架，而是為社區提供更客觀的驗證工具，幫助識別真實瓶頸，推動記憶架構的針對性改進。

目前，LoCoMo-Refined 的完整修訂版數據集以及配套的嚴格評測腳本已經全部開源。

GitHub 地址：https://github.com/mem-eval-suite/LoCoMo_refined

期待社區開發者們在 LoCoMo-Refined 基礎上構建出更強大的 Agent 記憶系統，共同推動相關技術的發展！

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.