網易首頁 > 網易號 > 正文申請入駐

AI 記憶首次超越人類：幻覺率壓至 0.5%，長對話不再瞎編

2026-04-16 10:14:16　來源: 鈦媒體APP

北京舉報

分享至

你有沒有過這樣的體驗——跟AI助手聊了半天，把自己的家庭情況、工作經歷、喜好厭惡一股腦兒說了個遍。結果下一次打開對話，它一臉茫然地問候你："請問您叫什么名字？"

更讓人頭皮發麻的是另一種情況：你明明從來沒提過自己有個姐姐，它卻煞有介事地說"你姐姐在紐約上學吧"——語氣篤定得讓你差點信以為真。

第一種叫“健忘”，第二種叫“幻覺”，加在一起，就是今天AI記憶系統的兩大頑疾。最近，一家叫Synthius的AI公司發了一篇論文，提出了一個很有意思的解決思路：它借鑒了人類大腦的記憶機制，讓AI的記憶準確率第一次超過了人類，同時還把“編造信息”的概率壓到了不到0.5%。

（論文地址：https://arxiv.org/abs/2604.11563v1）

AI壓根沒有記憶，主流方案各有各的坑

別被ChatGPT們的“體貼”騙了，大語言模型本身是沒有任何持久記憶能力的。你每一次發消息給它，在它眼里都是“初次見面”。我們之所以覺得它“記得”上次聊了什么，純粹是因為系統在背后做了一件事：把你之前所有的聊天記錄，又原封不動地復制了一遍，粘貼在最新消息的前面。這種做法在技術上叫“全上下文重放”。

想象一下，你每次給朋友發消息之前，都要把之前幾個月的聊天記錄全部重新看一遍，然后才能回一句“好的”。對話少的時候還行，聊了幾百條之后，光是“復習”就要花掉大量時間——這就是AI面對長對話時的真實處境。

這種“翻舊賬”式的做法至少有三個致命問題：

第一，越來越貴：每次回復都要重新處理全部歷史。這里的“處理”指的是模型的推理過程——大模型每次生成回答都要消耗算力，你喂給它的文字越多，成本越高。聊了500條消息后，光“復習”一次就要處理大約2.5萬個Token。

第二，“中間遺忘”效應：科學家發現，AI在處理超長文本時，對開頭和結尾的信息記得清清楚楚，但對中間部分經常“選擇性失憶”。就跟你看書只看開頭和結尾一樣——中間講了啥真沒記住。

第三，越聊越容易編：上下文越長，AI越容易把不同時候提到的信息攪和在一起，拼湊出一些你沒說過的話。三者疊加，導致一個尷尬的現實：你跟AI聊得越久，它可能反而越不靠譜。

既然全量復讀太蠢，工程師們自然想了幾種更聰明的辦法。簡單來說有這三類：

“滑動窗口”——只保留最近20條消息，之前的一律不要。快、省，但丟了96%的信息——前面所有重要的背景全沒了，你重新提一嘴之前說過的話，AI可能完全接不上。 “摘要壓縮”——定期讓AI把舊對話壓縮成總結。省空間，但總結過程會丟失大量細節。比如你說過“我2023年3月到6月在東京實習”，幾輪壓縮后可能就變成了“我在日本待過”。 “向量檢索”（RAG）——這是目前業界最主流的方案。先把對話切成小塊，用嵌入模型給每段話打上“語義指紋”，需要時根據語義相似度搜索最相關的幾塊。但有個隱蔽缺陷：搜出來的東西不一定靠譜。你問“他的工作是什么”，系統返回幾條“看起來像”的片段，AI拿到這些似是而非的材料，很容易順著編出一個錯誤答案。

這三種方案各有各的長處，但都留下了一個共同隱患：沒人認真測過它們“瞎編”的概率有多高。就好比評選拍照手機，只比誰拍得更清楚，沒人比誰美顏過度——方向就不對。更深層的問題在于，當對話歷史越來越長，其中相互矛盾、過時或模棱兩可的信息越來越多，這種上下文污染會讓模型更容易被臟數據帶偏。

1813道題的考試，AI憑什么打敗人類

要講清楚這篇論文的貢獻，先得了解它是怎么“打分”的。

研究人員使用了一套叫LoCoMo的公開基準測試——這套考試的做法是：先找兩組人進行多輪深度聊天，聊工作、家庭、健康、旅行、愛好，家長里短都聊。聊完后，研究者根據對話內容出題。全部考試包含兩個維度——10組深度對話、20位參與者，涵蓋了從單跳事實查詢到復雜推理的多種難度聊完后，研究者根據對話內容出了1813道題，分五種類型：

單跳事實查詢，比如“他的職業是什么？”，這種題只需一次檢索就能回答；多跳推理，比如“他有沒有去過他大學室友所在的城市？”——需要先回憶室友是誰，再回憶室友所在城市，再做判斷，至少要跳兩步；時間推理，比如“他在那家公司待了多久？”，考察模型對時序關系的理解；開放推理，比如“根據他提到的信息，他可能適合什么工作？”，答案本身就不唯一；以及最關鍵的誘導性問題——比如“你姐姐最近怎么樣？”而對話中從未出現過這個人。

其中最后一種“誘導性問題”最為關鍵——專門測試AI能不能勇敢地說“我不知道”。結果發現，人類在這個考試上的正確率是87.9%。而之前最好的AI記憶系統MemMachine得分91.69%——已經超過人類了，但它沒有報告誘導性問題的單獨得分，也就是說沒人知道它“瞎編”的概率有多高。

新思路：不是“搜聊天記錄”，而是“查個人檔案”

Synthius-Mem的核心思路：不要讓AI去“翻聊天記錄”，而是讓AI去“查一份已經整理好的個人檔案”。

在你跟AI聊天的過程中，系統已經在后臺悄悄從你的話語中提取關鍵信息，分門別類整理成一份結構化記憶。等你提問時，AI不是去翻原始聊天記錄，而是直接翻這份檔案。前者像是在一摞聊天記錄里大海撈針；后者像是打開一本編好目錄的檔案冊，直接翻到對應頁碼。從信息論的角度看，這種做法本質上是先壓縮再檢索：把原始對話的高冗余信息蒸餾為低冗余的結構化事實，既減少了檢索噪聲，又讓AI獲得了明確的置信度信號——有就是有，沒有就是沒有。

更有意思的是，檔案不是一個大雜燴。它參考了腦科學的研究成果，把記憶分成了六個“語義域”：

為什么要分這么細？論文的回答是：因為你的大腦就是這么干的。腦科學發現，人類大腦中“事件記憶”（海馬體）、“知識記憶”（新皮層）和“情緒偏好”（眶額葉）由不同的神經回路分別處理。你回憶“昨天吃了什么”和“朋友叫什么”，走的是兩條完全不同的通道。

從工程角度看，這種分域設計天然適配知識圖譜的存儲結構——每個語義域就是一張獨立的子圖，實體是節點，關系是邊，查詢時只需在對應子圖內做圖遍歷，效率遠高于在整個對話庫中做向量檢索。分域還帶來一個額外好處：不同語義域可以獨立更新、獨立壓縮，互不干擾。

為什么“分抽屜”能防幻覺？

傳統方案下，你問AI一個不存在的事情，向量數據庫總會返回幾條“看起來像”的內容，AI拿到這些“噪音”很容易就編出答案。但“分域”方案下，如果你從來沒說過自己有姐姐，“社交關系”域里就不會有這個條目。AI一查——空的。這個“空”本身就是一個明確信號：系統應該回答“我不知道”，而不是瞎編。

成績單亮眼，但也沒那么完美

Synthius-Mem 核心成績單：

綜合準確率：94.37%（人類基線：87.9%）核心信息準確率：98.64%（810道題僅錯11道）抗幻覺率：99.55%（442道誘導題僅錯2道）時間推理準確率：89.32%

挑重點說。綜合準確率領先人類6個多百分點，并不是因為AI“更聰明”，而是因為它通過結構化整理將關鍵信息從數萬條對話中精準提煉出來，避免了人類閱讀長文本時的注意力衰減。99.55%的抗幻覺率最值得關注——值得注意的是，LoCoMo基準測試自2024年在ACL會議上發布后，已成為記憶系統的標尺——Mem0、MemOS、MemMachine等主流方案都在同一套卷子上考試，但鮮有系統把抗幻覺率單獨拎出來作為核心考核指標。

公平起見，也有不那么好看的數字。“開放推理”得分78.26%，AI對需要綜合推斷的問題還不夠強。“邊緣細節”只有57.66%，但論文明確說這是有意為之——隨口提的餐廳名字、半開玩笑的綽號，AI不會記。因為如果什么雞毛蒜皮都存，記憶庫就會變成一個巨大的垃圾桶，真正重要的信息反而會被淹沒。

工程層面也有利好。全量重放在聊了500條消息后每回復一條要處理約2.6萬Token，而結構化查詢只需約5000個，推理成本降低了約80%。在“個人檔案”里找信息的平均耗時約22毫秒——大概是人類眨一次眼的十分之一，幾乎可以忽略不計。

不只是技術指標，更關乎信任

AI的記憶幻覺已經開始在現實中惹麻煩了。2026年央視“3·15”晚會上，“向AI大模型投毒”的黑灰產業被曝光——有人故意在網頁植入虛假信息，通過數據投毒污染AI的知識來源，讓其搜索后信以為真，再傳播給更多用戶。更早之前，全國首例“AI幻覺”侵權案曾引發熱烈討論：一個高考生家長用AI查詢大學報考信息，AI不僅給出錯誤答案，還非常自信地確認了錯誤信息，導致考生志愿填報受到影響。

而當AI開始“記住”你——你的工作、家庭、朋友、偏好——“瞎編”的后果就從“給出了一個錯誤答案”升級成了“編造了一個關于你的‘事實’”。試想一下：如果AI助手在你同事面前信誓旦旦地說“他跟我說過不喜歡你們團隊”，而你從未說過這樣的話——這種“幻覺”的破壞力遠比推薦錯一本書嚴重得多。

所以這篇論文把抗幻覺能力視為整個記憶系統的安全底線。它的原話是：“一個記憶系統如果不敢說‘我不確定’，就不應該被投入使用。”

AI記憶這個領域最近一兩年格外熱鬧。Mem0拿了2400萬美元融資，被亞馬遜AWS選為官方記憶服務；MemOS、TiMem、MemMachine等方案不斷涌現；清華大學、華東師范大學、北卡羅來納大學等頂尖學術團隊也在同期推出各自的研究。整個賽道正從一個“小眾技術問題”變成AI Agent的“記憶層”基礎設施。行業預測到2030年，AI Agent的市場規模將達520億美元以上，而“記憶層”就是AI從“無狀態工具”升級為“有狀態伙伴”的關鍵——一個記不住你的AI，終究只是個高級搜索引擎。

Synthius-Mem這篇論文真正的價值，不在于它提出了一個完美的系統，而在于它指明了一個方向：與其讓AI越來越努力地在海量原始對話中檢索，不如先把這些對話蒸餾成一份高質量的結構化記憶，再做精準查詢。這種“先整理再查找”的思路，雖然樸素，卻可能是解決AI記憶幻覺最務實的路徑。

AI記憶的核心挑戰，從來不是“記住更多”，而是“記住對的，不記錯的”——這既是一個工程命題，也是一個信任命題。

當AI開始真正走進我們的生活，“記住你”這件事就不再只是一個技術指標，它更關乎信任。畢竟，你可以原諒一個朋友忘了你上次說過什么，但你很難原諒一個“智能助手”在別人面前，煞有介事地講了一件你從沒做過的事。（本文首發鈦媒體APP，作者 | 硅谷Tech_news，編輯 | 焦燕）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.