<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI 記憶首次超越人類:幻覺率壓至 0.5%,長對話不再瞎編

      0
      分享至


      你有沒有過這樣的體驗——跟AI助手聊了半天,把自己的家庭情況、工作經歷、喜好厭惡一股腦兒說了個遍。結果下一次打開對話,它一臉茫然地問候你:"請問您叫什么名字?"

      更讓人頭皮發麻的是另一種情況:你明明從來沒提過自己有個姐姐,它卻煞有介事地說"你姐姐在紐約上學吧"——語氣篤定得讓你差點信以為真。

      第一種叫“健忘”,第二種叫“幻覺”,加在一起,就是今天AI記憶系統的兩大頑疾。最近,一家叫Synthius的AI公司發了一篇論文,提出了一個很有意思的解決思路:它借鑒了人類大腦的記憶機制,讓AI的記憶準確率第一次超過了人類,同時還把“編造信息”的概率壓到了不到0.5%

      (論文地址:https://arxiv.org/abs/2604.11563v1)

      AI壓根沒有記憶,主流方案各有各的坑

      別被ChatGPT們的“體貼”騙了,大語言模型本身是沒有任何持久記憶能力的。你每一次發消息給它,在它眼里都是“初次見面”。我們之所以覺得它“記得”上次聊了什么,純粹是因為系統在背后做了一件事:把你之前所有的聊天記錄,又原封不動地復制了一遍,粘貼在最新消息的前面。這種做法在技術上叫“全上下文重放”

      想象一下,你每次給朋友發消息之前,都要把之前幾個月的聊天記錄全部重新看一遍,然后才能回一句“好的”。對話少的時候還行,聊了幾百條之后,光是“復習”就要花掉大量時間——這就是AI面對長對話時的真實處境。

      這種“翻舊賬”式的做法至少有三個致命問題:

      第一,越來越貴:每次回復都要重新處理全部歷史。這里的“處理”指的是模型的推理過程——大模型每次生成回答都要消耗算力,你喂給它的文字越多,成本越高。聊了500條消息后,光“復習”一次就要處理大約2.5萬個Token

      第二,“中間遺忘”效應:科學家發現,AI在處理超長文本時,對開頭和結尾的信息記得清清楚楚,但對中間部分經常“選擇性失憶”。就跟你看書只看開頭和結尾一樣——中間講了啥真沒記住。

      第三,越聊越容易編:上下文越長,AI越容易把不同時候提到的信息攪和在一起,拼湊出一些你沒說過的話。三者疊加,導致一個尷尬的現實:你跟AI聊得越久,它可能反而越不靠譜。

      既然全量復讀太蠢,工程師們自然想了幾種更聰明的辦法。簡單來說有這三類:

      “滑動窗口”——只保留最近20條消息,之前的一律不要。快、省,但丟了96%的信息——前面所有重要的背景全沒了,你重新提一嘴之前說過的話,AI可能完全接不上。 “摘要壓縮”——定期讓AI把舊對話壓縮成總結。省空間,但總結過程會丟失大量細節。比如你說過“我2023年3月到6月在東京實習”,幾輪壓縮后可能就變成了“我在日本待過”。 “向量檢索”(RAG)——這是目前業界最主流的方案。先把對話切成小塊,用嵌入模型給每段話打上“語義指紋”,需要時根據語義相似度搜索最相關的幾塊。但有個隱蔽缺陷:搜出來的東西不一定靠譜。你問“他的工作是什么”,系統返回幾條“看起來像”的片段,AI拿到這些似是而非的材料,很容易順著編出一個錯誤答案。

      這三種方案各有各的長處,但都留下了一個共同隱患:沒人認真測過它們“瞎編”的概率有多高。就好比評選拍照手機,只比誰拍得更清楚,沒人比誰美顏過度——方向就不對。更深層的問題在于,當對話歷史越來越長,其中相互矛盾、過時或模棱兩可的信息越來越多,這種上下文污染會讓模型更容易被臟數據帶偏。

      1813道題的考試,AI憑什么打敗人類

      要講清楚這篇論文的貢獻,先得了解它是怎么“打分”的。

      研究人員使用了一套叫LoCoMo的公開基準測試——這套考試的做法是:先找兩組人進行多輪深度聊天,聊工作、家庭、健康、旅行、愛好,家長里短都聊。聊完后,研究者根據對話內容出題。全部考試包含兩個維度——10組深度對話、20位參與者,涵蓋了從單跳事實查詢到復雜推理的多種難度聊完后,研究者根據對話內容出了1813道題,分五種類型:

      單跳事實查詢,比如“他的職業是什么?”,這種題只需一次檢索就能回答; 多跳推理,比如“他有沒有去過他大學室友所在的城市?”——需要先回憶室友是誰,再回憶室友所在城市,再做判斷,至少要跳兩步; 時間推理,比如“他在那家公司待了多久?”,考察模型對時序關系的理解; 開放推理,比如“根據他提到的信息,他可能適合什么工作?”,答案本身就不唯一; 以及最關鍵的誘導性問題——比如“你姐姐最近怎么樣?”而對話中從未出現過這個人。

      其中最后一種“誘導性問題”最為關鍵——專門測試AI能不能勇敢地說“我不知道”。結果發現,人類在這個考試上的正確率是87.9%。而之前最好的AI記憶系統MemMachine得分91.69%——已經超過人類了,但它沒有報告誘導性問題的單獨得分,也就是說沒人知道它“瞎編”的概率有多高。

      新思路:不是“搜聊天記錄”,而是“查個人檔案”

      Synthius-Mem的核心思路:不要讓AI去“翻聊天記錄”,而是讓AI去“查一份已經整理好的個人檔案”。

      在你跟AI聊天的過程中,系統已經在后臺悄悄從你的話語中提取關鍵信息,分門別類整理成一份結構化記憶。等你提問時,AI不是去翻原始聊天記錄,而是直接翻這份檔案。前者像是在一摞聊天記錄里大海撈針;后者像是打開一本編好目錄的檔案冊,直接翻到對應頁碼。從信息論的角度看,這種做法本質上是先壓縮再檢索:把原始對話的高冗余信息蒸餾為低冗余的結構化事實,既減少了檢索噪聲,又讓AI獲得了明確的置信度信號——有就是有,沒有就是沒有。

      更有意思的是,檔案不是一個大雜燴。它參考了腦科學的研究成果,把記憶分成了六個“語義域”


      為什么要分這么細?論文的回答是:因為你的大腦就是這么干的。腦科學發現,人類大腦中“事件記憶”(海馬體)、“知識記憶”(新皮層)和“情緒偏好”(眶額葉)由不同的神經回路分別處理。你回憶“昨天吃了什么”和“朋友叫什么”,走的是兩條完全不同的通道。

      從工程角度看,這種分域設計天然適配知識圖譜的存儲結構——每個語義域就是一張獨立的子圖,實體是節點,關系是邊,查詢時只需在對應子圖內做圖遍歷,效率遠高于在整個對話庫中做向量檢索。分域還帶來一個額外好處:不同語義域可以獨立更新、獨立壓縮,互不干擾。

      為什么“分抽屜”能防幻覺?

      傳統方案下,你問AI一個不存在的事情,向量數據庫總會返回幾條“看起來像”的內容,AI拿到這些“噪音”很容易就編出答案。但“分域”方案下,如果你從來沒說過自己有姐姐,“社交關系”域里就不會有這個條目。AI一查——空的。這個“空”本身就是一個明確信號:系統應該回答“我不知道”,而不是瞎編。

      成績單亮眼,但也沒那么完美

      Synthius-Mem 核心成績單:

      綜合準確率:94.37%(人類基線:87.9%) 核心信息準確率:98.64%(810道題僅錯11道) 抗幻覺率:99.55%(442道誘導題僅錯2道) 時間推理準確率:89.32%

      挑重點說。綜合準確率領先人類6個多百分點,并不是因為AI“更聰明”,而是因為它通過結構化整理將關鍵信息從數萬條對話中精準提煉出來,避免了人類閱讀長文本時的注意力衰減。99.55%的抗幻覺率最值得關注——值得注意的是,LoCoMo基準測試自2024年在ACL會議上發布后,已成為記憶系統的標尺——Mem0、MemOS、MemMachine等主流方案都在同一套卷子上考試,但鮮有系統把抗幻覺率單獨拎出來作為核心考核指標。

      公平起見,也有不那么好看的數字。“開放推理”得分78.26%,AI對需要綜合推斷的問題還不夠強。“邊緣細節”只有57.66%,但論文明確說這是有意為之——隨口提的餐廳名字、半開玩笑的綽號,AI不會記。因為如果什么雞毛蒜皮都存,記憶庫就會變成一個巨大的垃圾桶,真正重要的信息反而會被淹沒。

      工程層面也有利好。全量重放在聊了500條消息后每回復一條要處理約2.6萬Token,而結構化查詢只需約5000個,推理成本降低了約80%。在“個人檔案”里找信息的平均耗時約22毫秒——大概是人類眨一次眼的十分之一,幾乎可以忽略不計。

      不只是技術指標,更關乎信任

      AI的記憶幻覺已經開始在現實中惹麻煩了。2026年央視“3·15”晚會上,“向AI大模型投毒”的黑灰產業被曝光——有人故意在網頁植入虛假信息,通過數據投毒污染AI的知識來源,讓其搜索后信以為真,再傳播給更多用戶。更早之前,全國首例“AI幻覺”侵權案曾引發熱烈討論:一個高考生家長用AI查詢大學報考信息,AI不僅給出錯誤答案,還非常自信地確認了錯誤信息,導致考生志愿填報受到影響。

      而當AI開始“記住”你——你的工作、家庭、朋友、偏好——“瞎編”的后果就從“給出了一個錯誤答案”升級成了“編造了一個關于你的‘事實’”。試想一下:如果AI助手在你同事面前信誓旦旦地說“他跟我說過不喜歡你們團隊”,而你從未說過這樣的話——這種“幻覺”的破壞力遠比推薦錯一本書嚴重得多。

      所以這篇論文把抗幻覺能力視為整個記憶系統的安全底線。它的原話是:“一個記憶系統如果不敢說‘我不確定’,就不應該被投入使用。”

      AI記憶這個領域最近一兩年格外熱鬧。Mem0拿了2400萬美元融資,被亞馬遜AWS選為官方記憶服務;MemOS、TiMem、MemMachine等方案不斷涌現;清華大學、華東師范大學、北卡羅來納大學等頂尖學術團隊也在同期推出各自的研究。整個賽道正從一個“小眾技術問題”變成AI Agent的“記憶層”基礎設施。行業預測到2030年,AI Agent的市場規模將達520億美元以上,而“記憶層”就是AI從“無狀態工具”升級為“有狀態伙伴”的關鍵——一個記不住你的AI,終究只是個高級搜索引擎。

      Synthius-Mem這篇論文真正的價值,不在于它提出了一個完美的系統,而在于它指明了一個方向:與其讓AI越來越努力地在海量原始對話中檢索,不如先把這些對話蒸餾成一份高質量的結構化記憶,再做精準查詢。這種“先整理再查找”的思路,雖然樸素,卻可能是解決AI記憶幻覺最務實的路徑。

      AI記憶的核心挑戰,從來不是“記住更多”,而是“記住對的,不記錯的”——這既是一個工程命題,也是一個信任命題。

      當AI開始真正走進我們的生活,“記住你”這件事就不再只是一個技術指標,它更關乎信任。畢竟,你可以原諒一個朋友忘了你上次說過什么,但你很難原諒一個“智能助手”在別人面前,煞有介事地講了一件你從沒做過的事。(本文首發鈦媒體APP,作者 | 硅谷Tech_news,編輯 | 焦燕)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      37歲福原愛宣布三胎出生:母子健康平安,產后照曝光,前夫已祝福

      37歲福原愛宣布三胎出生:母子健康平安,產后照曝光,前夫已祝福

      開開森森
      2026-04-19 07:41:03
      福建艦或在年底“畢業”,中方話里的弦外之音,美國人最好仔細聽

      福建艦或在年底“畢業”,中方話里的弦外之音,美國人最好仔細聽

      成視Talk
      2026-04-20 09:50:45
      73歲天賜父親訴說太辛苦,大女兒來家里帶妹妹,太暖心了

      73歲天賜父親訴說太辛苦,大女兒來家里帶妹妹,太暖心了

      童叔不飆車
      2026-04-19 11:09:23
      港獨、罵中國人,如今卻還想來內地撈金,這3位香港明星令人作嘔

      港獨、罵中國人,如今卻還想來內地撈金,這3位香港明星令人作嘔

      驕陽之夏明
      2026-04-15 16:44:42
      以牙還牙!日本戰艦橫穿臺海第2天,東部戰區出動戰巡東海

      以牙還牙!日本戰艦橫穿臺海第2天,東部戰區出動戰巡東海

      阿芒娛樂說
      2026-04-19 02:29:16
      新中國對外輸出革命史:上萬知青奔赴緬甸,結局如何?

      新中國對外輸出革命史:上萬知青奔赴緬甸,結局如何?

      談史論天地
      2026-04-18 14:30:03
      吳邦國的狂草技藝,讓書壇驚嘆不已!

      吳邦國的狂草技藝,讓書壇驚嘆不已!

      書畫相約
      2026-04-07 07:08:05
      尹正自曝把摩托車全賣了:“車牌漲價了,賺翻了,我愛摩托車”

      尹正自曝把摩托車全賣了:“車牌漲價了,賺翻了,我愛摩托車”

      悅君兮君不知
      2026-04-18 22:21:30
      開走第2輛保時捷!萊巴金娜橫掃復仇,奪賽季第2冠+生涯第13冠

      開走第2輛保時捷!萊巴金娜橫掃復仇,奪賽季第2冠+生涯第13冠

      全景體育V
      2026-04-19 21:21:01
      最后48小時,賴清德將登機離臺,大陸斬釘截鐵,蕭旭岑捅破窗戶紙

      最后48小時,賴清德將登機離臺,大陸斬釘截鐵,蕭旭岑捅破窗戶紙

      共工之錨
      2026-04-20 08:54:25
      我是天津人,全家一起來了趟上海,確實有點想不明白這四件事

      我是天津人,全家一起來了趟上海,確實有點想不明白這四件事

      王姐懶人家常菜
      2026-04-20 03:27:17
      為啥淘寶,拼多多幾塊錢的東西還能包郵?看完你就明白了!

      為啥淘寶,拼多多幾塊錢的東西還能包郵?看完你就明白了!

      呼呼歷史論
      2026-04-10 21:17:24
      張婉婷直播對齊溪開火那幾句話信息量炸了!齊溪七年不生另有隱情

      張婉婷直播對齊溪開火那幾句話信息量炸了!齊溪七年不生另有隱情

      小娛樂悠悠
      2026-04-17 11:38:27
      專家呼吁:馬上停用5種調味醬,它是腸癌催化劑!再下飯也別沾

      專家呼吁:馬上停用5種調味醬,它是腸癌催化劑!再下飯也別沾

      路醫生健康科普
      2026-04-18 16:18:55
      張豆豆曝孫楊干涉自己交友:他被好幾個朋友重創過

      張豆豆曝孫楊干涉自己交友:他被好幾個朋友重創過

      懂球帝
      2026-04-17 10:55:07
      醫生坦言:男性一旦徹底戒煙,過不了半年,身體會收獲4個改變

      醫生坦言:男性一旦徹底戒煙,過不了半年,身體會收獲4個改變

      陳醫生健康雜談
      2026-04-20 09:24:41
      網傳“雷軍被堵車里維權”,小米徐潔云回應

      網傳“雷軍被堵車里維權”,小米徐潔云回應

      新浪財經
      2026-04-20 00:33:19
      潛伏在中國高層的大間諜,遍布軍界政界,簡直令人唏噓

      潛伏在中國高層的大間諜,遍布軍界政界,簡直令人唏噓

      咸説歷史
      2026-04-14 14:21:44
      伊朗宣布對所有商船開放霍爾木茲海峽

      伊朗宣布對所有商船開放霍爾木茲海峽

      環球網資訊
      2026-04-17 21:29:34
      重磅突破!以色列科學家:吸100%純氧3個月,生理倒拔20歲

      重磅突破!以色列科學家:吸100%純氧3個月,生理倒拔20歲

      劉曠
      2026-04-19 15:27:33
      2026-04-20 10:52:49
      鈦媒體APP incentive-icons
      鈦媒體APP
      獨立財經科技媒體
      132480文章數 862107關注度
      往期回顧 全部

      科技要聞

      藍色起源一級火箭完美回收 客戶衛星未入軌

      頭條要聞

      失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

      頭條要聞

      失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

      體育要聞

      七大獎項候選官宣!文班或全票DPOY

      娛樂要聞

      章子怡!增重20斤素顏拍新片

      財經要聞

      月之暗面IPO迷局

      汽車要聞

      外觀非常驚艷 全新一代寶馬6系有望回歸

      態度原創

      教育
      時尚
      房產
      游戲
      家居

      教育要聞

      給孩子最深的滋養:一半愛護,一半需要

      今年最流行的衣服竟然是它?高級又氣質!

      房產要聞

      官宣簽約最強城更!海口樓市,突然殺入神秘房企!

      大司馬稱不想再玩《PUBG》:打的菜還總被噴!

      家居要聞

      法式線條 時光靜淌

      無障礙瀏覽 進入關懷版