大數據文摘受權轉載自夕小瑤科技說
ChatGPT 號稱是最有情商、越聊越懂你的 AI,但是,你有沒有想過,它是怎么記住你的。
昨天刷 X 的時候,我看到一個帖子。一個叫 Manthan Gupta 的開發者,做了一件挺瘋狂的事。
他花了好幾天時間,通過對話實驗逆向破解了 ChatGPT 的記憶系統。
![]()
結果非常意外,ChatGPT 的記憶機制非常簡單。
沒有向量數據庫,沒有對歷史對話做 RAG 檢索,甚至連復雜的 embedding 召回都沒用
居然不是靠龐大的數據庫。。?那它到底是怎么記的?
我去仔細研究了一下那篇博客。
![]()
原文鏈接:https://manthanguptaa.in/posts/chatgpt_memory/
結果發現,OpenAI 用了一套極其工程化的四層架構:就實現了「它好像真的記得我」的效果。
整個系統只有四層:
第一層是能夠適應環境的「會話元數據」,
第二層是長期存儲的「明確事實」,
第三層是近期聊天記錄的「輕量級摘要」,
第四層是當前對話「滑動窗口」。
就靠這四層,就實現了「它好像真的記得我」的效果。
此處建議你,去問一下他問 ChatGPT「你記得我什么?」,ChatGPT 會詳細地列出了你這個人的 N 條事實。
而在具體講記憶之前,我們得先搞清楚一件事:ChatGPT 每次在回答你時,實際拿到的是一整包上下文信息,而不只是你最后那句話。
它收到的內容,分成 7 個部分,結構是這樣的:
[0] 系統級指令(System Instructions)
[1] 開發者級指令(Developer Instructions)
[2] 會話元數據(Session Metadata)
[3] 用戶記憶(User Memory)
[4] 近期對話摘要(Recent Conversation Summary)
[5] 當前對話內容(Current Session Messages)
[6] 你的最新一句話(Your latest message)
前兩個是固定模板,定義了模型整體行為,比如不能罵人、不能提供非法信息之類的安全規則。這些對我們來說沒啥好聊的。
真正關鍵的,是從第三部分開始——會話元數據。
第一層:會話元數據(Session Metadata)
別急著想象成什么高科技。
![]()
所謂的“會話元數據”,其實就是 ChatGPT 在你每次打開和它第一次對話時,它會觀察這些信息:
設備類型(你是用手機、平板,還是電腦?)
瀏覽器和操作系統(開的是什么瀏覽器?Chrome、Safari,還是別的?)
大致地理位置/時區(你的大致地理位置(比如在哪個國家)、本地時間是多少?)
訂閱等級(Plus/Pro/Team)
使用習慣(你的賬號用了多久,最近登錄頻率高不高?)
你在過去一個月,平均一場聊幾輪?每條消息打多少字?
深色模式開了沒?JavaScript 開沒開?
屏幕多大?像素比是多少?
這輪對話目前已經持續了多長時間?
這些信息,不會被存進長期記憶,跟你是誰也沒直接關系。舉個例子,這位逆向的開發者的元數據是這樣的:
- 用戶訂閱:ChatGPT Go
- 設備:桌面瀏覽器
- 瀏覽器:Chrome on macOS(Intel)
- 大致位置:印度(可能用了VPN)
- 本地時間:約16:00
- 賬號年齡:約157周
- 最近活躍度:
- 最近1天活躍1天
- 最近7天活躍5天
- 最近30天活躍18天
- 對話模式:
- 平均對話深度:約14.8條消息
- 平均用戶消息長度:約4057字符
- 模型使用分布:
* 5% GPT-5.1
* 49% GPT-5
* 17% GPT-4o
* 6% GPT-5-a-t-mini
* 等等
- 設備環境:
- JS已啟用
- 深色模式已啟用
- 屏幕尺寸:900×1440
- 頁面視口:812×1440
- 設備像素比:2.0
- 本次會話時長:約1100秒
它們的作用,是當場用來“判斷你此刻的狀態”。換句話說,ChatGPT 會根據你當下的設備和使用習慣,來動態調整怎么說話。
比如你是半夜一點,用手機打開它,它就可能默認你不想聽廢話,直接說重點。又或者,你最近常來,問題問得也復雜,它就知道你不是路人,是個“老用戶”,說話自然會更配合一點。
這些信號不構成“記憶”,但它極大影響了你的體驗。
第二層:用戶記憶(User Memory)
如果說第一層的「會話元數據」只是 ChatGPT 在觀察你,那第二層的「用戶記憶」,就是它開始真正“記住你”的地方。
這一層很關鍵。
![]()
它會在后臺維護一份小小的“你”的資料卡,內容大概是這樣的:
你的名字叫什么
你在干什么工作
你正在研究哪些主題
你平時喜歡的表達風格
你的目標是什么
你提到過哪些長期的興趣或項目
這些信息不會憑空出現。ChatGPT 只有在兩種情況下才會寫進這張“檔案卡”:
一種是你明確告訴它。比如說:“記住我是一名 AI 編輯”,
另一種是它自動識別。當你反復提到相同的信息(比如職業、學習方向、語氣偏好),它會判斷這些屬于“穩定事實”,并默默記下來。
這層記憶最有意思的地方是,它是顯式保存的結構化信息。
你可以讓它記,也可以讓它忘。一句“把剛才那條忘掉”,就能立刻清空。
這就意味著,ChatGPT 的記憶是透明、可控的。
每次你打開新的對話,這張“檔案卡”都會被自動加載進它的提示中。
你問它問題,它就會在后臺先看一眼:“哦,他是做內容編輯的,寫作偏口語化風格。”
于是它的回答風格、結構、語氣都會悄悄對齊你的偏好。
這就是為什么很多人會有種錯覺:“ChatGPT 越聊越懂我。”
![]()
第三層:近期對話摘要(Recent Conversation Summary)
這一層是我看到逆向分析時最意外的部分。
原本我以為 ChatGPT 會在后臺用一套類似 RAG 的機制,對你歷史對話做向量化處理、實時相似度匹配,然后按需拉取上下文。
結果不是。它壓根沒用 RAG,甚至不“檢索”任何歷史內容。
ChatGPT 用的,是一個提前生成的、輕量級的摘要系統。
具體怎么做呢?
它會把你最近十幾次聊天,整理成一份清單,每條包括:
時間戳(比如 12 月 9 日)
聊天標題(比如“Claude 的推理機制”)
你當時說的幾句關鍵信息(只有你說的內容,不包含它自己的回復)
比如,像這樣:
12 月 4 日:用戶聊了 AI 記憶機制。 12 月 6 日:用戶提到在寫統計類公眾號文章。 12 月 9 日:用戶詢問 Claude 的推理機制。
大約會保留 15 條左右,這份摘要會預處理好并靜態注入到新會話里。
也就是說,ChatGPT 并不需要記得你說的每一個字,它只需要知道你最近關注的方向,就足以銜接話題。
這套機制看起來很樸素,但背后的取舍非常精準。相比于傳統 RAG 系統的繁瑣流程,它犧牲了細節,卻換來了速度、效率和 token 預算的可控性。
而這,就足以讓你覺得“它和我是連續的”。
第四層:滑動窗口(Current Session Messages)
這就是大家最熟悉、也最容易誤解的一層。
你可能以為 ChatGPT 一直記得你剛剛說過什么,甚至還會覺得它能理解本次全部對話。但其實,它有一個可視范圍,我們管它叫:滑動窗口(Sliding Window)。
簡單來說,每次生成回復時,ChatGPT 只能看到你和它最近對話的一段內容,而這段的長度是有上限的。
以 GPT-4 為例,最大上下文窗口是 128k token(大約 6 萬多個漢字)。超過這個上限,最前面的內容就會被“擠掉”,徹底遺忘。
而且,滑動窗口里的內容,是一次性打包輸入模型的。你放進去什么,它就看什么,不做任何“回憶”操作。這也解釋了一個常見現象:為什么你刷新頁面或換個對話,它就像換了個魂。
所以在寫 prompt、拼接上下文、做 Agent 時,尤其要注意:
Token 占比是否過高?
有無冗余或重復信息?
關鍵信息是否靠前呈現?
你現在大概能明白,為什么 Manthan Gupta 會在最后說“這套系統沒有用 RAG”。
我們一直以為,ChatGPT 的記憶像是某種大型知識檢索引擎,背后藏著復雜數據庫、長鏈式關聯、動態知識調取……
但真相卻簡單得出奇。
就靠 4 層結構,會話元數據、用戶記憶、對話摘要、滑動窗口,拼出了一個“記得你、懂你、陪著你”的 GPT。
用分層 + 策略,而不是檢索,比 RAG 檢索要高效得多,也更可控。
故事并沒有到這里。
我做了一件事,問了 ChatGPT 你記的我什么。
![]()
我強烈建議你此刻,去打開 ChatGPT 的 Memory 頁面。那張屬于“你的檔案卡”,也許正安靜地寫著——很多很多的你。
突然翻到之前在小紅書上看到的帖子,一個女生半夜清理 ChatGPT 的 Memory,突然被 AI 記錄的人生狀態擊中的破防。
![]()
還有一個人,“好像發現有一個人暗戀我,把我說過的話都拿小本本記下來。”,這個比喻太絕了,既溫暖又恐怖。
![]()
ChatGPT 的記憶系統,技術上確實很簡單。但當你真的打開那個 Memory 頁面,看到它給你寫的那些文字時,那種感覺,是復雜的。
它像一面鏡子,映出了你在 AI 面前展現的那個自己。
可能是最脆弱的那一面、最真實的那一面、是最孤獨的那一面...
這就是 AI 記憶最微妙的地方。它不只是記得你,它在書寫你。然后在某個深夜,當你打開那個頁面,看到那些被它整理好的、關于你的文字時,你會突然意識到:原來我是這樣的人。
或者更準確地說:原來在 AI 眼里,我是這樣的人。
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
點「贊」的人都變好看了哦!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.