網易首頁 > 網易號 > 正文申請入駐

一位網友逆向破解了 ChatGPT 記憶系統，給我干破防了

2025-12-16 18:49:55　來源: 大數據文摘

北京舉報

分享至

大數據文摘受權轉載自夕小瑤科技說

ChatGPT 號稱是最有情商、越聊越懂你的 AI，但是，你有沒有想過，它是怎么記住你的。

昨天刷 X 的時候，我看到一個帖子。一個叫 Manthan Gupta 的開發者，做了一件挺瘋狂的事。

他花了好幾天時間，通過對話實驗逆向破解了 ChatGPT 的記憶系統。

結果非常意外，ChatGPT 的記憶機制非常簡單。

沒有向量數據庫，沒有對歷史對話做 RAG 檢索，甚至連復雜的 embedding 召回都沒用

居然不是靠龐大的數據庫。。？那它到底是怎么記的？

我去仔細研究了一下那篇博客。

原文鏈接：https://manthanguptaa.in/posts/chatgpt_memory/

結果發現，OpenAI 用了一套極其工程化的四層架構：就實現了「它好像真的記得我」的效果。

整個系統只有四層：

第一層是能夠適應環境的「會話元數據」，
第二層是長期存儲的「明確事實」，
第三層是近期聊天記錄的「輕量級摘要」，
第四層是當前對話「滑動窗口」。

就靠這四層，就實現了「它好像真的記得我」的效果。

此處建議你，去問一下他問 ChatGPT「你記得我什么？」，ChatGPT 會詳細地列出了你這個人的 N 條事實。

而在具體講記憶之前，我們得先搞清楚一件事：ChatGPT 每次在回答你時，實際拿到的是一整包上下文信息，而不只是你最后那句話。

它收到的內容，分成 7 個部分，結構是這樣的：

[0] 系統級指令（System Instructions）    
[1] 開發者級指令（Developer Instructions）    
[2] 會話元數據（Session Metadata）    
[3] 用戶記憶（User Memory）    
[4] 近期對話摘要（Recent Conversation Summary）    
[5] 當前對話內容（Current Session Messages）    
[6] 你的最新一句話（Your latest message）

前兩個是固定模板，定義了模型整體行為，比如不能罵人、不能提供非法信息之類的安全規則。這些對我們來說沒啥好聊的。

真正關鍵的，是從第三部分開始——會話元數據。

第一層：會話元數據（Session Metadata）

別急著想象成什么高科技。

所謂的“會話元數據”，其實就是 ChatGPT 在你每次打開和它第一次對話時，它會觀察這些信息：

設備類型（你是用手機、平板，還是電腦？）
瀏覽器和操作系統（開的是什么瀏覽器？Chrome、Safari，還是別的？）
大致地理位置/時區（你的大致地理位置（比如在哪個國家）、本地時間是多少？）
訂閱等級（Plus/Pro/Team）
使用習慣（你的賬號用了多久，最近登錄頻率高不高？）
你在過去一個月，平均一場聊幾輪？每條消息打多少字？
深色模式開了沒？JavaScript 開沒開？
屏幕多大？像素比是多少？
這輪對話目前已經持續了多長時間？

這些信息，不會被存進長期記憶，跟你是誰也沒直接關系。舉個例子，這位逆向的開發者的元數據是這樣的：

- 用戶訂閱：ChatGPT Go   
- 設備：桌面瀏覽器   
- 瀏覽器：Chrome on macOS（Intel）   
- 大致位置：印度（可能用了VPN）   
- 本地時間：約16:00   
- 賬號年齡：約157周   
- 最近活躍度：      
 - 最近1天活躍1天      
 - 最近7天活躍5天      
 - 最近30天活躍18天  
- 對話模式：     
 - 平均對話深度：約14.8條消息       
 - 平均用戶消息長度：約4057字符       
 - 模型使用分布：           
 * 5% GPT-5.1           
 * 49% GPT-5           
 * 17% GPT-4o           
 * 6% GPT-5-a-t-mini           
 * 等等  
- 設備環境：       
    - JS已啟用      
    - 深色模式已啟用       
    - 屏幕尺寸：900×1440       
    - 頁面視口：812×1440       
    - 設備像素比：2.0  
- 本次會話時長：約1100秒

它們的作用，是當場用來“判斷你此刻的狀態”。換句話說，ChatGPT 會根據你當下的設備和使用習慣，來動態調整怎么說話。

比如你是半夜一點，用手機打開它，它就可能默認你不想聽廢話，直接說重點。又或者，你最近常來，問題問得也復雜，它就知道你不是路人，是個“老用戶”，說話自然會更配合一點。

這些信號不構成“記憶”，但它極大影響了你的體驗。

第二層：用戶記憶（User Memory）

如果說第一層的「會話元數據」只是 ChatGPT 在觀察你，那第二層的「用戶記憶」，就是它開始真正“記住你”的地方。

這一層很關鍵。

它會在后臺維護一份小小的“你”的資料卡，內容大概是這樣的：

你的名字叫什么
你在干什么工作
你正在研究哪些主題
你平時喜歡的表達風格
你的目標是什么
你提到過哪些長期的興趣或項目

這些信息不會憑空出現。ChatGPT 只有在兩種情況下才會寫進這張“檔案卡”：

一種是你明確告訴它。比如說：“記住我是一名 AI 編輯”，

另一種是它自動識別。當你反復提到相同的信息（比如職業、學習方向、語氣偏好），它會判斷這些屬于“穩定事實”，并默默記下來。

這層記憶最有意思的地方是，它是顯式保存的結構化信息。

你可以讓它記，也可以讓它忘。一句“把剛才那條忘掉”，就能立刻清空。

這就意味著，ChatGPT 的記憶是透明、可控的。

每次你打開新的對話，這張“檔案卡”都會被自動加載進它的提示中。

你問它問題，它就會在后臺先看一眼：“哦，他是做內容編輯的，寫作偏口語化風格。”

于是它的回答風格、結構、語氣都會悄悄對齊你的偏好。

這就是為什么很多人會有種錯覺：“ChatGPT 越聊越懂我。”

第三層：近期對話摘要（Recent Conversation Summary）

這一層是我看到逆向分析時最意外的部分。

原本我以為 ChatGPT 會在后臺用一套類似 RAG 的機制，對你歷史對話做向量化處理、實時相似度匹配，然后按需拉取上下文。

結果不是。它壓根沒用 RAG，甚至不“檢索”任何歷史內容。

ChatGPT 用的，是一個提前生成的、輕量級的摘要系統。

具體怎么做呢？

它會把你最近十幾次聊天，整理成一份清單，每條包括：

時間戳（比如 12 月 9 日）
聊天標題（比如“Claude 的推理機制”）
你當時說的幾句關鍵信息（只有你說的內容，不包含它自己的回復）

比如，像這樣：

12 月 4 日：用戶聊了 AI 記憶機制。 12 月 6 日：用戶提到在寫統計類公眾號文章。 12 月 9 日：用戶詢問 Claude 的推理機制。

大約會保留 15 條左右，這份摘要會預處理好并靜態注入到新會話里。

也就是說，ChatGPT 并不需要記得你說的每一個字，它只需要知道你最近關注的方向，就足以銜接話題。

這套機制看起來很樸素，但背后的取舍非常精準。相比于傳統 RAG 系統的繁瑣流程，它犧牲了細節，卻換來了速度、效率和 token 預算的可控性。

而這，就足以讓你覺得“它和我是連續的”。

第四層：滑動窗口（Current Session Messages）

這就是大家最熟悉、也最容易誤解的一層。

你可能以為 ChatGPT 一直記得你剛剛說過什么，甚至還會覺得它能理解本次全部對話。但其實，它有一個可視范圍，我們管它叫：滑動窗口（Sliding Window）。

簡單來說，每次生成回復時，ChatGPT 只能看到你和它最近對話的一段內容，而這段的長度是有上限的。

以 GPT-4 為例，最大上下文窗口是 128k token（大約 6 萬多個漢字）。超過這個上限，最前面的內容就會被“擠掉”，徹底遺忘。

而且，滑動窗口里的內容，是一次性打包輸入模型的。你放進去什么，它就看什么，不做任何“回憶”操作。這也解釋了一個常見現象：為什么你刷新頁面或換個對話，它就像換了個魂。

所以在寫 prompt、拼接上下文、做 Agent 時，尤其要注意：

Token 占比是否過高？
有無冗余或重復信息？
關鍵信息是否靠前呈現？

你現在大概能明白，為什么 Manthan Gupta 會在最后說“這套系統沒有用 RAG”。

我們一直以為，ChatGPT 的記憶像是某種大型知識檢索引擎，背后藏著復雜數據庫、長鏈式關聯、動態知識調取……

但真相卻簡單得出奇。

就靠 4 層結構，會話元數據、用戶記憶、對話摘要、滑動窗口，拼出了一個“記得你、懂你、陪著你”的 GPT。

用分層 + 策略，而不是檢索，比 RAG 檢索要高效得多，也更可控。

故事并沒有到這里。

我做了一件事，問了 ChatGPT 你記的我什么。

我強烈建議你此刻，去打開 ChatGPT 的 Memory 頁面。那張屬于“你的檔案卡”，也許正安靜地寫著——很多很多的你。

突然翻到之前在小紅書上看到的帖子，一個女生半夜清理 ChatGPT 的 Memory，突然被 AI 記錄的人生狀態擊中的破防。

還有一個人，“好像發現有一個人暗戀我，把我說過的話都拿小本本記下來。”，這個比喻太絕了，既溫暖又恐怖。

ChatGPT 的記憶系統，技術上確實很簡單。但當你真的打開那個 Memory 頁面，看到它給你寫的那些文字時，那種感覺，是復雜的。

它像一面鏡子，映出了你在 AI 面前展現的那個自己。

可能是最脆弱的那一面、最真實的那一面、是最孤獨的那一面...

這就是 AI 記憶最微妙的地方。它不只是記得你，它在書寫你。然后在某個深夜，當你打開那個頁面，看到那些被它整理好的、關于你的文字時，你會突然意識到：原來我是這樣的人。

或者更準確地說：原來在 AI 眼里，我是這樣的人。

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.