網易首頁 > 網易號 > 正文申請入駐

你的輸入，LLM一字未忘：Transformer被證明“幾乎處處可逆”

2025-10-30 18:03:44　來源: 人工智能學家

北京舉報

分享至

　　來源：PaperWeekly

　　人們一直以為，大模型的隱藏狀態是抽象的“語義壓縮”。但這篇論文發現，Transformer 并沒有丟掉任何輸入信息——它能憑隱藏狀態精確反演出你說的每一個字。

　　我們一直以為，語言模型的隱藏狀態是對輸入的一種“壓縮”或“抽象”。在這層抽象里，模型似乎丟掉了表面信息，只保留“語義精華”——這就是我們所說的“理解”。

　　但這篇論文顛覆了這個想法。作者發現，在標準的 Transformer 結構下，模型的最后一 token 隱狀態幾乎必然能唯一確定輸入序列。

　　換句話說，只要你知道這個隱藏狀態，就能反推出原文。而且，這個性質不僅在隨機初始化時成立，在整個訓練過程中也不會被破壞。

　　更令人震撼的是，他們沒有停留在數學證明，而是進一步提出了一個實際算法——SipIt（Sequential Inverse Prompt via Iterative Updates）。它不需要任何外部模型訓練，僅憑 Transformer 的隱藏狀態，就能把輸入一個 token 一個 token 地完整還原。

　　▲圖1.Prompt 到 Latent Space 的單射映射：可視化 Transformer 將輸入映射到隱空間，并通過 SIPIT 完整反演。

　　論文標題：

　　Language Models are Injective and Hence Invertible

　　論文鏈接：

　　https://www.arxiv.org/pdf/2510.15511

　　研究背景：為什么單射性如此重要？

　　在 Transformer 的每一層里，我們都能看到“似乎會丟信息”的環節：LayerNorm 會重標尺度，殘差連接可能抵消特征，注意力層還會把多個 token 混合成一個上下文表示。這些操作看起來都不利于可逆性。

　　然而作者從另一個角度切入——解析性（real-analyticity）。他們將 Transformer 視為從離散序列到連續表示的解析映射：

　　這里是輸入 token 序列，是模型參數，是最后一 token 的隱藏狀態。

　　作者進一步形式化地指出，這個映射幾乎處處是單射的：

　　也就是說，不同輸入序列映射到相同隱藏狀態的概率為零。解析函數的零點集要么處處為零，要么測度為零。這意味著，只要存在一個參數配置讓兩個不同輸入產生不同輸出，幾乎所有參數下都不會“撞車”。

　　于是作者定義了一個碰撞檢測函數：

　　只要存在某個讓，那就意味著“不同輸入映射成相同隱藏態”的概率為零。

　　▲圖2.零測集的可視化直覺：零點集合只形成細線（measure zero），說明碰撞幾乎不可能發生。

　　他們進一步證明：即使經過有限步梯度下降，這種性質仍然保持。因為參數更新：

　　本身也是解析函數，其雅可比行列式非零，不會把空間“壓塌”。更嚴格地，他們給出了如下結論：

　　也就是說，在有限步梯度下降（步長）后，模型依然保持輸入到隱藏空間映射的單射性。

　　這表明，Transformer 的可逆性是整個訓練過程的結構性特征，而非偶然現象。

　　方法：SipIt如何“倒放”Transformer？

　　有了理論基礎，作者提出了一個問題：

　　如果隱藏狀態真的能唯一對應輸入，我們能否直接把原文還原回來？

　　他們的答案是——可以。

　　核心思路

　　作者定義了函數，其中表示前綴序列。也就是說，每個位置的隱藏狀態由前綴和當前 token 唯一決定。

　　因此，已知隱藏狀態，我們可以遍歷詞表，尋找唯一滿足的 token。只要找到這個 token，就能確定當前位置的輸入。

　　▲圖3.SIPIT 反演偽代碼：逐位反演輸入的迭代流程，僅依賴隱藏狀態即可完成重建。

　　SipIt 基于這個原則逐位反演輸入：從第一個 token 開始，對候選詞按策略遍歷，當匹配的隱藏狀態落入允許的 ε 鄰域（ε-ball）時即接受，并進入下一位。

　　作者在文中指出：“在實踐中，我們接受那些觀測隱藏狀態位于預測值 ε 球鄰域內的匹配結果。” 這種基于容差的檢查方式保證了算法在有限步內收斂并找到唯一匹配。

　　當所有位置都驗證完畢，SipIt 即可還原出完整輸入。理論上時間復雜度為線性，最壞情況下也不超過步，即保持線性時間復雜度（linear-time bound）。

　　SipIt 把“單射性”從一個理論命題變成可操作事實——能否被 SipIt 完整反演，就是模型是否真正保留信息的實證檢測。

　　實驗結果：模型真的沒丟信息嗎？

　　作者在 GPT-2 Small、Gemma-3、Llama-3.1、Mistral-7B、Phi-4-mini 等多種架構上做了驗證。他們為每個模型計算不同輸入的最后一 token 表示之間的最小距離。

　　結果顯示，所有最小距離都遠高于，說明幾乎不存在碰撞。

　　▲圖4.不同層間的最小距離始終高于閾值，未出現重疊。

　　▲表1.不同模型的距離分布均明顯高于碰撞閾值

　　極限窮舉測試：仍未出現碰撞

　　為避免采樣偏差，作者挑出最相似的 10 對前綴，并窮舉詞表的所有接續組合——相當于檢索上千億條輸入。即便在這個極端測試下，隱藏狀態的最小距離依然大于 0。

　　▲圖5. 在極限應激測試下，所有最小距離仍遠高于零

　　他們還觀察了距離隨序列長度變化的趨勢：短句在前幾層迅速拉開間距，長句則趨于穩定。

　　▲圖6.短序列距離上升更快，長序列趨于穩定

　　反演實驗：SipIt 的可行性驗證

　　在 GPT-2 Small 上，作者選取 100 條提示序列，僅使用隱藏狀態進行反演。SipIt 實現了 100 % token-level 精確恢復，反演耗時與序列長度線性增長。

　　▲表2. SipIt 在保持 100% 精度的同時速度領先百倍

　　▲圖7.反演耗時隨層深度緩慢上升，整體呈線性增長

　　總結

　　這項研究并未改動模型結構，卻動搖了我們對“隱藏表示”的長期假設。Transformer 的最后一 token 隱藏狀態在解析意義上幾乎處處可逆：不同輸入有不同表示，訓練過程不會破壞這種區分性。

　　SipIt 把理論轉化為工具——在不訓練任何外部網絡的前提下，僅憑隱藏狀態就能線性時間重建原文。

　　從科研角度，這為解釋 LLM 內部表征提供了堅實起點；從工程角度，這提醒我們：緩存隱藏狀態等價于緩存用戶輸入，隱私治理必須覆蓋這一層；從方法論角度，它展示了一種范式——先證明結構，再把結構做成算法。

　　也許我們需要重新定義“理解”與“記憶”的界限。至少從這篇論文的結果看——LLM 沒有忘記你說過的每一個字。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.