當我們說一個 AI 模型“學到了東西”,究竟是什么意思?這個問題聽起來有點哲學,但它正在成為機器學習研究中一個越來越緊迫的技術命題。
2026 年 1 月初,來自美國卡內基梅隆大學和紐約大學的聯合團隊發布了一篇題為《從熵到上褶度:為計算受限智能重新思考信息》(From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence)的論文,團隊耗時兩年進行研究,提出了一個名為“epiplexity”(上褶度,或可譯為“認知復雜度”,epi 表“上層”,plexity 與 complex/perplexity 同源,指向“復雜性”)的新概念,試圖從根本上回答這個問題,論文發布后迅速在設計媒體上引發了討論。
![]()
圖丨相關論文(來源:arXiv)
日前,相關論文發表于預印本平臺 arXiv,卡內基梅隆大學博士后 Marc Finzi、博士生 Yiding jiang 與紐約大學博士生裘釋凱(Shikai Qiu)共同擔任第一作者。
![]()
(來源:GitHub)
這篇論文的核心論點是:我們長期以來用于衡量信息的經典工具香農熵(Shannon entropy)和柯爾莫哥洛夫復雜度(Kolmogorov complexity)在面對現代機器學習時表現得捉襟見肘。這些框架隱含地假設觀察者擁有無限的計算能力,但現實中的學習系統,無論是人腦還是 GPU 集群,都在有限的計算預算下運作。當我們忽視這一點時,理論與實踐之間就會出現令人困惑的裂痕。
![]()
圖丨隨機信息與結構性信息示意圖(來源:arXiv)
研究團隊列舉了三個“信息論悖論”,用以說明現有理論框架的局限性。
第一個悖論涉及信息守恒:根據數據處理不等式(Data Processing Inequality),確定性變換不能增加信息量。然而 AlphaZero 僅從圍棋規則這一極其簡短的程序出發就學會了超越人類的策略,最終模型參數規模卻相當大。這些“額外的信息”從何而來?
第二個悖論關乎順序:香農信息論告訴我們,先觀察 X 再觀察 Y 與先 Y 后 X 得到的總信息量相同,即 H(Y|X)+H(X)=H(X|Y)+H(Y)。但大量實驗表明,大語言模型在正向閱讀英文時的壓縮效果明顯優于逆向閱讀,數據的呈現順序確實影響學習效果。
第三個悖論則觸及似然建模的本質:最大化似然被認為等同于匹配數據分布,因此模型不可能學到比數據生成過程更復雜的東西。但研究者們發現,在康威生命游戲這樣的系統中,計算受限的模型為了做出預測,必須學習識別“滑翔機”“振蕩器”等涌現結構,而這些概念在原始的局部演化規則中根本不存在。
為了調和這些矛盾,研究者們引入了“時間受限熵”(time-bounded entropy)和“上褶度”(epiplexity)兩個概念。其核心定義建立在最小描述長度原則(Minimum Description Length,MDL)之上。
給定一個隨機變量 X 和計算時間上界 T,他們首先找到在該時間約束下能最優壓縮數據的概率模型:
這里 P_T 表示所有能在時間 T 內完成采樣和概率計算的程序集合,|P|是程序 P 的比特長度,E[log 1/P(X)]則是用該模型編碼數據所需的期望比特數。找到這個最優模型后,上褶度和時間受限熵分別定義為:
(上褶度,即在給定計算預算下,為了把數據壓縮到最好,模型必須“內化”的結構性規律總量)
(時間受限熵,即用最優模型編碼數據的期望長度)
用更直白的話說:時間受限熵是“噪聲”,上褶度是“信號”,但這里的噪聲和信號是相對于特定計算能力而言的。一個密碼學安全的偽隨機數生成器(Cryptographically Secure Pseudo-Random Number Generator,CSPRNG)對于只有多項式時間計算預算的模型來說就是純噪聲,盡管它在數學上是完全確定的。
![]()
圖丨如何估計上褶度(來源:arXiv)
論文中證明,對于任何 CSPRNG 輸出,其時間受限熵接近最大值 n 比特,而上褶度則接近常數,這與我們的直覺完全吻合。
“信息取決于觀察者”這個想法在密碼學中其實早有根基。單向函數(正向計算容易、逆向計算難),正是現代密碼體系的基石。但將這一思想系統性地引入機器學習的理論框架,并給出可操作的度量方法,是這篇論文的貢獻所在。
研究者們提出了兩種估算上褶度的實用方法。第一種叫預序編碼(prequential coding),其核心思想可以用訓練損失曲線來理解:
這個公式的含義是:用模型在第 i 步的損失減去最終收斂后的損失,然后對所有訓練步驟求和。如果你畫出訓練損失曲線,這就是曲線與最終水平線之間的面積。損失下降得越多、持續得越久,面積就越大,意味著模型“吸收”了越多的結構性信息。
第二種方法叫請求編碼(requential coding),通過教師-學生蒸餾過程中的 KL 散度累積來給出更嚴格的上界,計算成本更高但理論上更可靠。
論文中的實驗涵蓋了從元胞自動機到國際象棋再到自然語言的多種數據類型。團隊首先用初等元胞自動機(Elementary Cellular Automaton,ECA)做了一組對比實驗,ECA 的規則一共有 256 種,研究者挑了三種代表性的來測試。
規則 15 產生簡單周期圖案,模型很快學會預測,上褶度很低;規則 30 產生混沌輸出,模型永遠無法做出有效預測,時間受限熵極高但上褶度幾乎為零;規則 54 則處于“復雜性邊緣”,產生部分可預測的涌現結構,上褶度隨計算預算增加而穩步上升。這也和此前耶魯大學團隊提出的“混沌邊緣智能”(Intelligence at the Edge of Chaos)的研究方向形成了呼應,最有價值的學習信號,或許恰恰藏在有序與混沌的交界地帶。
![]()
圖丨用元胞自動機創建的信息(來源:arXiv)
在國際象棋數據上,研究者們比較了兩種格式:先給出棋步序列再給出最終局面,與先給出局面再給出棋步。前者類似于“正向”計算,從走法推導局面是簡單的規則應用;后者則類似于“逆向”推理,從局面反推走法需要更復雜的理解。
實驗表明,后者雖然訓練損失更高,但上褶度也更高,而且在下游任務(如國際象棋謎題求解和局面評估)上表現更好。這說明更難學習的數據呈現方式可能反而能迫使模型習得更豐富的局面表征,這些表征更容易遷移到需要理解局面的 OOD(Out-of-Distribution Generalization,分布外泛化)任務上。
論文中可能最有現實啟發的一點,是它在同一算力條件下對比了不同數據模態的“可學結構”。在相同的計算預算下,OpenWebText 文本數據的上褶度顯著高于 Lichess 國際象棋數據,而后者又高于 CIFAR-5M 圖像數據。圖像數據的總信息量(按原始字節計)最大,但超過 99% 都是“時間受限熵”,即像素級的不可預測噪聲。
![]()
圖丨上褶度揭示了不同數據模態中的結構信息差異(來源:arXiv)
這或許解釋了一個長期困擾研究者的現象:為什么在文本上預訓練能帶來廣泛的能力遷移,而在圖像上預訓練卻不然?因為文本包含更多可學習的結構性信息,這些信息被編碼進模型權重后可以在新任務中復用。
論文還探討了“歸納”(induction)和“涌現”(emergence)兩類現象如何產生超出數據生成過程的上褶度。
關于歸納,研究者們援引了 Ilya Sutskever 的一個經典思想實驗:當你讀一本偵探小說,在某個時刻文本揭示了兇手的身份。如果模型能預測出這個名字,它就必須從前文的線索中推斷出答案。但小說作者并不需要做這種推理,她可能先決定誰是兇手,然后編織一個自圓其說的故事。因此,預測模型被迫學習的推理能力,可能根本不存在于數據的生成過程中。
![]()
圖丨通過上褶度研究歸納(來源:arXiv)
關于涌現,康威生命游戲提供了一個很好的說明。游戲規則可以用幾十個字節描述,一個計算能力無限的觀察者只需逐步執行規則就能完美預測。
但計算受限的觀察者無力進行這種暴力模擬,必須學習識別和追蹤涌現結構,比如滑翔機的運動軌跡、不同“物種”的碰撞規則等,才能做出有效預測。這種被迫習得的高層抽象,正是上褶度試圖捕捉的東西。
論文中的一個實驗顯示,當計算預算足夠大以至于模型可以“循環展開”(類似于思維鏈推理)來模擬游戲規則時,上褶度反而會驟降,因為此時簡單的暴力解法變得可行,復雜的涌現知識不再必要。
不過要注意的是,上褶度是一個理論上定義清晰、但實踐中只能近似估計的量。論文承認,由于只能在有限的超參數空間中搜索,估計值可能與真實值存在系統性偏差。此外,高上褶度并不保證在特定下游任務上表現更好,它度量的是結構性信息的總量,而非與特定任務的相關性。一個模型可能學到了大量結構,但這些結構未必對你關心的任務有用。
但總體而言,這篇論文代表了機器學習理論的一個轉向:從關注模型選擇轉向關注數據選擇。經典學習理論將訓練分布視為給定,優化目標放在模型架構和正則化上。但在預訓練時代,模型架構趨于同質化,數據質量和組成反而成為決定性因素。上褶度提供了一個不依賴于特定下游任務的數據價值度量,這對于合成數據生成、數據配比優化、課程學習等方向都有潛在的指導意義。
香農信息論誕生于通信時代,其核心關切是信息的表征和傳輸,計算過程被抽象掉了。但學習,無論是生物的還是人工的,本質上是計算過程。什么能被學到,取決于可用的計算資源。上褶度的提出,是朝著將計算約束納入信息論框架的一次認真嘗試。它未必是最終答案,但它提出了正確的問題。
參考資料:
1.https://arxiv.org/pdf/2601.03220
2.https://x.com/m_finzi/status/2008934727156453661
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.