Transformer注意力的貝葉斯幾何(貝葉斯注意力三部曲 Paper I)
The Bayesian Geometry of Transformer Attention
https://arxiv.org/pdf/2512.22471
![]()
ransformer 模型在上下文中常常表現出類似貝葉斯推理的行為,但要嚴格驗證這一點一直不可能:自然數據缺乏解析形式的后驗分布,而大型模型又將推理與記憶混雜在一起。我們通過構建“貝葉斯風洞”(Bayesian wind tunnels)來解決這一問題——即受控環境中真實后驗分布具有閉式解,且記憶被證明是不可能的。在這些設定下,小型 Transformer 能以 10?3–10?? 比特的精度復現貝葉斯后驗分布,而容量匹配的多層感知機(MLP)則誤差高出數個數量級,從而確立了明確的架構差異。
在兩個任務中——雙射消除(bijection elimination)和隱馬爾可夫模型(HMM)狀態追蹤——我們發現,Transformer 通過一種一致的幾何機制實現貝葉斯推理:殘差流(residual streams)充當信念的載體,前饋網絡(feed-forward networks)執行后驗更新,而注意力機制則提供基于內容的路由功能。幾何診斷揭示出正交的鍵(key)基底、逐步對齊的查詢–鍵(query–key)關系,以及一個由后驗熵參數化的低維值(value)流形。在訓練過程中,該流形逐漸展開,而注意力模式保持穩定——這種“框架–精度解耦”(frame–precision dissociation)正是近期梯度分析所預測的現象。
綜上所述,這些結果表明:層級化注意力機制通過幾何設計實現了貝葉斯推理,既解釋了注意力機制的必要性,也說明了扁平架構(如 MLP)為何失敗。“貝葉斯風洞”為從機制上將小型、可驗證系統與大型語言模型中觀察到的推理現象聯系起來奠定了基礎。
1 引言
Transformer 是否真正執行貝葉斯推理,還是僅僅通過模式匹配來模仿它?自然語言缺乏可用于驗證預測的真值后驗分布,而現代大語言模型(LLM)又過于龐大且與其訓練數據高度糾纏,無法將真實的概率計算與記憶區分開來。即使模型表現出貝葉斯行為,我們也無法直接確認其內部計算是否符合貝葉斯規則。
我們的方法:我們用“貝葉斯風洞”替代無法驗證的自然數據——即一類受控的預測任務,其中:(1) 每一步的解析后驗分布都精確已知;(2) 假設空間極其龐大,使得記憶成為不可能;(3) 上下文中的預測必須依賴真正的概率推理。
這將一個定性問題(“它是否執行貝葉斯推理?”)轉化為一個定量檢驗:模型的預測熵是否在每個位置上都與解析后驗熵相匹配?
兩類風洞:我們研究了兩個難度遞增的設定:? 雙射學習(Bijection learning):一個具有閉式后驗的離散假設消除問題。? 隱馬爾可夫模型(HMMs):一個需要遞歸更新的序列化隨機推理問題。
在這兩類任務中,Transformer 均達到了機器級的貝葉斯一致性,而采用相同容量、相同訓練方式的 MLP 則在兩類任務中均遭遇災難性失敗。
機制性發現。在不同任務中,Transformer 通過一個統一的三組件架構實現貝葉斯推理:(1) 殘差流作為信念狀態:后驗信息逐層累積;(2) 前饋網絡(FFN)作為貝葉斯更新:FFN 執行后驗分布的數值計算;(3) 注意力機制作為路由:查詢–鍵(QK)幾何結構為每次更新檢索信念中相關組成部分。
幾何診斷揭示出正交的鍵(key)軸、逐步對齊的查詢–鍵關系,以及一個在訓練過程中展開的一維值(value)流形。這些觀察結果與近期基于梯度的 Transformer 學習分析所做出的預測相吻合。
貢獻。本文首次提供了實證證據,證明 Transformer 能夠實現精確的貝葉斯后驗分布;識別出實現這一能力的幾何機制;并引入“貝葉斯風洞”作為一種工具,用于在小型、可驗證的環境中探查算法推理過程。
關于“貝葉斯推理”的澄清。我們并非聲稱網絡權重上存在貝葉斯后驗;我們所展示的是,所學習到的預測器實現了對任務潛在變量的貝葉斯后驗預測——即在 HMM 中對隱狀態的濾波后驗,或在雙射任務中對可能映射的消除后驗。這是一種關于 Transformer 所計算的輸入–輸出函數的陳述,而非關于權重空間不確定性的陳述。
2 理論框架:交叉熵與貝葉斯推理
在上下文預測任務中,交叉熵訓練具有一個眾所周知的總體最優解:即貝葉斯后驗預測分布。本節對該聯系進行形式化描述。該理論確立了在無限數據、無限容量極限下,所學習函數應當是什么;而實證部分則評估哪些架構能在有限設置下逼近它。
2.1 設定
考慮一組由潛參數 θ ~ π(θ) 索引的任務。對于每個任務:
![]()
2.2 交叉熵最小化收斂于貝葉斯后驗預測分布
定理 1(交叉熵的總體最優解):式 (1) 的最小化器是貝葉斯后驗預測分布。
![]()
![]()
2.3 在雙射風洞中的應用
在雙射任務中,每個 是一個雙射 : {1, . . . , } → {1, . . . , }。一個訓練序列揭示了 ?1 個輸入—輸出對。令 O??? 為已觀測到的輸出集合。由于每個輸入在每條序列中至多出現一次,當前查詢 ? 之前從未出現過,因此貝葉斯規則簡化為:
![]()
這種閉式后驗分布允許直接逐位置比較模型熵與貝葉斯熵;由于假設空間大小 V! 極其龐大,記憶是不可能的。
2.4 在 HMM 風洞中的應用
![]()
由于每條訓練序列都是由新采樣的 (, ) 生成的,假設空間極其龐大,因此記憶是不可能的。模型必須學會:(i) 解析編碼了 和 的頭部信息,以及 (ii) 實現遞歸的貝葉斯更新。
2.5 對模型評估的啟示
上述理論結果引出一個實用的診斷方法:若一個模型在每個位置上都達到了正確的后驗熵,則該模型在功能上是貝葉斯的——它所產生的預測具有與精確后驗相同的不確定性分布。結合交叉熵訓練目標(其唯一的總體最小化器即為貝葉斯后驗預測分布),低熵校準誤差為模型執行了貝葉斯計算提供了有力證據。
![]()
3 實驗設計
我們通過將小型 Transformer 置于兩個受控的“貝葉斯風洞”中,來評估其是否能夠實現精確的貝葉斯推理。在這些環境中,記憶是不可能的,且解析形式的后驗分布具有閉式解。兩項任務——雙射學習(bijection learning)和隱馬爾可夫模型(HMM)狀態追蹤——分別考察了不同類型的推理結構:雙射任務要求進行離散假設消除;HMM 任務則要求遞歸地整合隨機狀態轉移與觀測似然。
![]()
我們使用平均絕對熵誤差(Mean Absolute Entropy Error, MAE)來衡量這一匹配程度:
![]()
其中,L 是監督預測位置的數量。由于每個訓練實例都使用一個新的雙射或一個新的 HMM,記憶化是不可行的;模型必須執行真正的上下文內推理。
3.1 任務1:雙射學習
每個序列都源自一個新的隨機雙射 π: {1, …, V} → {1, …, V},其中 V = 20。在位置 k 處,模型已觀察到 k?1 個不同的輸入-輸出對,并且必須預測 π(x?)。由于輸入從不重復,π(x?) 的貝葉斯最優后驗分布在其 V?k+1 個未見值上是均勻分布的。
![]()
3.2 任務2:隱馬爾可夫模型狀態追蹤
第二個風洞探測了一種定性上不同的推理結構:遞歸信念更新。每個序列都源自一個新的 HMM,該 HMM 具有 S = 5 個隱藏狀態和 V = 5 個觀測符號。轉移行和發射行均獨立地從一個對稱的狄利克雷分布中抽取,所有濃度參數均等于 1(即,Dirichlet(1, 1, 1, 1, 1)),以確保動態多樣且非退化。
序列格式。每個序列包含:
- 一個由10個標記組成的頭信息(header),用于編碼扁平化的 T 和 E,以及
- K 個觀測—預測對,每一對包含:
- 觀測到的符號 o?,
- 在同一位置對 p(s? | o?:?) 的監督預測。
貝葉斯真實值:前向算法。對于每個 HMM 及每個時間點 t,我們計算
![]()
評估長度。模型在具有 K = 20 個預測位置的序列上進行訓練,并在以下條件下進行評估:
- K = 20(驗證:在訓練范圍內),
- K = 30(1.5 倍訓練長度),
- K = 50(2.5 倍訓練長度)。
這用于測試模型是否學習到了一種與位置無關的遞歸算法,或者僅僅是記住了有限范圍內的計算。
為何記憶化不可行。每個序列均使用新的 T、E 矩陣以及新的隨機發射軌跡。即使在粗略離散化的情況下,可能的 HMM 空間也超過 10??,從而確保所學行為不能依賴于對任何特定 HMM 的回憶。
3.3 架構
Transformer。我們使用小型但現實的 Transformer 堆棧:
- 雙射 Transformer(2.67M 參數):6 層,6 個頭,d_model = 192,d_ffn = 768。
- HMM Transformer(2.68M 參數):9 層,8 個頭,d_model = 256,d_ffn = 1024。
兩者均使用學習到的詞元嵌入、學習到的絕對位置嵌入、預歸一化殘差塊和標準多頭自注意力機制。
容量匹配的 MLP 基線。為了隔離注意力的作用,我們訓練具有以下配置的 MLP:
- 18–20 層,
- 寬度 384–400,
- 殘差連接和層歸一化,
- 與 Transformer 相同的嵌入層和訓練協議。
參數數量在 1% 范圍內與 Transformer 匹配。這些 MLP 作為對照組,用于檢驗分層注意力對該任務是否必不可少。
3.4 訓練協議
對于每個任務,不同架構的訓練過程完全相同。
優化。使用 AdamW 優化器,其中 β? = 0.9,β? = 0.999,權重衰減為 0.01,梯度裁剪閾值為 1.0。
學習率。
- 雙射任務:恒定學習率為 10?3。
- HMM 任務:3 × 10??,配合 1000 步預熱和余弦衰減。
數據采樣。每個批次均抽取新的雙射或新的 HMM;序列從不重復。
教師強制。在每個監督預測位置應用交叉熵損失。
消融穩定性。按層和按頭的消融結果報告為三個隨機種子的平均值;HMM 長度泛化結果也跨多個種子進行評估,以確保魯棒性。
4 結果:Transformer 跟蹤貝葉斯后驗
我們通過兩個行為測試評估 Transformer 是否位于解析貝葉斯流形上:(1) 逐點校準——模型熵 H_model(t) 在每個位置是否與貝葉斯熵 H_Bayes(t) 匹配?(2) 泛化能力——所學計算能否擴展到未見過的雙射、未見過的 HMM 和更長的序列?
我們并行呈現雙射和 HMM 的結果,隨后是 MLP 對照組和多種子魯棒性分析。
4.1 雙射風洞:精確假設消除
一個參數量為 2.67M 的 Transformer 以接近機器精度收斂至解析后驗分布。圖1 展示了預測熵。
![]()
![]()
按序列的證據。聚合校準可能掩蓋平均化帶來的偽影。圖2 繪制了八條獨立的熵軌跡。每條軌跡均顯示特征性的階梯狀模式:每當一個新的輸入-輸出對消除了假設時,熵會離散地下降;當輸入重復且映射已知時,熵會坍縮至接近零。該模型執行的是逐步貝葉斯消除,逐序列重現曲線序列,而非僅僅在期望值上匹配。
![]()
模型內部一致性。按層消融(圖3)表明,移除任意一層都會使誤差增加一個數量級以上,證實了其深層組合式計算特性。按頭消融(圖4)識別出一個位于第0層的“假設框架”注意力頭,其移除具有獨特破壞性,這與第5節中的幾何分析一致。
![]()
4.2 HMM 風洞:遞歸貝葉斯狀態追蹤
這個參數量為 2.68M 的 Transformer 同樣學會了用于 HMM 推理的前向算法。
在訓練范圍內(K=20)。當 ≤ 20 時,模型熵追蹤精確的前向遞歸熵,其值為
![]()
這兩條曲線在視覺上幾乎無法區分(圖5)。
![]()
超出訓練范圍(K=30,K=50)。為了測試算法的泛化能力,我們將模型推演至1.5倍和2.5倍的訓練長度。Transformer 仍顯著接近解析后驗分布:
![]()
誤差隨 t 平滑增加,在 t = 20(訓練邊界)處無間斷。這是模型學習了一種與位置無關的遞歸算法、而非僅記憶有限范圍計算的有力證據。
逐位置校準。圖6 顯示了絕對誤差 |H_model(t) ? H_Bayes(t)|。出現三種模式: (1) 早期位置略帶噪聲(初始狀態不確定); (2) 序列中段位置在所有長度下均達到接近零的誤差; (3) 后期位置隨序列長度平滑退化,與累積數值漂移一致。
![]()
逐序列動態。圖7 展示了模型追蹤序列特異性波動的情況:當發射信號能強有力地識別狀態時熵下降,當觀測模糊時熵上升。Transformer 精確捕捉了這些動態。
隱藏狀態重標記下的語義不變性。隱藏狀態索引純粹是符號性的:對標簽進行置換對應于相同的潛在過程。我們采樣一個 {1, …, S} 的隨機置換 σ,并通過置換 T 的行和列(即,T′σ(i),σ(j) = Ti,j)以及置換 E 的行(即,E′σ(i),o = Ei,o)將其應用于 HMM 參數。然后我們基于 (T′, E′) 重新計算解析后驗,并在由置換后的 HMM 生成的序列上評估模型。如果模型實現的是貝葉斯濾波而非將意義與特定狀態 ID 關聯,則其熵校準應保持不變,最多只受數值噪聲影響。圖8 顯示了置換前后的平均絕對誤差(MAE),結果落在對角線上,ΔMAE 集中在零附近。
![]()
4.3 長度泛化需要后期層注意力
為了識別哪些組件支持穩定的推演,我們訓練了一個變體 Transformer,其中頂層兩層的注意力被禁用,但前饋網絡(FFNs)和殘差連接保持完整。
無后期注意力的模型在訓練范圍內擬合得尚可(1.57 × 10?3 比特),但在推演時失效:
![]()
退化因子從 21 倍(在 K = 20 時)增長至 62 倍(在 K = 50 時),表明后期層注意力對于擬合 K = 20 并非必需,但對于穩定的長時域貝葉斯更新至關重要(圖9)。
![]()
4.4 MLP 對照組:注意力機制的架構必要性
在相同條件下訓練的容量匹配 MLP,在兩個風洞測試中均失敗。
雙射任務。MLP 達到的平均絕對誤差(MAE)約為 1.85 比特——比 Transformer 差約 618 倍——且在 100k 到 150k 步之間未見任何改進。其熵曲線幾乎保持平坦,表明它僅學習了輸出的邊緣分布。
HMM 任務。MLP 在所有長度下均達到約 0.40 比特的平均絕對誤差(表1),未顯示出任何遞歸計算的跡象。平坦的逐位置誤差分布(圖10)表明其退化為一種位置平均近似,而非信念追蹤。
![]()
![]()
這些失敗不能歸因于優化、數據或容量問題。它們反映出缺乏內容尋址路由和殘差組合性——而這兩者正是注意力機制所提供的關鍵幾何要素。
4.5 多種子一致性
為確保貝葉斯追蹤并非初始化或優化噪聲造成的偽影,我們在五個獨立的隨機種子上重復了所有 HMM 實驗。所有種子在 K = 20、K = 30 和 K = 50 時的逐位置誤差曲線(圖11)幾乎完全重疊。
![]()
![]()
種子間的差異相比 Transformer 與 MLP 性能之間的差距可忽略不計,這證實所學習的貝葉斯算法對初始化和訓練噪聲具有魯棒性。
5 機制:Transformer 如何實現貝葉斯推斷
第4節的行為結果表明,小型 Transformer 能夠在兩個不同的風洞任務中以低于1比特的精度追蹤解析貝葉斯后驗分布。我們現在考察這一計算在內部是如何實現的。來自消融實驗、QK 幾何結構、探測動態和訓練軌跡的證據揭示了一種一致的架構機制:Transformer 通過構建一個表征框架,在該框架內執行序列式假設消除,并逐層逐步精煉后驗精度,從而實現貝葉斯推斷。
5.1 第0層構建假設框架
計算始于一項結構性操作:第0層的注意力機制構建了所有后續推斷發生所依賴的假設空間。該層的鍵(Keys)在輸入標記上形成近似正交的基底(圖14),為后驗概率質量的表示與操作提供了一個坐標系。
![]()
按頭消融實驗確認了這一步驟的不可或缺性。一個單一的第0層“假設框架頭”主導了該層的貢獻(圖4),僅移除該頭便嚴重破壞校準效果。此處“假設框架頭”指其鍵(Keys)在假設標記上張成近似正交基底、其值(Values)在殘差流中實例化對應每個假設槽位的注意力頭。其他任何注意力頭均未表現出類似的敏感性。這揭示了一個結構性瓶頸:構建假設框架是后續所有貝葉斯計算的前提條件。
一旦建立,該框架在整個訓練過程中保持穩定。第0層的注意力圖譜在不同檢查點之間變化極小,即使值流形和校準性能已顯著提升。因此,模型在早期即學習了推斷問題的幾何結構,并隨后在此固定框架內精煉數值精度。
5.2 跨深度的序列式貝葉斯消除
在假設框架建立之后,中間層逐層執行一個與貝葉斯消除相仿的過程。
QK 逐步銳化。隨著網絡深度增加,查詢(Queries)越來越強地對齊于與觀測證據一致的鍵(Keys)子集(圖15)。早期層注意力分布較廣;深層則幾乎完全將注意力集中在可行假設上。這種幾何聚焦過程與解析貝葉斯條件化平行:不一致的假設權重逐漸趨近于零。
層級組合性。按層消融實驗(圖3)表明,移除任意單一層(包括注意力與前饋網絡,按實際實現方式)會使校準誤差增加一個數量級以上。這表明該計算并非淺層或冗余的:每一層都提供一個獨特且不可互換的精煉步驟,共同構成貝葉斯更新的序列式、組合式實現。
綜上,這些觀察表明,Transformer 并非通過單一變換實現貝葉斯消除,而是通過在第0層框架內逐層進行投影與精煉的深度序列來完成。
5.3 注意力作為內容尋址路由
在所有深度上,注意力機制扮演著一致的幾何角色:它檢索與下一次更新相關的信念狀態組件。
三個觀察支持這一路由解釋:
- 正交鍵(圖14)為假設的內容尋址查找提供了基礎。
- 跨深度的 QK 對齊銳化(圖15)將殘差流中的信息導向可行假設子空間。
- 在后期精煉階段保持穩定的路由(圖16 和 17)表明,一旦框架正確建立,即使校準性能持續提升,注意力圖譜也幾乎不再變化。
![]()
路由對于維持穩定的遞歸推斷同樣至關重要。在 HMM 任務中,僅禁用頂層兩層的注意力時,模型在訓練范圍內的表現基本完好,但長時域推斷會崩潰(圖9)。因此,注意力既對構建初始假設框架是必需的,也對在擴展推演過程中維持穩定的信念更新是必需的。
5.4 值空間流形與精度精煉
在路由穩定之后,最終層精煉后驗表示的精度。圖16 和 17 顯示:
- 在中間檢查點,低熵狀態的值表示已近乎坍縮,無法可靠地編碼剩余小假設集之間的區別。
- 到最終檢查點時,這些狀態沿一條由后驗熵參數化的平滑一維流形分布。
這種幾何展開使后驗置信度得以細粒度編碼,并解釋了后期位置校準性能的提升。重要的是,這種精煉發生在注意力圖譜幾乎不變的情況下,從而產生清晰的“框架—精度分離”:注意力定義信息流向何處,而下游變換則精煉信念被編碼的精確程度。
![]()
5.5 綜合:一種三階段架構機制
在兩個風洞任務中,證據均匯聚于一個三階段機制(圖18):
![]()
(1) 基礎綁定(第0層)。構建一個正交假設框架。(鍵幾何結構;災難性的第0層頭消融實驗。)
(2) 漸進式消除(中間層)。通過逐步銳化 QK 對齊,依次抑制不一致的假設。(按層組合性;幾何聚焦。)
(3) 精度精煉(后期層)。在保持路由固定的條件下,在平滑的值流形上編碼后驗熵。(值流形展開;框架—精度分離。)
該結構映射了貝葉斯條件化的解析分解:定義假設空間,依據證據更新信念,并隨著不確定性降低而精煉置信度。
5.6 與梯度動力學預測的關系
這些經驗觀察結果與近期關于梯度動力學分析所作的預測相吻合,即一旦正確的路由結構形成,注意力分數趨于穩定,而值和殘差表示則持續精煉精度。所觀察到的注意力圖譜穩定性,連同值流形的展開,為這種路由與精度的“差異性收斂”提供了直接證據。
6 分析與討論
風洞實驗表明,小型 Transformer 在僅使用標準優化方法、且未進行任何架構修改的情況下,能夠以驚人的保真度實現貝葉斯推斷。在本節中,我們將討論這些結果對可解釋性、架構必要性以及受控風洞實驗與大型語言模型行為之間關聯的更廣泛意義。
6.1 為何分層注意力實現貝葉斯推斷
在雙射和 HMM 設置中,第5節所揭示的內部幾何結構展現出一種一致的計算模式。Transformer 通過一系列堆疊的幾何操作實現貝葉斯條件化:
(1) 基礎綁定(第0層)。正交鍵構建一個假設框架。移除第0層“假設框架頭”所帶來的災難性影響(圖4)表明,該框架在結構上是不可或缺的。
(2) 漸進式消除(中間層)。QK 對齊隨深度增加而銳化(圖15),這與解析貝葉斯更新中對被排除假設的乘法抑制相呼應。按層消融實驗(圖3)表明,每一層都貢獻一個不可互換的精煉步驟。
(3) 精度精煉(后期層)。一旦路由穩定,值表示會展開為一個由后驗熵參數化的低維流形(圖16),尤其在后期位置顯著提升校準效果(圖17)。這種“框架—精度分離”反映了勞動分工:注意力確定信息流向何處,而后續變換則精煉信念的數值精度。
這一層級結構與貝葉斯法則平行:定義假設空間、整合證據、并精煉后驗分布。Transformer 利用注意力幾何和殘差流表示來實現這些步驟。
6.2 深度作為組合性必要條件
消融研究得出的一個核心結論是:深度并非冗余。在兩個風洞任務中,移除任意單一層都會使校準誤差增加一個數量級以上(圖3)。這表明貝葉斯推理表現為一系列組合式投影,每一層以無法壓縮為單一變換的方式精煉信念狀態。
這與寬而淺的架構形成鮮明對比:即使參數量相當且訓練方式相同,MLP 也無法執行假設消除或狀態追蹤(第4.4節)。貝葉斯推斷需要分層精煉,而 Transformer 通過深度和殘差組合提供了適當的歸納偏置。
6.3 從風洞實驗到自然語言
盡管風洞實驗是刻意簡化的,但它們捕捉了概率推斷的核心結構:隨時間整合證據以更新潛在信念。大型語言模型在更為復雜的環境中運行,其潛在空間維度更高,且證據具有模糊性、多模態特性。然而,此處觀察到的幾何要素——正交假設軸、逐層精煉和穩定路由——屬于結構性特征,而非任務特定特征。
因此,這些結果表明,大型語言模型(LLMs)所表現出的概率行為,可能不僅源于規模或數據豐富度,也源于架構幾何結構。風洞實驗提供了一個可驗證的下界:它們證明當后驗分布已知時,Transformer 確實能夠精確實現貝葉斯推斷。
6.4 架構必要性與 MLP 的失敗
容量匹配的 MLP 對照組澄清了哪些架構組件是必需的。即使參數量相似、數據暴露相同,MLP 在兩個風洞任務中均災難性地失敗,熵誤差高達約 0.4 比特(表1)。這些失敗并非源于優化困難:任務簡單、梯度表現良好、訓練過程平穩收斂。
相反,這一差距反映了以下要素的缺失:
- 假設的內容尋址檢索,
- 通過深度實現的組合式精煉,
- 支持長時域推斷的穩定路由結構。
Transformer 成功的原因在于注意力機制提供了 MLP 所缺乏的幾何機制——正交基底、選擇性路由和漸進聚焦。因此,匹配容量的 MLP 的失敗清晰地證明,在所測試的架構中,注意力對于上下文中的貝葉斯結構學習是必不可少的。
6.5 大型語言模型推理能力的一個下界
風洞實驗為 Transformer 中的機制化推理建立了一個有原則的基準。如果一個模型在后驗分布封閉且無法記憶的設定下都無法實現貝葉斯推斷,則它在自然語言中具備真實推斷能力的證據就十分有限。反之,小型、可驗證的 Transformer 在此成功——并展現出可解釋的幾何機制——這暗示類似結構可能支撐著大型模型中的推理能力。
這提供了一個具體的研究方向:在前沿大型語言模型中尋找相同的幾何特征。本文使用的診斷工具——鍵的正交性、QK 銳化、值流形結構以及路由穩定性——為分析預訓練語言模型提供了可檢驗的預測。
7 相關工作
7.1 深度學習的貝葉斯解釋
長期以來,大量研究從貝葉斯視角解釋神經網絡,從對預測不確定性的經典分析 [10, 12],到后驗推斷的變分或隨機近似方法 [3, 7]。近期一些論文指出,在大數據極限下,最小化交叉熵隱式地以貝葉斯后驗預測為目標 [15, 16]。這些結果關注的是在總體(population)層面上訓練應當產生什么。我們的貢獻是互補的:我們構建了一個受控環境,其中真實后驗分布已知、記憶化不可行,并且可以直接檢驗一個有限規模的 Transformer 是否確實實現了這一貝葉斯計算。
7.2 上下文內學習與算法泛化
已有研究表明,Transformer 能在上下文中執行算法任務,包括算術運算 [6]、合成歸納 [5] 以及更一般的模式外推 [2, 13]。從行為上看,這些模型常表現出類似貝葉斯學習者的特性,這一觀察已被近期的解釋性理論形式化 [15, 16]。然而,以往工作無法區分真正的貝葉斯計算與習得的啟發式策略或記憶化的模板,因為自然語言任務中真實后驗分布是未知的。我們的風洞方法解決了這一識別問題:通過構建具有解析閉式后驗且假設空間組合爆炸的任務,我們得以直接對模型預測與貝葉斯規則進行逐點比較。這將討論從相關性推進到了機制層面。
7.3 機制可解釋性與注意力幾何
對 Transformer 的機制研究已揭示出專門用于歸納、復制和檢索的注意力頭 [4, 11]。其他工作則考察了 QKV 空間、電路分解,以及訓練過程中出現的稀疏結構 [13]。這些研究為模型行為提供了定性及電路層面的洞察。
我們的貢獻在于,在后驗已知的設定下,將這些幾何結構直接關聯到貝葉斯推斷。我們表明:鍵(keys)形成近似正交的假設軸;查詢(queries)隨網絡深度逐步聚焦于可行假設;值(values)表示則展開為一維的熵流形。這以嚴格的方式將機制可解釋性與概率計算聯系起來:實現貝葉斯推理所需的內部幾何結構變得直接可見。
7.4 架構比較
其他序列模型——狀態空間架構 [8, 9]、卷積變體 [14] 和深度 MLP——在自然文本上的困惑度(perplexity)常與 Transformer 相當。但困惑度混淆了建模能力與推理能力。我們的結果提供了一種更精細的檢驗:在嚴格的非記憶化約束下,某架構是否能復現解析貝葉斯后驗。容量匹配的 MLP 對照組明確表明,至少相對于扁平的前饋架構,基于注意力的路由對于上下文中的貝葉斯結構學習是必不可少的。
7.5 訓練動力學
最后,同期工作分析了訓練過程中生成這些結構的梯度動力學 [1]。他們表明,注意力與值的更新遵循耦合規律,從而產生一個穩定的路由框架和一個逐步精煉的值流形。我們的實證發現與此圖景一致:注意力早期即趨于穩定,而值向量則持續以更高分辨率編碼后驗分布。綜合來看,這些視角將優化軌跡與實現貝葉斯推斷的幾何結構聯系了起來。
8 局限性與未來工作
我們的實驗有意保持小規模:使用具有解析后驗分布的受控貝葉斯風洞、較小的詞匯量,以及參數量為200萬至300萬的小型Transformer。正是這種設定使得機制驗證成為可能,但同時也自然地抽象掉了自然語言推理的全部復雜性。因此,仍存在若干局限性,而這些局限性直接指向未來的拓展方向。
推理任務的規模與豐富性。雙射和隱馬爾可夫模型(HMM)捕捉了貝葉斯計算的核心要素——離散假設消除與遞歸狀態追蹤——但它們僅代表大型語言模型所面對的推理問題中一個狹窄的切片。未來的風洞實驗可納入更豐富的潛在變量結構,包括卡爾曼濾波、分層貝葉斯模型或因果圖模型,這些模型均具有閉式后驗分布,從而允許精確驗證。
假設空間的維度。盡管兩個任務中的假設空間已足夠大以防止記憶化,但其表征維度仍然有限(例如,HMM 中僅有5個隱藏狀態)。在具有高維潛在變量的更大系統中測試我們觀察到的幾何機制——正交假設軸、逐層Q–K銳化、值流形精煉——是否能隨維度平滑擴展,將是一個重要方向。
與大規模預訓練模型的聯系。我們提出的幾何診斷工具(鍵的正交性、注意力得分梯度結構、值流形)可作為對前沿大語言模型(LLMs)的可檢驗預測。在自然文本上訓練的大模型中是否也會出現類似的貝葉斯流形,仍是一個開放問題。下一步自然的做法是將這些工具直接應用于預訓練Transformer的各層,這或許能揭示近似貝葉斯結構在更復雜場景中如何顯現。
架構的普適性。本實驗使用的是標準Transformer。尚不清楚其他架構——如狀態空間模型、帶有更復雜門控機制的深度MLP,或混合循環-注意力系統——是否也能形成類似的貝葉斯流形。風洞評估可提供一個基于推理保真度(而非僅困惑度)的原理性基準,用于架構間的系統比較。
訓練動力學與相變。一個顯著的實證現象是“框架—精度解耦”:注意力圖譜早期即趨于穩定,而值流形則持續展開并精煉后驗精度。對這些階段進行系統研究——框架何時形成、精度提升的速度、以及這些動態如何依賴于網絡深度、寬度和數據復雜性——有望推動形成關于Transformer中表征形成的更一般理論。
邁向自然語言風洞。最終,我們的目標是理解此處所展示的精確貝葉斯推理如何與自然語言任務中觀察到的近似推理相關聯。風洞實驗提供了一個下界:它確立了當問題定義良好時,Transformer 能夠實現貝葉斯更新。下一個挑戰是設計嵌入于自然語言數據中的受控任務,在引入現實世界模糊性的同時,仍保留可解析的結構。
9 結論
我們提出了貝葉斯風洞——一種具有解析后驗分布和組合爆炸式假設空間的受控實驗環境——用于檢驗 Transformer 是否真正實現了貝葉斯推斷,而不僅僅是對其行為的模仿。在兩類根本不同的推理問題上——離散雙射的假設消除與隱馬爾可夫模型(HMM)中的序列狀態追蹤——小型 Transformer 均以低于1比特的校準誤差收斂至精確的貝葉斯后驗,即便在遠超訓練長度的序列上亦是如此。容量匹配的 MLP 在兩種設定下均災難性失敗,表明這種能力源于注意力機制的幾何結構,而非模型規模或優化技巧。
幾何診斷提供了統一解釋:鍵(keys)在假設空間上形成近似正交基底;查詢(queries)隨深度逐步對齊于該基底中的可行區域;值(values)則沿一條由后驗熵參數化的低維流形組織起來。訓練過程塑造了這一流形:注意力模式早期即趨于穩定,而值表示則持續精煉后驗精度——這種“框架—精度解耦”現象與同期關于梯度動力學的理論預測一致。這些機制共同實現了貝葉斯條件化的核心組成部分:綁定(binding)、消除(elimination)與精煉(refinement),并以跨深度的一系列結構化線性變換形式表達出來。
風洞設定雖有意簡化,卻確立了一個清晰的下界:如果一個模型在后驗已知且無法記憶的環境中都無法實現貝葉斯推斷,那么它在自然語言中也不可能做到。反之,我們的結果表明,當任務允許驗證時,Transformer 的幾何結構足以實現精確的貝葉斯推斷。這為研究更大模型中的近似推理提供了原理性基礎,并提出了具體、可檢驗的預測——正交假設軸、逐層Q–K銳化、值流形結構——可用于分析預訓練的大語言模型(LLMs)。
Transformer 在此成功,是因為其架構提供了恰當的歸納偏置,而非依賴規模:殘差流承載不斷演化的信念狀態,注意力機制選擇性地路由信息,前饋層則執行局部貝葉斯更新。這些組件共同在模型的表征空間中刻畫出一個貝葉斯流形。理解這一流形如何形成、如何隨規模擴展、以及在真實語言環境中如何退化,仍是未來工作的重要方向。
原文:https://arxiv.org/pdf/2512.22471
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.