梯度下降：距離神經(jīng)網(wǎng)絡(luò)模型中的隱式期望最大化

2026-02-15 21:38:40　來源: CreateAMind

上海舉報

分享至

Gradient Descent as Implicit EM in Distance-Based Neural Models

https://arxiv.org/pdf/2512.24780

摘要
使用標(biāo)準(zhǔn)目標(biāo)函數(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)展現(xiàn)出概率推理的特征行為：軟聚類、原型特化以及貝葉斯不確定性追蹤。這些現(xiàn)象普遍存在于各種架構(gòu)中——包括注意力機(jī)制、分類頭以及基于能量的模型——然而現(xiàn)有的解釋依賴于與混合模型的松散類比或事后架構(gòu)解讀。我們提供了一個直接的推導(dǎo)。對于任何具有基于距離或能量的對數(shù)求和指數(shù)（log-sum-exp）結(jié)構(gòu)的目標(biāo)函數(shù)，其關(guān)于每個距離的梯度恰好等于對應(yīng)分量的負(fù)后驗責(zé)任：?L/?dj = -rj。這是一個代數(shù)恒等式，而非近似。直接的結(jié)果是，在此類目標(biāo)函數(shù)上的梯度下降隱式地執(zhí)行了期望最大化——責(zé)任不是需要計算的輔助變量，而是要應(yīng)用的梯度。無需顯式的推理算法，因為推理已嵌入優(yōu)化之中。這一結(jié)果將三種學(xué)習(xí)機(jī)制統(tǒng)一于單一框架之下：無監(jiān)督混合建模（其中責(zé)任完全潛在）、注意力機(jī)制（其中責(zé)任以查詢?yōu)闂l件）以及交叉熵分類（其中監(jiān)督將責(zé)任鉗制到目標(biāo)）。最近在訓(xùn)練過的Transformer中觀察到的貝葉斯結(jié)構(gòu)并非涌現(xiàn)屬性，而是目標(biāo)函數(shù)幾何結(jié)構(gòu)的必然結(jié)果。優(yōu)化與推理是同一過程。

1 引言
使用標(biāo)準(zhǔn)目標(biāo)函數(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)反復(fù)展現(xiàn)出與概率推理相關(guān)的行為：軟聚類、原型特化、不確定性追蹤以及混合模型動力學(xué)。這些現(xiàn)象普遍存在于各種架構(gòu)中——注意力機(jī)制、分類頭以及基于能量的模型——然而它們的起源至今仍不清楚。它們是規(guī)模擴(kuò)大后的涌現(xiàn)屬性嗎？是架構(gòu)上的偶然？還是某種更根本的東西？本文認(rèn)為，這些行為都不是上述原因。它們是常見目標(biāo)函數(shù)幾何結(jié)構(gòu)的必然結(jié)果。

1.1 謎題

考慮那些在訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)中自發(fā)出現(xiàn)的現(xiàn)象范圍。Transformer中的注意力頭學(xué)會專業(yè)化，各自為不同的語義角色路由信息。分類網(wǎng)絡(luò)將表征空間劃分為若干區(qū)域，這些區(qū)域的行為類似于混合成分。在含噪數(shù)據(jù)上訓(xùn)練的深度網(wǎng)絡(luò)展現(xiàn)出類似貝葉斯推斷的穩(wěn)健性模式：對離群點降權(quán)，并在不同輸入間追蹤不確定性。這些行為在沒有顯式概率建模、沒有混合模型架構(gòu)、也沒有任何類似期望最大化（EM）算法的情況下涌現(xiàn)出來。

標(biāo)準(zhǔn)解釋令人難以滿意。一種觀點認(rèn)為這些是規(guī)模的涌現(xiàn)屬性——足夠多的參數(shù)和數(shù)據(jù)以某種方式產(chǎn)生了統(tǒng)計結(jié)構(gòu)。另一種觀點將其視為架構(gòu)巧合，是特定設(shè)計選擇（如softmax歸一化或殘差連接）的產(chǎn)物。第三種觀點提供松散的類比：注意力“類似于”軟聚類；交叉熵“近似于”混合模型。這些解釋均未回答更深層的問題：為何是這些特定行為出現(xiàn)，而非其他行為？又為何它們在如此不同的架構(gòu)和任務(wù)中如此可靠地出現(xiàn)？

1.2 近期證據(jù)

Aggarwal等人[2025a,b]的近期工作顯著深化了這一謎題。在受控實驗環(huán)境——“貝葉斯風(fēng)洞”（其中真實后驗可解析獲知）中，小型Transformer以低于1比特的精度復(fù)現(xiàn)了貝葉斯后驗。這并非近似的貝葉斯行為，而是與解析解在逐位置上精確、可驗證的一致。在相同條件下訓(xùn)練的容量匹配的MLP則完全失敗，表明該現(xiàn)象依賴于注意力的歸納偏置，而非僅靠優(yōu)化。

更引人注目的是Aggarwal等人在梯度動態(tài)中發(fā)現(xiàn)的現(xiàn)象：注意力權(quán)重在訓(xùn)練早期即趨于穩(wěn)定，而值向量則持續(xù)精煉——這種雙時間尺度結(jié)構(gòu)與經(jīng)典期望最大化中的E步和M步相呼應(yīng)。值向量接收的更新由注意力加權(quán)，恰如混合模型中原型接收由責(zé)任度加權(quán)的更新。作者提供了完整的一階分析，表明這一結(jié)構(gòu)并非偶然，而是系統(tǒng)性的。

然而，Aggarwal等人明確將這種EM聯(lián)系刻畫為“結(jié)構(gòu)性的而非變分的”——是一種類比，而非推導(dǎo)。他們觀察到注意力行為類似EM，但并未聲稱EM是目標(biāo)函數(shù)的必然結(jié)果。在他們的框架下，為何交叉熵訓(xùn)練會產(chǎn)生貝葉斯幾何這一問題仍未解決。

1.3 本文貢獻(xiàn)
本文填補(bǔ)了這一空白。我們證明，對于在距離或能量上具有l(wèi)og-sum-exp結(jié)構(gòu)的目標(biāo)函數(shù)，損失關(guān)于每個距離的梯度恰好等于對應(yīng)成分的后驗責(zé)任度。這并非近似，非相似，亦非類比。它是一個代數(shù)恒等式：

直接的結(jié)果是，在此類目標(biāo)函數(shù)上的梯度下降就是期望最大化（EM），不過是連續(xù)執(zhí)行，而非采用離散的交替步驟。前向傳播計算非歸一化的似然；歸一化產(chǎn)生責(zé)任；反向傳播則將責(zé)任加權(quán)后的更新量傳遞給參數(shù)。無需引入輔助的潛在變量，也無需調(diào)用任何推理算法。架構(gòu)并非在近似EM——它就在實現(xiàn)EM，因為梯度本身就是責(zé)任。

這重新定義了優(yōu)化與推理之間的關(guān)系。推理并非疊加在學(xué)習(xí)之上的獨立算法層，也不是對學(xué)習(xí)到的表征進(jìn)行的事后解釋。在我們所分析的目標(biāo)函數(shù)下，推理和優(yōu)化是同一計算過程在不同抽象層次上的體現(xiàn)。Aggarwal等人觀察到的貝葉斯結(jié)構(gòu)并非偶然出現(xiàn)的涌現(xiàn)屬性，而是由損失函數(shù)的幾何結(jié)構(gòu)所強(qiáng)制的。

1.4 貢獻(xiàn)

本文的貢獻(xiàn)刻意限定在較窄的范圍，可歸納為三個層次遞進(jìn)的論點。

一種解釋。這一恒等式表明，在基于距離的對數(shù)和指數(shù)目標(biāo)函數(shù)上進(jìn)行梯度下降，執(zhí)行的是隱式期望最大化。E步是前向傳播；M步是參數(shù)更新；責(zé)任從未被顯式計算，因為它們就是梯度。EM并非被神經(jīng)訓(xùn)練所近似——而是被神經(jīng)訓(xùn)練所實現(xiàn)。

一個統(tǒng)一框架。根據(jù)所施加約束條件的不同，同一種機(jī)制體現(xiàn)在三種學(xué)習(xí)模式中。在無監(jiān)督模式下，責(zé)任完全潛在，原型之間自由競爭。在條件模式——即注意力機(jī)制——下，責(zé)任基于共享的原型族，針對每個查詢重新計算。在約束模式——即交叉熵分類——下，監(jiān)督機(jī)制將其中一個責(zé)任鉗制到目標(biāo)值，而替代項之間的競爭仍然存在。這三種并非不同的現(xiàn)象，而是同一現(xiàn)象在不同邊界條件下的表現(xiàn)。

2 幾何基礎(chǔ)

本文的主要結(jié)論——即責(zé)任作為梯度涌現(xiàn)——建立在一個特定的幾何基礎(chǔ)之上。本節(jié)將確立這一基礎(chǔ)。我們首先借鑒先前工作的成果，總結(jié)將神經(jīng)網(wǎng)絡(luò)輸出解讀為距離或能量而非置信度的觀點。接著，我們定義適用于我們分析的那一類對數(shù)和指數(shù)目標(biāo)函數(shù)。最后，我們簡要回顧經(jīng)典期望最大化算法的結(jié)構(gòu)，并非因為我們的方法需要它，而是為了建立一個參照點，以便與隱式EM進(jìn)行對比。

2.1 基于距離的表示

神經(jīng)網(wǎng)絡(luò)輸出的標(biāo)準(zhǔn)解釋將其視為置信度或分?jǐn)?shù)，指示證據(jù)支持某一假設(shè)的強(qiáng)度。當(dāng)一個邏輯值（logit）很高時，表示網(wǎng)絡(luò)"相信"某個類別；當(dāng)一個注意力分?jǐn)?shù)很高時，表示一個查詢（query）與一個鍵（key）很"匹配"。這種解釋雖然直觀，但卻模糊了神經(jīng)網(wǎng)絡(luò)實際計算的幾何結(jié)構(gòu)。

這種解釋并非為了方便而強(qiáng)加的一種建模選擇。它是仿射變換與分段線性激活函數(shù)組合而成的數(shù)學(xué)屬性。線性層的權(quán)重定義了一個基；偏置定義了沿該基的偏移量；激活函數(shù)則衡量偏差。變化的并非計算本身，而是我們賦予計算的語義。在本文中，我們采用基于距離的解釋，并將神經(jīng)網(wǎng)絡(luò)的輸出互換地稱為能量或距離。后續(xù)的結(jié)果——特別是將梯度識別為責(zé)任（responsibilities）——依賴于這種幾何框架。

2.2 對數(shù)求和指數(shù)目標(biāo)函數(shù)

給定為輸入 x 計算的一組距離或能量 {d1, d2, ..., dK}，我們考慮如下形式的目標(biāo)函數(shù)：

這就是對數(shù)求和指數(shù)（LSE）目標(biāo)函數(shù)。它有一個自然的解釋：如果 exp(?dj) 表示組件 j 生成該輸入的未歸一化似然，那么 L 就是對數(shù)邊際似然——即某個組件生成該輸入的對數(shù)概率。最大化 L 會促使模型為每個輸入放置至少一個接近的原型。最小化 -L 則會鼓勵分離。

這些責(zé)任是非負(fù)的且總和為一。它們表示在組件間均勻先驗的假設(shè)下，組件 j j對該輸入負(fù)責(zé)的后驗概率。

2.3 經(jīng)典 EM 算法

期望最大化算法是擬合帶有潛在分配的混合模型的經(jīng)典算法。它通過兩個交替的步驟進(jìn)行。

在 E 步中，計算責(zé)任。給定當(dāng)前參數(shù)，每個數(shù)據(jù)點根據(jù)相對似然被軟分配至每個組件：

這些責(zé)任總和為一，并代表組件 j 生成該觀測值的后驗概率。

在 M 步中，參數(shù)被更新。每個組件的參數(shù)被調(diào)整，以更好地擬合分配給它的數(shù)據(jù)點，并由責(zé)任進(jìn)行加權(quán)：

對于高斯混合模型而言，這簡化為計算責(zé)任加權(quán)的均值和協(xié)方差。
其關(guān)鍵特性在于，每一個數(shù)據(jù)點都會影響每一個組件，但這種影響受到該組件對該數(shù)據(jù)點所承擔(dān)責(zé)任大小的控制。

經(jīng)典的 EM 算法是離散且交替進(jìn)行的：先計算所有責(zé)任，然后更新所有參數(shù)，接著重復(fù)此過程。E 步和 M 步是具有不同計算作用的獨立步驟。這種分離是算法層面的，并非本質(zhì)上的。

3 主要結(jié)果：責(zé)任即梯度

我們現(xiàn)在闡述并推導(dǎo)核心結(jié)果。推導(dǎo)過程是基礎(chǔ)的——僅需一次鏈?zhǔn)椒▌t的應(yīng)用——但其意義深遠(yuǎn)。我們證明，對于基于距離的對數(shù)求和指數(shù)（log-sum-exp）目標(biāo)函數(shù)，關(guān)于每個距離的梯度恰好就是對應(yīng)組件的負(fù)責(zé)任。這一恒等式無需任何近似，并且對任何計算距離并通過梯度下降優(yōu)化 LSE 目標(biāo)的模型都成立。導(dǎo)數(shù)計算本身是教科書級別的；本文的貢獻(xiàn)在于認(rèn)識到所得的量恰好就是后驗責(zé)任，并且這使得每一個梯度步驟都變成了一個責(zé)任加權(quán)的更新。

3.1 推導(dǎo)

3.2 這意味著什么

該定理有一個直接的解釋：責(zé)任并非必須被計算和存儲的量。它們是梯度。任何計算距離、應(yīng)用對數(shù)求和指數(shù)目標(biāo)函數(shù)并通過梯度下降更新參數(shù)的系統(tǒng)，都已經(jīng)在計算責(zé)任——不是作為一個中間步驟，而是作為學(xué)習(xí)信號本身。

注意，這個恒等式本身是純粹的代數(shù)結(jié)果——它對于任何對數(shù)求和指數(shù)目標(biāo)函數(shù)都成立，無論我們?nèi)绾谓忉屗婕暗母鱾€量。然而，EM（期望最大化）的解釋依賴于將理解為距離，并將理解為后驗責(zé)任。數(shù)學(xué)結(jié)構(gòu)強(qiáng)制了梯度的形式；語義則賦予了它意義。

其結(jié)果是，在 LSE 目標(biāo)函數(shù)上的梯度下降恰恰就是 EM 算法。它不是 EM 的近似。經(jīng)典 EM 中離散的交替過程——計算責(zé)任，然后更新參數(shù)，再重復(fù)——坍縮為連續(xù)的、并行的優(yōu)化。每一個梯度步驟都是責(zé)任加權(quán)的更新。每一個訓(xùn)練過的網(wǎng)絡(luò)一直都在執(zhí)行 EM 算法。

在本文中，"隱式 EM"指的是在對數(shù)求和指數(shù)目標(biāo)函數(shù)上進(jìn)行梯度下降時，責(zé)任加權(quán)的參數(shù)更新的出現(xiàn)——而非指坐標(biāo)上升式 EM 或關(guān)于收斂性的保證。

3.3 條件

該結(jié)果依賴于三個結(jié)構(gòu)條件。當(dāng)所有三個條件都滿足時，隱式EM動態(tài)是必然發(fā)生的——它們由數(shù)學(xué)原理強(qiáng)制決定。

當(dāng)這些條件成立時，不存在額外的設(shè)計選擇來啟用或禁用類似 EM 的行為。這是目標(biāo)函數(shù)幾何結(jié)構(gòu)的必然結(jié)果。任何計算距離、通過指數(shù)函數(shù)進(jìn)行歸一化并使用梯度進(jìn)行訓(xùn)練的網(wǎng)絡(luò)架構(gòu)，都會展現(xiàn)出隱式 EM。

4 隱式推理的三種機(jī)制

同樣的機(jī)制在不同的約束條件下有不同的表現(xiàn)形式：

4.1 無監(jiān)督機(jī)制：混合學(xué)習(xí)

在最純粹的情況下，對數(shù)求和指數(shù)目標(biāo)函數(shù)在沒有監(jiān)督的情況下運(yùn)行。模型計算從輸入到 K 個組件中每一個的距離 dj(x)，并通過訓(xùn)練來最小化：

這就是負(fù)對數(shù)邊際似然——經(jīng)典混合模型擬合中使用的目標(biāo)函數(shù)。所有組件競爭每一個輸入。沒有標(biāo)簽約束哪個組件應(yīng)該獲勝。

結(jié)果是自發(fā)的特化。即使采用隨機(jī)初始化，組件也會在訓(xùn)練過程中分化。每個原型都會漂移到輸入空間中它持續(xù)承擔(dān)高責(zé)任的區(qū)域，同時將其它區(qū)域讓給競爭對手。聚類的出現(xiàn)并非因為指定了該目標(biāo)，而是因為目標(biāo)函數(shù)的幾何結(jié)構(gòu)強(qiáng)制進(jìn)行了責(zé)任加權(quán)的更新。

這種機(jī)制與混合模型上的經(jīng)典EM算法完全對應(yīng)。其固定點——以及通向固定點的路徑——都受相同的責(zé)任所支配。

4.2 條件機(jī)制：注意力機(jī)制

注意力權(quán)重恰好滿足了責(zé)任的定義。它們是非負(fù)的，在所有鍵上總和為一，并代表了每個鍵在多大程度上“解釋”了該查詢。輸出是值的責(zé)任加權(quán)組合：

4.3 約束機(jī)制：交叉熵分類

交叉熵分類引入了監(jiān)督信息，但這并未使其脫離隱式 EM 的框架。它只是對其施加了約束。

錯誤類別之間的競爭保持不變。當(dāng)模型分類錯誤時，責(zé)任質(zhì)量分布在錯誤的答案中，每個錯誤答案都會接收到與其份額成正比的梯度信號。"錯得最離譜"的類別——即那些具有最高的類別——受到的懲罰最強(qiáng)烈。這不是均勻的排斥；而是責(zé)任加權(quán)的修正。

交叉熵并不會消除 EM 動態(tài)；它只是引導(dǎo)這些動態(tài)。M 步仍然根據(jù)各組件所承擔(dān)的責(zé)任比例對其進(jìn)行更新，但監(jiān)督信息會將該過程偏向一個預(yù)設(shè)的分配。這解釋了為什么交叉熵盡管形式簡單卻如此有效：它繼承了混合模型的軟競爭和自動加權(quán)特性，同時將這些動態(tài)導(dǎo)向一個有監(jiān)督的目標(biāo)。這個損失函數(shù)所起的作用，比其熟悉的形式所暗示的要更多。

4.4 分類體系

這三種機(jī)制——無監(jiān)督機(jī)制、條件機(jī)制和約束機(jī)制——在觀測對象和潛在變量上有所不同。但它們共享一個共同的結(jié)構(gòu)：對距離進(jìn)行指數(shù)化，然后在候選項之間進(jìn)行歸一化。正是這個結(jié)構(gòu)產(chǎn)生了責(zé)任，而責(zé)任又產(chǎn)生了隱式 EM。

關(guān)鍵因素是歸一化。當(dāng)輸出被歸一化時——無論是通過 softmax、通過對數(shù)求和指數(shù)配分函數(shù)，還是通過任何強(qiáng)制總和為一的約束操作——組件之間就會產(chǎn)生競爭。一個組件似然的增加，必然會降低其他組件的相對似然。這種競爭是分配產(chǎn)生的根源：每個輸入被概率性地分配給各個組件，而梯度也相應(yīng)地分布。

去除歸一化，這個結(jié)構(gòu)就會崩潰。考慮基于沒有配分函數(shù)的核（如高斯核）的目標(biāo)函數(shù)，例如最大相關(guān)熵：

在這里，每個組件獨立運(yùn)作。一個遠(yuǎn)離所有原型的點，會對所有原型產(chǎn)生微弱的梯度——不是因為責(zé)任被分配到了別處，而是因為沒有競爭存在來進(jìn)行分配。這里沒有隱式的 E 步，因為不存在責(zé)任。這種目標(biāo)函數(shù)增強(qiáng)了對異常值的魯棒性（遠(yuǎn)離所有原型的點被有效忽略），但完全失去了分配結(jié)構(gòu)。

這厘清了設(shè)計空間。指數(shù)化將距離轉(zhuǎn)化為似然；歸一化將似然轉(zhuǎn)化為責(zé)任。兩者兼?zhèn)鋾r，隱式 EM 就不可避免。僅有指數(shù)化，模型獲得了魯棒性，但放棄了推理。目標(biāo)函數(shù)的選擇，本質(zhì)上是在決定模型應(yīng)該進(jìn)行分配還是應(yīng)該忽略——而這種選擇是在損失函數(shù)層面做出的，而非網(wǎng)絡(luò)架構(gòu)層面。

5 與先前工作的關(guān)系

本文推導(dǎo)出的結(jié)果并非孤立存在。它依賴于先前的工作來奠定其幾何基礎(chǔ)，并且通過它所能解釋的近期實證發(fā)現(xiàn)而獲得重要性。本節(jié)將闡述本文的貢獻(xiàn)與三個方面工作的關(guān)聯(lián)：基于距離的神經(jīng)表示解釋、近期關(guān)于 Transformer 中貝葉斯結(jié)構(gòu)的證據(jù)，以及基于能量的學(xué)習(xí)和期望最大化方面的經(jīng)典成果。

5.1 關(guān)于基于距離表示的先前工作

在先前的工作 [Oursland, 2024] 中，我們奠定了本文所依賴的幾何解釋。該工作表明，標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)層——仿射變換后接 ReLU 或絕對值激活函數(shù)——計算出的量表現(xiàn)為與學(xué)習(xí)到的原型之間的距離。輸出是偏差，而非置信度；它們衡量的是輸入距離由權(quán)重定義的參考結(jié)構(gòu)有多遠(yuǎn)。這種解釋并非強(qiáng)加的，而是從所涉及操作的數(shù)學(xué)原理中推導(dǎo)出來的。

本文以此幾何基礎(chǔ)為前提，提出了一個不同的問題：當(dāng)基于距離的表示在標(biāo)準(zhǔn)目標(biāo)函數(shù)下被優(yōu)化時，會發(fā)生什么？我們先前的工作并未涉及學(xué)習(xí)動態(tài)。它描述了神經(jīng)網(wǎng)絡(luò)表示什么，而非它們?nèi)绾螌W(xué)習(xí)。本文的貢獻(xiàn)在于表明，對距離采用對數(shù)求和指數(shù)目標(biāo)函數(shù)會產(chǎn)生責(zé)任加權(quán)的梯度，而這會引發(fā)出隱式 EM。

這兩個結(jié)果是互補(bǔ)的，共同構(gòu)成了一幅完整的圖景。第一個結(jié)果指出：神經(jīng)網(wǎng)絡(luò)計算距離。第二個結(jié)果指出：用 LSE 目標(biāo)函數(shù)優(yōu)化距離就是在執(zhí)行推理。兩者互不包含。如果沒有距離的解釋，將梯度等同于責(zé)任只是一個形式上的趣聞。如果沒有梯度恒等式，距離的解釋描述的只是靜態(tài)的表示，無法說明它們是如何產(chǎn)生的。幾何基礎(chǔ)支撐了學(xué)習(xí)動態(tài)；學(xué)習(xí)動態(tài)則證明關(guān)注幾何基礎(chǔ)是合理的。

Aggarwal 等人 [2025b] 從靜態(tài)分析轉(zhuǎn)向動態(tài)分析，研究了交叉熵訓(xùn)練下注意力機(jī)制的梯度。他們推導(dǎo)出值向量接收的是責(zé)任加權(quán)的更新，并且注意力分?jǐn)?shù)會根據(jù)一種類似優(yōu)勢函數(shù)的規(guī)則進(jìn)行調(diào)整。他們觀察到一種雙時間尺度的結(jié)構(gòu)：注意力模式早期就穩(wěn)定下來，而值向量則持續(xù)細(xì)化——這鏡像了經(jīng)典 EM 算法中的 E 步和 M 步。該分析十分透徹，并且與 EM 的平行關(guān)系是明確的。

然而，作者們謹(jǐn)慎地將這種聯(lián)系描述為"結(jié)構(gòu)性的，而非變分性的"。他們觀察到注意力的行為類似于 EM，但并未斷言 EM 是目標(biāo)函數(shù)的必然結(jié)果。他們記錄了這種相似性，但未嘗試進(jìn)行推導(dǎo)。

本文提供了這一推導(dǎo)。在基于距離的神經(jīng)輸出解釋下，梯度恒等式 ?L/?dj = ?rj 并非結(jié)構(gòu)上的類比，而是一個代數(shù)事實。Aggarwal 等人觀察到的類 EM 動態(tài)并非恰好出現(xiàn)在Transformer 中的涌現(xiàn)屬性——它們是由損失函數(shù)的幾何結(jié)構(gòu)強(qiáng)制決定的。任何計算距離并優(yōu)化對數(shù)求和指數(shù)目標(biāo)函數(shù)的模型，無論其是否類似于 Transformer，都會展現(xiàn)出相同的動態(tài)。

這兩項貢獻(xiàn)之間的關(guān)系是觀察與解釋的關(guān)系。Aggarwal 等人以精確和嚴(yán)謹(jǐn)?shù)姆绞桨l(fā)現(xiàn)并記錄了該現(xiàn)象的實證證據(jù)。我們則提供了使該現(xiàn)象成為必然的理論機(jī)制。

5.3 其他聯(lián)系

LeCun 等人 [2006] 的基于能量的學(xué)習(xí)框架提供了重要的概念性支撐。該工作將學(xué)習(xí)重新定義為最小化能量函數(shù)，其中概率通過指數(shù)化和歸一化推導(dǎo)得出。本文分析的對數(shù)求和指數(shù)目標(biāo)函數(shù)是基于能量的模型中"自由能"公式的一個特例。我們的貢獻(xiàn)在于表明，這個自由能關(guān)于組件能量的梯度恰好就是后驗責(zé)任——這個聯(lián)系在該框架中隱含存在，但據(jù)我們所知，此前未被作為一個形式恒等式明確提出。

Dempster 等人 [1977] 提出了期望最大化算法，用于含隱變量的極大似然估計。他們將 E 步和 M 步定義為離散的、交替進(jìn)行的操作。本文表明，對于基于距離的目標(biāo)函數(shù)，這些步驟坍縮為梯度下降：前向傳播隱式計算責(zé)任，反向傳播則應(yīng)用這些責(zé)任。這并非與經(jīng)典公式相矛盾，而是揭示出它是更普遍現(xiàn)象的一個特例。EM 不僅僅是一個可以選擇應(yīng)用的算法；它是某些目標(biāo)函數(shù)幾何結(jié)構(gòu)在基于梯度的優(yōu)化下的一個屬性。

Vaswani 等人 [2017] 引入了以注意力為核心機(jī)制的 Transformer 架構(gòu)。最初的闡述強(qiáng)調(diào)注意力是一種軟檢索操作——查詢關(guān)注鍵以聚合值。隱式 EM 的視角將注意力重新定義為條件混合推理，其中注意力權(quán)重作為責(zé)任，值投影作為原型參數(shù)。這種解釋與最初的公式一致，但提供了架構(gòu)描述所缺乏的概率語義。

混合專家模型 [Jacobs 等人, 1991] 使用顯式的門控網(wǎng)絡(luò)將輸入路由到專門的子網(wǎng)絡(luò)。門控權(quán)重?fù)Q個名字就是責(zé)任。區(qū)別在于架構(gòu)：在混合專家模型中，門控是一個單獨的學(xué)習(xí)函數(shù)；而在標(biāo)準(zhǔn)注意力和分類中，責(zé)任是作為目標(biāo)函數(shù)的梯度出現(xiàn)的，無需專門的門控機(jī)制。隱式 EM 揭示了混合專家模型中的顯式門控并非必需——任何對數(shù)求和指數(shù)目標(biāo)函數(shù)都會自動產(chǎn)生責(zé)任加權(quán)的路由。

6 局限性與失效模式

隱式 EM 框架并非普遍適用。它在特定條件下成立，而當(dāng)這些條件不滿足時，該分析也隨之失效。本節(jié)將界定其邊界：隱式 EM 在何種情況下不會出現(xiàn)，即使出現(xiàn)時可能發(fā)生哪些病理現(xiàn)象，以及哪些現(xiàn)象完全超出其范圍。清晰地闡述局限性非但不會削弱，反而會加強(qiáng)本文的貢獻(xiàn)——它區(qū)分了精確的主張與過度的延伸。

6.1 隱式EM不出現(xiàn)的情況

在這種設(shè)置下，責(zé)任不存在。沒有一個量能在所有類別上總和為一；也沒有軟分配將輸入在不同候選項之間進(jìn)行分配。每個輸出通道孤立地運(yùn)作。一個點可能離所有原型同樣近，或者離所有原型同樣遠(yuǎn)，而梯度不會重新分配——它們僅僅反映獨立的誤差。

這不是架構(gòu)的失敗，而是缺少所需的目標(biāo)函數(shù)結(jié)構(gòu)。隱式 EM 源于競爭，而競爭源于歸一化。具有獨立輸出的系統(tǒng)可以學(xué)習(xí)到有用的表示，但它們不執(zhí)行混合推理，也不會展現(xiàn)出責(zé)任加權(quán)的動態(tài)。該框架的解釋范圍止于歸一化失效之處。

6.2 尺度與坍縮

完整的高斯混合模型在似然函數(shù)中包含一個對數(shù)行列式項——這是對每個組件協(xié)方差體積的懲罰。這一項防止了坍縮：沒有它，組件可以將其協(xié)方差收縮為零，在單個點上放置無限密度，從而獲得無界似然。當(dāng)協(xié)方差坍縮時，對數(shù)行列式會發(fā)散，從而平衡密度的增長。

大多數(shù)神經(jīng)網(wǎng)絡(luò)目標(biāo)函數(shù)省略了這一項。交叉熵和注意力 softmax 在距離或分?jǐn)?shù)上操作，沒有顯式的體積懲罰。隱式 EM 動態(tài)仍然成立——梯度仍然是責(zé)任加權(quán)的——但沒有什么能阻止學(xué)習(xí)到的度量發(fā)生退化。網(wǎng)絡(luò)可以學(xué)會將所有輸入映射到鄰近的點，從而坍縮距離結(jié)構(gòu)并使責(zé)任變得無意義。

在實踐中，坍縮通常通過隱式機(jī)制來避免：權(quán)重衰減正則化投影的尺度；層歸一化約束激活值的幅度；像殘差連接這樣的架構(gòu)選擇則保留了信號的多樣性。這些干預(yù)措施是有效的，但它們并非源自目標(biāo)函數(shù)——它們只是恰好穩(wěn)定了幾何結(jié)構(gòu)的啟發(fā)式方法。

隱式 EM 框架闡明了為什么坍縮是一種風(fēng)險。當(dāng)組件根據(jù)其責(zé)任比例進(jìn)行更新時，一個捕獲了稍多概率質(zhì)量的組件會接收到更強(qiáng)的梯度，進(jìn)而捕獲更多質(zhì)量，并可能完全主導(dǎo)。這種正反饋是 EM 動態(tài)固有的，在經(jīng)典模型中由體積項控制。神經(jīng)網(wǎng)絡(luò)移除了這種控制，并依賴其他機(jī)制來填補(bǔ)這一空白。該框架并未解決這個問題；它解釋了問題為何存在。

6.3 監(jiān)督約束

在無監(jiān)督機(jī)制下，責(zé)任完全是潛在的——僅由數(shù)據(jù)決定哪些組件擁有哪些輸入。監(jiān)督學(xué)習(xí)改變了這一點。標(biāo)簽聲明了哪個組件應(yīng)該承擔(dān)責(zé)任，覆蓋了幾何結(jié)構(gòu)原本可能決定的結(jié)果。

這種約束強(qiáng)大但僵化。交叉熵訓(xùn)練強(qiáng)制正確類別的責(zé)任趨近于 1，無論輸入是靠近該類別原型還是遠(yuǎn)離所有原型。一個與所有類別邊界等距的輸入仍然會得到一個硬標(biāo)簽；模型必須將其分配到某處。在錯誤類別之間，責(zé)任的軟性、分級結(jié)構(gòu)依然存在，但正確類別是被"夾住"的。

其后果之一是封閉世界的假設(shè)。Softmax 歸一化保證了責(zé)任之和為 1——某個類別必須為每個輸入承擔(dān)全部責(zé)任。沒有"以上皆非"的選項，模型無法將輸入視為所有已知類別之外的異類而予以拒絕。一個分布外的輸入，無論多么異常，都會被分配到距離最小的那個類別，并且模型的置信度可能任意高。

6.4 該框架無法解釋的內(nèi)容

隱式 EM 框架解釋了一種現(xiàn)象：基于距離的目標(biāo)函數(shù)中責(zé)任加權(quán)學(xué)習(xí)動態(tài)的出現(xiàn)。它并不能解釋神經(jīng)網(wǎng)絡(luò)所做的所有事情。

泛化能力——即網(wǎng)絡(luò)為何能在未見數(shù)據(jù)上表現(xiàn)良好——并未涉及。該框架描述了訓(xùn)練的動態(tài)過程，而非那些能夠?qū)崿F(xiàn)訓(xùn)練分布之外泛化的歸納偏置。規(guī)模法則——即模型大小、數(shù)據(jù)和性能之間可預(yù)測的關(guān)系——完全不在該分析的范圍內(nèi)。梯度恒等式本身并未說明性能應(yīng)如何隨參數(shù)或計算量擴(kuò)展。

長程推理、規(guī)劃以及序列決策涉及該框架未能捕獲的時間結(jié)構(gòu)。隱式EM描述了單個輸入如何被軟分配到各個組件，以及這些組件如何更新。它并未描述表征如何隨時間組合、目標(biāo)如何通過動作序列反向傳播，或者模型如何學(xué)習(xí)搜索。

涌現(xiàn)能力——即隨著規(guī)模擴(kuò)大而突然出現(xiàn)的性質(zhì)上的新行為——仍未得到解釋。該框架沒有說明為何某些能力會不連續(xù)地出現(xiàn)，或者為何它們需要特定的模型規(guī)模閾值。如果涌現(xiàn)能力源自隱式EM動態(tài)，其聯(lián)系并不明顯；如果它們源自其他機(jī)制，該框架則對此保持沉默。

這些并非分析的失敗，而是其范圍的邊界。本文的貢獻(xiàn)在于精確地識別并推導(dǎo)出一種機(jī)制，而非解釋整個深度學(xué)習(xí)。明確主張的范圍可以防止過度解讀——并為解釋隱式EM無法觸及的現(xiàn)象留下補(bǔ)充說明的空間。

7 討論

本節(jié)反思隱式EM框架統(tǒng)一了哪些內(nèi)容，它對我們理解神經(jīng)網(wǎng)絡(luò)的方式有何啟示，以及它為未來的工作留下了哪些待解決的問題。

7.1 統(tǒng)一性

該框架揭示出，高斯混合模型、注意力機(jī)制和交叉熵分類并非三種具有表面相似性的不同方法。它們是在不同約束條件下運(yùn)作的同一種機(jī)制。在GMM中，責(zé)任完全是潛在的。在注意力機(jī)制中，責(zé)任以查詢?yōu)闂l件，并為每個輸入重新計算。在交叉熵中，責(zé)任受到監(jiān)督信息的部分約束。其底層動態(tài)——指數(shù)化、歸一化、責(zé)任加權(quán)更新——是相同的。

這暗示了我們在解讀神經(jīng)網(wǎng)絡(luò)訓(xùn)練方式上的轉(zhuǎn)變。概率常被視為原始量：我們定義分布，推導(dǎo)似然，然后進(jìn)行優(yōu)化。隱式EM的視角則反轉(zhuǎn)了這一關(guān)系。距離是首要的。網(wǎng)絡(luò)計算幾何量——與所學(xué)結(jié)構(gòu)的偏差——而概率僅在指數(shù)化和歸一化之后才出現(xiàn)。幾何先于概率；推理是在幾何目標(biāo)上進(jìn)行優(yōu)化的結(jié)果。

在這種觀點下，損失函數(shù)并非為追求性能而任意選擇的。它們是幾何先驗。交叉熵編碼了一種假設(shè)，即輸入應(yīng)被完全地分配給離散類別。距離的對數(shù)和指數(shù)假設(shè)輸入源于潛在原因的混合。相關(guān)熵假設(shè)異常值應(yīng)被忽略。每個目標(biāo)函數(shù)都會引發(fā)不同的分配幾何結(jié)構(gòu)和不同的梯度流模式。選擇一個損失函數(shù)，就是選擇一種關(guān)于數(shù)據(jù)如何與結(jié)構(gòu)相關(guān)聯(lián)的理論——無論這種選擇是有意還是無意的。

7.2 意義

對于可解釋性而言，該框架提供了一條從訓(xùn)練動態(tài)到語義結(jié)構(gòu)的直接路徑。如果責(zé)任就是梯度，那么網(wǎng)絡(luò)所做的分配就不再是需要探測或事后分析的隱藏量。它們存在于反向傳播中，在每個訓(xùn)練步驟都被計算。"哪個組件對這個輸入負(fù)責(zé)？"這個問題在梯度本身中就有一個答案。這并不能解決可解釋性的全部問題——理解一個組件為何承擔(dān)責(zé)任需要進(jìn)一步分析——但它將分配結(jié)構(gòu)定位在一個已被計算出的量中，而非一個必須被提取出來的量。

對于目標(biāo)函數(shù)設(shè)計而言，該分析將對數(shù)和指數(shù)函數(shù)重新定義為一種結(jié)構(gòu)性要求，而非僅僅是數(shù)值上的便利。引入Softmax通常是為了避免溢出或產(chǎn)生性質(zhì)良好的梯度。隱式EM的視角揭示了一個更深層的作用：對數(shù)和指數(shù)函數(shù)引發(fā)了競爭，競爭產(chǎn)生了責(zé)任，而責(zé)任則使學(xué)習(xí)表現(xiàn)得像推理。如果需要類似推理的行為，LSE結(jié)構(gòu)就是必不可少的。如果不需要這種行為——如果更傾向于獨立的預(yù)測或魯棒的異常值處理——那么就應(yīng)該有意識地避免使用LSE。這個選擇無關(guān)數(shù)值穩(wěn)定性；它關(guān)乎目標(biāo)函數(shù)將產(chǎn)生何種類型的學(xué)習(xí)動態(tài)。

對于理論而言，該框架消解了一個長期存在的分野。優(yōu)化和推理傳統(tǒng)上是不同的：一個關(guān)注尋找最小化損失的參數(shù)，另一個關(guān)注計算潛在變量的后驗。隱式EM的結(jié)果表明，在正確的目標(biāo)函數(shù)下，這兩者是同一過程在不同層次上的觀察。當(dāng)梯度就是責(zé)任時，梯度下降就是推理。這并不是聲稱所有優(yōu)化都是推理，而是指對于一類明確界定的目標(biāo)函數(shù)，其間的區(qū)別消失了。前向傳播計算后驗；反向傳播應(yīng)用后驗。訓(xùn)練就是推理，在整個數(shù)據(jù)集上持續(xù)進(jìn)行。

7.3 開放方向

仍有幾個方向待探索。神經(jīng)目標(biāo)函數(shù)中缺乏體積控制——缺失的對數(shù)行列式——導(dǎo)致了目前由啟發(fā)式方法管理的坍縮風(fēng)險。一個原則性的方法要么從架構(gòu)選擇中推導(dǎo)出隱含的體積項，要么設(shè)計顯式包含這些項的目標(biāo)函數(shù)。理解歸一化層何時能夠替代體積控制，何時不能，這將把隱式EM框架與實際訓(xùn)練中的穩(wěn)定性問題聯(lián)系起來。

現(xiàn)實環(huán)境中的監(jiān)督很少是干凈的。標(biāo)簽可能帶有噪聲、是部分的或不確定的。約束機(jī)制的分析假設(shè)硬標(biāo)簽?zāi)芫_地固定責(zé)任；更全面的處理應(yīng)將軟性或概率性監(jiān)督建模為對責(zé)任結(jié)構(gòu)的部分約束。這可能將半監(jiān)督學(xué)習(xí)、標(biāo)簽平滑以及從眾包標(biāo)注中學(xué)習(xí)統(tǒng)一到隱式EM框架下。

開放集推理需要擺脫封閉世界的假設(shè)。當(dāng)前的目標(biāo)函數(shù)強(qiáng)制每個輸入都被分配；現(xiàn)實的部署需要提供拒絕的選項。支持非分配的目標(biāo)函數(shù)——一個顯式的"以上皆非"組件，或者一個低于其則沒有組件承擔(dān)責(zé)任的門檻——將把隱式EM擴(kuò)展到并非所有輸入都屬于已知類別的環(huán)境中。

最后，需要診斷工具。如果訓(xùn)練好的網(wǎng)絡(luò)執(zhí)行了隱式EM，那么這應(yīng)該是可以測量的：從梯度中提取責(zé)任，追蹤訓(xùn)練過程中的特化，檢測機(jī)制何時失效或退化。這樣的工具將把該框架從解釋性理論轉(zhuǎn)變?yōu)閷嵱霉ぞ?，使研究人員能夠驗證給定模型是否展現(xiàn)出理論預(yù)測的動態(tài)。

8 結(jié)論

其意義是直接的。在基于距離的對數(shù)求和指數(shù)目標(biāo)函數(shù)上進(jìn)行梯度下降，隱式地執(zhí)行了期望最大化算法。責(zé)任并非作為輔助量計算得到；它們就是梯度本身。前向傳播是 E 步；反向傳播是 M 步。不需要顯式的推理算法，因為推理已經(jīng)嵌入在優(yōu)化之中。

這種機(jī)制統(tǒng)一了以往被視為不同的現(xiàn)象。無監(jiān)督混合學(xué)習(xí)、Transformer 中的注意力機(jī)制以及交叉熵分類，是同一底層過程的三種表現(xiàn)形式——它們在觀測內(nèi)容和潛在變量上有所不同，但受相同的動態(tài)所支配。最近在訓(xùn)練好的 Transformer 中觀察到的貝葉斯結(jié)構(gòu)并非一個涌現(xiàn)的謎團(tuán)；它是用于訓(xùn)練它們的目標(biāo)函數(shù)的必然結(jié)果。

優(yōu)化和推理是同一過程在不同尺度上的觀察。

原文鏈接：https://arxiv.org/pdf/2512.24780

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.