網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

變分推理、自編碼器與擴散模型的頻率學(xué)派統(tǒng)計導(dǎo)論

2026-01-20 11:13:39　來源: CreateAMind

上海舉報

分享至

A Frequentist Statistical Introduction to Variational Inference,Autoencoders, and Diffusion Models

變分推理、自編碼器與擴散模型的頻率學(xué)派統(tǒng)計導(dǎo)論

https://www.arxiv.org/pdf/2510.18777

摘要：

盡管變分推斷（VI）是現(xiàn)代生成模型（如變分自編碼器（VAEs）和去噪擴散模型（DDMs））的核心，但其教學(xué)處理卻分散在不同的學(xué)科中。在統(tǒng)計學(xué)中，VI 通常被描述為一種貝葉斯方法，用于近似后驗分布。然而，在機器學(xué)習(xí)中，VAEs 和 DDMs 是從頻率學(xué)派的觀點開發(fā)的，其中 VI 被用于近似最大似然估計器。這為統(tǒng)計學(xué)家創(chuàng)造了一個障礙，因為如果沒有對應(yīng)的頻率學(xué)派對 VI 的介紹，VAEs 和 DDMs 背后的原理很難被理解。本文提供了這種介紹：我們從純粹的頻率學(xué)派視角解釋了 VI、VAEs 和 DDMs 的理論，從經(jīng)典的期望最大化（EM）算法開始。我們展示了 VI 如何作為一種可擴展的解決方案用于難以處理的 E 步驟，以及 VAEs 和 DDMs 如何成為這一框架的自然的、基于深度學(xué)習(xí)的擴展，從而彌合了經(jīng)典統(tǒng)計推斷與現(xiàn)代生成人工智能之間的差距。

1 引言
變分推斷（VI）是現(xiàn)代機器學(xué)習(xí)中一套強大的方法。然而，在統(tǒng)計學(xué)文獻中，VI 最常被介紹為貝葉斯框架下的方法，它作為一種不可或缺的工具，用于近似那些難以處理的后驗分布（Bishop 和 Nasrabadi，2006；Blei 等人，2017；Kejzlar 和 Hu，2024；Sj?lund，2023）。

矛盾的是，VI 最成功的兩個應(yīng)用——變分自編碼器（VAE）和去噪擴散模型（DDM）——通常是基于頻率學(xué)派的觀點構(gòu)建的。關(guān)于 VAE（Doersch，2016；Kingma 和 Welling，2019）和 DDM（Chan，2024；Luo，2022）的重要教程并沒有對模型參數(shù)設(shè)置先驗。相反，它們的目標是近似復(fù)雜生成模型的最大似然估計器（MLE）。這種方法論上的分歧造成了一個教學(xué)上的空白：盡管 VAE 和 DDM 在人工智能中居于核心地位，但它們在統(tǒng)計學(xué)界的采用速度較慢，部分原因是缺乏以一種對許多統(tǒng)計學(xué)家來說更自然的方式來介紹這些方法。

本文旨在填補這一關(guān)鍵空白。我們提供了一個完全基于頻率學(xué)派原則的關(guān)于 VI、VAE 和 DDM 的自足性介紹。通過展示這些技術(shù)本質(zhì)上是強大的優(yōu)化和函數(shù)近似算法（Chen 等人，2018；Ormerod 和 Wand，2010），且獨立于貝葉斯背景，我們希望使這些強大的生成模型對統(tǒng)計學(xué)界來說更加易于接近和直觀。

大綱。我們在第 2 節(jié)從頻率學(xué)派的潛變量模型基礎(chǔ)開始，并回顧期望最大化（EM）算法。我們專注于兩個關(guān)鍵變體——蒙特卡洛 EM（MCEM）算法和正則化 Q 函數(shù)——它們直接推動了向變分推斷（VI）的轉(zhuǎn)變。在此基礎(chǔ)上，第 3 節(jié)將 VI 介紹為一種用于近似 EM 算法中難以處理的 E 步驟的通用方法，將證據(jù)下界（ELBO）作為正則化 Q 函數(shù)的變分類比。接下來，在第 4 節(jié)，我們通過引入攤銷 VI 和變分自編碼器（VAE）來解決經(jīng)典 VI 的計算限制，這使得 VI 能夠應(yīng)用于大規(guī)模的深度學(xué)習(xí)模型。最后，第 5 節(jié)將去噪擴散模型（DDM）介紹為這一框架的深度、層次化擴展，由正向（變分）和反向（生成）過程組成。我們在技術(shù)討論的結(jié)尾推導(dǎo)了簡化的噪聲預(yù)測目標，這是 DDM 作為最先進的圖像生成器取得實際成功的關(guān)鍵。

2 潛變量模型

2.1 EM算法

因此，運行 EM 算法保證不會減少似然值，盡管它可能收斂到局部最大值，而不是全局最大值。

2.2 MCEM：蒙特卡洛

EM 當(dāng) E 步（方程 (1)）中的積分難以處理時，一個常見的解決方案是使用蒙特卡洛積分來近似 Q 函數(shù)。這種方法被稱為蒙特卡洛 EM（MCEM）算法（Wei 和 Tanner，1990）。

這個原理很簡單。我們知道，如果同時觀察到 X 和 Z，那么完整數(shù)據(jù)對數(shù)似然的最大化是可行的。因此，E 步的一個簡單的蒙特卡洛近似方法涉及生成一個單一的實現(xiàn)：

2.3 Q 函數(shù)的正則化形式

在 EM 算法中，Q 函數(shù)是整個過程的核心。雖然可以從缺失數(shù)據(jù)的角度來理解它，但另一種替代且強大的視角是將其框架為正則化的對數(shù)似然函數(shù)（Neal 和 Hinton，1998）。

2.4 示例：EM算法的局限性盡管EM算法在最大似然估計（MLE）沒有閉式解時是一種有效方法，但其適用性受限于E步的可處理性。在此，我們通過一個例子來說明這一局限性。

一般來說，這個分布不屬于任何標準分布族，這使得方程（1）中 Q 函數(shù)的解析計算變得難以處理。如果我們采用 MCEM 方法，從方程（7）中的復(fù)雜分布中采樣也是一個不簡單的問題。雖然馬爾可夫鏈蒙特卡洛（MCMC）方法可能對小的 d 和 k 有效，但當(dāng)這些維度很大時，它們會變得異常緩慢，這在像圖像生成這樣的高維環(huán)境中是很常見的。

3 變分近似

3.1 ELBO的梯度與重參數(shù)化技巧

變分推斷（VI）的優(yōu)化不同于標準的梯度上升，因為最優(yōu)的變分參數(shù) ω? 依賴于全局參數(shù) θ。這種耦合關(guān)系要求采用嵌套或交替優(yōu)化方案。

在此，我們總結(jié)了一種用于計算VI估計量的梯度上升過程，該過程可輕松修改為隨機梯度上升算法（Hoffman et al., 2013）。我們從初始值 θ??? 開始，然后迭代以下步驟直至收斂：

對于給定的 θ???，我們首先通過運行一個內(nèi)層梯度上升循環(huán)，為每個觀測值找到最優(yōu)的變分參數(shù)。對于每個 i = 1, ..., n，我們通過在 ω???? 處初始化（通常使用熱啟動，即 ω???? = ω?????1?）并進行迭代：

關(guān)于 θ 的梯度。我們現(xiàn)在提供計算梯度 ?θELBO(θ, ω? | X?) 的詳細信息。在ELBO定義（公式(8)）中的第二項，即熵，不依賴于 θ。因此，該梯度為：

該方法類似于MCEM如何近似Q函數(shù)的梯度。在變分推斷（VI）中，此蒙特卡洛平均用于數(shù)值近似ELBO的梯度。相較于MCEM，其關(guān)鍵優(yōu)勢在于我們從可處理的變分分布 qω? 中采樣，而非從難以處理的 pθ(z|X?) 中采樣，從而避免了主要的計算瓶頸。

關(guān)于 ω? 的梯度及重參數(shù)化技巧。我們現(xiàn)在考慮關(guān)于變分參數(shù) ω? 的梯度，這在公式(11)的更新步驟中至關(guān)重要。ELBO中的兩項均依賴于 ω?：

其中，H(qω?) = ?∫ qω?(z) log qω?(z) dz 是變分分布的熵。對于許多標準分布，熵項的梯度 ?ω? H(qω?) 可以解析計算。因此，主要的挑戰(zhàn)在于計算第一項的梯度。

為使該梯度可處理，我們必須選擇一個方便的變分族。一個常見且強大的選擇是高斯平均場族。具體而言，我們假設(shè) qω?(z) 服從一個具有對角協(xié)方差矩陣的多元高斯分布，即 N(α?, diag(β?2))，其中變分參數(shù)為 ω? = (α?, β?) ∈ ?? × ???。這里，α? 是均值向量，β? 是標準差向量。高斯平均場分布是一種坐標相互獨立的多元高斯分布。

這一選擇使得重參數(shù)化技巧得以應(yīng)用。一個隨機變量 Z ~ N(α?, diag(β?2)) 可以表示為其參數(shù)與一個標準正態(tài)隨機變量 ε ~ N(0, I?) 的確定性變換：

3.1.1 快速梯度上升的條件

上述推導(dǎo)突出了實現(xiàn)高效、基于梯度的變分推斷的兩個關(guān)鍵條件：

可微模型。完整數(shù)據(jù)對數(shù)似然函數(shù) ?(θ|x,z) = log pθ(x,z) 必須關(guān)于模型參數(shù) θ 和潛在變量 z 均可微。對于現(xiàn)代深度生成模型（例如，X|Z=z ~ N(μθ(z), Σθ(z))），這要求函數(shù) μθ(z) 和 Σθ(z) 可微。這一條件在神經(jīng)網(wǎng)絡(luò)中很容易滿足，因為這些梯度可通過現(xiàn)代自動微分框架中使用的反向傳播算法高效計算（Baydin 等, 2018; Rumelhart 等, 1986）。
可重參數(shù)化的變分族。變分分布 qω(z) 必須是可重參數(shù)化的。許多常見的連續(xù)分布都滿足此性質(zhì)，通常通過逆累積分布函數(shù)（CDF）法實現(xiàn)，即樣本可表示為 Z = Fω?1(U)，其中 U ~ Uniform[0,1]。這使得梯度 ?ω 能被有效處理。

4 攤銷變分推斷與變分自編碼器

前述VI框架存在兩個主要局限。首先，它需要優(yōu)化 n 個不同的變分參數(shù) (ω?, ..., ω?)，隨著樣本量 n 增大，計算成本變得高昂。其次，用邊際分布 qω?(z) 近似條件分布 pθ(z|X?) 在概念上顯得笨拙。

攤銷變分推斷（AVI；Gershman and Goodman 2014）通過用一個單一的條件推斷模型 qφ(z|x) 替代獨立的變分分布，解決了這兩個問題。在此，變分參數(shù) φ 在所有數(shù)據(jù)點間共享。這樣，無論樣本量大小，我們只需優(yōu)化一組參數(shù)。著名的變分自編碼器（VAE；Kingma and Welling 2014）是AVI的一個重要應(yīng)用，尤其適用于圖像數(shù)據(jù)。

在AVI中，變分分布 qφ(z|x) 可通過建模 ω = fφ(x)（其中 f 通常是一個神經(jīng)網(wǎng)絡(luò)模型）從非攤銷的變分分布 qω(z) 構(gòu)造而來。在此構(gòu)造下，qφ(z|x) = qω=fφ(x)(z)。第4.1節(jié)提供了此方法的一個示例。

在AVI下，ELBO的推導(dǎo)類似：

與非攤銷VI相比，當(dāng)樣本量 n 較大時，這大大降低了計算復(fù)雜度。方程(16)中對最大值點的搜索通常通過隨機梯度上升法完成。

4.1 示例：連接攤銷與非攤銷VI

現(xiàn)在我們考慮一個特例，即我們的攤銷變分分布 qφ(z|x) 是一個具有對角協(xié)方差矩陣的高斯分布：N(ηφ(x), diag(δ2φ,?(x), ..., δ2φ,?(x)))，其中 ηφ(x), δ2φ(x) ∈ ?? 是某些函數(shù)。這是實踐中常見的選擇，可視為第3.1節(jié)中高斯平均場族的攤銷版本。

回想一下，在非攤銷的高斯平均場方法中，每個觀測值 X? 的變分分布為 qω?(z) = N(α?, diag(β?2))，其中 ω? = (α?, β?) 是一個直接優(yōu)化的獨立參數(shù)向量。

在攤銷設(shè)定下，函數(shù) ηφ(x) 和 δφ(x)（例如，由 φ 參數(shù)化的神經(jīng)網(wǎng)絡(luò)）被訓(xùn)練用于預(yù)測任意給定輸入 x 的最優(yōu)均值和標準差。因此，其關(guān)聯(lián)可表示為：

這突顯了根本性差異：非攤銷VI直接優(yōu)化 n 個獨立的參數(shù)向量 (ω?, ..., ω?)，而AVI則優(yōu)化一個單一的全局參數(shù)向量 φ，該向量用于生成每個觀測值的局部參數(shù)。盡管AVI大幅降低了計算負擔(dān)并允許對新數(shù)據(jù)點進行推斷，但這種效率可能以犧牲近似精度為代價。由于攤銷函數(shù)表達能力有限而導(dǎo)致的ELBO潛在下降，被稱為“攤銷間隙”（Cremer 等, 2018; Margossian 和 Blei, 2023）。

4.2 攤銷ELBO的梯度

為計算公式(16)中的AVI估計量，我們可再次使用梯度上升或隨機梯度上升算法（Bottou, 2010; Robbins 和 Monro, 1951）。在AVI中，優(yōu)化過程比非攤銷情況要簡單得多，因為變分參數(shù) φ 在所有觀測值間共享。這消除了嵌套優(yōu)化循環(huán)的需要。

梯度上升是一個標準流程。從初始值 θ??? 和 φ??? 開始，參數(shù)在 t = 0, 1, ... 時更新直至收斂：

這些梯度的計算方式與非攤銷情況類似。關(guān)于模型參數(shù) θ 的梯度可通過蒙特卡洛平均進行估計，而關(guān)于變分參數(shù) φ 的梯度在選擇合適的變分族前提下，可利用重參數(shù)化技巧高效計算。我們在附錄 A 中提供了詳細的推導(dǎo)過程。

在現(xiàn)代應(yīng)用中（如 VAE），通常使用深度神經(jīng)網(wǎng)絡(luò)來指定生成模型 pθ(x|z)。例如，人們可能會建模

其中，均值函數(shù) μθ(z) 和協(xié)方差函數(shù) Σθ(z) 本身也由神經(jīng)網(wǎng)絡(luò)參數(shù)化。在此設(shè)定下，這些函數(shù)關(guān)于 θ 和 z 所需的梯度可通過現(xiàn)代自動微分框架中使用的反向傳播算法高效計算（Baydin 等, 2018; Rumelhart 等, 1986）。

因此，只要模型是可微的，且變分族是可重參數(shù)化的（即滿足第3.1.1節(jié)中的條件），攤銷變分推斷（AVI）估計量就可以通過梯度上升或隨機梯度上升高效地計算。

4.3 變分自編碼器（VAE）

在潛變量模型中，數(shù)據(jù)生成過程被建模為：首先抽取一個潛變量 Z ~ p(z)，然后抽取一個觀測值 X ~ pθ(x|z)。在VAE文獻中，條件分布 pθ(x|z) 的模型被稱為解碼器；它將潛表示 Z 解碼為觀測值 X。

當(dāng)我們應(yīng)用AVI時，我們引入一個條件分布 qφ(z|x)，作為對真實條件分布的可處理近似。該分布可被解釋為一個從觀測變量 X 推斷潛變量 Z 的模型。在VAE文獻中，此變分分布 qφ(z|x) 被稱為編碼器；它將觀測值 X 編碼為潛表示 Z。

然而，從統(tǒng)計學(xué)角度看，概念起點通常與深度學(xué)習(xí)文獻不同。VAE實踐者常常先設(shè)計編碼器的架構(gòu)，再構(gòu)建對應(yīng)的解碼器以建模反向的生成映射。下一節(jié)討論的去噪擴散模型就體現(xiàn)了這一方法，其教程通常從正向過程（定義變分分布）開始，再推導(dǎo)反向過程（生成模型）。這種建模哲學(xué)上的差異往往源于對生成效用與科學(xué)可解釋性關(guān)注點的不同；更多討論請參見第6.2節(jié)。

總結(jié)角色如下：

解碼器：解碼器 pθ(x|z) 是描述數(shù)據(jù)生成過程的模型。
編碼器：編碼器 qφ(z|x) 是變分分布，作為對真實但難以處理的 pθ(z|x) 的可處理、可計算近似。

必須認識到，解碼器 pθ(x|z) 和先驗 p(z) 足以完整定義聯(lián)合分布 pθ(x,z)，并根據(jù)貝葉斯定理確定真實條件分布 pθ(z|x)。然而，在高維情況下，對該模型進行精確推斷通常是不可行的。因此，為了計算可行性，我們引入一個獨立的、可處理的推斷模型——編碼器 qφ(z|x)——來近似真實 pθ(z|x)。

這意味著編碼器和解碼器在一般情況下是不兼容的。編碼器 qφ(z|x) 并非由解碼器和先驗推導(dǎo)出的真實條件分布。事實上，如果它們兼容（即，若 qφ(z|x) = pθ(z|x)），則變分推斷將是精確的，EM/MCEM算法也將適用。盡管存在這種不兼容性，編碼器-解碼器配對仍創(chuàng)建了一種計算上可行的方案，用于通過可處理的AVI估計量來近似難以處理的最大似然估計量。

5 去噪擴散模型（DDM）

去噪擴散模型（DDM），也稱為變分擴散模型，是一類強大的生成模型，尤其適用于圖像合成（Ho 等, 2020; Sohl-Dickstein 等, 2015）。DDM 可以被理解為 VAE/AVI 框架的一個特例。在此，我們使用統(tǒng)計潛變量模型的語言來闡述 DDM。簡言之，DDM 是一種通過攤銷變分近似進行訓(xùn)練的深層潛變量模型。圖1 提供了直觀的總結(jié)。

5.1 一個深層潛變量模型

傳統(tǒng)的潛變量模型是“淺層”的，僅由單個潛向量 Z 生成觀測值 X。DDM 通過引入形成馬爾可夫鏈的一系列潛變量，深化了這一結(jié)構(gòu)。為簡化起見，我們假設(shè)所有變量（包括觀測變量和潛變量）維度相同，即 X, Z ∈ ??。

傳統(tǒng)的“淺層”生成過程由一個有向無環(huán)圖（DAG）表示：

如第2.4節(jié)所示，即使對于該模型的單一層（T=1），EM算法也會失效。當(dāng)層數(shù)為T時，問題會顯著加劇。為解決這一不可處理性，我們再次轉(zhuǎn)向變分近似，特別是第4節(jié)中介紹的AVI方法。

5.2 變分近似

為了將AVI方法應(yīng)用于深層潛變量模型，我們首先推導(dǎo)相應(yīng)的ELBO：

由于變分模型是一個高斯自回歸過程，項（B）和（C）可以解析計算。項（A）則需要蒙特卡洛近似，但由于公式（24）所具有的單次采樣（one-shot sampling）性質(zhì)，這一近似可以高效實現(xiàn)。接下來我們推導(dǎo)（B）和（C）的解析形式。

5.3 DDM的ELBO梯度

由于DDM是AVI/VAE框架的一個特例，其梯度計算遵循第4.2節(jié)和附錄A中概述的相同原則。需要注意的是，在標準DDM實現(xiàn)（Ho等, 2020）中，變分參數(shù) φ?, ..., φ? 并不進行學(xué)習(xí)，而是作為固定超參數(shù)預(yù)先定義。這使得優(yōu)化僅針對生成模型參數(shù)；更多討論見第5.5節(jié)。然而，若有必要，變分參數(shù) φ?, ..., φ? 也是可學(xué)習(xí)的。根據(jù)構(gòu)造，DDM的前向過程是一個高斯自回歸模型，因此重參數(shù)化技巧可直接用于計算關(guān)于變分參數(shù) φ 的梯度。

關(guān)于生成模型參數(shù) θ 的精煉ELBO梯度，對于每個參數(shù) θ? 是可分離的：

將數(shù)據(jù)生成過程視為一個“去噪”過程。公式(27)中梯度的形式提供了一個關(guān)鍵洞見：參數(shù) θ? 的學(xué)習(xí)信號來源于 pθ(y???|y?) 的得分函數(shù)。該任務(wù)本質(zhì)上是要求模型在給定一個更嘈雜的狀態(tài) ?? 時，預(yù)測出一個更干凈的狀態(tài) ????。因此，生成（逆向）模型 pθ 學(xué)會逐步對一系列潛變量進行去噪，從純噪聲 Y? 開始，最終得到一張干凈的圖像 Y?。

5.4 前向與逆向過程

上述描述的變分框架將DDM視為一種特定類型的VAE。解碼器是我們的數(shù)據(jù)生成模型 pθ，它描述了如何從純噪聲變量 Y? = Z 生成觀測值 Y?。編碼器是我們的變分分布 qφ，它是一個高斯自回歸模型。在DDM文獻中，這兩個組件被稱為前向過程和逆向過程。

編碼器 qφ 將觀測值 Y? 映射到最終的潛噪聲變量 Y?，被稱為前向過程。它是一個高斯自回歸模型，通過依次向觀測值添加高斯噪聲（如公式(23)所示），其行為類似于擴散過程。

解碼器 pθ 則以相反方向運行。它從純噪聲 Y? 開始，依次移除噪聲以恢復(fù)原始觀測值 Y?。這被稱為逆向過程，在功能上是一個去噪過程。這兩個組件的結(jié)合賦予了“去噪擴散模型”其名稱。

許多關(guān)于DDM的教程先介紹前向過程，再推導(dǎo)逆向過程（Ho等, 2020; Luo, 2022），因為這與實現(xiàn)方式一致——計算機將首先執(zhí)行前向過程，然后利用逆向過程來擬合參數(shù) θ。這與統(tǒng)計建模的傳統(tǒng)形成對比，后者通常從數(shù)據(jù)生成模型（即逆向過程）開始，再構(gòu)建變分近似（即前向過程）作為可處理推斷的工具。

總結(jié)對應(yīng)的術(shù)語：

解碼器 = 逆向過程 = 數(shù)據(jù)生成模型：一個具有馬爾可夫鏈結(jié)構(gòu)的深層潛變量模型，學(xué)會逐步將變量從純噪聲去噪為觀測值。
編碼器 = 前向過程 = 變分分布：一個具有相似馬爾可夫結(jié)構(gòu)的高斯自回歸模型，逐步向觀測值添加噪聲。

5.5 實際實現(xiàn)與簡化目標

完整的ELBO為DDM提供了理論基礎(chǔ)，但在實踐中，從業(yè)者已采用若干關(guān)鍵設(shè)定，以獲得更穩(wěn)定、更高效的目標函數(shù)，從而支持大規(guī)模訓(xùn)練。

固定變分參數(shù)與協(xié)方差矩陣模型。在實踐中，DDM的訓(xùn)練過程通過若干關(guān)鍵設(shè)定變得更加高效。首先，變分分布（即前向過程）的參數(shù)并非從數(shù)據(jù)中學(xué)習(xí)，而是被固定為預(yù)定義的超參數(shù)，統(tǒng)稱為“方差調(diào)度表”（variance schedule）（Ho等, 2020）。此外，逆向（數(shù)據(jù)生成）過程中的協(xié)方差矩陣也被假定為固定且對角的，通常表示為 Σθ?(y?) = σ?2I_d。方差 σ?2 是已知常數(shù)，通常與前向過程的方差調(diào)度表相關(guān)聯(lián)。此設(shè)定具有兩大主要優(yōu)勢：第一，它消除了學(xué)習(xí)任何方差參數(shù)的需求；第二，它將ELBO中與 θ 相關(guān)的部分簡化為一個加權(quán)最小二乘目標。如公式(26)所示，ELBO關(guān)于均值函數(shù) μθ? 的梯度變?yōu)椋?/p>

5.5.1 噪聲預(yù)測形式Ho 等人（2020）的關(guān)鍵洞見在于，該目標函數(shù)可以被重新表述為一個噪聲預(yù)測任務(wù)。公式（30）的核心準則是如下期望（為簡化起見，將梯度算子 ?θ 移出）：

6 結(jié)論

變分推斷（VI）、變分自編碼器（VAEs）和擴散模型（DDMs）在潛變量建模與似然近似方面共享一個共同的基礎(chǔ)。從經(jīng)典的EM算法出發(fā)，我們看到VI是通過用可處理的變分族 qω?(z) 替代難以處理的條件分布 p(z|x=X?; θ???) 而自然衍生出的一種松弛方法。攤銷VI進一步通過學(xué)習(xí)條件映射 qφ(z|x) 簡化了計算，從而實現(xiàn)大規(guī)模估計，并構(gòu)成了VAEs的核心框架。最后，DDM將此框架擴展為一個具有馬爾可夫鏈結(jié)構(gòu)的深層潛變量模型，提供了一種最強大的現(xiàn)代生成建模工具。

6.1 變分推斷：頻率學(xué)派還是貝葉斯學(xué)派？

盡管VI常被作為貝葉斯方法引入（Blei等, 2017; Doersch, 2016; Kingma & Welling, 2014），但它本身并非固有的貝葉斯方法。在我們的分析中，VI完全是從頻率學(xué)派視角發(fā)展而來的：我們并未對感興趣的參數(shù)θ施加任何先驗。相反，VI純粹作為一種計算工具，用于在似然函數(shù)難以處理時近似最大似然估計量。

話雖如此，如果推斷的主要目標是潛變量Z而非模型參數(shù)θ2，則VI也可置于貝葉斯語境下理解。在這種情況下，分布p(z)扮演先驗的角色，而難以處理的條件分布p(z|x;θ)則代表后驗分布。變分分布qω(z)或qφ(z|x)隨后便為該后驗提供了可處理的近似。

最終，VI最好被理解為一種通用的計算框架，用于近似難以處理的條件分布p(z|x;θ)。它同樣適用于頻率學(xué)派設(shè)定（如潛空間模型），也適用于貝葉斯問題（如對潛變量的后驗推斷）。無論從哪個視角出發(fā)，VI都通過相同的底層優(yōu)化原則，統(tǒng)一了計算可處理性與概率近似。

6.2 潛變量建模：生成效用 vs 科學(xué)可解釋性

潛變量在深度生成模型（VAEs、DDMs）中的作用與它們在傳統(tǒng)統(tǒng)計學(xué)中的作用顯著不同——這體現(xiàn)了“生成效用”與“科學(xué)可解釋性”之間的區(qū)分。

在VAEs和DDMs中，潛變量主要作為一種工具，用于構(gòu)建靈活且高容量的模型，以近似復(fù)雜的數(shù)據(jù)分布（例如自然圖像）。其主要目標是生成性能——即產(chǎn)生逼真的數(shù)據(jù)——而計算可處理性是關(guān)鍵約束。因此，單個潛變量維度的可解釋性通常是次要的，模型架構(gòu)可以自由修改以提升效果。DDM中允許噪聲預(yù)測公式的模型設(shè)定（第5.5節(jié)）正突顯了這一原則。

相反，在因子分析等經(jīng)典潛變量方法中，主要目標是科學(xué)解釋（Anderson, 2003; Harman, 1976）。潛變量被假定代表基于領(lǐng)域知識的有意義、潛在的構(gòu)造。其含義至關(guān)重要，對模型潛結(jié)構(gòu)的任何更改都需要強有力的理論或統(tǒng)計依據(jù)。因此，盡管程序上存在相似之處，這兩種范式由不同的哲學(xué)所引導(dǎo)：一種由預(yù)測能力驅(qū)動，另一種由解釋性洞察驅(qū)動。

原文鏈接：https://www.arxiv.org/pdf/2510.18777

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.