A Frequentist Statistical Introduction to Variational Inference,Autoencoders, and Diffusion Models
變分推理、自編碼器與擴散模型的頻率學(xué)派統(tǒng)計導(dǎo)論
https://www.arxiv.org/pdf/2510.18777
![]()
![]()
摘 要:
盡管變分推斷(VI)是現(xiàn)代生成模型(如變分自編碼器(VAEs)和去噪擴散模型(DDMs))的核心,但其教學(xué)處理卻分散在不同的學(xué)科中。在統(tǒng)計學(xué)中,VI 通常被描述為一種貝葉斯方法,用于近似后驗分布。然而,在機器學(xué)習(xí)中,VAEs 和 DDMs 是從頻率學(xué)派的觀點開發(fā)的,其中 VI 被用于近似最大似然估計器。這為統(tǒng)計學(xué)家創(chuàng)造了一個障礙,因為如果沒有對應(yīng)的頻率學(xué)派對 VI 的介紹,VAEs 和 DDMs 背后的原理很難被理解。本文提供了這種介紹:我們從純粹的頻率學(xué)派視角解釋了 VI、VAEs 和 DDMs 的理論,從經(jīng)典的期望最大化(EM)算法開始。我們展示了 VI 如何作為一種可擴展的解決方案用于難以處理的 E 步驟,以及 VAEs 和 DDMs 如何成為這一框架的自然的、基于深度學(xué)習(xí)的擴展,從而彌合了經(jīng)典統(tǒng)計推斷與現(xiàn)代生成人工智能之間的差距。
1 引 言
變分推斷(VI)是現(xiàn)代機器學(xué)習(xí)中一套強大的方法。然而,在統(tǒng)計學(xué)文獻中,VI 最常被介紹為貝葉斯框架下的方法,它作為一種不可或缺的工具,用于近似那些難以處理的后驗分布(Bishop 和 Nasrabadi,2006;Blei 等人,2017;Kejzlar 和 Hu,2024;Sj?lund,2023)。
矛盾的是,VI 最成功的兩個應(yīng)用——變分自編碼器(VAE)和去噪擴散模型(DDM)——通常是基于頻率學(xué)派的觀點構(gòu)建的。關(guān)于 VAE(Doersch,2016;Kingma 和 Welling,2019)和 DDM(Chan,2024;Luo,2022)的重要教程并沒有對模型參數(shù)設(shè)置先驗。相反,它們的目標是近似復(fù)雜生成模型的最大似然估計器(MLE)。這種方法論上的分歧造成了一個教學(xué)上的空白:盡管 VAE 和 DDM 在人工智能中居于核心地位,但它們在統(tǒng)計學(xué)界的采用速度較慢,部分原因是缺乏以一種對許多統(tǒng)計學(xué)家來說更自然的方式來介紹這些方法。
本文旨在填補這一關(guān)鍵空白。我們提供了一個完全基于頻率學(xué)派原則的關(guān)于 VI、VAE 和 DDM 的自足性介紹。通過展示這些技術(shù)本質(zhì)上是強大的優(yōu)化和函數(shù)近似算法(Chen 等人,2018;Ormerod 和 Wand,2010),且獨立于貝葉斯背景,我們希望使這些強大的生成模型對統(tǒng)計學(xué)界來說更加易于接近和直觀。
大綱。我們在第 2 節(jié)從頻率學(xué)派的潛變量模型基礎(chǔ)開始,并回顧期望最大化(EM)算法。我們專注于兩個關(guān)鍵變體——蒙特卡洛 EM(MCEM)算法和正則化 Q 函數(shù)——它們直接推動了向變分推斷(VI)的轉(zhuǎn)變。在此基礎(chǔ)上,第 3 節(jié)將 VI 介紹為一種用于近似 EM 算法中難以處理的 E 步驟的通用方法,將證據(jù)下界(ELBO)作為正則化 Q 函數(shù)的變分類比。接下來,在第 4 節(jié),我們通過引入攤銷 VI 和變分自編碼器(VAE)來解決經(jīng)典 VI 的計算限制,這使得 VI 能夠應(yīng)用于大規(guī)模的深度學(xué)習(xí)模型。最后,第 5 節(jié)將去噪擴散模型(DDM)介紹為這一框架的深度、層次化擴展,由正向(變分)和反向(生成)過程組成。我們在技術(shù)討論的結(jié)尾推導(dǎo)了簡化的噪聲預(yù)測目標,這是 DDM 作為最先進的圖像生成器取得實際成功的關(guān)鍵。
2 潛變量模型
![]()
![]()
![]()
2.1 EM算法
![]()
![]()
因此,運行 EM 算法保證不會減少似然值,盡管它可能收斂到局部最大值,而不是全局最大值。
2.2 MCEM:蒙特卡洛
EM 當(dāng) E 步(方程 (1))中的積分難以處理時,一個常見的解決方案是使用蒙特卡洛積分來近似 Q 函數(shù)。這種方法被稱為蒙特卡洛 EM(MCEM)算法(Wei 和 Tanner,1990)。
這個原理很簡單。我們知道,如果同時觀察到 X 和 Z,那么完整數(shù)據(jù)對數(shù)似然的最大化是可行的。因此,E 步的一個簡單的蒙特卡洛近似方法涉及生成一個單一的實現(xiàn):
![]()
![]()
2.3 Q 函數(shù)的正則化形式
在 EM 算法中,Q 函數(shù)是整個過程的核心。雖然可以從缺失數(shù)據(jù)的角度來理解它,但另一種替代且強大的視角是將其框架為正則化的對數(shù)似然函數(shù)(Neal 和 Hinton,1998)。
![]()
![]()
2.4 示例:EM算法的局限性盡管EM算法在最大似然估計(MLE)沒有閉式解時是一種有效方法,但其適用性受限于E步的可處理性。在此,我們通過一個例子來說明這一局限性。
![]()
一般來說,這個分布不屬于任何標準分布族,這使得方程(1)中 Q 函數(shù)的解析計算變得難以處理。 如果我們采用 MCEM 方法,從方程(7)中的復(fù)雜分布中采樣也是一個不簡單的問題。雖然馬爾可夫鏈蒙特卡洛(MCMC)方法可能對小的 d 和 k 有效,但當(dāng)這些維度很大時,它們會變得異常緩慢,這在像圖像生成這樣的高維環(huán)境中是很常見的。
3 變分近似
![]()
![]()
![]()
![]()
![]()
![]()
3.1 ELBO的梯度與重參數(shù)化技巧
變分推斷(VI)的優(yōu)化不同于標準的梯度上升,因為最優(yōu)的變分參數(shù) ω? 依賴于全局參數(shù) θ。這種耦合關(guān)系要求采用嵌套或交替優(yōu)化方案。
在此,我們總結(jié)了一種用于計算VI估計量的梯度上升過程,該過程可輕松修改為隨機梯度上升算法(Hoffman et al., 2013)。我們從初始值 θ??? 開始,然后迭代以下步驟直至收斂:
對于給定的 θ???,我們首先通過運行一個內(nèi)層梯度上升循環(huán),為每個觀測值找到最優(yōu)的變分參數(shù)。對于每個 i = 1, ..., n,我們通過在 ω???? 處初始化(通常使用熱啟動,即 ω???? = ω?????1?)并進行迭代:
![]()
關(guān)于 θ 的梯度。我們現(xiàn)在提供計算梯度 ?θELBO(θ, ω? | X?) 的詳細信息。在ELBO定義(公式(8))中的第二項,即熵,不依賴于 θ。因此,該梯度為:
![]()
該方法類似于MCEM如何近似Q函數(shù)的梯度。在變分推斷(VI)中,此蒙特卡洛平均用于數(shù)值近似ELBO的梯度。相較于MCEM,其關(guān)鍵優(yōu)勢在于我們從可處理的變分分布 qω? 中采樣,而非從難以處理的 pθ(z|X?) 中采樣,從而避免了主要的計算瓶頸。
關(guān)于 ω? 的梯度及重參數(shù)化技巧。我們現(xiàn)在考慮關(guān)于變分參數(shù) ω? 的梯度,這在公式(11)的更新步驟中至關(guān)重要。ELBO中的兩項均依賴于 ω?:
![]()
其中,H(qω?) = ?∫ qω?(z) log qω?(z) dz 是變分分布的熵。對于許多標準分布,熵項的梯度 ?ω? H(qω?) 可以解析計算。因此,主要的挑戰(zhàn)在于計算第一項的梯度。
為使該梯度可處理,我們必須選擇一個方便的變分族。一個常見且強大的選擇是高斯平均場族。具體而言,我們假設(shè) qω?(z) 服從一個具有對角協(xié)方差矩陣的多元高斯分布,即 N(α?, diag(β?2)),其中變分參數(shù)為 ω? = (α?, β?) ∈ ?? × ???。這里,α? 是均值向量,β? 是標準差向量。高斯平均場分布是一種坐標相互獨立的多元高斯分布。
這一選擇使得重參數(shù)化技巧得以應(yīng)用。一個隨機變量 Z ~ N(α?, diag(β?2)) 可以表示為其參數(shù)與一個標準正態(tài)隨機變量 ε ~ N(0, I?) 的確定性變換:
![]()
![]()
3.1.1 快速梯度上升的條件
上述推導(dǎo)突出了實現(xiàn)高效、基于梯度的變分推斷的兩個關(guān)鍵條件:
- 可微模型。完整數(shù)據(jù)對數(shù)似然函數(shù) ?(θ|x,z) = log pθ(x,z) 必須關(guān)于模型參數(shù) θ 和潛在變量 z 均可微。對于現(xiàn)代深度生成模型(例如,X|Z=z ~ N(μθ(z), Σθ(z))),這要求函數(shù) μθ(z) 和 Σθ(z) 可微。這一條件在神經(jīng)網(wǎng)絡(luò)中很容易滿足,因為這些梯度可通過現(xiàn)代自動微分框架中使用的反向傳播算法高效計算(Baydin 等, 2018; Rumelhart 等, 1986)。
- 可重參數(shù)化的變分族。變分分布 qω(z) 必須是可重參數(shù)化的。許多常見的連續(xù)分布都滿足此性質(zhì),通常通過逆累積分布函數(shù)(CDF)法實現(xiàn),即樣本可表示為 Z = Fω?1(U),其中 U ~ Uniform[0,1]。這使得梯度 ?ω 能被有效處理。
4 攤銷變分推斷與變分自編碼器
前述VI框架存在兩個主要局限。首先,它需要優(yōu)化 n 個不同的變分參數(shù) (ω?, ..., ω?),隨著樣本量 n 增大,計算成本變得高昂。其次,用邊際分布 qω?(z) 近似條件分布 pθ(z|X?) 在概念上顯得笨拙。
攤銷變分推斷(AVI;Gershman and Goodman 2014)通過用一個單一的條件推斷模型 qφ(z|x) 替代獨立的變分分布,解決了這兩個問題。在此,變分參數(shù) φ 在所有數(shù)據(jù)點間共享。這樣,無論樣本量大小,我們只需優(yōu)化一組參數(shù)。著名的變分自編碼器(VAE;Kingma and Welling 2014)是AVI的一個重要應(yīng)用,尤其適用于圖像數(shù)據(jù)。
在AVI中,變分分布 qφ(z|x) 可通過建模 ω = fφ(x)(其中 f 通常是一個神經(jīng)網(wǎng)絡(luò)模型)從非攤銷的變分分布 qω(z) 構(gòu)造而來。在此構(gòu)造下,qφ(z|x) = qω=fφ(x)(z)。第4.1節(jié)提供了此方法的一個示例。
在AVI下,ELBO的推導(dǎo)類似:
![]()
與非攤銷VI相比,當(dāng)樣本量 n 較大時,這大大降低了計算復(fù)雜度。方程(16)中對最大值點的搜索通常通過隨機梯度上升法完成。
4.1 示例:連接攤銷與非攤銷VI
現(xiàn)在我們考慮一個特例,即我們的攤銷變分分布 qφ(z|x) 是一個具有對角協(xié)方差矩陣的高斯分布:N(ηφ(x), diag(δ2φ,?(x), ..., δ2φ,?(x))),其中 ηφ(x), δ2φ(x) ∈ ?? 是某些函數(shù)。這是實踐中常見的選擇,可視為第3.1節(jié)中高斯平均場族的攤銷版本。
回想一下,在非攤銷的高斯平均場方法中,每個觀測值 X? 的變分分布為 qω?(z) = N(α?, diag(β?2)),其中 ω? = (α?, β?) 是一個直接優(yōu)化的獨立參數(shù)向量。
在攤銷設(shè)定下,函數(shù) ηφ(x) 和 δφ(x)(例如,由 φ 參數(shù)化的神經(jīng)網(wǎng)絡(luò))被訓(xùn)練用于預(yù)測任意給定輸入 x 的最優(yōu)均值和標準差。因此,其關(guān)聯(lián)可表示為:
![]()
這突顯了根本性差異:非攤銷VI直接優(yōu)化 n 個獨立的參數(shù)向量 (ω?, ..., ω?),而AVI則優(yōu)化一個單一的全局參數(shù)向量 φ,該向量用于生成每個觀測值的局部參數(shù)。盡管AVI大幅降低了計算負擔(dān)并允許對新數(shù)據(jù)點進行推斷,但這種效率可能以犧牲近似精度為代價。由于攤銷函數(shù)表達能力有限而導(dǎo)致的ELBO潛在下降,被稱為“攤銷間隙”(Cremer 等, 2018; Margossian 和 Blei, 2023)。
4.2 攤銷ELBO的梯度
為計算公式(16)中的AVI估計量,我們可再次使用梯度上升或隨機梯度上升算法(Bottou, 2010; Robbins 和 Monro, 1951)。在AVI中,優(yōu)化過程比非攤銷情況要簡單得多,因為變分參數(shù) φ 在所有觀測值間共享。這消除了嵌套優(yōu)化循環(huán)的需要。
梯度上升是一個標準流程。從初始值 θ??? 和 φ??? 開始,參數(shù)在 t = 0, 1, ... 時更新直至收斂:
![]()
這些梯度的計算方式與非攤銷情況類似。關(guān)于模型參數(shù) θ 的梯度可通過蒙特卡洛平均進行估計,而關(guān)于變分參數(shù) φ 的梯度在選擇合適的變分族前提下,可利用重參數(shù)化技巧高效計算。我們在附錄 A 中提供了詳細的推導(dǎo)過程。
在現(xiàn)代應(yīng)用中(如 VAE),通常使用深度神經(jīng)網(wǎng)絡(luò)來指定生成模型 pθ(x|z)。例如,人們可能會建模
![]()
其中,均值函數(shù) μθ(z) 和協(xié)方差函數(shù) Σθ(z) 本身也由神經(jīng)網(wǎng)絡(luò)參數(shù)化。在此設(shè)定下,這些函數(shù)關(guān)于 θ 和 z 所需的梯度可通過現(xiàn)代自動微分框架中使用的反向傳播算法高效計算(Baydin 等, 2018; Rumelhart 等, 1986)。
因此,只要模型是可微的,且變分族是可重參數(shù)化的(即滿足第3.1.1節(jié)中的條件),攤銷變分推斷(AVI)估計量就可以通過梯度上升或隨機梯度上升高效地計算。
4.3 變分自編碼器(VAE)
在潛變量模型中,數(shù)據(jù)生成過程被建模為:首先抽取一個潛變量 Z ~ p(z),然后抽取一個觀測值 X ~ pθ(x|z)。在VAE文獻中,條件分布 pθ(x|z) 的模型被稱為解碼器;它將潛表示 Z 解碼為觀測值 X。
當(dāng)我們應(yīng)用AVI時,我們引入一個條件分布 qφ(z|x),作為對真實條件分布的可處理近似。該分布可被解釋為一個從觀測變量 X 推斷潛變量 Z 的模型。在VAE文獻中,此變分分布 qφ(z|x) 被稱為編碼器;它將觀測值 X 編碼為潛表示 Z。
然而,從統(tǒng)計學(xué)角度看,概念起點通常與深度學(xué)習(xí)文獻不同。VAE實踐者常常先設(shè)計編碼器的架構(gòu),再構(gòu)建對應(yīng)的解碼器以建模反向的生成映射。下一節(jié)討論的去噪擴散模型就體現(xiàn)了這一方法,其教程通常從正向過程(定義變分分布)開始,再推導(dǎo)反向過程(生成模型)。這種建模哲學(xué)上的差異往往源于對生成效用與科學(xué)可解釋性關(guān)注點的不同;更多討論請參見第6.2節(jié)。
總結(jié)角色如下:
- 解碼器:解碼器 pθ(x|z) 是描述數(shù)據(jù)生成過程的模型。
- 編碼器:編碼器 qφ(z|x) 是變分分布,作為對真實但難以處理的 pθ(z|x) 的可處理、可計算近似。
必須認識到,解碼器 pθ(x|z) 和先驗 p(z) 足以完整定義聯(lián)合分布 pθ(x,z),并根據(jù)貝葉斯定理確定真實條件分布 pθ(z|x)。然而,在高維情況下,對該模型進行精確推斷通常是不可行的。因此,為了計算可行性,我們引入一個獨立的、可處理的推斷模型——編碼器 qφ(z|x)——來近似真實 pθ(z|x)。
這意味著編碼器和解碼器在一般情況下是不兼容的。編碼器 qφ(z|x) 并非由解碼器和先驗推導(dǎo)出的真實條件分布。事實上,如果它們兼容(即,若 qφ(z|x) = pθ(z|x)),則變分推斷將是精確的,EM/MCEM算法也將適用。盡管存在這種不兼容性,編碼器-解碼器配對仍創(chuàng)建了一種計算上可行的方案,用于通過可處理的AVI估計量來近似難以處理的最大似然估計量 。
5 去噪擴散模型(DDM)
去噪擴散模型(DDM),也稱為變分擴散模型,是一類強大的生成模型,尤其適用于圖像合成(Ho 等, 2020; Sohl-Dickstein 等, 2015)。DDM 可以被理解為 VAE/AVI 框架的一個特例。在此,我們使用統(tǒng)計潛變量模型的語言來闡述 DDM。簡言之,DDM 是一種通過攤銷變分近似進行訓(xùn)練的深層潛變量模型。圖1 提供了直觀的總結(jié)。
![]()
5.1 一個深層潛變量模型
傳統(tǒng)的潛變量模型是“淺層”的,僅由單個潛向量 Z 生成觀測值 X。DDM 通過引入形成馬爾可夫鏈的一系列潛變量,深化了這一結(jié)構(gòu)。為簡化起見,我們假設(shè)所有變量(包括觀測變量和潛變量)維度相同,即 X, Z ∈ ??。
傳統(tǒng)的“淺層”生成過程由一個有向無環(huán)圖(DAG)表示:
![]()
![]()
如第2.4節(jié)所示,即使對于該模型的單一層(T=1),EM算法也會失效。當(dāng)層數(shù)為T時,問題會顯著加劇。為解決這一不可處理性,我們再次轉(zhuǎn)向變分近似,特別是第4節(jié)中介紹的AVI方法。
5.2 變分近似
為了將AVI方法應(yīng)用于深層潛變量模型,我們首先推導(dǎo)相應(yīng)的ELBO:
![]()
![]()
由于變分模型是一個高斯自回歸過程,項(B)和(C)可以解析計算。項(A)則需要蒙特卡洛近似,但由于公式(24)所具有的單次采樣(one-shot sampling)性質(zhì),這一近似可以高效實現(xiàn)。接下來我們推導(dǎo)(B)和(C)的解析形式。
![]()
![]()
5.3 DDM的ELBO梯度
由于DDM是AVI/VAE框架的一個特例,其梯度計算遵循第4.2節(jié)和附錄A中概述的相同原則。需要注意的是,在標準DDM實現(xiàn)(Ho等, 2020)中,變分參數(shù) φ?, ..., φ? 并不進行學(xué)習(xí),而是作為固定超參數(shù)預(yù)先定義。這使得優(yōu)化僅針對生成模型參數(shù);更多討論見第5.5節(jié)。然而,若有必要,變分參數(shù) φ?, ..., φ? 也是可學(xué)習(xí)的。根據(jù)構(gòu)造,DDM的前向過程是一個高斯自回歸模型,因此重參數(shù)化技巧可直接用于計算關(guān)于變分參數(shù) φ 的梯度。
關(guān)于生成模型參數(shù) θ 的精煉ELBO梯度,對于每個參數(shù) θ? 是可分離的:
![]()
![]()
將數(shù)據(jù)生成過程視為一個“去噪”過程。公式(27)中梯度的形式提供了一個關(guān)鍵洞見:參數(shù) θ? 的學(xué)習(xí)信號來源于 pθ(y???|y?) 的得分函數(shù)。該任務(wù)本質(zhì)上是要求模型在給定一個更嘈雜的狀態(tài) ?? 時,預(yù)測出一個更干凈的狀態(tài) ????。因此,生成(逆向)模型 pθ 學(xué)會逐步對一系列潛變量進行去噪,從純噪聲 Y? 開始,最終得到一張干凈的圖像 Y?。
5.4 前向與逆向過程
上述描述的變分框架將DDM視為一種特定類型的VAE。解碼器是我們的數(shù)據(jù)生成模型 pθ,它描述了如何從純噪聲變量 Y? = Z 生成觀測值 Y?。編碼器是我們的變分分布 qφ,它是一個高斯自回歸模型。在DDM文獻中,這兩個組件被稱為前向過程和逆向過程。
編碼器 qφ 將觀測值 Y? 映射到最終的潛噪聲變量 Y?,被稱為前向過程。它是一個高斯自回歸模型,通過依次向觀測值添加高斯噪聲(如公式(23)所示),其行為類似于擴散過程。
解碼器 pθ 則以相反方向運行。它從純噪聲 Y? 開始,依次移除噪聲以恢復(fù)原始觀測值 Y?。這被稱為逆向過程,在功能上是一個去噪過程。這兩個組件的結(jié)合賦予了“去噪擴散模型”其名稱。
許多關(guān)于DDM的教程先介紹前向過程,再推導(dǎo)逆向過程(Ho等, 2020; Luo, 2022),因為這與實現(xiàn)方式一致——計算機將首先執(zhí)行前向過程,然后利用逆向過程來擬合參數(shù) θ。這與統(tǒng)計建模的傳統(tǒng)形成對比,后者通常從數(shù)據(jù)生成模型(即逆向過程)開始,再構(gòu)建變分近似(即前向過程)作為可處理推斷的工具。
總結(jié)對應(yīng)的術(shù)語:
- 解碼器 = 逆向過程 = 數(shù)據(jù)生成模型:一個具有馬爾可夫鏈結(jié)構(gòu)的深層潛變量模型,學(xué)會逐步將變量從純噪聲去噪為觀測值。
- 編碼器 = 前向過程 = 變分分布:一個具有相似馬爾可夫結(jié)構(gòu)的高斯自回歸模型,逐步向觀測值添加噪聲。
5.5 實際實現(xiàn)與簡化目標
完整的ELBO為DDM提供了理論基礎(chǔ),但在實踐中,從業(yè)者已采用若干關(guān)鍵設(shè)定,以獲得更穩(wěn)定、更高效的目標函數(shù),從而支持大規(guī)模訓(xùn)練。
固定變分參數(shù)與協(xié)方差矩陣模型。在實踐中,DDM的訓(xùn)練過程通過若干關(guān)鍵設(shè)定變得更加高效。首先,變分分布(即前向過程)的參數(shù)并非從數(shù)據(jù)中學(xué)習(xí),而是被固定為預(yù)定義的超參數(shù),統(tǒng)稱為“方差調(diào)度表”(variance schedule)(Ho等, 2020)。此外,逆向(數(shù)據(jù)生成)過程中的協(xié)方差矩陣也被假定為固定且對角的,通常表示為 Σθ?(y?) = σ?2I_d。方差 σ?2 是已知常數(shù),通常與前向過程的方差調(diào)度表相關(guān)聯(lián)。此設(shè)定具有兩大主要優(yōu)勢:第一,它消除了學(xué)習(xí)任何方差參數(shù)的需求;第二,它將ELBO中與 θ 相關(guān)的部分簡化為一個加權(quán)最小二乘目標。如公式(26)所示,ELBO關(guān)于均值函數(shù) μθ? 的梯度變?yōu)椋?/p>
![]()
5.5.1 噪聲預(yù)測形式Ho 等人(2020)的關(guān)鍵洞見在于,該目標函數(shù)可以被重新表述為一個噪聲預(yù)測任務(wù)。公式(30)的核心準則是如下期望(為簡化起見,將梯度算子 ?θ 移出):
![]()
![]()
![]()
![]()
6 結(jié)論
變分推斷(VI)、變分自編碼器(VAEs)和擴散模型(DDMs)在潛變量建模與似然近似方面共享一個共同的基礎(chǔ)。從經(jīng)典的EM算法出發(fā),我們看到VI是通過用可處理的變分族 qω?(z) 替代難以處理的條件分布 p(z|x=X?; θ???) 而自然衍生出的一種松弛方法。攤銷VI進一步通過學(xué)習(xí)條件映射 qφ(z|x) 簡化了計算,從而實現(xiàn)大規(guī)模估計,并構(gòu)成了VAEs的核心框架。最后,DDM將此框架擴展為一個具有馬爾可夫鏈結(jié)構(gòu)的深層潛變量模型,提供了一種最強大的現(xiàn)代生成建模工具。
6.1 變分推斷:頻率學(xué)派還是貝葉斯學(xué)派?
盡管VI常被作為貝葉斯方法引入(Blei等, 2017; Doersch, 2016; Kingma & Welling, 2014),但它本身并非固有的貝葉斯方法。在我們的分析中,VI完全是從頻率學(xué)派視角發(fā)展而來的:我們并未對感興趣的參數(shù)θ施加任何先驗。相反,VI純粹作為一種計算工具,用于在似然函數(shù)難以處理時近似最大似然估計量。
話雖如此,如果推斷的主要目標是潛變量Z而非模型參數(shù)θ2,則VI也可置于貝葉斯語境下理解。在這種情況下,分布p(z)扮演先驗的角色,而難以處理的條件分布p(z|x;θ)則代表后驗分布。變分分布qω(z)或qφ(z|x)隨后便為該后驗提供了可處理的近似。
最終,VI最好被理解為一種通用的計算框架,用于近似難以處理的條件分布p(z|x;θ)。它同樣適用于頻率學(xué)派設(shè)定(如潛空間模型),也適用于貝葉斯問題(如對潛變量的后驗推斷)。無論從哪個視角出發(fā),VI都通過相同的底層優(yōu)化原則,統(tǒng)一了計算可處理性與概率近似。
6.2 潛變量建模:生成效用 vs 科學(xué)可解釋性
潛變量在深度生成模型(VAEs、DDMs)中的作用與它們在傳統(tǒng)統(tǒng)計學(xué)中的作用顯著不同——這體現(xiàn)了“生成效用”與“科學(xué)可解釋性”之間的區(qū)分。
在VAEs和DDMs中,潛變量主要作為一種工具,用于構(gòu)建靈活且高容量的模型,以近似復(fù)雜的數(shù)據(jù)分布(例如自然圖像)。其主要目標是生成性能——即產(chǎn)生逼真的數(shù)據(jù)——而計算可處理性是關(guān)鍵約束。因此,單個潛變量維度的可解釋性通常是次要的,模型架構(gòu)可以自由修改以提升效果。DDM中允許噪聲預(yù)測公式的模型設(shè)定(第5.5節(jié))正突顯了這一原則。
相反,在因子分析等經(jīng)典潛變量方法中,主要目標是科學(xué)解釋(Anderson, 2003; Harman, 1976)。潛變量被假定代表基于領(lǐng)域知識的有意義、潛在的構(gòu)造。其含義至關(guān)重要,對模型潛結(jié)構(gòu)的任何更改都需要強有力的理論或統(tǒng)計依據(jù)。因此,盡管程序上存在相似之處,這兩種范式由不同的哲學(xué)所引導(dǎo):一種由預(yù)測能力驅(qū)動,另一種由解釋性洞察驅(qū)動。
原文鏈接:https://www.arxiv.org/pdf/2510.18777
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.