<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      變分推理、自編碼器與擴散模型的頻率學(xué)派統(tǒng)計導(dǎo)論

      0
      分享至

      A Frequentist Statistical Introduction to Variational Inference,Autoencoders, and Diffusion Models

      變分推理、自編碼器與擴散模型的頻率學(xué)派統(tǒng)計導(dǎo)論

      https://www.arxiv.org/pdf/2510.18777



      摘 要:

      盡管變分推斷(VI)是現(xiàn)代生成模型(如變分自編碼器(VAEs)和去噪擴散模型(DDMs))的核心,但其教學(xué)處理卻分散在不同的學(xué)科中。在統(tǒng)計學(xué)中,VI 通常被描述為一種貝葉斯方法,用于近似后驗分布。然而,在機器學(xué)習(xí)中,VAEs 和 DDMs 是從頻率學(xué)派的觀點開發(fā)的,其中 VI 被用于近似最大似然估計器。這為統(tǒng)計學(xué)家創(chuàng)造了一個障礙,因為如果沒有對應(yīng)的頻率學(xué)派對 VI 的介紹,VAEs 和 DDMs 背后的原理很難被理解。本文提供了這種介紹:我們從純粹的頻率學(xué)派視角解釋了 VI、VAEs 和 DDMs 的理論,從經(jīng)典的期望最大化(EM)算法開始。我們展示了 VI 如何作為一種可擴展的解決方案用于難以處理的 E 步驟,以及 VAEs 和 DDMs 如何成為這一框架的自然的、基于深度學(xué)習(xí)的擴展,從而彌合了經(jīng)典統(tǒng)計推斷與現(xiàn)代生成人工智能之間的差距。

      1 引 言
      變分推斷(VI)是現(xiàn)代機器學(xué)習(xí)中一套強大的方法。然而,在統(tǒng)計學(xué)文獻中,VI 最常被介紹為貝葉斯框架下的方法,它作為一種不可或缺的工具,用于近似那些難以處理的后驗分布(Bishop 和 Nasrabadi,2006;Blei 等人,2017;Kejzlar 和 Hu,2024;Sj?lund,2023)。

      矛盾的是,VI 最成功的兩個應(yīng)用——變分自編碼器(VAE)和去噪擴散模型(DDM)——通常是基于頻率學(xué)派的觀點構(gòu)建的。關(guān)于 VAE(Doersch,2016;Kingma 和 Welling,2019)和 DDM(Chan,2024;Luo,2022)的重要教程并沒有對模型參數(shù)設(shè)置先驗。相反,它們的目標是近似復(fù)雜生成模型的最大似然估計器(MLE)。這種方法論上的分歧造成了一個教學(xué)上的空白:盡管 VAE 和 DDM 在人工智能中居于核心地位,但它們在統(tǒng)計學(xué)界的采用速度較慢,部分原因是缺乏以一種對許多統(tǒng)計學(xué)家來說更自然的方式來介紹這些方法。

      本文旨在填補這一關(guān)鍵空白。我們提供了一個完全基于頻率學(xué)派原則的關(guān)于 VI、VAE 和 DDM 的自足性介紹。通過展示這些技術(shù)本質(zhì)上是強大的優(yōu)化和函數(shù)近似算法(Chen 等人,2018;Ormerod 和 Wand,2010),且獨立于貝葉斯背景,我們希望使這些強大的生成模型對統(tǒng)計學(xué)界來說更加易于接近和直觀。

      大綱。我們在第 2 節(jié)從頻率學(xué)派的潛變量模型基礎(chǔ)開始,并回顧期望最大化(EM)算法。我們專注于兩個關(guān)鍵變體——蒙特卡洛 EM(MCEM)算法和正則化 Q 函數(shù)——它們直接推動了向變分推斷(VI)的轉(zhuǎn)變。在此基礎(chǔ)上,第 3 節(jié)將 VI 介紹為一種用于近似 EM 算法中難以處理的 E 步驟的通用方法,將證據(jù)下界(ELBO)作為正則化 Q 函數(shù)的變分類比。接下來,在第 4 節(jié),我們通過引入攤銷 VI 和變分自編碼器(VAE)來解決經(jīng)典 VI 的計算限制,這使得 VI 能夠應(yīng)用于大規(guī)模的深度學(xué)習(xí)模型。最后,第 5 節(jié)將去噪擴散模型(DDM)介紹為這一框架的深度、層次化擴展,由正向(變分)和反向(生成)過程組成。我們在技術(shù)討論的結(jié)尾推導(dǎo)了簡化的噪聲預(yù)測目標,這是 DDM 作為最先進的圖像生成器取得實際成功的關(guān)鍵。

      2 潛變量模型




      2.1 EM算法



      因此,運行 EM 算法保證不會減少似然值,盡管它可能收斂到局部最大值,而不是全局最大值。

      2.2 MCEM:蒙特卡洛

      EM 當(dāng) E 步(方程 (1))中的積分難以處理時,一個常見的解決方案是使用蒙特卡洛積分來近似 Q 函數(shù)。這種方法被稱為蒙特卡洛 EM(MCEM)算法(Wei 和 Tanner,1990)。

      這個原理很簡單。我們知道,如果同時觀察到 X 和 Z,那么完整數(shù)據(jù)對數(shù)似然的最大化是可行的。因此,E 步的一個簡單的蒙特卡洛近似方法涉及生成一個單一的實現(xiàn):



      2.3 Q 函數(shù)的正則化形式

      在 EM 算法中,Q 函數(shù)是整個過程的核心。雖然可以從缺失數(shù)據(jù)的角度來理解它,但另一種替代且強大的視角是將其框架為正則化的對數(shù)似然函數(shù)(Neal 和 Hinton,1998)。



      2.4 示例:EM算法的局限性盡管EM算法在最大似然估計(MLE)沒有閉式解時是一種有效方法,但其適用性受限于E步的可處理性。在此,我們通過一個例子來說明這一局限性。


      一般來說,這個分布不屬于任何標準分布族,這使得方程(1)中 Q 函數(shù)的解析計算變得難以處理。 如果我們采用 MCEM 方法,從方程(7)中的復(fù)雜分布中采樣也是一個不簡單的問題。雖然馬爾可夫鏈蒙特卡洛(MCMC)方法可能對小的 d 和 k 有效,但當(dāng)這些維度很大時,它們會變得異常緩慢,這在像圖像生成這樣的高維環(huán)境中是很常見的。

      3 變分近似







      3.1 ELBO的梯度與重參數(shù)化技巧

      變分推斷(VI)的優(yōu)化不同于標準的梯度上升,因為最優(yōu)的變分參數(shù) ω? 依賴于全局參數(shù) θ。這種耦合關(guān)系要求采用嵌套或交替優(yōu)化方案。

      在此,我們總結(jié)了一種用于計算VI估計量的梯度上升過程,該過程可輕松修改為隨機梯度上升算法(Hoffman et al., 2013)。我們從初始值 θ??? 開始,然后迭代以下步驟直至收斂:

      對于給定的 θ???,我們首先通過運行一個內(nèi)層梯度上升循環(huán),為每個觀測值找到最優(yōu)的變分參數(shù)。對于每個 i = 1, ..., n,我們通過在 ω???? 處初始化(通常使用熱啟動,即 ω???? = ω?????1?)并進行迭代:


      關(guān)于 θ 的梯度。我們現(xiàn)在提供計算梯度 ?θELBO(θ, ω? | X?) 的詳細信息。在ELBO定義(公式(8))中的第二項,即熵,不依賴于 θ。因此,該梯度為:


      該方法類似于MCEM如何近似Q函數(shù)的梯度。在變分推斷(VI)中,此蒙特卡洛平均用于數(shù)值近似ELBO的梯度。相較于MCEM,其關(guān)鍵優(yōu)勢在于我們從可處理的變分分布 qω? 中采樣,而非從難以處理的 pθ(z|X?) 中采樣,從而避免了主要的計算瓶頸。

      關(guān)于 ω? 的梯度及重參數(shù)化技巧。我們現(xiàn)在考慮關(guān)于變分參數(shù) ω? 的梯度,這在公式(11)的更新步驟中至關(guān)重要。ELBO中的兩項均依賴于 ω?:


      其中,H(qω?) = ?∫ qω?(z) log qω?(z) dz 是變分分布的熵。對于許多標準分布,熵項的梯度 ?ω? H(qω?) 可以解析計算。因此,主要的挑戰(zhàn)在于計算第一項的梯度。

      為使該梯度可處理,我們必須選擇一個方便的變分族。一個常見且強大的選擇是高斯平均場族。具體而言,我們假設(shè) qω?(z) 服從一個具有對角協(xié)方差矩陣的多元高斯分布,即 N(α?, diag(β?2)),其中變分參數(shù)為 ω? = (α?, β?) ∈ ?? × ???。這里,α? 是均值向量,β? 是標準差向量。高斯平均場分布是一種坐標相互獨立的多元高斯分布。

      這一選擇使得重參數(shù)化技巧得以應(yīng)用。一個隨機變量 Z ~ N(α?, diag(β?2)) 可以表示為其參數(shù)與一個標準正態(tài)隨機變量 ε ~ N(0, I?) 的確定性變換:



      3.1.1 快速梯度上升的條件

      上述推導(dǎo)突出了實現(xiàn)高效、基于梯度的變分推斷的兩個關(guān)鍵條件:

      • 可微模型。完整數(shù)據(jù)對數(shù)似然函數(shù) ?(θ|x,z) = log pθ(x,z) 必須關(guān)于模型參數(shù) θ 和潛在變量 z 均可微。對于現(xiàn)代深度生成模型(例如,X|Z=z ~ N(μθ(z), Σθ(z))),這要求函數(shù) μθ(z) 和 Σθ(z) 可微。這一條件在神經(jīng)網(wǎng)絡(luò)中很容易滿足,因為這些梯度可通過現(xiàn)代自動微分框架中使用的反向傳播算法高效計算(Baydin 等, 2018; Rumelhart 等, 1986)。
      • 可重參數(shù)化的變分族。變分分布 qω(z) 必須是可重參數(shù)化的。許多常見的連續(xù)分布都滿足此性質(zhì),通常通過逆累積分布函數(shù)(CDF)法實現(xiàn),即樣本可表示為 Z = Fω?1(U),其中 U ~ Uniform[0,1]。這使得梯度 ?ω 能被有效處理。

      4 攤銷變分推斷與變分自編碼器

      前述VI框架存在兩個主要局限。首先,它需要優(yōu)化 n 個不同的變分參數(shù) (ω?, ..., ω?),隨著樣本量 n 增大,計算成本變得高昂。其次,用邊際分布 qω?(z) 近似條件分布 pθ(z|X?) 在概念上顯得笨拙。

      攤銷變分推斷(AVI;Gershman and Goodman 2014)通過用一個單一的條件推斷模型 qφ(z|x) 替代獨立的變分分布,解決了這兩個問題。在此,變分參數(shù) φ 在所有數(shù)據(jù)點間共享。這樣,無論樣本量大小,我們只需優(yōu)化一組參數(shù)。著名的變分自編碼器(VAE;Kingma and Welling 2014)是AVI的一個重要應(yīng)用,尤其適用于圖像數(shù)據(jù)。

      在AVI中,變分分布 qφ(z|x) 可通過建模 ω = fφ(x)(其中 f 通常是一個神經(jīng)網(wǎng)絡(luò)模型)從非攤銷的變分分布 qω(z) 構(gòu)造而來。在此構(gòu)造下,qφ(z|x) = qω=fφ(x)(z)。第4.1節(jié)提供了此方法的一個示例。

      在AVI下,ELBO的推導(dǎo)類似:


      與非攤銷VI相比,當(dāng)樣本量 n 較大時,這大大降低了計算復(fù)雜度。方程(16)中對最大值點的搜索通常通過隨機梯度上升法完成。

      4.1 示例:連接攤銷與非攤銷VI

      現(xiàn)在我們考慮一個特例,即我們的攤銷變分分布 qφ(z|x) 是一個具有對角協(xié)方差矩陣的高斯分布:N(ηφ(x), diag(δ2φ,?(x), ..., δ2φ,?(x))),其中 ηφ(x), δ2φ(x) ∈ ?? 是某些函數(shù)。這是實踐中常見的選擇,可視為第3.1節(jié)中高斯平均場族的攤銷版本。

      回想一下,在非攤銷的高斯平均場方法中,每個觀測值 X? 的變分分布為 qω?(z) = N(α?, diag(β?2)),其中 ω? = (α?, β?) 是一個直接優(yōu)化的獨立參數(shù)向量。

      在攤銷設(shè)定下,函數(shù) ηφ(x) 和 δφ(x)(例如,由 φ 參數(shù)化的神經(jīng)網(wǎng)絡(luò))被訓(xùn)練用于預(yù)測任意給定輸入 x 的最優(yōu)均值和標準差。因此,其關(guān)聯(lián)可表示為:


      這突顯了根本性差異:非攤銷VI直接優(yōu)化 n 個獨立的參數(shù)向量 (ω?, ..., ω?),而AVI則優(yōu)化一個單一的全局參數(shù)向量 φ,該向量用于生成每個觀測值的局部參數(shù)。盡管AVI大幅降低了計算負擔(dān)并允許對新數(shù)據(jù)點進行推斷,但這種效率可能以犧牲近似精度為代價。由于攤銷函數(shù)表達能力有限而導(dǎo)致的ELBO潛在下降,被稱為“攤銷間隙”(Cremer 等, 2018; Margossian 和 Blei, 2023)。

      4.2 攤銷ELBO的梯度

      為計算公式(16)中的AVI估計量,我們可再次使用梯度上升或隨機梯度上升算法(Bottou, 2010; Robbins 和 Monro, 1951)。在AVI中,優(yōu)化過程比非攤銷情況要簡單得多,因為變分參數(shù) φ 在所有觀測值間共享。這消除了嵌套優(yōu)化循環(huán)的需要。

      梯度上升是一個標準流程。從初始值 θ??? 和 φ??? 開始,參數(shù)在 t = 0, 1, ... 時更新直至收斂:


      這些梯度的計算方式與非攤銷情況類似。關(guān)于模型參數(shù) θ 的梯度可通過蒙特卡洛平均進行估計,而關(guān)于變分參數(shù) φ 的梯度在選擇合適的變分族前提下,可利用重參數(shù)化技巧高效計算。我們在附錄 A 中提供了詳細的推導(dǎo)過程。

      在現(xiàn)代應(yīng)用中(如 VAE),通常使用深度神經(jīng)網(wǎng)絡(luò)來指定生成模型 pθ(x|z)。例如,人們可能會建模


      其中,均值函數(shù) μθ(z) 和協(xié)方差函數(shù) Σθ(z) 本身也由神經(jīng)網(wǎng)絡(luò)參數(shù)化。在此設(shè)定下,這些函數(shù)關(guān)于 θ 和 z 所需的梯度可通過現(xiàn)代自動微分框架中使用的反向傳播算法高效計算(Baydin 等, 2018; Rumelhart 等, 1986)。

      因此,只要模型是可微的,且變分族是可重參數(shù)化的(即滿足第3.1.1節(jié)中的條件),攤銷變分推斷(AVI)估計量就可以通過梯度上升或隨機梯度上升高效地計算。

      4.3 變分自編碼器(VAE)

      在潛變量模型中,數(shù)據(jù)生成過程被建模為:首先抽取一個潛變量 Z ~ p(z),然后抽取一個觀測值 X ~ pθ(x|z)。在VAE文獻中,條件分布 pθ(x|z) 的模型被稱為解碼器;它將潛表示 Z 解碼為觀測值 X。

      當(dāng)我們應(yīng)用AVI時,我們引入一個條件分布 qφ(z|x),作為對真實條件分布的可處理近似。該分布可被解釋為一個從觀測變量 X 推斷潛變量 Z 的模型。在VAE文獻中,此變分分布 qφ(z|x) 被稱為編碼器;它將觀測值 X 編碼為潛表示 Z。

      然而,從統(tǒng)計學(xué)角度看,概念起點通常與深度學(xué)習(xí)文獻不同。VAE實踐者常常先設(shè)計編碼器的架構(gòu),再構(gòu)建對應(yīng)的解碼器以建模反向的生成映射。下一節(jié)討論的去噪擴散模型就體現(xiàn)了這一方法,其教程通常從正向過程(定義變分分布)開始,再推導(dǎo)反向過程(生成模型)。這種建模哲學(xué)上的差異往往源于對生成效用與科學(xué)可解釋性關(guān)注點的不同;更多討論請參見第6.2節(jié)。

      總結(jié)角色如下:

      • 解碼器:解碼器 pθ(x|z) 是描述數(shù)據(jù)生成過程的模型。
      • 編碼器:編碼器 qφ(z|x) 是變分分布,作為對真實但難以處理的 pθ(z|x) 的可處理、可計算近似。

      必須認識到,解碼器 pθ(x|z) 和先驗 p(z) 足以完整定義聯(lián)合分布 pθ(x,z),并根據(jù)貝葉斯定理確定真實條件分布 pθ(z|x)。然而,在高維情況下,對該模型進行精確推斷通常是不可行的。因此,為了計算可行性,我們引入一個獨立的、可處理的推斷模型——編碼器 qφ(z|x)——來近似真實 pθ(z|x)。

      這意味著編碼器和解碼器在一般情況下是不兼容的。編碼器 qφ(z|x) 并非由解碼器和先驗推導(dǎo)出的真實條件分布。事實上,如果它們兼容(即,若 qφ(z|x) = pθ(z|x)),則變分推斷將是精確的,EM/MCEM算法也將適用。盡管存在這種不兼容性,編碼器-解碼器配對仍創(chuàng)建了一種計算上可行的方案,用于通過可處理的AVI估計量來近似難以處理的最大似然估計量 。

      5 去噪擴散模型(DDM)

      去噪擴散模型(DDM),也稱為變分擴散模型,是一類強大的生成模型,尤其適用于圖像合成(Ho 等, 2020; Sohl-Dickstein 等, 2015)。DDM 可以被理解為 VAE/AVI 框架的一個特例。在此,我們使用統(tǒng)計潛變量模型的語言來闡述 DDM。簡言之,DDM 是一種通過攤銷變分近似進行訓(xùn)練的深層潛變量模型。圖1 提供了直觀的總結(jié)。


      5.1 一個深層潛變量模型

      傳統(tǒng)的潛變量模型是“淺層”的,僅由單個潛向量 Z 生成觀測值 X。DDM 通過引入形成馬爾可夫鏈的一系列潛變量,深化了這一結(jié)構(gòu)。為簡化起見,我們假設(shè)所有變量(包括觀測變量和潛變量)維度相同,即 X, Z ∈ ??。

      傳統(tǒng)的“淺層”生成過程由一個有向無環(huán)圖(DAG)表示:



      如第2.4節(jié)所示,即使對于該模型的單一層(T=1),EM算法也會失效。當(dāng)層數(shù)為T時,問題會顯著加劇。為解決這一不可處理性,我們再次轉(zhuǎn)向變分近似,特別是第4節(jié)中介紹的AVI方法。

      5.2 變分近似

      為了將AVI方法應(yīng)用于深層潛變量模型,我們首先推導(dǎo)相應(yīng)的ELBO:



      由于變分模型是一個高斯自回歸過程,項(B)和(C)可以解析計算。項(A)則需要蒙特卡洛近似,但由于公式(24)所具有的單次采樣(one-shot sampling)性質(zhì),這一近似可以高效實現(xiàn)。接下來我們推導(dǎo)(B)和(C)的解析形式。



      5.3 DDM的ELBO梯度

      由于DDM是AVI/VAE框架的一個特例,其梯度計算遵循第4.2節(jié)和附錄A中概述的相同原則。需要注意的是,在標準DDM實現(xiàn)(Ho等, 2020)中,變分參數(shù) φ?, ..., φ? 并不進行學(xué)習(xí),而是作為固定超參數(shù)預(yù)先定義。這使得優(yōu)化僅針對生成模型參數(shù);更多討論見第5.5節(jié)。然而,若有必要,變分參數(shù) φ?, ..., φ? 也是可學(xué)習(xí)的。根據(jù)構(gòu)造,DDM的前向過程是一個高斯自回歸模型,因此重參數(shù)化技巧可直接用于計算關(guān)于變分參數(shù) φ 的梯度。

      關(guān)于生成模型參數(shù) θ 的精煉ELBO梯度,對于每個參數(shù) θ? 是可分離的:



      將數(shù)據(jù)生成過程視為一個“去噪”過程。公式(27)中梯度的形式提供了一個關(guān)鍵洞見:參數(shù) θ? 的學(xué)習(xí)信號來源于 pθ(y???|y?) 的得分函數(shù)。該任務(wù)本質(zhì)上是要求模型在給定一個更嘈雜的狀態(tài) ?? 時,預(yù)測出一個更干凈的狀態(tài) ????。因此,生成(逆向)模型 pθ 學(xué)會逐步對一系列潛變量進行去噪,從純噪聲 Y? 開始,最終得到一張干凈的圖像 Y?。

      5.4 前向與逆向過程

      上述描述的變分框架將DDM視為一種特定類型的VAE。解碼器是我們的數(shù)據(jù)生成模型 pθ,它描述了如何從純噪聲變量 Y? = Z 生成觀測值 Y?。編碼器是我們的變分分布 qφ,它是一個高斯自回歸模型。在DDM文獻中,這兩個組件被稱為前向過程和逆向過程。

      編碼器 qφ 將觀測值 Y? 映射到最終的潛噪聲變量 Y?,被稱為前向過程。它是一個高斯自回歸模型,通過依次向觀測值添加高斯噪聲(如公式(23)所示),其行為類似于擴散過程。

      解碼器 pθ 則以相反方向運行。它從純噪聲 Y? 開始,依次移除噪聲以恢復(fù)原始觀測值 Y?。這被稱為逆向過程,在功能上是一個去噪過程。這兩個組件的結(jié)合賦予了“去噪擴散模型”其名稱。

      許多關(guān)于DDM的教程先介紹前向過程,再推導(dǎo)逆向過程(Ho等, 2020; Luo, 2022),因為這與實現(xiàn)方式一致——計算機將首先執(zhí)行前向過程,然后利用逆向過程來擬合參數(shù) θ。這與統(tǒng)計建模的傳統(tǒng)形成對比,后者通常從數(shù)據(jù)生成模型(即逆向過程)開始,再構(gòu)建變分近似(即前向過程)作為可處理推斷的工具。

      總結(jié)對應(yīng)的術(shù)語:

      • 解碼器 = 逆向過程 = 數(shù)據(jù)生成模型:一個具有馬爾可夫鏈結(jié)構(gòu)的深層潛變量模型,學(xué)會逐步將變量從純噪聲去噪為觀測值。
      • 編碼器 = 前向過程 = 變分分布:一個具有相似馬爾可夫結(jié)構(gòu)的高斯自回歸模型,逐步向觀測值添加噪聲。

      5.5 實際實現(xiàn)與簡化目標

      完整的ELBO為DDM提供了理論基礎(chǔ),但在實踐中,從業(yè)者已采用若干關(guān)鍵設(shè)定,以獲得更穩(wěn)定、更高效的目標函數(shù),從而支持大規(guī)模訓(xùn)練。

      固定變分參數(shù)與協(xié)方差矩陣模型。在實踐中,DDM的訓(xùn)練過程通過若干關(guān)鍵設(shè)定變得更加高效。首先,變分分布(即前向過程)的參數(shù)并非從數(shù)據(jù)中學(xué)習(xí),而是被固定為預(yù)定義的超參數(shù),統(tǒng)稱為“方差調(diào)度表”(variance schedule)(Ho等, 2020)。此外,逆向(數(shù)據(jù)生成)過程中的協(xié)方差矩陣也被假定為固定且對角的,通常表示為 Σθ?(y?) = σ?2I_d。方差 σ?2 是已知常數(shù),通常與前向過程的方差調(diào)度表相關(guān)聯(lián)。此設(shè)定具有兩大主要優(yōu)勢:第一,它消除了學(xué)習(xí)任何方差參數(shù)的需求;第二,它將ELBO中與 θ 相關(guān)的部分簡化為一個加權(quán)最小二乘目標。如公式(26)所示,ELBO關(guān)于均值函數(shù) μθ? 的梯度變?yōu)椋?/p>


      5.5.1 噪聲預(yù)測形式Ho 等人(2020)的關(guān)鍵洞見在于,該目標函數(shù)可以被重新表述為一個噪聲預(yù)測任務(wù)。公式(30)的核心準則是如下期望(為簡化起見,將梯度算子 ?θ 移出):





      6 結(jié)論

      變分推斷(VI)、變分自編碼器(VAEs)和擴散模型(DDMs)在潛變量建模與似然近似方面共享一個共同的基礎(chǔ)。從經(jīng)典的EM算法出發(fā),我們看到VI是通過用可處理的變分族 qω?(z) 替代難以處理的條件分布 p(z|x=X?; θ???) 而自然衍生出的一種松弛方法。攤銷VI進一步通過學(xué)習(xí)條件映射 qφ(z|x) 簡化了計算,從而實現(xiàn)大規(guī)模估計,并構(gòu)成了VAEs的核心框架。最后,DDM將此框架擴展為一個具有馬爾可夫鏈結(jié)構(gòu)的深層潛變量模型,提供了一種最強大的現(xiàn)代生成建模工具。

      6.1 變分推斷:頻率學(xué)派還是貝葉斯學(xué)派?

      盡管VI常被作為貝葉斯方法引入(Blei等, 2017; Doersch, 2016; Kingma & Welling, 2014),但它本身并非固有的貝葉斯方法。在我們的分析中,VI完全是從頻率學(xué)派視角發(fā)展而來的:我們并未對感興趣的參數(shù)θ施加任何先驗。相反,VI純粹作為一種計算工具,用于在似然函數(shù)難以處理時近似最大似然估計量。

      話雖如此,如果推斷的主要目標是潛變量Z而非模型參數(shù)θ2,則VI也可置于貝葉斯語境下理解。在這種情況下,分布p(z)扮演先驗的角色,而難以處理的條件分布p(z|x;θ)則代表后驗分布。變分分布qω(z)或qφ(z|x)隨后便為該后驗提供了可處理的近似。

      最終,VI最好被理解為一種通用的計算框架,用于近似難以處理的條件分布p(z|x;θ)。它同樣適用于頻率學(xué)派設(shè)定(如潛空間模型),也適用于貝葉斯問題(如對潛變量的后驗推斷)。無論從哪個視角出發(fā),VI都通過相同的底層優(yōu)化原則,統(tǒng)一了計算可處理性與概率近似。

      6.2 潛變量建模:生成效用 vs 科學(xué)可解釋性

      潛變量在深度生成模型(VAEs、DDMs)中的作用與它們在傳統(tǒng)統(tǒng)計學(xué)中的作用顯著不同——這體現(xiàn)了“生成效用”與“科學(xué)可解釋性”之間的區(qū)分。

      在VAEs和DDMs中,潛變量主要作為一種工具,用于構(gòu)建靈活且高容量的模型,以近似復(fù)雜的數(shù)據(jù)分布(例如自然圖像)。其主要目標是生成性能——即產(chǎn)生逼真的數(shù)據(jù)——而計算可處理性是關(guān)鍵約束。因此,單個潛變量維度的可解釋性通常是次要的,模型架構(gòu)可以自由修改以提升效果。DDM中允許噪聲預(yù)測公式的模型設(shè)定(第5.5節(jié))正突顯了這一原則。

      相反,在因子分析等經(jīng)典潛變量方法中,主要目標是科學(xué)解釋(Anderson, 2003; Harman, 1976)。潛變量被假定代表基于領(lǐng)域知識的有意義、潛在的構(gòu)造。其含義至關(guān)重要,對模型潛結(jié)構(gòu)的任何更改都需要強有力的理論或統(tǒng)計依據(jù)。因此,盡管程序上存在相似之處,這兩種范式由不同的哲學(xué)所引導(dǎo):一種由預(yù)測能力驅(qū)動,另一種由解釋性洞察驅(qū)動。

      原文鏈接:https://www.arxiv.org/pdf/2510.18777

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      倆月了,一個也沒賣到中國去

      倆月了,一個也沒賣到中國去

      觀察者網(wǎng)
      2026-02-25 08:55:04
      本科已嚴重飽和的五個專業(yè),1、臨床醫(yī)學(xué),2、法學(xué),3、計算機

      本科已嚴重飽和的五個專業(yè),1、臨床醫(yī)學(xué),2、法學(xué),3、計算機

      明智家庭教育
      2026-01-31 10:29:14
      當(dāng)因殺死毒販,而讓半個國家燃起戰(zhàn)火后,終于理解了墨西哥的絕望

      當(dāng)因殺死毒販,而讓半個國家燃起戰(zhàn)火后,終于理解了墨西哥的絕望

      閱微札記
      2026-02-24 17:06:05
      利物浦后悔嗎?當(dāng)年免費放走的 1 億邊鋒,如今完爆加克波

      利物浦后悔嗎?當(dāng)年免費放走的 1 億邊鋒,如今完爆加克波

      瀾歸序
      2026-02-25 16:12:22
      WTT新加坡大滿貫:2月25日賽程公布!孫穎莎再登場,何卓佳戰(zhàn)早田

      WTT新加坡大滿貫:2月25日賽程公布!孫穎莎再登場,何卓佳戰(zhàn)早田

      劉森森
      2026-02-26 00:22:07
      彭佳慧回應(yīng)了!「想月付3萬打發(fā)」罹癌經(jīng)紀人又被惹火:這是侮辱

      彭佳慧回應(yīng)了!「想月付3萬打發(fā)」罹癌經(jīng)紀人又被惹火:這是侮辱

      ETtoday星光云
      2026-02-25 10:18:17
      湖北夫妻檔小吃攤年入超100萬,已買房買車:每天炸500多根年糕、1100多根淀粉腸

      湖北夫妻檔小吃攤年入超100萬,已買房買車:每天炸500多根年糕、1100多根淀粉腸

      臺州交通廣播
      2026-01-08 07:18:03
      對華合約全部撕毀!中國又一伙伴背后捅刀,騙走20億倒向美國

      對華合約全部撕毀!中國又一伙伴背后捅刀,騙走20億倒向美國

      離離言幾許
      2025-12-20 19:56:40
      勇士爆冷惜敗鵜鶘:梅爾頓28分賽季新高 錫安26+6穆雷賽季首秀

      勇士爆冷惜敗鵜鶘:梅爾頓28分賽季新高 錫安26+6穆雷賽季首秀

      醉臥浮生
      2026-02-25 11:34:46
      以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      八斗小先生
      2025-12-26 09:33:27
      博士畢業(yè)于北京大學(xué),中科院植物所研究員以通訊作者身份在一區(qū)Top期刊上發(fā)表研究論文

      博士畢業(yè)于北京大學(xué),中科院植物所研究員以通訊作者身份在一區(qū)Top期刊上發(fā)表研究論文

      植物研究進展
      2026-02-25 23:08:55
      深圳樓市2026年起風(fēng)了,深圳樓市南山區(qū)房價從9.3萬變成了8.5萬

      深圳樓市2026年起風(fēng)了,深圳樓市南山區(qū)房價從9.3萬變成了8.5萬

      有事問彭叔
      2026-02-23 19:11:44
      尼格買提曬家宴,八個菜沒一個青菜?網(wǎng)友調(diào)侃:碳水盛宴

      尼格買提曬家宴,八個菜沒一個青菜?網(wǎng)友調(diào)侃:碳水盛宴

      愛吃冰棍的小痞子
      2026-02-24 12:15:26
      74歲陳凱歌在三亞豪宅過年,穿5萬元皮鞋戴大金表,臉上有老年斑

      74歲陳凱歌在三亞豪宅過年,穿5萬元皮鞋戴大金表,臉上有老年斑

      離離言幾許
      2026-02-25 16:07:01
      三孩政策刺激無果后,中央下狠手了!新政策讓3代人拍手叫好

      三孩政策刺激無果后,中央下狠手了!新政策讓3代人拍手叫好

      米果說識
      2026-02-24 16:54:34
      起風(fēng)了!賴清德對大陸的稱呼變了,鄭麗文表態(tài)驚人,柯建銘落幕了

      起風(fēng)了!賴清德對大陸的稱呼變了,鄭麗文表態(tài)驚人,柯建銘落幕了

      諦聽骨語本尊
      2026-02-25 19:30:14
      新加坡大滿貫賽:大爆冷!國乒丟掉1冠,混雙全軍覆沒,0:3輸球

      新加坡大滿貫賽:大爆冷!國乒丟掉1冠,混雙全軍覆沒,0:3輸球

      國乒二三事
      2026-02-25 18:35:04
      山東省泰安市政協(xié)原副主席倪慶賓被“雙開”

      山東省泰安市政協(xié)原副主席倪慶賓被“雙開”

      界面新聞
      2026-02-25 10:34:47
      騎士109-94擊敗尼克斯!哈登打破塵封9年紀錄,登頂騎士隊史第一

      騎士109-94擊敗尼克斯!哈登打破塵封9年紀錄,登頂騎士隊史第一

      籃球大視野
      2026-02-25 20:36:55
      孫穎莎超絕球品!主動提醒對手可以挑戰(zhàn),3-1晉級16強約戰(zhàn)石洵瑤

      孫穎莎超絕球品!主動提醒對手可以挑戰(zhàn),3-1晉級16強約戰(zhàn)石洵瑤

      乒談
      2026-02-25 20:55:47
      2026-02-26 05:00:49
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1240文章數(shù) 18關(guān)注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      夫妻晚5秒錯過免費高速付1700元:氣得我不得了

      頭條要聞

      夫妻晚5秒錯過免費高速付1700元:氣得我不得了

      體育要聞

      勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

      娛樂要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財經(jīng)要聞

      上海樓市放大招,地產(chǎn)預(yù)期別太大

      汽車要聞

      750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

      態(tài)度原創(chuàng)

      手機
      親子
      健康
      公開課
      軍事航空

      手機要聞

      超大核飆到4.74GHz!三星Galaxy S26系列首發(fā)第五代驍龍8至尊版for Galaxy

      親子要聞

      抓住春季孩子長高黃金期,推薦揉孩子后背的身柱穴

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄烏沖突四周年:和平談判希望渺茫

      無障礙瀏覽 進入關(guān)懷版