深度生成分位數(shù)貝葉斯
Deep Generative Quantile Bayes
https://proceedings.mlr.press/v258/kim25d.html
![]()
摘要
我們通過深度生成式分位數(shù)學(xué)習(xí),開發(fā)了一種多元后驗抽樣方法。其抽樣過程隱含于一個前推映射中,該映射可以變換從后驗分布中抽取的獨立同分布隨機向量樣本。我們利用多元分位數(shù)中的蒙日-坎托羅維奇深度,直接從貝葉斯可信集中抽樣,這是典型后驗抽樣方法不具備的獨特功能。為優(yōu)化分位數(shù)映射的訓(xùn)練,我們設(shè)計了一個能自動執(zhí)行概要統(tǒng)計量提取的神經(jīng)網(wǎng)絡(luò)。這種額外的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)帶來了性能優(yōu)勢,包括支持收縮(即我們的后驗近似會隨著觀測樣本量的增加而收縮)。我們在幾個示例中展示了本方法的實用性,這些示例因缺乏似然函數(shù)而使得經(jīng)典MCMC方法不可行。最后,我們?yōu)樵摲治粩?shù)學(xué)習(xí)框架提供了如下頻率派理論依據(jù):估計的向量分位數(shù)、恢復(fù)的后驗分布以及相應(yīng)的貝葉斯可信集的一致性。
1 引言
本研究的目的是為似然函數(shù)僅能通過模擬獲取的隱式模型,開發(fā)一種從貝葉斯后驗分布中抽樣的生成式方法。我們提出了一種基于分位數(shù)學(xué)習(xí)的新方法,作為對現(xiàn)有對抗性抽樣方法(Wang and Ro?ková, 2022)的替代。在貝葉斯領(lǐng)域之外,分位數(shù)學(xué)習(xí)已在廣泛的實踐應(yīng)用中證明其價值,尤其適用于目標分布呈現(xiàn)出偏斜、厚尾特征,或尾部行為是主要關(guān)注點的場景(Yu 等人, 2003)。近期,統(tǒng)計學(xué)界內(nèi)部對于將分位數(shù)學(xué)習(xí)應(yīng)用于生成式建模的興趣日益增長,這包括了貝葉斯視角(Polson 和 Sokolov, 2023)和頻率派視角(Wang 等人, 2024)的研究。我們的工作將此關(guān)注點從一維拓展到了多維領(lǐng)域。
定義一個多元分位數(shù)具有挑戰(zhàn)性,因為從均勻分布到目標多元分布的映射并不唯一。此外,盡管分位數(shù)函數(shù)的單調(diào)性在單變量情況下可以得到保證,但這一性質(zhì)無法自動推廣到多元情境。這些模糊性可以通過僅考慮那些作為凸勢函數(shù)梯度的映射來得到解決(Carlier 等人, 2016)。
遵循 Wang 和 Ro?ková (2022) 的方法,我們通過在由似然模擬器(即前向采樣器)和先驗?zāi)M器生成的模擬數(shù)據(jù)上訓(xùn)練我們的采樣器,從而避免了對 MCMC 的需求。然而,我們采用了一種直接學(xué)習(xí)分位數(shù)映射的不同路徑。
![]()
相反,我們的目標是計算均勻分布與給定 X X 時 θ θ 的條件分布之間的 2-Wasserstein 距離,這自然地產(chǎn)生了一個可用于后驗抽樣的傳輸映射。這種方法不同于 Wang 和 Ro?ková (2022),他們是通過迭代估計并最小化這個 Wasserstein 距離來實現(xiàn)的(更詳細的比較請參見附錄 A)。
本文的一個特定貢獻是將概要統(tǒng)計量納入到后驗分位數(shù)映射中。受“噪聲外包引理”的啟發(fā),這一關(guān)鍵的技術(shù)擴展不僅使得學(xué)習(xí)凸勢函數(shù)具有可行性,而且使得一系列分位數(shù)學(xué)習(xí)方法能獲得理論上的收斂性保證。摘要統(tǒng)計量學(xué)習(xí)這一關(guān)鍵步驟已在文獻中被廣泛研究。例如,長短期記憶網(wǎng)絡(luò)(LSTM, Hochreiter (1997))處理相關(guān)觀測,適用于數(shù)據(jù)點順序至關(guān)重要的情況。同時,深度集合神經(jīng)網(wǎng)絡(luò)(下文簡稱 DeepSet, Zaheer 等人 (2017))專為表示可交換數(shù)據(jù)的摘要統(tǒng)計量而設(shè)計。我們的方法整合了這兩種架構(gòu)以增強摘要統(tǒng)計量的學(xué)習(xí)。
由于真實后驗會隨著樣本量增加而收縮,一致的置信集合也應(yīng)隨著 n n的增加而縮小,這一現(xiàn)象我們稱之為支撐收縮。我們通過實驗證明,應(yīng)用 DeepSet 的我們的方法展現(xiàn)了支撐收縮。此外,在真實后驗已知的模擬研究中,即使維度 n n很高,我們方法得到的置信集合也接近于真實集合,這與我們的理論發(fā)現(xiàn)一致。雖然 Jiang 等人 (2017) 也利用深度學(xué)習(xí)進行自動摘要統(tǒng)計量學(xué)習(xí),但他們的方法與 Polson 和 Sokolov (2023) 更為接近,因為他們明確地應(yīng)用監(jiān)督學(xué)習(xí),在給定 X i
時預(yù)測 θ i
。
我們的方法學(xué)習(xí)從一個球面均勻分布出發(fā)的前推映射。因此,任意水平 τ ∈ ( 0 , 1 ) 的可信集,可以通過將此映射應(yīng)用于半徑為 τ τ的內(nèi)球來獲得。與傳統(tǒng)的貝葉斯后驗抽樣方法(如MCMC或ABC)需從后驗抽取中間接抽樣不同,我們的方法無需重抽樣。可信集的形式定義依賴于數(shù)據(jù)深度(Hallin等人,2021)這一概念。我們選擇的是蒙日-坎托羅維奇深度(Chernozhukov等人,2017),它可以看作是向量分位數(shù)的一個副產(chǎn)品,在分位數(shù)空間中可解釋為一個勢函數(shù)。其等勢面扮演著分位數(shù)等高線的角色,可等價地視為可信集。
文獻中已有眾多研究探索了深度分位數(shù)回歸的理論。White (1992) 使用篩法建立了基于單隱層前饋網(wǎng)絡(luò)的非參數(shù)條件分位數(shù)估計器的一致性。Padilla 等人 (2022) 證明了最小化分位數(shù)損失的條件分位數(shù)估計的一致性結(jié)果。我們基于 Chernozhukov 等人 (2017) 提出的一個更通用的框架,并證明了估計的向量分位數(shù)的漸近一致性。我們還證明了恢復(fù)的后驗分位數(shù)在 2-Wasserstein 距離的意義上收斂于真實后驗。
我們的貢獻可以總結(jié)如下:
我們使用兩種策略將 Polson 和 Sokolov (2023) 的方法從一維參數(shù) θ 擴展到 d 維。第一種簡單策略利用聯(lián)合分布 π ( θ ∣ X ) 的鏈式法則表示,學(xué)習(xí) d 個單變量采樣器。給定 θ 中變量的一個特定排序,我們通過將先前參數(shù)(從先前的單變量后驗采樣器模擬得到)加入序列中下一個參數(shù)的訓(xùn)練數(shù)據(jù)表中,來順序地學(xué)習(xí)這些采樣器(參見第 D 節(jié))。接下來,我們?yōu)樯墒截惾~斯開發(fā)我們的分位數(shù)學(xué)習(xí)方法。
作為副產(chǎn)品,我們的多元分位數(shù)學(xué)習(xí)方法使得能夠直接從多元貝葉斯可信集進行模擬。可信集是貝葉斯推斷的基礎(chǔ),我們可以直接針對它們進行模擬,而無需施加任何嚴格的幾何結(jié)構(gòu)(若使用 MCMC 或 ABC 方法則需施加結(jié)構(gòu))。然后,采樣點的凸包提供了可信集的估計。
并非所有深度學(xué)習(xí)架構(gòu)在生成式建模中都具有同等效用。我們設(shè)計了一種特定的網(wǎng)絡(luò),用于自動學(xué)習(xí)摘要統(tǒng)計量,能夠同時處理不斷增加的觀測數(shù)量以及它們之間的依賴關(guān)系。使用這種方法,我們觀察到估計的可信集會隨著樣本量的增加而收縮,我們稱此現(xiàn)象為支撐收縮。如果可信集正收斂于基于真實后驗的真實集合,那么支撐收縮是一個必然的標志。
我們?yōu)槲覀兊亩嘣治粩?shù)學(xué)習(xí)方法以及 Polson 和 Sokolov (2023) 的初始方法提供了頻率學(xué)派理論。現(xiàn)有的關(guān)于單變量分位數(shù)學(xué)習(xí)的理論結(jié)果無法直接推廣到多變量情況;我們的工作填補了這一空白。
具體而言,我們證明,當 N → ∞
時:
(1) 估計的向量分位數(shù)函數(shù)實現(xiàn)了一致性,
(2) 恢復(fù)的后驗分布在 2-Wasserstein 距離的意義上一致收斂于真實后驗,以及
(3) 貝葉斯可信集收斂于真實集。
這些通用的理論結(jié)果適用于所有基于前饋神經(jīng)網(wǎng)絡(luò)、利用摘要統(tǒng)計量學(xué)習(xí)凸勢函數(shù)的分位數(shù)學(xué)習(xí)方法。
本文后續(xù)內(nèi)容安排如下。第 2 節(jié)回顧多維分位數(shù)學(xué)習(xí)的最新進展。第 3 節(jié)介紹我們的生成式分位數(shù)方法。第 4 節(jié)的理論研究證明了估計的向量分位數(shù)以及從中恢復(fù)的后驗分布的一致性。我們在第 5 節(jié)中探究所提方法的實證性能。最后,在第 6 節(jié)對全文進行總結(jié)。
2 多元分位數(shù)學(xué)習(xí)
分位數(shù)學(xué)習(xí)在統(tǒng)計學(xué)中已有悠久的文獻歷史。關(guān)于一維分位數(shù)學(xué)習(xí)的簡要回顧將在附錄 B.1 節(jié)(補充材料)中提供。由于在中不存在明顯的“排序”概念,因此將分位數(shù)、符號和秩等概念從單變量情形擴展到多元設(shè)定也并非易事。關(guān)于多元分位數(shù)各種概念的全面討論,我們參考 Hallin (2022)。我們的工作基于最近發(fā)展起來的最優(yōu)傳輸視角之一。
2.1 用于分位數(shù)學(xué)習(xí)的最優(yōu)傳輸
![]()
![]()
![]()
![]()
![]()
3 生成式貝葉斯計算
在本節(jié)中,我們拓展了 Carlier 等人 (2016)的條件向量分位數(shù),以采用摘要統(tǒng)計量進行貝葉斯分位數(shù)學(xué)習(xí)。然后,介紹我們的深度生成式貝葉斯算法與實現(xiàn),以及可信集的計算。
3.1 生成式貝葉斯的向量分位數(shù)
![]()
![]()
同樣值得指出的是,引入任意形式的摘要統(tǒng)計量 f ( X ) 是對 Carlier 等人 (2017) 原始方法的一種改進,后者用 X X本身代替 f ( X ) 。該方法依賴于一個假設(shè),即勢函數(shù)
![]()
這是 (3.2) 式一個可行的拓展,因為存在多種摘要統(tǒng)計量,通常是一個在某種變換下不可數(shù)的類。更重要的是,假設(shè) 1在我們的方法論中扮演核心角色,不應(yīng)簡單視為僅僅是 (3.2) 式的技術(shù)性推廣。學(xué)習(xí)勢函數(shù) ψ ( u , x ) 的目標被拆分為兩個子任務(wù):學(xué)習(xí)摘要統(tǒng)計量 f ( x ) 以及擬合凸的函數(shù)系數(shù) φ ( u )
和 b ( u )
。這為一類具有理論保證的分位數(shù)學(xué)習(xí)方法敞開了大門,并成為了我們所提算法的基石。
3.2 深度生成式分位數(shù)貝葉斯
![]()
為了訓(xùn)練函數(shù) φ、b 和 f,我們對以下目標函數(shù)進行優(yōu)化:
![]()
![]()
在我們的實現(xiàn)中,我們使用 Adam 優(yōu)化器及其默認的超參數(shù)設(shè)置,學(xué)習(xí)率為 0.01。在每個周期(每 100 次迭代),我們將學(xué)習(xí)率乘以 0.99 進行衰減。
3.3 摘要統(tǒng)計量的自動學(xué)習(xí)
![]()
我們通過 DeepSet 和 LSTM 設(shè)計 f ( ? )
的方式,有潛力擴展到其他基于深度學(xué)習(xí)的貝葉斯方法,包括 Wang 和 Ro?ková (2022)以及 Kim 和 Rockova (2023)。當使用標準的全連接神經(jīng)網(wǎng)絡(luò)時,網(wǎng)絡(luò)規(guī)模(需要優(yōu)化的網(wǎng)絡(luò)參數(shù)量)會隨著輸入維度的增加而擴大,這對于較大的 n n來說是不現(xiàn)實的。深度集合的設(shè)計也被用于神經(jīng)估計器,例如,在極值分析(Sainsbury-Dale 等人,2024)和空間數(shù)據(jù)分析(Richards 等人,2023)中。
3.4 可信集計算
生成式分位數(shù)后驗學(xué)習(xí)使得我們能夠直接從多元后驗可信集中采樣。現(xiàn)有的采樣器(如 MCMC 和 ABC 方法)需要先對集合的幾何形狀做出假定(例如橢球體),然后基于選定的度量使用后驗抽取樣本來計算這些集合。相反,我們的方法不對幾何結(jié)構(gòu)施加任何特定的限制,并且能夠自動學(xué)習(xí)可信集的形狀。
正如 Chernozhukov 等人 (2017) 和 Hallin 等人 (2021) 所提出的,向量分位數(shù)定義了數(shù)據(jù)深度,由此我們可以推導(dǎo)出深度區(qū)域(最深集合)和分位數(shù)等高線。那么,概率為 τ τ的深度區(qū)域就可以用作概率為 τ τ的可信集。得益于 MK 深度的這些理想特性,我們將在第 4 節(jié)中看到,我們的方法是漸近有效的,即這些可信集會收斂于由真實底層后驗推導(dǎo)出的理想集合。
4 理論研究
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
一個重要的說明與支撐收縮相關(guān)。隨著觀測數(shù)量 n n的增加,真實的底層后驗會發(fā)生收縮,從而導(dǎo)致真實集合的收縮。如果我們目前所做的所有假設(shè)都得到滿足,那么推論 4 意味著貝葉斯可信集應(yīng)該以與真實集合相似的方式收縮。違反這些假設(shè)可能是許多先前方法未能觀察到支撐收縮的原因,這也是可信集未收斂于真實集的一個跡象。
本節(jié)的理論分析并非專門針對第 3 節(jié)中的方法,而是更為通用。作為對第 3.1 節(jié)討論的補充,我們希望強調(diào),假設(shè) 1 的動機源于引理 1,即噪聲外包引理。在更廣泛的層面上,只要這些方法能夠同時學(xué)習(xí)摘要統(tǒng)計量 f ( X )
以及凸函數(shù) φ ( u )
和 b ( u ) ,并且滿足技術(shù)條件,那么由該假設(shè)所支持的廣泛分位數(shù)學(xué)習(xí)方法在理論上都可以是一致的。
5 數(shù)值研究 5.1 高斯共軛模擬
![]()
這里,我們使用 DeepSet 特征提取器,針對少數(shù)選定的 X = x
值來增加 n n。通過 DeepSet 特征網(wǎng)絡(luò)(順序不變網(wǎng)絡(luò)設(shè)計),我們可以看到我們的方法能夠適應(yīng)不斷增加的 n n值。我們在圖 2(第二行)中強調(diào),當 x x相對靠近原點時,隨著 n n的增加,可以清晰地觀察到支撐收縮(即估計的后驗等高線集收縮)。在此圖中,我們還可以看到使用 DeepSet 的效果,并與沒有特征提取器( f ( x ) = x
)或使用非充分統(tǒng)計量( f ( x ) = x
的情況進行了比較。在附錄的 E 節(jié)中,我們提供了更多實驗細節(jié)、與 B-GAN (Wang 和 Ro?ková, 2022) 以及自回歸方法的比較,以及當 n = 2 時網(wǎng)絡(luò)選擇的影響。
![]()
5.2 Brock Hommes 模型
Brock 和 Hommes (1998) 開發(fā)了一個基于智能體的模型來模擬人工股票市場上的資產(chǎn)交易,捕捉了遵循不同交易策略的異質(zhì)交易者之間的互動。Brock 和 Hommes 模型是最基礎(chǔ)的基于智能體的經(jīng)濟模型之一,因其簡潔性而被廣泛使用,同時有效融入了異質(zhì)智能體。最近,Platt (2020) 應(yīng)用該模型來評估基于智能體的經(jīng)濟模型的校準。模型如下:
![]()
![]()
![]()
在附錄的 G 節(jié)中,我們還展示了與其他方法的比較,例如標準 ABC(拒絕式 ABC)和序貫蒙特卡洛 ABC(SMC-ABC, Sisson 等人 (2007)),這些比較顯示了我們的方法在樣本質(zhì)量和計算時間方面的競爭力。
6 結(jié)論
本文通過分位數(shù)學(xué)習(xí),開發(fā)了一種從多元參數(shù)后驗分布中進行隱式抽樣的方法。該方法能夠適應(yīng)(可能具有依賴關(guān)系的)觀測數(shù)量的變化,并表現(xiàn)出支撐收縮,即后驗近似隨樣本量 n n的增加而收縮。此外,我們提供了一種無需強加嚴格幾何結(jié)構(gòu)即可估計后驗近似(包括后驗可信集)輪廓的工具。對于使用更傳統(tǒng)的抽樣方法(如 MCMC 或 ABC)來構(gòu)建多元可信集,這種幾何結(jié)構(gòu)是必需的。然而,必須指出,我們的方法與 ABC 和 MCMC 方法有根本的不同。一旦我們的后驗生成器訓(xùn)練完成,它就可以應(yīng)用于任何數(shù)據(jù)集的實現(xiàn),而無需重新訓(xùn)練。相比之下,MCMC 和 ABC 都必須為每個新數(shù)據(jù)集重新運行,這在實踐中顯著增加了它們的計算負擔。這種可重用性使得我們的方法在需要高效分析多個數(shù)據(jù)集的情景中尤其具有優(yōu)勢。
我們的工作重點關(guān)注似然函數(shù)難以處理且參數(shù)空間為連續(xù)低維的模型。將這項工作擴展到離散參數(shù)空間將是有趣的。當前訓(xùn)練數(shù)據(jù)并非針對特定觀測數(shù)據(jù) 定制。這可以通過構(gòu)建一個包含與更相似的樣本的數(shù)據(jù)集來改進,例如采用 O’Hagan 等人 (2024) 的方法,該方法為訓(xùn)練觀測值分配重要性權(quán)重,然后將這些權(quán)重納入學(xué)習(xí)準則中。
原文:https://proceedings.mlr.press/v258/kim25d.html
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.