深度生成分位數(shù)貝葉斯

2026-02-11 23:27:56　來源: CreateAMind

上海舉報

分享至

深度生成分位數(shù)貝葉斯

Deep Generative Quantile Bayes

https://proceedings.mlr.press/v258/kim25d.html

摘要
我們通過深度生成式分位數(shù)學(xué)習(xí)，開發(fā)了一種多元后驗抽樣方法。其抽樣過程隱含于一個前推映射中，該映射可以變換從后驗分布中抽取的獨立同分布隨機向量樣本。我們利用多元分位數(shù)中的蒙日-坎托羅維奇深度，直接從貝葉斯可信集中抽樣，這是典型后驗抽樣方法不具備的獨特功能。為優(yōu)化分位數(shù)映射的訓(xùn)練，我們設(shè)計了一個能自動執(zhí)行概要統(tǒng)計量提取的神經(jīng)網(wǎng)絡(luò)。這種額外的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)帶來了性能優(yōu)勢，包括支持收縮（即我們的后驗近似會隨著觀測樣本量的增加而收縮）。我們在幾個示例中展示了本方法的實用性，這些示例因缺乏似然函數(shù)而使得經(jīng)典MCMC方法不可行。最后，我們?yōu)樵摲治粩?shù)學(xué)習(xí)框架提供了如下頻率派理論依據(jù)：估計的向量分位數(shù)、恢復(fù)的后驗分布以及相應(yīng)的貝葉斯可信集的一致性。

1 引言

本研究的目的是為似然函數(shù)僅能通過模擬獲取的隱式模型，開發(fā)一種從貝葉斯后驗分布中抽樣的生成式方法。我們提出了一種基于分位數(shù)學(xué)習(xí)的新方法，作為對現(xiàn)有對抗性抽樣方法（Wang and Ro?ková, 2022）的替代。在貝葉斯領(lǐng)域之外，分位數(shù)學(xué)習(xí)已在廣泛的實踐應(yīng)用中證明其價值，尤其適用于目標分布呈現(xiàn)出偏斜、厚尾特征，或尾部行為是主要關(guān)注點的場景（Yu 等人, 2003）。近期，統(tǒng)計學(xué)界內(nèi)部對于將分位數(shù)學(xué)習(xí)應(yīng)用于生成式建模的興趣日益增長，這包括了貝葉斯視角（Polson 和 Sokolov, 2023）和頻率派視角（Wang 等人, 2024）的研究。我們的工作將此關(guān)注點從一維拓展到了多維領(lǐng)域。

定義一個多元分位數(shù)具有挑戰(zhàn)性，因為從均勻分布到目標多元分布的映射并不唯一。此外，盡管分位數(shù)函數(shù)的單調(diào)性在單變量情況下可以得到保證，但這一性質(zhì)無法自動推廣到多元情境。這些模糊性可以通過僅考慮那些作為凸勢函數(shù)梯度的映射來得到解決（Carlier 等人, 2016）。

遵循 Wang 和 Ro?ková (2022) 的方法，我們通過在由似然模擬器（即前向采樣器）和先驗?zāi)M器生成的模擬數(shù)據(jù)上訓(xùn)練我們的采樣器，從而避免了對 MCMC 的需求。然而，我們采用了一種直接學(xué)習(xí)分位數(shù)映射的不同路徑。

相反，我們的目標是計算均勻分布與給定 X X 時 θ θ 的條件分布之間的 2-Wasserstein 距離，這自然地產(chǎn)生了一個可用于后驗抽樣的傳輸映射。這種方法不同于 Wang 和 Ro?ková (2022)，他們是通過迭代估計并最小化這個 Wasserstein 距離來實現(xiàn)的（更詳細的比較請參見附錄 A）。

本文的一個特定貢獻是將概要統(tǒng)計量納入到后驗分位數(shù)映射中。受“噪聲外包引理”的啟發(fā)，這一關(guān)鍵的技術(shù)擴展不僅使得學(xué)習(xí)凸勢函數(shù)具有可行性，而且使得一系列分位數(shù)學(xué)習(xí)方法能獲得理論上的收斂性保證。摘要統(tǒng)計量學(xué)習(xí)這一關(guān)鍵步驟已在文獻中被廣泛研究。例如，長短期記憶網(wǎng)絡(luò)（LSTM, Hochreiter (1997)）處理相關(guān)觀測，適用于數(shù)據(jù)點順序至關(guān)重要的情況。同時，深度集合神經(jīng)網(wǎng)絡(luò)（下文簡稱 DeepSet, Zaheer 等人 (2017)）專為表示可交換數(shù)據(jù)的摘要統(tǒng)計量而設(shè)計。我們的方法整合了這兩種架構(gòu)以增強摘要統(tǒng)計量的學(xué)習(xí)。

由于真實后驗會隨著樣本量增加而收縮，一致的置信集合也應(yīng)隨著 n n的增加而縮小，這一現(xiàn)象我們稱之為支撐收縮。我們通過實驗證明，應(yīng)用 DeepSet 的我們的方法展現(xiàn)了支撐收縮。此外，在真實后驗已知的模擬研究中，即使維度 n n很高，我們方法得到的置信集合也接近于真實集合，這與我們的理論發(fā)現(xiàn)一致。雖然 Jiang 等人 (2017) 也利用深度學(xué)習(xí)進行自動摘要統(tǒng)計量學(xué)習(xí)，但他們的方法與 Polson 和 Sokolov (2023) 更為接近，因為他們明確地應(yīng)用監(jiān)督學(xué)習(xí)，在給定 X i
時預(yù)測 θ i
。

我們的方法學(xué)習(xí)從一個球面均勻分布出發(fā)的前推映射。因此，任意水平 τ ∈ ( 0 , 1 ) 的可信集，可以通過將此映射應(yīng)用于半徑為 τ τ的內(nèi)球來獲得。與傳統(tǒng)的貝葉斯后驗抽樣方法（如MCMC或ABC）需從后驗抽取中間接抽樣不同，我們的方法無需重抽樣。可信集的形式定義依賴于數(shù)據(jù)深度（Hallin等人，2021）這一概念。我們選擇的是蒙日-坎托羅維奇深度（Chernozhukov等人，2017），它可以看作是向量分位數(shù)的一個副產(chǎn)品，在分位數(shù)空間中可解釋為一個勢函數(shù)。其等勢面扮演著分位數(shù)等高線的角色，可等價地視為可信集。

文獻中已有眾多研究探索了深度分位數(shù)回歸的理論。White (1992) 使用篩法建立了基于單隱層前饋網(wǎng)絡(luò)的非參數(shù)條件分位數(shù)估計器的一致性。Padilla 等人 (2022) 證明了最小化分位數(shù)損失的條件分位數(shù)估計的一致性結(jié)果。我們基于 Chernozhukov 等人 (2017) 提出的一個更通用的框架，并證明了估計的向量分位數(shù)的漸近一致性。我們還證明了恢復(fù)的后驗分位數(shù)在 2-Wasserstein 距離的意義上收斂于真實后驗。

我們的貢獻可以總結(jié)如下：

我們使用兩種策略將 Polson 和 Sokolov (2023) 的方法從一維參數(shù) θ 擴展到 d 維。第一種簡單策略利用聯(lián)合分布 π ( θ ∣ X ) 的鏈式法則表示，學(xué)習(xí) d 個單變量采樣器。給定 θ 中變量的一個特定排序，我們通過將先前參數(shù)（從先前的單變量后驗采樣器模擬得到）加入序列中下一個參數(shù)的訓(xùn)練數(shù)據(jù)表中，來順序地學(xué)習(xí)這些采樣器（參見第 D 節(jié)）。接下來，我們?yōu)樯墒截惾~斯開發(fā)我們的分位數(shù)學(xué)習(xí)方法。
作為副產(chǎn)品，我們的多元分位數(shù)學(xué)習(xí)方法使得能夠直接從多元貝葉斯可信集進行模擬。可信集是貝葉斯推斷的基礎(chǔ)，我們可以直接針對它們進行模擬，而無需施加任何嚴格的幾何結(jié)構(gòu)（若使用 MCMC 或 ABC 方法則需施加結(jié)構(gòu)）。然后，采樣點的凸包提供了可信集的估計。
并非所有深度學(xué)習(xí)架構(gòu)在生成式建模中都具有同等效用。我們設(shè)計了一種特定的網(wǎng)絡(luò)，用于自動學(xué)習(xí)摘要統(tǒng)計量，能夠同時處理不斷增加的觀測數(shù)量以及它們之間的依賴關(guān)系。使用這種方法，我們觀察到估計的可信集會隨著樣本量的增加而收縮，我們稱此現(xiàn)象為支撐收縮。如果可信集正收斂于基于真實后驗的真實集合，那么支撐收縮是一個必然的標志。
我們?yōu)槲覀兊亩嘣治粩?shù)學(xué)習(xí)方法以及 Polson 和 Sokolov (2023) 的初始方法提供了頻率學(xué)派理論。現(xiàn)有的關(guān)于單變量分位數(shù)學(xué)習(xí)的理論結(jié)果無法直接推廣到多變量情況；我們的工作填補了這一空白。

具體而言，我們證明，當 N → ∞
時：
(1) 估計的向量分位數(shù)函數(shù)實現(xiàn)了一致性，
(2) 恢復(fù)的后驗分布在 2-Wasserstein 距離的意義上一致收斂于真實后驗，以及
(3) 貝葉斯可信集收斂于真實集。
這些通用的理論結(jié)果適用于所有基于前饋神經(jīng)網(wǎng)絡(luò)、利用摘要統(tǒng)計量學(xué)習(xí)凸勢函數(shù)的分位數(shù)學(xué)習(xí)方法。

本文后續(xù)內(nèi)容安排如下。第 2 節(jié)回顧多維分位數(shù)學(xué)習(xí)的最新進展。第 3 節(jié)介紹我們的生成式分位數(shù)方法。第 4 節(jié)的理論研究證明了估計的向量分位數(shù)以及從中恢復(fù)的后驗分布的一致性。我們在第 5 節(jié)中探究所提方法的實證性能。最后，在第 6 節(jié)對全文進行總結(jié)。

2 多元分位數(shù)學(xué)習(xí)

分位數(shù)學(xué)習(xí)在統(tǒng)計學(xué)中已有悠久的文獻歷史。關(guān)于一維分位數(shù)學(xué)習(xí)的簡要回顧將在附錄 B.1 節(jié)（補充材料）中提供。由于在中不存在明顯的“排序”概念，因此將分位數(shù)、符號和秩等概念從單變量情形擴展到多元設(shè)定也并非易事。關(guān)于多元分位數(shù)各種概念的全面討論，我們參考 Hallin (2022)。我們的工作基于最近發(fā)展起來的最優(yōu)傳輸視角之一。

2.1 用于分位數(shù)學(xué)習(xí)的最優(yōu)傳輸

3 生成式貝葉斯計算

在本節(jié)中，我們拓展了 Carlier 等人 (2016)的條件向量分位數(shù)，以采用摘要統(tǒng)計量進行貝葉斯分位數(shù)學(xué)習(xí)。然后，介紹我們的深度生成式貝葉斯算法與實現(xiàn)，以及可信集的計算。

3.1 生成式貝葉斯的向量分位數(shù)

同樣值得指出的是，引入任意形式的摘要統(tǒng)計量 f ( X ) 是對 Carlier 等人 (2017) 原始方法的一種改進，后者用 X X本身代替 f ( X ) 。該方法依賴于一個假設(shè)，即勢函數(shù)

這是 (3.2) 式一個可行的拓展，因為存在多種摘要統(tǒng)計量，通常是一個在某種變換下不可數(shù)的類。更重要的是，假設(shè) 1在我們的方法論中扮演核心角色，不應(yīng)簡單視為僅僅是 (3.2) 式的技術(shù)性推廣。學(xué)習(xí)勢函數(shù) ψ ( u , x ) 的目標被拆分為兩個子任務(wù)：學(xué)習(xí)摘要統(tǒng)計量 f ( x ) 以及擬合凸的函數(shù)系數(shù) φ ( u )
和 b ( u )
。這為一類具有理論保證的分位數(shù)學(xué)習(xí)方法敞開了大門，并成為了我們所提算法的基石。

3.2 深度生成式分位數(shù)貝葉斯

為了訓(xùn)練函數(shù) φ、b 和 f，我們對以下目標函數(shù)進行優(yōu)化：

在我們的實現(xiàn)中，我們使用 Adam 優(yōu)化器及其默認的超參數(shù)設(shè)置，學(xué)習(xí)率為 0.01。在每個周期（每 100 次迭代），我們將學(xué)習(xí)率乘以 0.99 進行衰減。

3.3 摘要統(tǒng)計量的自動學(xué)習(xí)

我們通過 DeepSet 和 LSTM 設(shè)計 f ( ? )
的方式，有潛力擴展到其他基于深度學(xué)習(xí)的貝葉斯方法，包括 Wang 和 Ro?ková (2022)以及 Kim 和 Rockova (2023)。當使用標準的全連接神經(jīng)網(wǎng)絡(luò)時，網(wǎng)絡(luò)規(guī)模（需要優(yōu)化的網(wǎng)絡(luò)參數(shù)量）會隨著輸入維度的增加而擴大，這對于較大的 n n來說是不現(xiàn)實的。深度集合的設(shè)計也被用于神經(jīng)估計器，例如，在極值分析（Sainsbury-Dale 等人，2024）和空間數(shù)據(jù)分析（Richards 等人，2023）中。

3.4 可信集計算

生成式分位數(shù)后驗學(xué)習(xí)使得我們能夠直接從多元后驗可信集中采樣。現(xiàn)有的采樣器（如 MCMC 和 ABC 方法）需要先對集合的幾何形狀做出假定（例如橢球體），然后基于選定的度量使用后驗抽取樣本來計算這些集合。相反，我們的方法不對幾何結(jié)構(gòu)施加任何特定的限制，并且能夠自動學(xué)習(xí)可信集的形狀。

正如 Chernozhukov 等人 (2017) 和 Hallin 等人 (2021) 所提出的，向量分位數(shù)定義了數(shù)據(jù)深度，由此我們可以推導(dǎo)出深度區(qū)域（最深集合）和分位數(shù)等高線。那么，概率為 τ τ的深度區(qū)域就可以用作概率為 τ τ的可信集。得益于 MK 深度的這些理想特性，我們將在第 4 節(jié)中看到，我們的方法是漸近有效的，即這些可信集會收斂于由真實底層后驗推導(dǎo)出的理想集合。

4 理論研究

一個重要的說明與支撐收縮相關(guān)。隨著觀測數(shù)量 n n的增加，真實的底層后驗會發(fā)生收縮，從而導(dǎo)致真實集合的收縮。如果我們目前所做的所有假設(shè)都得到滿足，那么推論 4 意味著貝葉斯可信集應(yīng)該以與真實集合相似的方式收縮。違反這些假設(shè)可能是許多先前方法未能觀察到支撐收縮的原因，這也是可信集未收斂于真實集的一個跡象。

本節(jié)的理論分析并非專門針對第 3 節(jié)中的方法，而是更為通用。作為對第 3.1 節(jié)討論的補充，我們希望強調(diào)，假設(shè) 1 的動機源于引理 1，即噪聲外包引理。在更廣泛的層面上，只要這些方法能夠同時學(xué)習(xí)摘要統(tǒng)計量 f ( X )
以及凸函數(shù) φ ( u )
和 b ( u ) ，并且滿足技術(shù)條件，那么由該假設(shè)所支持的廣泛分位數(shù)學(xué)習(xí)方法在理論上都可以是一致的。

5 數(shù)值研究 5.1 高斯共軛模擬

這里，我們使用 DeepSet 特征提取器，針對少數(shù)選定的 X = x
值來增加 n n。通過 DeepSet 特征網(wǎng)絡(luò)（順序不變網(wǎng)絡(luò)設(shè)計），我們可以看到我們的方法能夠適應(yīng)不斷增加的 n n值。我們在圖 2（第二行）中強調(diào)，當 x x相對靠近原點時，隨著 n n的增加，可以清晰地觀察到支撐收縮（即估計的后驗等高線集收縮）。在此圖中，我們還可以看到使用 DeepSet 的效果，并與沒有特征提取器（ f ( x ) = x
）或使用非充分統(tǒng)計量（ f ( x ) = x
的情況進行了比較。在附錄的 E 節(jié)中，我們提供了更多實驗細節(jié)、與 B-GAN (Wang 和 Ro?ková, 2022) 以及自回歸方法的比較，以及當 n = 2 時網(wǎng)絡(luò)選擇的影響。

5.2 Brock Hommes 模型

Brock 和 Hommes (1998) 開發(fā)了一個基于智能體的模型來模擬人工股票市場上的資產(chǎn)交易，捕捉了遵循不同交易策略的異質(zhì)交易者之間的互動。Brock 和 Hommes 模型是最基礎(chǔ)的基于智能體的經(jīng)濟模型之一，因其簡潔性而被廣泛使用，同時有效融入了異質(zhì)智能體。最近，Platt (2020) 應(yīng)用該模型來評估基于智能體的經(jīng)濟模型的校準。模型如下：

在附錄的 G 節(jié)中，我們還展示了與其他方法的比較，例如標準 ABC（拒絕式 ABC）和序貫蒙特卡洛 ABC（SMC-ABC, Sisson 等人 (2007)），這些比較顯示了我們的方法在樣本質(zhì)量和計算時間方面的競爭力。

6 結(jié)論

本文通過分位數(shù)學(xué)習(xí)，開發(fā)了一種從多元參數(shù)后驗分布中進行隱式抽樣的方法。該方法能夠適應(yīng)（可能具有依賴關(guān)系的）觀測數(shù)量的變化，并表現(xiàn)出支撐收縮，即后驗近似隨樣本量 n n的增加而收縮。此外，我們提供了一種無需強加嚴格幾何結(jié)構(gòu)即可估計后驗近似（包括后驗可信集）輪廓的工具。對于使用更傳統(tǒng)的抽樣方法（如 MCMC 或 ABC）來構(gòu)建多元可信集，這種幾何結(jié)構(gòu)是必需的。然而，必須指出，我們的方法與 ABC 和 MCMC 方法有根本的不同。一旦我們的后驗生成器訓(xùn)練完成，它就可以應(yīng)用于任何數(shù)據(jù)集的實現(xiàn)，而無需重新訓(xùn)練。相比之下，MCMC 和 ABC 都必須為每個新數(shù)據(jù)集重新運行，這在實踐中顯著增加了它們的計算負擔。這種可重用性使得我們的方法在需要高效分析多個數(shù)據(jù)集的情景中尤其具有優(yōu)勢。

我們的工作重點關(guān)注似然函數(shù)難以處理且參數(shù)空間為連續(xù)低維的模型。將這項工作擴展到離散參數(shù)空間將是有趣的。當前訓(xùn)練數(shù)據(jù)并非針對特定觀測數(shù)據(jù) 定制。這可以通過構(gòu)建一個包含與更相似的樣本的數(shù)據(jù)集來改進，例如采用 O’Hagan 等人 (2024) 的方法，該方法為訓(xùn)練觀測值分配重要性權(quán)重，然后將這些權(quán)重納入學(xué)習(xí)準則中。

原文：https://proceedings.mlr.press/v258/kim25d.html

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.