網易首頁 > 網易號 > 正文申請入駐

非參數分布匹配的免似然自適應貝葉斯推斷方法

2026-02-08 09:07:35　來源: CreateAMind

上海舉報

分享至

非參數分布匹配的免似然自適應貝葉斯推斷方法

Likelihood-Free Adaptive Bayesian Inference via Nonparametric Distribution Matching

https://arxiv.org/pdf/2505.04603

摘要

當似然函數在解析上不可得且計算上難以處理時，近似貝葉斯計算 (ABC) 已成為一種廣泛使用的近似后驗推斷方法；然而，在高維設置或擴散先驗下，它存在嚴重的計算效率低下問題。為了克服這些限制，我們提出了自適應貝葉斯推斷框架。該框架繞過了傳統的數據空間差異度量，轉而通過在后驗空間內進行非參數分布匹配來直接比較分布。通過利用一種新穎的針對后驗測度的邊際增強切片Wasserstein距離并挖掘其分位數表示，ABI 將衡量后驗分布間差異的難題轉化為一系列易于處理的一維條件分位數回歸任務。此外，我們引入了一種新的自適應拒絕抽樣方案，該方案通過生成式密度估計更新提議分布，從而迭代地精化后驗近似。在理論上，我們建立了修剪后 MSW 距離的參數化收斂速率，并證明當容差閾值趨近于零時，ABI 后驗收斂于真實后驗。通過廣泛的實證評估，我們證明 ABI 顯著優于基于數據的 Wasserstein ABC、基于摘要統計量的 ABC 以及最先進的免似然模擬器，尤其是在高維或觀測數據存在依賴關系的場景中。

關鍵詞：近似貝葉斯計算；免似然推斷；基于模擬器的推斷；條件分位數回歸；非參數分布匹配；自適應拒絕抽樣；生成式建模；Wasserstein 距離

1 引言

貝葉斯建模在自然科學與工程學科中被廣泛使用。它使研究人員能夠通過前向抽樣技術輕松構建任意復雜的概率模型，同時通過融入先驗知識來穩定病態問題。然而，在許多場景中，似然函數可能難以評估或完全無法獲取（Zeng 等人，2019；Chiachío-Ruano 等人，2021），這導致基于馬爾可夫鏈的算法——如 Metropolis-Hastings 及更廣泛的馬爾可夫鏈蒙特卡洛方法——不再適用于后驗推斷。當模型參數的精確后驗推斷不可行時，近似貝葉斯計算 (ABC) 成為一種引人注目的方法（Tavaré，2018）。由于其最少的建模假設和易于實現的特點，ABC 在多個貝葉斯領域廣受歡迎，包括免似然推斷（Markram 等人，2015；Alsing 等人，2018）、貝葉斯反問題（Chatterjee 等人，2021）以及基于模擬器的隨機系統后驗估計（Wood，2010）。ABC 通過一個基于拒絕的過程生成一組具有高后驗密度的參數：它為不同的參數抽取模擬生成虛假數據集，并僅保留那些產生的數據與觀測值足夠相似的參數。

然而，當數據維度較高或先驗分布對觀測數據信息量不足時，ABC 變得極其低效，通常需要大量拒絕才能保留一個樣本。事實上，引理 B.1 和 B.2 表明，保留一個樣本所需的期望模擬次數會隨著數據維度的增加而呈指數級增長。為了提高計算效率，研究人員常采用低維摘要統計量，并在摘要統計量空間中進行拒絕抽樣（Fearnhead 和 Prangle，2012）。然而，Pitman-Koopman-Darmois 定理規定，低維充分統計量僅存在于指數族中。因此，實際問題通常需要大量判斷來選擇適當的摘要統計量，且通常以問題特定的方式進行（Wood，2010；Marin 等人，2012）。此外，使用可能非充分的摘要統計量來評估差異，可能導致 ABC 近似雖然有用，但相對于原始后驗分布會造成信息的系統性損失。例如，Fearnhead 和 Prangle (2011) 以及 Jiang 等人 (2017) 提出了一種采用后驗均值近似作為摘要統計量的半自動方法；然而，該方法僅確保一階精度。

由此，本次討論引出了兩個基本問題：什么構成了信息量充分的摘要統計量集合？以及，什么是衡量數據集間差異的適當度量？為解決上述問題，我們提出了自適應貝葉斯推斷框架，它通過分布匹配直接比較后驗分布，并通過拒絕抽樣自適應地精化估計的后驗。ABI 的核心在于，它繞過基于觀測的比較，而是選擇那些由合成數據誘導出的后驗與目標后驗緊密對齊的參數，這一過程我們稱之為非參數分布匹配。為此，ABI 通過利用 Wasserstein 距離與條件分位數回歸之間的聯系，在后驗空間而非觀測空間中學習一個差異度量，從而將任務轉化為一個易于處理的監督學習問題。然后，ABI 在連續迭代中同時精化后驗估計和近似后驗差異。

從摘要統計量框架來看，我們提出的方法提供了一種原則性方法來計算一個與模型無關的一維核統計量。從差異度量框架來看，我們的方法近似了后驗空間上的一個積分概率度量，從而繞過了基于數據的 IPM 評估的局限性，如樣本量小和觀測值之間的依賴性。

貢獻我們的工作主要有三點貢獻。首先，我們引入了一種新穎的積分概率度量——邊際增強切片Wasserstein距離，它定義在后驗概率測度空間上。然后，我們將 ABI 近似后驗刻畫為通過以那些誘導出的后驗落在目標后驗的預設 MSW 容差范圍內的數據集為條件而獲得的參數分布。傳統方法依賴于經驗數據分布上的積分概率度量，而我們的基于后驗的差異度量即使在觀測樣本量 n n小、樣本依賴結構復雜以及參數不可識別的情況下也能保持穩健。我們進一步論證，考慮軸對齊的邊際分布有助于提高基于均勻切片的 Wasserstein 距離的投影效率。其次，我們證明了后驗 MSW 距離可以通過條件分位數回歸來準確估計，這是通過利用單變量 Wasserstein 距離與分位數差異之間的等價性實現的。這一新穎的洞見將傳統上在后驗空間中操作的挑戰性任務簡化為一個監督分布回歸任務，我們使用深度神經網絡高效地解決了該任務。同一公式自然地適應了多維參數，并通過拒絕抽樣實現了便捷的順序精化。第三，我們提出了一種順序版本的拒絕-ABC 方法，據我們所知，這是第一個非基于蒙特卡洛的順序 ABC。文獻中現有的順序精化方法通常依賴于自適應重要性抽樣技術，例如序貫蒙特卡洛（Del Moral 等人，2012；Bonassi 和 West，2015）和群體蒙特卡洛（Beaumont 等人，2009）。這些方法，特別是其基本實現，通常受限于從先驗樣本中得出的經驗分布的支撐集。

盡管更先進的變體理論上可以通過新生步驟和 MCMC 移動探索超出這一初始支撐集的區域，但它們仍需謹慎選擇轉移核和輔助反向轉移核（Del Moral 等人，2012）。相比之下，ABI 通過拒絕抽樣迭代地精化后驗分布：它使用來自前一步驟的生成式后驗近似（通過生成模型學習得到，請注意不要與免似然設置中的原始模擬器混淆）來更新提議分布。基于生成模型的后驗推斷方法利用神經網絡的表達能力來捕捉復雜的概率結構，而無需顯式的分布設定。這一生成式學習階段使 ABI 能夠超越經驗參數分布的受限支撐集，并且消除了對顯式先驗密度評估的需求（與 Papamakarios 和 Murray (2016) 不同），從而適應先驗分布本身可能也難以處理的情況。

我們刻畫了 MSW 距離的拓撲和統計行為，確立了其參數化收斂速率及其在后驗測度空間上的連續性。我們的證明采用了一種新穎的基于鞅的論證方法，訴諸 Doob 定理，這為現有的基于勒貝格微分定理（Barber 等人，2015）的證明提供了一種替代技術。這一新技術對于研究其他順序算法的收斂性可能具有獨立的理論意義。然后我們證明，當容差閾值趨近于零時（觀測數據固定），ABI 后驗依分布收斂于真實后驗。最后，我們推導了近似拒絕抽樣過程引起的偏差的有限樣本界。通過全面的實證實驗，我們證明 ABI 相比基于數據的 Wasserstein ABC 以及幾種最新的、最先進的免似然后驗模擬器，實現了極具競爭力的性能。

1.1 近似貝葉斯計算

我們首先簡要回顧經典的近似貝葉斯計算。給定閾值 ? > 0 ，以及摘要統計量 s ( ? )
上的一個距離度量 D ( ? , ? )
，經典 ABC 從以下近似后驗中生成樣本：

關于在 ABC 中使用充分統計量時的收斂速率和偏差-成本權衡的結果，參見 Barber 等人 (2015)，他們通過勒貝格微分定理建立了 ABC 后驗期望的一致性。

1.2 切片 Wasserstein 距離

1.3 條件分位數回歸

1.4 生成式密度估計

1.5 文章結構與相關文獻

論文組織本文剩余部分結構如下。第 2 節介紹 ABI 框架及其算法組成。第 3 節建立所提出的 MSW 距離的經驗收斂速率，刻畫其拓撲性質，并證明當容差閾值趨近于零時，ABI 后驗收斂于目標后驗。第 4 節通過廣泛的實證評估展示了 ABI 的有效性。最后，第 5 節總結全文并概述未來的研究方向。技術結果的證明和額外的模擬細節見附錄。

2 自適應貝葉斯推斷

在本節中，我們介紹所提出的自適應貝葉斯推斷方法。ABI 的基本思想是通過直接在后驗空間中操作，以超越基于觀測的比較。具體來說，我們將目標后驗近似為：

利用這一等價關系，我們的核心洞見在于：通過在后驗測度上應用一個分布度量，將無限維的后驗映射“壓縮”成一個一維核統計量——從而保留其本質的幾何結構，這在概念上類似于“核技巧”。我們通過新穎的邊際增強切片 Wasserstein 距離來具體實現這一想法。MSW 距離保留了邊際結構并緩解了維度災難，當 p = 1 時可以達到參數化收斂速率（見第 3.4 節）。此外，MSW 與經典的 Wasserstein 距離拓撲等價，保留了其幾何性質，例如能度量弱收斂。

2.1.2 通過深度條件分位數回歸估計修整后 MSW 距離

為了緩解 Wasserstein 距離和切片 Wasserstein 距離對重尾眾所周知的敏感性，我們采用了一種穩健的、修整后的 MSW 距離變體，這是在 Alvarez-Esteban 等人 (2008) 和 Manole 等人 (2022) 工作的基礎上進行的擴展。為了為我們的多元推廣奠定基礎，我們首先回顧一維情形下修整 Wasserstein 距離的定義。對于單變量概率測度 μ μ和 ν ν，以及修整參數 δ ∈ [ 0 , 1 / 2 ) ， δ δ-修整 W p
距離定義為：

休整后的 MSW 距離由兩個組成部分構成：切片 Wasserstein 項（通過對單位球面上的隨機投影捕捉聯合交互作用）和邊際增強項（用于衡量沿坐標軸的分布差異）。加入邊際項增強了 MSW 距離對每個坐標軸上差異的敏感性，彌補了標準 SW 投影由于從均勻隨機采樣的非信息方向而導致的效率低下問題。此外，由于 SW 距離是通過蒙特卡洛近似的，因此明確考慮坐標方向的邊際分布尤為重要，因為這些邊際分布直接決定了相應的后驗可信區間。納入軸對齊邊際分布的價值在最近的研究中也得到了強調（Moala 和 O'Hagan，2010；Drovandi 等人，2024；Chatterjee 等人，2025；Lu 等人，2025）。為簡潔起見，除非另有說明，在本節后續部分中，我們將修整后的 MSW 距離簡稱為 MSW 距離。

定義 2.3 (MSW 距離的分位數表示)。定義 2.2 中定義的修整后 MSW 距離可以等價地用分位數表示為：

基于定義 2.3，我們將后驗比較重新表述為給定 X = x 時 θ 的條件分位數回歸問題。具體而言，MSW 距離是依據分布的一維投影來構建的，以利用單變量 Wasserstein 距離評估可用的閉式表達式。通過用 K 個蒙特卡洛采樣的方向近似球面積分，計算 MSW 距離因此簡化為擬合一系列條件分位數回歸，每個回歸對應一個不同的單維投影。

總的來說，本節中的內容構成了我們所提方法中非參數分布匹配部分的核心。分布匹配的相應算法過程總結在算法 3 中。

原文鏈接：https://arxiv.org/pdf/2505.04603

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.