模型誤設(shè)下的模擬貝葉斯推理
Simulation-based Bayesian inference under model misspecification
https://arxiv.org/pdf/2503.12315
![]()
![]()
摘要
基于模擬的貝葉斯推斷(Simulation-based Bayesian inference, SBI)方法廣泛用于復(fù)雜模型中的參數(shù)估計(jì),這類模型的特點(diǎn)是似然函數(shù)難以計(jì)算,但生成模擬數(shù)據(jù)相對(duì)容易。然而,這些方法通常假設(shè)模擬模型能準(zhǔn)確反映真實(shí)的數(shù)據(jù)生成過(guò)程,而這一假設(shè)在現(xiàn)實(shí)場(chǎng)景中常常被違背。本文聚焦于模型誤設(shè)情形下SBI方法所面臨的挑戰(zhàn)。我們整合了近期旨在緩解誤設(shè)影響的研究,重點(diǎn)介紹了三種關(guān)鍵策略:i) 魯棒性匯總統(tǒng)計(jì)量,ii) 廣義貝葉斯推斷,以及 iii) 誤差建模與調(diào)整參數(shù)。為說(shuō)明主流SBI方法在模型誤設(shè)下的脆弱性,以及對(duì)誤設(shè)具有魯棒性的替代方法的有效性,我們?cè)谝粋€(gè)示例問(wèn)題上展示了實(shí)證結(jié)果。
關(guān)鍵詞:近似貝葉斯計(jì)算,條件密度估計(jì),無(wú)似然推斷,模型誤設(shè),神經(jīng)網(wǎng)絡(luò),基于模擬的推斷,合成似然
1 引言
標(biāo)準(zhǔn)貝葉斯方法依賴于從參數(shù)化統(tǒng)計(jì)模型導(dǎo)出的顯式定義的似然函數(shù)。然而,在許多現(xiàn)實(shí)應(yīng)用中,直接計(jì)算該似然函數(shù)在計(jì)算上可能代價(jià)高昂,或在解析上不可行。在此類情形下,可通過(guò)直接指定數(shù)據(jù)生成過(guò)程(DGP)來(lái)使用隱式統(tǒng)計(jì)模型(Diggle and Gratton, 1984)。
基于模擬的貝葉斯推斷(SBI)方法通過(guò)隱式統(tǒng)計(jì)模型的模擬來(lái)近似后驗(yàn)分布。近似貝葉斯計(jì)算(ABC)方法在候選參數(shù)值下生成模擬數(shù)據(jù)集,然后計(jì)算觀測(cè)數(shù)據(jù)與模擬數(shù)據(jù)之間的差異——通常通過(guò)低維匯總統(tǒng)計(jì)量來(lái)定義(Tavaré et al., 1997; Martin et al., 2024; Sisson et al., 2018)。另一種歷史悠久的方法是間接推斷(indirect inference),它基于觀測(cè)數(shù)據(jù)的間接或輔助匯總量來(lái)估計(jì)統(tǒng)計(jì)模型的參數(shù)(Gourieroux et al., 1993)。一種相關(guān)且流行的 SBI 技術(shù)是貝葉斯合成似然(BSL)(Price et al., 2018; Wood, 2010),它建立在間接推斷基礎(chǔ)上,假設(shè)這些匯總統(tǒng)計(jì)量服從(條件)多元正態(tài)分布。最近,機(jī)器學(xué)習(xí)技術(shù),尤其是神經(jīng)條件密度估計(jì)器(NCDEs),為近似似然函數(shù)、后驗(yàn)分布和似然比提供了強(qiáng)大工具(Cranmer et al., 2020)。
在復(fù)雜應(yīng)用中,小規(guī)模的污染或未建模現(xiàn)象使得詳盡指定 DGP 的每一個(gè)細(xì)節(jié)變得不切實(shí)際,尤其在面對(duì)大規(guī)模數(shù)據(jù)集時(shí)(Miller and Dunson, 2019)。盡管實(shí)踐者意識(shí)到模擬與現(xiàn)實(shí)之間存在差距,但推斷通常仍以模型被完美設(shè)定為前提進(jìn)行。當(dāng)真實(shí)分布位于所考慮模型集合之外(即 P ? ? P
)時(shí),這一假設(shè)常被違背,這被稱為 M-open 情形;相比之下,M-closed 情形則指 P ? ∈ P
(Bernardo and Smith, 2009; Le and Clarke, 2017; Yao et al., 2018)。
針對(duì)模型誤設(shè)的魯棒方法的主要目標(biāo)是:即使在 M-open 情形下,也能提供可靠且有用的推斷。我們采用 Huber 和 Ronchetti(2009)的經(jīng)典定義來(lái)界定魯棒性:對(duì)假設(shè)模型的微小偏離僅應(yīng)導(dǎo)致推斷結(jié)果的微小變化。這確保了假設(shè)模型與真實(shí)分布之間的適度偏差不會(huì)不成比例地影響我們的結(jié)論。
模型誤設(shè)在 SBI 中構(gòu)成一項(xiàng)重大挑戰(zhàn),會(huì)導(dǎo)致經(jīng)驗(yàn)上觀察到的不可靠推斷(Cannon et al., 2022;Schmitt et al., 2024),并違背通常的理論假設(shè),因而需要專門處理(Legramanti et al., 2025;Marin et al., 2014;Frazier et al., 2020)。盡管近期在統(tǒng)計(jì)學(xué)(Bharti et al., 2022;Dellaporta et al., 2022;Frazier and Drovandi, 2021)和機(jī)器學(xué)習(xí)(Huang et al., 2023;Kelly et al., 2024;Ward et al., 2022)等多個(gè)領(lǐng)域已涌現(xiàn)出大量關(guān)于 SBI 中模型誤設(shè)魯棒方法的研究,但尚無(wú)綜合性工作將這些成果統(tǒng)一整合。本文對(duì) SBI 框架下模型誤設(shè)相關(guān)研究進(jìn)行了全面回顧與綜合。我們描述了模型誤設(shè)情形下 SBI 所面臨的問(wèn)題,探討了各類 SBI 方法如何受此問(wèn)題影響,并匯總了近期提升這些方法魯棒性的策略。通過(guò)這一工作,我們旨在厘清分散的文獻(xiàn),為實(shí)際應(yīng)用提供實(shí)用洞見(jiàn),并勾勒未來(lái)研究的可行方向。
在第 2 節(jié)中,我們考察了三種主要的 SBI 方法——近似貝葉斯計(jì)算(ABC)、貝葉斯合成似然(BSL)和神經(jīng)條件密度估計(jì)(NCDE)——并描述和演示了每種方法如何易受模型誤設(shè)的影響。在第 3 節(jié)中,我們將近期方法歸類為三類應(yīng)對(duì) SBI 中模型誤設(shè)的魯棒策略:魯棒性匯總統(tǒng)計(jì)量、廣義貝葉斯推斷,以及誤差建模與調(diào)整參數(shù)。隨后,我們?cè)诘?4 節(jié)通過(guò)一個(gè)貫穿全文的示例展示這些策略的應(yīng)用。最后,在第 5 節(jié)中,我們進(jìn)行總結(jié)討論,并展望 SBI 中模型誤設(shè)問(wèn)題的未來(lái)研究方向。
2 SBI 與模型誤設(shè)
在本節(jié)中,我們首先介紹貝葉斯推斷所需的背景知識(shí),包括對(duì)模型誤設(shè)的一般性討論。隨后,我們概述基于模擬的推斷(SBI),重點(diǎn)介紹三種關(guān)鍵方法:近似貝葉斯計(jì)算(ABC)、貝葉斯合成似然(BSL)和神經(jīng)條件密度估計(jì)(NCDE)。接著,我們?cè)?SBI 框架下考察模型誤設(shè)問(wèn)題,側(cè)重于理論層面的洞見(jiàn)。最后,我們通過(guò)一個(gè)示例——一個(gè)誤設(shè)的 MA(1) 模型——來(lái)演示標(biāo)準(zhǔn) SBI 方法如何因模型誤設(shè)而受到不利影響。
2.1 貝葉斯推斷預(yù)備知識(shí)
貝葉斯推斷通過(guò)利用觀測(cè)數(shù)據(jù)更新我們對(duì)模型參數(shù)的初始信念,從而量化參數(shù)的不確定性。對(duì)于數(shù)據(jù) y y 和模型參數(shù) θ θ,貝葉斯推斷的目標(biāo)是后驗(yàn)分布(posterior distribution):
![]()
在貝葉斯推斷中,模型誤設(shè)可能源于兩個(gè)相互關(guān)聯(lián)的組成部分:數(shù)據(jù)生成過(guò)程(DGP)和先驗(yàn)分布。盡管本文聚焦于 DGP 的誤設(shè),但另一種形式的誤設(shè)出現(xiàn)在先驗(yàn)與似然所包含的信息相互沖突時(shí),即使 DGP 被正確設(shè)定,這種沖突仍可能導(dǎo)致不良推斷(Evans and Moshonov, 2006)。關(guān)于在無(wú)似然推斷中如何檢驗(yàn)先驗(yàn)-數(shù)據(jù)沖突的討論,參見(jiàn) Chakraborty et al. (2023a)。
與其追求一個(gè)完美“真實(shí)”的模型——這在實(shí)踐中往往無(wú)法實(shí)現(xiàn)——我們將模型構(gòu)建視為一個(gè)迭代過(guò)程。我們從更簡(jiǎn)單的模型出發(fā),僅當(dāng)增加復(fù)雜性能帶來(lái)更清晰的洞見(jiàn)或更好的擬合時(shí)才引入復(fù)雜性,遵循 George Box 的名言:“所有模型都是錯(cuò)的,但有些是有用的”(Box, 1976, 1980)。這一理念構(gòu)成了原則性貝葉斯工作流的基礎(chǔ)(Betancourt, 2020;Gabry et al., 2019;Gelman et al., 2020;Schad et al., 2021),該工作流包括模型構(gòu)建、推斷、模型檢驗(yàn)、評(píng)估與擴(kuò)展。通過(guò)計(jì)算驗(yàn)證和模型評(píng)估技術(shù)來(lái)評(píng)估模型擬合情況是該工作流的關(guān)鍵環(huán)節(jié),有助于識(shí)別潛在的誤設(shè)。例如,后驗(yàn)預(yù)測(cè)檢查(posterior predictive checks)用于評(píng)估模型能否復(fù)現(xiàn)觀測(cè)數(shù)據(jù)的關(guān)鍵特征(Gelman and Shalizi, 2013)。當(dāng)檢查表明擬合不佳時(shí),建模者可通過(guò)修訂先驗(yàn)、納入更多數(shù)據(jù)、重新審視關(guān)鍵假設(shè)或擴(kuò)展模型結(jié)構(gòu)等方式改進(jìn)模型。然而,不加區(qū)分地增加模型復(fù)雜度可能會(huì)掩蓋洞見(jiàn),并阻礙有意義的科學(xué)推斷(McElreath, 2018;Miller and Dunson, 2019)。原則上,貝葉斯框架可通過(guò)奧卡姆剃刀原則——即通過(guò)模型證據(jù)(model evidence)——協(xié)調(diào)模型復(fù)雜度與數(shù)據(jù)擬合(參見(jiàn) MacKay, 2003, 第28章),但在 SBI 中,由于僅有不充分的匯總統(tǒng)計(jì)量可用,這一方法會(huì)變得有問(wèn)題(Robert et al., 2011;Marin et al., 2014)。
在 M-closed 情形下,貝葉斯方法(配合恰當(dāng)?shù)南闰?yàn)和充足的計(jì)算能力)被證明是諸如決策(Savage, 1954)和信息處理(Zellner, 1988)等任務(wù)中唯一最優(yōu)的方法。此外,它具有“一致性”(consistency),即隨著數(shù)據(jù)量增加,后驗(yàn)分布會(huì)集中于真實(shí)參數(shù)值。
相比之下,在 M-open 情形下,在正則條件下,標(biāo)準(zhǔn)貝葉斯推斷將集中于偽真參數(shù)(pseudo-true parameter),
![]()
![]()
2.2 SBI 背景知識(shí)
我們關(guān)注的情形是:似然函數(shù)不可用或難以處理,但我們可以方便地從模型中生成模擬數(shù)據(jù)。本文聚焦于近似貝葉斯計(jì)算(ABC)、貝葉斯合成似然(BSL)和神經(jīng)條件密度估計(jì)器(NCDE),因?yàn)?SBI 中關(guān)于模型誤設(shè)的研究主要基于這些方法。盡管如此,也存在其他策略,例如非神經(jīng)網(wǎng)絡(luò)的條件密度估計(jì)器(Forbes et al., 2022;H?ggstr?m et al., 2024)以及密度比估計(jì)(Hermans et al., 2020;Thomas et al., 2022)。此外,頻率學(xué)派方法(Cranmer et al., 2016;Dalmasso et al., 2024;Warne et al., 2023)提供了另一種視角,但本綜述仍專注于貝葉斯方法。
![]()
![]()
![]()
盡管有這些改進(jìn),所有 ABC 方法在處理高維匯總統(tǒng)計(jì)量時(shí)仍面臨“維度災(zāi)難”(curse of dimensionality)的挑戰(zhàn)(Barber et al., 2015;Csilléry et al., 2012)。隨著維度增加,要么需要放寬對(duì)“接近性”的容差,從而導(dǎo)致更大的近似誤差;要么接受的模擬數(shù)量減少,為了維持給定數(shù)量的后驗(yàn)樣本,就必須進(jìn)行更多次模擬,進(jìn)而大幅增加計(jì)算成本。
2.2.2 貝葉斯合成似然(Bayesian Synthetic Likelihood, BSL)
與 ABC 依賴差異函數(shù)比較模擬數(shù)據(jù)與觀測(cè)數(shù)據(jù)不同,BSL 使用參數(shù)化估計(jì)器來(lái)近似不可處理的似然函數(shù)。合成似然方法最早由 Wood(2010)提出,他采用多元正態(tài)分布來(lái)近似匯總統(tǒng)計(jì)量的似然。當(dāng)匯總統(tǒng)計(jì)量是大量獨(dú)立隨機(jī)變量的和或均值時(shí),中心極限定理可為該正態(tài)性假設(shè)提供理論依據(jù)。
Price 等人(2018)將合成似然納入貝葉斯框架,從而發(fā)展出 BSL。在標(biāo)準(zhǔn) BSL 中,合成似然函數(shù)定義為:
![]()
![]()
2.2.3 神經(jīng)條件密度估計(jì)(Neural Conditional Density Estimation, NCDE)
NCDE 類方法通過(guò)神經(jīng)網(wǎng)絡(luò)從模型模擬中學(xué)習(xí)目標(biāo)條件密度的代理模型,從而逼近 SBI 中不可計(jì)算的條件密度。這類方法因能有效處理高維數(shù)據(jù)與參數(shù)而廣受歡迎。這與傳統(tǒng)密度估計(jì)方法(如核密度估計(jì),KDE)形成對(duì)比——后者受“維度災(zāi)難”困擾,在高維情形下變得不切實(shí)際(Rosenblatt, 1956;Parzen, 1962)。
![]()
最常見(jiàn)的情形是,NCDE 方法直接以目標(biāo)后驗(yàn)分布為擬合對(duì)象。當(dāng)神經(jīng)網(wǎng)絡(luò)用于此目的時(shí),該方法被稱為神經(jīng)后驗(yàn)估計(jì)(Neural Posterior Estimation, NPE)(Papamakarios and Murray, 2016;Lueckmann et al., 2017;Greenberg et al., 2019)。其目標(biāo)是學(xué)習(xí)一個(gè)神經(jīng)網(wǎng)絡(luò)近似
,使其最小化前向 KL 散度,即:
![]()
![]()
![]()
若 amortised 方法收效甚微,或無(wú)法從先驗(yàn)預(yù)測(cè)性模擬中高效學(xué)習(xí)到準(zhǔn)確的 NCDE,則可采用分輪次運(yùn)行模擬的序貫采樣方案(Papamakarios and Murray, 2016)。該策略旨在針對(duì)感興趣的區(qū)域生成更多模擬,以提升推斷效率與精度。當(dāng)應(yīng)用于 NPE 時(shí),此方法稱為序貫神經(jīng)后驗(yàn)估計(jì)(Sequential Neural Posterior Estimation, SNPE)。另一種聚焦于感興趣區(qū)域的策略是:先通過(guò) ABC 方法生成一個(gè)更貼近觀測(cè)數(shù)據(jù)的訓(xùn)練數(shù)據(jù)集(即“預(yù)條件化 NPE”,pre-conditioned NPE),如 Wang et al. (2024b) 所提出。
![]()
類似地,高斯過(guò)程(GP)代理模型已被用于 ABC 中,以高效建模模擬數(shù)據(jù)與觀測(cè)數(shù)據(jù)之間的差異,并近似合成似然。例如,無(wú)似然推斷的貝葉斯優(yōu)化(BOLFI)(Gutmann and Corander, 2016)利用 GP 建模差異函數(shù),引導(dǎo)模擬朝向參數(shù)空間中信息更豐富的區(qū)域,并顯著減少所需模擬次數(shù)。進(jìn)一步的研究將貝葉斯優(yōu)化與不確定性下的決策制定相結(jié)合,以實(shí)現(xiàn)準(zhǔn)確、高效的后驗(yàn)估計(jì)(J?rvenp?? et al., 2019, 2021;Oliveira et al., 2021)。
2.3 SBI 中的模型誤設(shè)
![]()
ABC 通過(guò)絕對(duì)差異比較觀測(cè)與模擬匯總統(tǒng)計(jì)量。在模型誤設(shè)下,F(xiàn)razier 等(2020)已證明 ABC 后驗(yàn)會(huì)集中于偽真參數(shù)
![]()
因此,ABC 的偽真參數(shù)既取決于匯總統(tǒng)計(jì)量的選擇,也取決于差異函數(shù) d ( ? , ? )
,凸顯了審慎選擇這些組件的重要性。盡管精確復(fù)現(xiàn)完整數(shù)據(jù)集可能不可行,但采用魯棒性匯總統(tǒng)計(jì)量有助于實(shí)現(xiàn)兼容性。類似地,選擇魯棒性差異度量也可能提升模型在誤設(shè)下的收斂表現(xiàn)(見(jiàn)第 3.1 節(jié))。
雖然 ABC 在誤設(shè)下表現(xiàn)出一定魯棒性(因其收斂于偽真參數(shù)——無(wú)論該參數(shù)是否實(shí)用),但它通常無(wú)法提供有效的頻率覆蓋(frequentist coverage)。此局限并非 ABC 獨(dú)有:標(biāo)準(zhǔn)貝葉斯推斷在誤設(shè)下同樣可能無(wú)法實(shí)現(xiàn)名義覆蓋(Kleijn and Vaart, 2012)。此外,與標(biāo)準(zhǔn) Bernstein–von Mises 情形不同,誤設(shè)下 ABC 后驗(yàn)的極限分布未必為高斯型(Frazier et al., 2020)。進(jìn)一步地,常見(jiàn)的后處理調(diào)整(如局部回歸)在模型誤設(shè)時(shí)可能惡化推斷,使后驗(yàn)偏離偽真參數(shù)(Beaumont et al., 2002)。
![]()
相比之下,ABC 與 BSL 已受益于對(duì)其誤設(shè)行為的嚴(yán)謹(jǐn)理論分析,而 NCDE 方法目前尚缺乏同等水平的理論清晰性。近期理論工作(Frazier et al., 2024a)在兼容性假設(shè)(即模型正確設(shè)定)下提供了洞見(jiàn),但針對(duì)誤設(shè)情形的研究仍屬空白。盡管如此,實(shí)證研究表明模型誤設(shè)可能對(duì) NCDE 方法產(chǎn)生不利影響(Cannon et al., 2022;Schmitt et al., 2024)。直觀而言,這是由于神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)所見(jiàn)的數(shù)據(jù)分布(來(lái)自假設(shè)模擬器)與測(cè)試時(shí)需泛化的分布(真實(shí)觀測(cè)數(shù)據(jù))不同,從而引發(fā)分布外(out-of-distribution, OOD)泛化問(wèn)題——這在深度學(xué)習(xí)中是一個(gè)核心關(guān)切(Hendrycks et al., 2021;Hendrycks and Gimpel, 2022;Yang et al., 2022)。例如,常用于神經(jīng) SBI 的歸一化流模型已被證實(shí)難以應(yīng)對(duì) OOD 數(shù)據(jù)(Kirichenko et al., 2020)。在標(biāo)準(zhǔn)深度學(xué)習(xí)中,通常通過(guò)測(cè)試/驗(yàn)證集(來(lái)自真實(shí)數(shù)據(jù))評(píng)估模型泛化能力,以增強(qiáng)對(duì)未見(jiàn)真實(shí)數(shù)據(jù)適用性的信心;然而在 SBI 中,驗(yàn)證損失僅反映模型在假設(shè)模擬器生成數(shù)據(jù)上的性能,無(wú)法保證其在與假設(shè)模型顯著不同的真實(shí)觀測(cè)數(shù)據(jù)上表現(xiàn)良好。
診斷模型誤設(shè)對(duì)基于 ABC 的方法的可靠結(jié)果獲取及模型改進(jìn)至關(guān)重要。Frazier 等(2020)提出了兩種 ABC 診斷工具:其一檢驗(yàn)接受概率隨容差衰減的情況——線性偏離提示誤設(shè);其二比較不同 ABC 算法所得后驗(yàn)期望,不一致則暗示模型問(wèn)題。類似地,Gutmann 等(2018)將分類準(zhǔn)確率引入 ABC,將推斷問(wèn)題建模為模擬數(shù)據(jù)與觀測(cè)數(shù)據(jù)間的二分類任務(wù);高分類準(zhǔn)確率表明模型難以復(fù)現(xiàn)觀測(cè)數(shù)據(jù),提示潛在誤設(shè)。
基于匯總統(tǒng)計(jì)量的后驗(yàn)預(yù)測(cè)檢驗(yàn)在 SBI 中被廣泛采用(Bertorelle et al., 2010;Wang et al., 2024a)。通過(guò)從后驗(yàn)預(yù)測(cè)分布生成數(shù)據(jù),并將其匯總統(tǒng)計(jì)量與觀測(cè)數(shù)據(jù)的匯總統(tǒng)計(jì)量比較,可評(píng)估模型對(duì)實(shí)際觀測(cè)的復(fù)現(xiàn)能力。若后驗(yàn)預(yù)測(cè)區(qū)間無(wú)法覆蓋大部分觀測(cè)數(shù)據(jù),則提示模型誤設(shè)或推斷性能不佳0。此外,Chakraborty 等(2023a)將先驗(yàn)-數(shù)據(jù)沖突檢驗(yàn)拓展至 SBI 框架,有助于識(shí)別先驗(yàn)與觀測(cè)數(shù)據(jù)之間的不一致性。
多種擬合優(yōu)度檢驗(yàn)已被提出用于評(píng)估 SBI 中的模型設(shè)定。Dalmasso 等(2020)提出一個(gè)結(jié)合固定參數(shù)下局部雙樣本檢驗(yàn)與全局?jǐn)M合優(yōu)度檢驗(yàn)的框架,用于檢測(cè)代理模型中的誤設(shè)。Ramírez-Hassan 與 Frazier(2024)提出一種檢驗(yàn)統(tǒng)計(jì)量,在零假設(shè) ε ? = 0
(即式 (2) 定義的兼容性)下漸近服從卡方分布,從而支持對(duì)模型誤設(shè)的假設(shè)檢驗(yàn)。Schmitt 等(2024)則采用最大均值差異(MMD)度量觀測(cè)與模擬數(shù)據(jù)分布間的差異,并基于模擬估計(jì)的臨界 MMD 值實(shí)施假設(shè)檢驗(yàn)。
2.4 示例:誤設(shè)的 MA(1) 模型
我們以 Frazier 和 Drovandi(2021)所提出的一階移動(dòng)平均(MA(1))誤設(shè)模型作為貫穿全文的示例。我們的目標(biāo)是在該玩具示例上演示 ABC、BSL 和 NCDE 如何對(duì)模型誤設(shè)作出不同的響應(yīng)。我們將在第 4 節(jié)再次回到此示例,展示第 3 節(jié)所述的魯棒方法如何用于獲得理想的推斷結(jié)果。
在此誤設(shè)示例中,我們所假設(shè)的數(shù)據(jù)生成過(guò)程(DGP)是一個(gè) MA(1) 模型:
![]()
![]()
![]()
![]()
當(dāng)然,在實(shí)踐中,對(duì)于如此簡(jiǎn)單的例子,人們通常會(huì)進(jìn)一步探究以構(gòu)建更精確的 DGP。我們采用此例純粹出于教學(xué)目的:旨在說(shuō)明——即使在 DGPs 根本不同的誤設(shè)情形下,后驗(yàn)仍可能集中于一個(gè)在當(dāng)前情境下具有合理解釋的參數(shù)值;同時(shí)展示建模者可用于迭代改進(jìn)模型的若干相關(guān)診斷工具。
作為現(xiàn)實(shí)類比,“2018 年 Volmageddon 事件”提供了一個(gè)典型案例:因隨機(jī)波動(dòng)率模型誤設(shè),與波動(dòng)率掛鉤的金融產(chǎn)品遭遇災(zāi)難性損失(Augustin et al., 2021)。這一失敗凸顯了誤設(shè)波動(dòng)率假設(shè)的嚴(yán)重風(fēng)險(xiǎn)。Cannon 等(2022)對(duì) Volmageddon 進(jìn)行了模擬復(fù)現(xiàn),發(fā)現(xiàn)常用 SBI 方法均產(chǎn)生較差的推斷結(jié)果。
在此簡(jiǎn)單示例中,我們可觀察到三類主要 SBI 方法對(duì)模型誤設(shè)的不同響應(yīng):
![]()
![]()
![]()
![]()
3 SBI 的魯棒方法
我們歸納出文獻(xiàn)中用于實(shí)現(xiàn)模型誤設(shè)下魯棒推斷的三類主要策略:第一,可通過(guò)謹(jǐn)慎選擇魯棒性匯總統(tǒng)計(jì)量,緩解對(duì)完整、復(fù)雜數(shù)據(jù)的依賴,從而減輕模型誤設(shè)的影響;第二,可采用廣義貝葉斯推斷,其中魯棒推斷通過(guò)使用替代性損失函數(shù)實(shí)現(xiàn)——特別地,SBI 可在 GBI 框架下實(shí)施,利用基于樣本的魯棒損失函數(shù);第三,可通過(guò)直接建模觀測(cè)與模擬匯總統(tǒng)計(jì)量之間的差異,并引入調(diào)整參數(shù),以應(yīng)對(duì)數(shù)據(jù)不匹配問(wèn)題。
3.1 魯棒匯總統(tǒng)計(jì)量
當(dāng)使用匯總統(tǒng)計(jì)量而非完整數(shù)據(jù)集進(jìn)行推斷時(shí),模型誤設(shè)體現(xiàn)為無(wú)法復(fù)現(xiàn)觀測(cè)匯總統(tǒng)計(jì)量,而非無(wú)法復(fù)現(xiàn)全部觀測(cè)數(shù)據(jù)。通過(guò)將數(shù)據(jù)映射至一組經(jīng)審慎篩選的魯棒匯總統(tǒng)計(jì)量0,我們可聚焦于對(duì)推斷目標(biāo)關(guān)鍵的特征,同時(shí)抑制可能引發(fā)誤設(shè)的復(fù)雜噪聲或無(wú)關(guān)特征0。匯總統(tǒng)計(jì)量的構(gòu)建在 SBI 中已獲大量關(guān)注(參見(jiàn) Sisson 等,2018,第5章),但本文聚焦于如何構(gòu)造對(duì)模型誤設(shè)魯棒的匯總統(tǒng)計(jì)量0。
遵循原則性貝葉斯工作流(Betancourt, 2020),我們區(qū)分“相關(guān)”與“無(wú)關(guān)”的模型誤設(shè):不嘗試精確匹配真實(shí) DGP,而是集中于提取對(duì)分析目標(biāo)相關(guān)、并忽略數(shù)據(jù)采集或處理中產(chǎn)生的無(wú)關(guān)偽影等無(wú)關(guān)特征。在 SBI 中,我們的目標(biāo)是通過(guò)匯總統(tǒng)計(jì)量捕獲相關(guān)特征。理想情況下,所構(gòu)建的匯總統(tǒng)計(jì)量應(yīng)具備魯棒性——即使存在對(duì)模型假設(shè)的微小偏離,估計(jì)仍保持可靠。一個(gè)常見(jiàn)例子是中位數(shù):因其高截?cái)帱c(diǎn)(breakdown point),它能承受顯著污染而不致估計(jì)退化0。
![]()
盡管基于匯總統(tǒng)計(jì)量的推斷常被視為必要之惡——因犧牲信息換取計(jì)算效率——但若丟失的信息屬于無(wú)關(guān)特征,則使用匯總統(tǒng)計(jì)量反而可能提升魯棒性。
由 Lewis 等(2021)提出的貝葉斯受限似然方法(Bayesian restricted likelihood approach)將數(shù)據(jù)映射至一組對(duì)特定數(shù)據(jù)特征魯棒、但對(duì)不良擾動(dòng)(如離群點(diǎn))不敏感的不足量匯總統(tǒng)計(jì)量。例如,M-估計(jì)量可降低對(duì)離群點(diǎn)的敏感性(參見(jiàn) Vaart, 2000,第5章綜述)。該思路亦被 Ruli 等(2020)采納,其在 ABC 中采用 M-估計(jì)函數(shù)構(gòu)建魯棒匯總統(tǒng)計(jì)量;近期,Luciano 等(2024)進(jìn)一步發(fā)展出一種基于 Gibbs 抽樣的方法,其條件依賴于魯棒不足量匯總統(tǒng)計(jì)量。
另一種策略是貝葉斯數(shù)據(jù)選擇(Bayesian data selection),即識(shí)別出與所假設(shè)參數(shù)模型兼容的數(shù)據(jù)部分(Weinstein and Miller, 2023)。在此框架中,“前景”(foreground)由參數(shù)模型刻畫(huà),“背景”(background)則由貝葉斯非參數(shù)模型建模;Weinstein 與 Miller(2023)提出一種新穎評(píng)分準(zhǔn)則,用于尋找數(shù)據(jù)的低維投影——這些投影能被參數(shù)模型有效描述,從而作為兼容的匯總統(tǒng)計(jì)量,使我們可聚焦于模型能捕捉的數(shù)據(jù)方面0。
同樣聚焦于貝葉斯數(shù)據(jù)選擇任務(wù),Huang 等(2023)在損失函數(shù)中引入最大均值差異(MMD),以魯棒地學(xué)習(xí)適用于 SBI 的匯總統(tǒng)計(jì)量。先前自動(dòng)化構(gòu)建匯總統(tǒng)計(jì)量的方法(如 Albert 等, 2022;Chen 等, 2021;Fearnhead & Prangle, 2012;Jiang 等, 2017)雖在信息獲取上有效,但通常未考慮模型誤設(shè)情形。相比之下,Huang 等(2023)的方法明確針對(duì)誤設(shè)場(chǎng)景:他們提出兩種方法:其一,在 NPE 框架內(nèi)聯(lián)合學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)與匯總統(tǒng)計(jì)量網(wǎng)絡(luò);其二,利用自編碼器學(xué)習(xí)對(duì) ABC 魯棒的匯總統(tǒng)計(jì)量0。對(duì)于 NPE0,其目標(biāo)是最小化如下?lián)p失:
![]()
此外,Bharti 等(2022)通過(guò)在匯總統(tǒng)計(jì)量選擇過(guò)程中引入領(lǐng)域?qū)<襾?lái)應(yīng)對(duì) ABC 中的模型誤設(shè)問(wèn)題。他們認(rèn)識(shí)到手動(dòng)選擇信息性匯總統(tǒng)計(jì)量的困難,提出了一種序貫實(shí)驗(yàn)設(shè)計(jì)方法,以最小侵入性的方式主動(dòng)讓專家參與其中。該方法通過(guò)允許專家識(shí)別并剔除具有誤導(dǎo)性的匯總統(tǒng)計(jì)量,有效緩解了模型誤設(shè)的影響。
另一種策略是模塊化貝葉斯推斷(modularised Bayesian inference),它通過(guò)將聯(lián)合后驗(yàn)分解為多個(gè)模塊,并采用“切斷反饋”(cutting feedback)方法選擇性地忽略被誤設(shè)的模塊,從而應(yīng)對(duì)模型誤設(shè)(Bayarri et al., 2009;Yu et al., 2023)。在我們基于匯總統(tǒng)計(jì)量的語(yǔ)境下,這意味著可以忽略那些對(duì)某些模型參數(shù)推斷產(chǎn)生不利影響的匯總統(tǒng)計(jì)量的作用。Chakraborty 等(2023b)進(jìn)一步將這一概念拓展至 SBI 框架,提出了一種基于聯(lián)合后驗(yàn)高斯混合近似的切斷反饋方法。
3.2 廣義貝葉斯推斷
標(biāo)準(zhǔn)貝葉斯推斷對(duì)模型誤設(shè)高度敏感,因?yàn)樗举|(zhì)上最小化的是 Kullback–Leibler(KL)散度,而 KL 散度會(huì)嚴(yán)重懲罰模型與數(shù)據(jù)之間任何小概率區(qū)域的不匹配(Basu et al., 1998;Jewson et al., 2018)。為應(yīng)對(duì)這一脆弱性,可使用替代性損失函數(shù)取代常規(guī)的對(duì)數(shù)似然更新,這構(gòu)成了廣義貝葉斯推斷(Generalised Bayesian Inference, GBI)的基礎(chǔ)。本節(jié)探討 GBI 思想如何與 SBI 相結(jié)合。
GBI 推廣了傳統(tǒng)的貝葉斯信念更新方式(Bissiri et al., 2016;Knoblauch et al., 2022)。廣義后驗(yàn)(亦稱 Gibbs 后驗(yàn)或偽后驗(yàn))定義為:
![]()
![]()
![]()
Miller 和 Dunson(2019)通過(guò)“粗化后驗(yàn)”(coarsened posteriors)形式化了類似聯(lián)系:該方法通過(guò)對(duì)經(jīng)驗(yàn)分布的某個(gè)鄰域(而非精確數(shù)據(jù))進(jìn)行條件化,從而增強(qiáng)魯棒性。作為其工作的副產(chǎn)品,他們展示了 ABC 后驗(yàn)如何通過(guò)核函數(shù) K ε
隱式地契合廣義后驗(yàn)視角。
在開(kāi)創(chuàng)性工作中,Wilkinson(2013)通過(guò)將假設(shè) DGP 與真實(shí) DGP 之間的差異視為模型誤差或測(cè)量誤差,明確承認(rèn)了模型誤設(shè)的可能性。他們指出,若實(shí)際的模型誤差被明確指定,則 ABC 在該假設(shè)下可產(chǎn)生精確結(jié)果,這反映了 K ε
如何編碼模型誤差。此外,Schmon 等(2020)將 ABC 的接受/拒絕步驟解釋為隱式定義了一個(gè)誤差模型。在實(shí)踐中,基于閾值或高斯核的選擇主要出于計(jì)算便利性或啟發(fā)式考慮,但這些選擇本身很可能也是誤設(shè)的。例如,拒絕式 ABC 可被視為在以 S ( y )
為中心、半徑為 ε ε 的球內(nèi)對(duì)均勻模型誤差進(jìn)行的精確推斷,而這種均勻誤差假設(shè)不太可能反映真實(shí)的模型誤差。為緩解這一潛在的誤設(shè)誤差假設(shè),可采用更靈活的誤差分布(見(jiàn)第 3.3 節(jié))。此外,由于 ABC 可被納入 GBI 框架,更廣泛的 GBI 魯棒推斷策略自然也適用于 ABC(Schmon et al., 2020)。
廣義后驗(yàn)主要通過(guò)兩種方式應(yīng)對(duì)模型誤設(shè):一是調(diào)整校準(zhǔn)參數(shù) w ,二是選擇對(duì)誤設(shè)更具魯棒性的損失函數(shù) L 。
3.2.2 校準(zhǔn)參數(shù) w 的調(diào)整
降低對(duì)負(fù)對(duì)數(shù)似然的權(quán)重(即取 w < 1
)可限制誤設(shè)似然的影響。該方法被稱為溫控后驗(yàn)(tempered posteriors;Holmes and Walker, 2017)或分?jǐn)?shù)后驗(yàn)(fractional posteriors;Bhattacharya et al., 2019)。其中最早的方法之一是 SafeBayes(Grünwald, 2012;Grünwald and Ommen, 2017),它通過(guò)自適應(yīng)地縮放似然,以防止在模型誤設(shè)下出現(xiàn)不一致性,從而確保即使模型未被正確設(shè)定,后驗(yàn)仍保持“安全”。Miller 和 Dunson(2019)通過(guò)溫控似然來(lái)近似其粗化后驗(yàn)(一種廣義后驗(yàn))。盡管溫控對(duì)于真實(shí)似然可能是一種有效的魯棒策略,但對(duì)于依賴模擬數(shù)據(jù)的似然方法而言,溫控通常被證明無(wú)效。例如,F(xiàn)razier 等(2024b)考慮對(duì)合成似然進(jìn)行溫控,Gao 等(2023)則研究了神經(jīng)似然方法中的溫控。在這兩種情形中,該策略均被發(fā)現(xiàn)無(wú)效甚至有害。如 Frazier 等(2024b)所展示的,盡管溫控可改變后驗(yàn)近似的尺度,卻無(wú)法改變其眾數(shù)或整體形狀,因此通常無(wú)法解決由模型誤設(shè)引發(fā)的核心問(wèn)題。
3.2.3 魯棒損失函數(shù)
廣義貝葉斯推斷(GBI)可通過(guò)在式 (3) 中選擇一個(gè)魯棒的損失函數(shù)來(lái)應(yīng)對(duì)模型誤設(shè)。由于 ABC 后驗(yàn)是一種廣義后驗(yàn),我們可以采用相同的思路來(lái)指導(dǎo)魯棒距離度量的選擇。與此相關(guān)的是,F(xiàn)razier 等(2020)的結(jié)果表明,ABC 所用的距離決定了偽真參數(shù),這凸顯了選擇對(duì)模型微小偏離不敏感的距離度量的重要性。此處我們聚焦于已在 ABC 中被考慮過(guò)的距離選擇。
積分概率度量(Integral Probability Metrics, IPMs;Müller, 1997)是一類適用于基于模擬推斷(SBI)的有用度量,其中包括最大均值差異(MMD)和 Wasserstein 距離。兩個(gè)定義在空間 X 上的概率測(cè)度 P 與 Q 之間的 IPM 一般形式定義為:
![]()
Legramanti 等人(2025)近期的理論工作為在 ABC 中使用基于 IPM 的距離提供了嚴(yán)格的理論基礎(chǔ)。他們的框架引入了 Rademacher 復(fù)雜度的概念,用于分析基于差異度量的 ABC 后驗(yàn)的極限性質(zhì),包括在非獨(dú)立同分布(non-i.i.d.)和模型誤設(shè)情形下的表現(xiàn)。
ABC 中魯棒距離的一個(gè)早期例子來(lái)自 Park 等人(2016),他們提出了 K2-ABC 方法,該方法在 ABC 中采用最大均值差異(MMD)作為差異函數(shù)。平方 MMD 的一個(gè)無(wú)偏估計(jì)量如下所示:
![]()
![]()
另一種被研究的距離選擇是 Wasserstein 距離(Villani, 2009)。Bernton 等人(2019)提出在 ABC 中使用觀測(cè)數(shù)據(jù)與模擬數(shù)據(jù)經(jīng)驗(yàn)分布之間的 Wasserstein 距離。他們開(kāi)發(fā)了計(jì)算近似方法,以緩解其隨觀測(cè)數(shù)量呈超二次方增長(zhǎng)的計(jì)算復(fù)雜度,從而使該方法在大數(shù)據(jù)集上更具實(shí)用性。
進(jìn)一步的散度度量已在 ABC 中被探索:Fujisawa 等人(2021)利用一種基于 k k-近鄰核密度估計(jì)的 γ γ-散度估計(jì)器;Jiang(2018)將 KL 散度作為 ABC 中的數(shù)據(jù)差異度量,將其與貝葉斯推斷中的傳統(tǒng) KL 基偽真參數(shù)對(duì)齊;Frazier(2020)則研究了 Hellinger 與 Cramér–von Mises(CvM)距離的使用,驗(yàn)證了其在模型誤設(shè)下的魯棒潛力。
面對(duì)眾多距離選項(xiàng),建模者需了解哪些在 ABC 中最具前景。當(dāng)然,最合適的距離取決于具體問(wèn)題;Drovandi 與 Frazier(2022)的實(shí)證研究表明,在模型正確設(shè)定情形下,CvM、Wasserstein 與 MMD 距離表現(xiàn)相當(dāng);而在模型誤設(shè)情形下,Legramanti 等人(2025)在誤設(shè)的 Huber 污染模型中比較了 MMD、Wasserstein 與 KL 散度,發(fā)現(xiàn) MMD 在各類誤設(shè)程度下表現(xiàn)最優(yōu),突顯了其在魯棒推斷中的有效性。
最初,研究 ABC 中多種距離選擇的主要?jiǎng)訖C(jī)在于它們既適用于使用匯總統(tǒng)計(jì)量的情形,也適用于不使用匯總統(tǒng)計(jì)量的情形。例如,Park 等人(2016)提出 K2-ABC 的初衷是為了避免使用不充分的匯總統(tǒng)計(jì)量,并未提及模型誤設(shè)問(wèn)題。然而,幸運(yùn)的是,人們后來(lái)發(fā)現(xiàn),在 ABC 中使用 MMD 對(duì)模型誤設(shè)具有高度魯棒性。本節(jié)內(nèi)容同時(shí)適用于基于匯總統(tǒng)計(jì)量和無(wú)匯總統(tǒng)計(jì)量的 SBI 方法。
在 ABC 中,用于定義廣義后驗(yàn)的損失函數(shù)相當(dāng)明確,因?yàn)榻U弑仨氾@式選擇一個(gè)距離度量和誤差核函數(shù)。對(duì)于 BSL 和 NCDE 方法,也隱含地使用了類似的損失函數(shù)——盡管其形式不那么顯式。Pacchiardi 等人(2024)利用評(píng)分規(guī)則(scoring rules;Gneiting and Raftery, 2007)構(gòu)建 GBI 框架,從一個(gè)恰當(dāng)?shù)脑u(píng)分規(guī)則導(dǎo)出損失函數(shù),以度量模型與數(shù)據(jù)之間的差異。例如,BSL 后驗(yàn)對(duì)應(yīng)于一個(gè)以 Dawid–Sebastiani 評(píng)分(Dawid and Sebastiani, 1999)為基礎(chǔ)的廣義后驗(yàn)。
NCDE 方法通常旨在近似標(biāo)準(zhǔn)貝葉斯后驗(yàn);例如,如式 (1) 所示,NPE 最小化前向 KL 散度。但如前所述,KL 散度并不魯棒,最壞情況是遭遇對(duì)抗性攻擊——即微小但有針對(duì)性的擾動(dòng)會(huì)顯著影響估計(jì)器的輸出。為增強(qiáng)對(duì)此類對(duì)抗性擾動(dòng)的魯棒性,Gl?ckler 等人(2023)提出了一種正則化方案,通過(guò)懲罰條件密度估計(jì)器的 Fisher 信息來(lái)實(shí)現(xiàn)。
另一種方法是使用 KL 散度以外的損失函數(shù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),以提升模型誤設(shè)下的魯棒性。例如,Gao 等人(2023)提出了一種 GBI 的 amortised(攤銷式)方法,通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)損失函數(shù)。他們的方法稱為攤銷成本估計(jì)(Amortised Cost Estimation, ACE),學(xué)習(xí)損失函數(shù)的代理模型,從而在推斷階段無(wú)需大量模擬。通過(guò)采用魯棒的損失函數(shù)(如 MMD),ACE 可提供對(duì)模型誤設(shè)具有魯棒性的推斷。同樣的原則也適用于其他依賴損失函數(shù)代理建模的 SBI 方法,例如 BOLFI(Gutmann and Corander, 2016),其中所建模的差異度量可被選擇為魯棒的形式。
3.3 誤差建模與調(diào)整參數(shù)
![]()
這些誤差模型的一個(gè)有用特例是引入 調(diào)整參數(shù) (adjustment parameters),其可直接平移模擬輸出,使其更好地與觀測(cè)數(shù)據(jù)對(duì)齊。當(dāng)使用匯總統(tǒng)計(jì)量時(shí),調(diào)整參數(shù)可被理解為對(duì)不兼容匯總統(tǒng)計(jì)量的修正——即通過(guò)偏移來(lái)緩解模型與數(shù)據(jù)之間的不匹配。對(duì)于給定參數(shù) θ θ ,引入與匯總統(tǒng)計(jì)量維度相同的加性調(diào)整參數(shù)向量 Γ = ( γ 1 , … , γ d ) ?,我們有:
![]()
早期關(guān)于確定性計(jì)算機(jī)模型的研究即引入調(diào)整參數(shù)以校正模型與觀測(cè)數(shù)據(jù)之間的不匹配。Kennedy 與 O’Hagan(2001)提出的模型 Γ 被稱為“模型不足校正”(model inadequacy correction),其采用高斯過(guò)程建模。Bayarri 等人(2009)將該方法拓展至模塊化貝葉斯框架,并提供了對(duì) Γ 建模的策略。
在 SBI 的背景下,一種早期方法是 Ratmann 等人(2009)提出的 ABC(_\mu) 方法。鑒于評(píng)估模型適切性的必要性,Ratmann 等人(2009)將一個(gè)未知誤差項(xiàng)引入似然函數(shù),并將 ABC 誤差容差視為具有自身指數(shù)先驗(yàn)分布的隨機(jī)變量。這些隨機(jī)的 ABC 誤差容差——對(duì)每個(gè)匯總統(tǒng)計(jì)量分別設(shè)定——與調(diào)整參數(shù) Γ 實(shí)質(zhì)相同,即:模擬與觀測(cè)匯總統(tǒng)計(jì)量之間的偏差。
從模型參數(shù)與誤差項(xiàng)的聯(lián)合后驗(yàn)分布中抽樣,使得可通過(guò)誤差項(xiàng)的后驗(yàn)分布直接檢驗(yàn)?zāi)P驼`設(shè)。這一模型批評(píng)機(jī)會(huì)是所有調(diào)整參數(shù)方法的共有特征。在兼容匯總統(tǒng)計(jì)量情形下(如 Frazier 與 Drovandi, 2021 所示), Γ 各分量的后驗(yàn)收斂于其先驗(yàn);而在模型誤設(shè)情形下, Γ 的后驗(yàn)會(huì)偏離其先驗(yàn),以修正模型與觀測(cè)數(shù)據(jù)間的差異。通過(guò)檢驗(yàn)調(diào)整參數(shù)是否顯著偏離其先驗(yàn),我們可識(shí)別出不兼容的匯總統(tǒng)計(jì)量。若匯總統(tǒng)計(jì)量經(jīng)領(lǐng)域?qū)<覍徤骱Y選而被認(rèn)為有意義,則該方法可精準(zhǔn)揭示模型中哪些方面存在不足,從而促進(jìn)模型批評(píng)與改進(jìn)。
Frazier 與 Drovandi(2021)提出了魯棒 BSL(RBSL)方法,該方法在合成似然中引入調(diào)整參數(shù)以增強(qiáng)對(duì)誤設(shè)的魯棒性。在 RBSL-M 中,合成似然中的均值向量被調(diào)整為:
![]()
![]()
在 RBSL-V 變體中,不調(diào)整均值,而是對(duì)協(xié)方差進(jìn)行膨脹(inflated)以應(yīng)對(duì)誤設(shè):
![]()
![]()
該增廣的 BSL 后驗(yàn)可通過(guò)分量式 MCMC 算法進(jìn)行抽樣:模型參數(shù) θ θ 采用 Metropolis–Hastings 算法(Metropolis et al., 1953;Hastings, 1970)抽樣,而調(diào)整參數(shù) Γ 則采用切片抽樣(slice sampling)(Neal, 2003)抽樣。RBSL-M 算法詳見(jiàn)算法 3。盡管為保持記號(hào)一致性我們?nèi)苑Q其為 RBSL-M,但也可將 RBSL-V 解釋為:將標(biāo)準(zhǔn)合成似然與一個(gè)獨(dú)立高斯誤差模型相結(jié)合,其中協(xié)方差項(xiàng)被視為未知參數(shù)。
![]()
![]()
![]()
4 重訪示例:魯棒方法的效果驗(yàn)證
為展示第 3 節(jié)所述魯棒方法如何在模型誤設(shè)下改進(jìn)推斷,我們?cè)俅慰疾斓?2.4 節(jié)中的誤設(shè) MA(1) 示例。在標(biāo)準(zhǔn)設(shè)定下,BSL 與 SNL 均給出較差的推斷結(jié)果,其近似后驗(yàn)集中于參數(shù)空間中遠(yuǎn)離偽真參數(shù)值的區(qū)域。
![]()
![]()
![]()
通過(guò)引入調(diào)整參數(shù),我們可實(shí)現(xiàn)更魯棒的推斷。圖 6 展示了 RBSL-M 與 RBSL-V 的結(jié)果。與標(biāo)準(zhǔn) BSL 相比,這些魯棒變體產(chǎn)生的后驗(yàn)更緊密地圍繞偽真參數(shù)值 θ = 0
集中0。其后驗(yàn)預(yù)測(cè)模擬也更好地匹配觀測(cè)匯總統(tǒng)計(jì)量,從而緩解了先前觀察到的過(guò)度自信(overconfidence)與覆蓋不足問(wèn)題。我們?cè)趫D 7 中對(duì)神經(jīng)方法也觀察到類似改進(jìn):當(dāng)采用魯棒策略(如 RSNL)時(shí),性能得到提升。
![]()
使用調(diào)整參數(shù)的另一優(yōu)勢(shì)在于支持模型批評(píng)(model criticism)。圖 8 表明,第一調(diào)整參數(shù)分量 γ 1
的后驗(yàn)明顯偏離其先驗(yàn)分布,明確警示該模型與第一匯總統(tǒng)計(jì)量不兼容0。這提示所選 MA(1) 模型無(wú)法復(fù)現(xiàn)觀測(cè)樣本方差,有助于建模者定位并修正模型缺陷0。盡管這是一個(gè)簡(jiǎn)單示例,但相同邏輯適用于更復(fù)雜的場(chǎng)景,幫助建模者精準(zhǔn)識(shí)別其模型中未能捕捉數(shù)據(jù)關(guān)鍵特征的部分0。
![]()
5 討論
模型誤設(shè)現(xiàn)已被確立為 SBI 中的核心問(wèn)題。本文全面綜述了 SBI 中的模型誤設(shè)問(wèn)題,涵蓋其對(duì)關(guān)鍵方法——近似貝葉斯計(jì)算(ABC)、貝葉斯合成似然(BSL)和神經(jīng)條件密度估計(jì)(NCDE)——的影響,并概述了近期應(yīng)對(duì)模型誤設(shè)的方法。
在實(shí)踐中構(gòu)建魯棒模型,要求從業(yè)者意識(shí)到模型誤設(shè)的存在,并迭代地改進(jìn)其模型。在原則性貝葉斯工作流中,模型檢驗(yàn)起著關(guān)鍵作用。后驗(yàn)預(yù)測(cè)檢驗(yàn)等診斷工具,或第 2.3 節(jié)末尾所述更專門針對(duì) SBI 的診斷方法,有助于揭示模型在何處以及如何未能捕捉數(shù)據(jù)的關(guān)鍵特征。基于這些診斷結(jié)果,建模者可迭代改進(jìn)模型或引入魯棒推斷技術(shù)。
第 3 節(jié)概述了 SBI 中實(shí)現(xiàn)魯棒推斷的三大策略:魯棒匯總統(tǒng)計(jì)量、廣義貝葉斯推斷(GBI)和調(diào)整參數(shù)。采用魯棒匯總統(tǒng)計(jì)量(例如用中位數(shù)而非均值)可降低對(duì)離群點(diǎn)和微小偏差的敏感性。盡管許多自動(dòng)學(xué)習(xí)匯總統(tǒng)計(jì)量的方法易受誤設(shè)影響,但魯棒自動(dòng)化匯總構(gòu)造的研究正在積極推進(jìn),如 Huang 等人(2023)提出的方法。對(duì)于依賴模擬數(shù)據(jù)與觀測(cè)數(shù)據(jù)之間距離度量的 SBI 方法,選用魯棒度量(如基于 MMD 的方法)可增強(qiáng)穩(wěn)健性。若條件允許,測(cè)試多種距離度量可提供進(jìn)一步洞見(jiàn)。類似地,在使用 BSL、NPE 或 SNL 時(shí),引入魯棒調(diào)整參數(shù)可在幾乎不增加計(jì)算開(kāi)銷的情況下提升可靠性。通過(guò)歸類近期進(jìn)展,我們可考慮將多種魯棒策略結(jié)合,并整合進(jìn)貝葉斯工作流,以進(jìn)一步增強(qiáng)魯棒性并提升整體推斷質(zhì)量。
盡管本文未顯式比較 ABC、BSL 和 NCDE 的魯棒性,但值得注意的是,標(biāo)準(zhǔn) ABC 方法通常表現(xiàn)出一定程度的內(nèi)在魯棒性(Schmon 等, 2020)。頗具諷刺意味的是,ABC 中常被視為缺點(diǎn)的特性——如依賴匯總統(tǒng)計(jì)量、誤差容差閾值以及用戶指定的差異函數(shù)——實(shí)際上可能緩解某些形式的誤設(shè)。例如,魯棒匯總統(tǒng)計(jì)量(第 3.1 節(jié))可能比使用完整數(shù)據(jù)集對(duì)離群點(diǎn)更不敏感;容差閾值本質(zhì)上充當(dāng)了隱式誤差模型(Miller and Dunson, 2019;Wilkinson, 2013);而選擇魯棒距離度量(第 3.2 節(jié))相比標(biāo)準(zhǔn)貝葉斯推斷可降低離群點(diǎn)的影響。盡管 ABC 在高維數(shù)據(jù)下擴(kuò)展性較差,但其天然的魯棒性可能使其在低維問(wèn)題中更具優(yōu)勢(shì)。
盡管近期取得諸多進(jìn)展,仍有許多開(kāi)放問(wèn)題亟待解決,并指向未來(lái)研究的激動(dòng)人心方向。首要任務(wù)之一是為誤設(shè)模型開(kāi)發(fā)標(biāo)準(zhǔn)化的度量指標(biāo)與基準(zhǔn)測(cè)試,類似于 Lueckmann 等人(2021)在模型正確設(shè)定情形下建立的基準(zhǔn)。此類基準(zhǔn)將有助于不同方法的比較,并為實(shí)踐者提供指導(dǎo)。另一重要空白在于 NCDE 在誤設(shè)下的理論基礎(chǔ)。雖然 ABC 和 BSL 已受益于對(duì)其誤設(shè)行為的嚴(yán)格理論分析,但 NCDE 方法目前尚缺乏同等水平的理論清晰性。近期關(guān)于 NCDE 的理論洞見(jiàn)依賴于兼容性假設(shè)(Frazier 等, 2024a),但在模型誤設(shè)情形下尚不明確,亟需進(jìn)一步研究。
在 SBI 的序貫采樣中,參數(shù)樣本本應(yīng)從高密度區(qū)域抽取,但標(biāo)準(zhǔn)方法可能不穩(wěn)定。一個(gè)挑戰(zhàn)是后驗(yàn)質(zhì)量“泄漏”到先驗(yàn)支撐集之外(Durkan 等, 2020),對(duì)此已有研究建議采用截?cái)嘞闰?yàn)提議分布(Deistler 等, 2022)。另一問(wèn)題是極端的先驗(yàn)預(yù)測(cè)樣本會(huì)損害訓(xùn)練,可通過(guò)預(yù)條件化 NPE 緩解——該方法使用 ABC 樣本作為初始訓(xùn)練集(Wang 等, 2024b)。在模型誤設(shè)下,神經(jīng) SBI 方法的經(jīng)驗(yàn)表現(xiàn)較差,表明其未必自然收斂至合適的偽真參數(shù),而 ABC 的這一性質(zhì)已被充分證實(shí)。因此,在誤設(shè)場(chǎng)景中,采用 ABC 樣本進(jìn)行預(yù)條件化的序貫方法可能具備更強(qiáng)的魯棒性。
獲得具有可信區(qū)間且覆蓋概率與真實(shí)覆蓋率一致的后驗(yàn),是 SBI 中一個(gè)公認(rèn)難題,許多 NCDE 方法傾向于給出過(guò)度自信的推斷(Hermans 等, 2022)。當(dāng)模型未被正確設(shè)定時(shí),這一問(wèn)題可能加劇,正如 Cannon 等人(2022)的實(shí)證結(jié)果所示;一般而言,當(dāng)模型誤設(shè)時(shí),貝葉斯可信集并非有效的置信集(Kleijn and Vaart, 2012)。針對(duì)誤設(shè)情形下的校準(zhǔn)問(wèn)題,近期利用最優(yōu)傳輸理論實(shí)現(xiàn)更魯棒、更校準(zhǔn)推斷的工作可能提供幫助(Wehenkel 等, 2024)。
同時(shí),新興的 SBI 方法類別(如流匹配和擴(kuò)散模型;Gloeckler 等, 2024;Simons 等, 2023;Wildberger 等, 2023)在誤設(shè)背景下的研究仍基本空白。探究其魯棒性并設(shè)計(jì)緩解模型誤設(shè)的方法,有望顯著拓展其實(shí)際適用性。此外,訓(xùn)練神經(jīng)近似模型時(shí),若放棄通常最小化前向 KL 散度的損失,轉(zhuǎn)而采用廣義變分推斷(GVI)框架(Knoblauch 等, 2022),也可能有助于學(xué)習(xí)更魯棒的近似。
SBI 領(lǐng)域正開(kāi)始認(rèn)真應(yīng)對(duì)模型誤設(shè)問(wèn)題。目前已有許多魯棒方法被提出,且對(duì)其在模型誤設(shè)下行為的理論理解也在穩(wěn)步提升。神經(jīng)網(wǎng)絡(luò)方法雖因其可擴(kuò)展性而廣受歡迎,卻對(duì)模型誤設(shè)較為敏感。從 ABC 方法所具有的內(nèi)在魯棒性中汲取的經(jīng)驗(yàn),或可啟發(fā) NCDE 方法的進(jìn)一步魯棒化改進(jìn)。歸根結(jié)底,實(shí)踐者必須對(duì)模型誤設(shè)保持警惕,積極開(kāi)展模型檢驗(yàn),并在必要時(shí)引入魯棒方法。我們預(yù)期,持續(xù)的研究將進(jìn)一步擴(kuò)充可用工具集,使針對(duì)模型誤設(shè)的魯棒推斷日益成為可能。
原文:https://arxiv.org/pdf/2503.12315
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.