網易首頁 > 網易號 > 正文申請入駐

模型誤設下貝葉斯最優實驗設計的泛化性能分析

2026-01-31 00:07:26　來源: CreateAMind

上海舉報

分享至

模型誤設下貝葉斯最優實驗設計的泛化性能分析

Generalization Analysis for Bayesian Optimal Experiment Design under Model Misspecification

https://arxiv.org/pdf/2506.07805v1

摘要
在科學和工業的許多場景中，例如藥物發現和臨床試驗，一個核心挑戰是在時間和預算限制下設計實驗。貝葉斯最優實驗設計（Bayesian Optimal Experimental Design, BOED）是一種選擇信息量最大設計的范式，近年來已被越來越多地應用于此類問題。在訓練階段，BOED 根據預設的采集準則選擇輸入。在測試階段，訓練期間學習到的模型會遇到自然出現的測試樣本分布。這導致了一種協變量偏移（covariate shift）的情形，即訓練樣本和測試樣本來自不同的分布。先前的研究表明，在模型誤設（model misspecification）存在的情況下，協變量偏移會放大泛化誤差。我們的第一項貢獻是提供了一個泛化誤差的數學分解，揭示了在模型誤設情況下泛化誤差的關鍵成因。我們指出，誤設下的泛化誤差不僅源于協變量偏移，還源于一種我們稱之為“誤差（去）放大”（error (de-)amplification）的現象——這一現象在以往工作中尚未被識別或研究。我們的第二項貢獻是提供了詳細的實證分析，表明那些能產生具有代表性且具備去放大特性的訓練數據的方法，可以提升泛化性能。我們的第三項貢獻是開發了一種新穎的采集函數，通過引入一個“代表性”項并隱式誘導去放大效應，來緩解模型誤設的影響。實驗結果表明，我們的方法在存在模型誤設的情況下優于傳統 BOED。

1 引言
貝葉斯建模是在數據稀缺或獲取成本高昂時進行推斷的一種原則性方法。大多數貝葉斯機器學習方法都是在假設真實數據生成過程（DGP）包含在所選模型族中的前提下開發的 [1]。然而，在復雜的現實世界環境中，這一假設很少成立，學習者無法獲知真實的 DGP [2, 3]。因此，真實的 DGP 通常位于所假設的模型族之外。模型誤設這一現象的不可避免性，被一句略帶諷刺意味的名言所概括：“所有模型都是錯的”[5, 6]。模型誤設的常見原因包括遺漏變量 [7]、對誤差項結構的錯誤認知（例如未能考慮異方差性或自相關性）[8, 9]，或選擇了信息不足或表達能力不足的模型類 [7, 10]。模型誤設的后果包括推斷偏差 [8, 11, 12, 13]、不可靠的近似（例如在基于模擬的推斷方法中 [14, 15, 16]），以及次優決策 [17, 18]。

已有大量文獻研究了在數據獨立同分布（i.i.d.）或從學習者希望其推斷能泛化的分布中“被動”收集的情況下，模型誤設對貝葉斯推斷的影響 [19, 20, 21, 4, 22, 23]。然而，由于大規模數據集的廣泛可用，主動學習方法的使用變得越來越普遍 [24]。這些方法通過選擇訓練數據以適配特定的學習目標 [25, 26]。主動學習方法兩次依賴于指定的模型：一次用于擬合訓練數據的推斷，另一次用于選擇數據 [27]。因此，模型誤設對這些方法具有雙重影響，可能在采集函數和最終推斷中都引入偏差。特別是在主動學習的背景下，模型誤設可能導致低質量的數據集 [28, 29, 30, 31, 26]。理解模型誤設的后果對于開發魯棒的主動學習方法至關重要。

在貝葉斯框架下，貝葉斯最優實驗設計（BOED）是一種自然且常用的主動學習方法 [18]。BOED 通過最大化一個稱為期望信息增益（expected information gain）的采集函數來選擇最優設計，從而在許多應用中實現時間和預算效率 [18, 32]，例如藥物發現 [33]、臨床試驗設計 [32]、化學 [34, 35]、生物學 [36, 37] 和心理學 [38, 39]。盡管文獻中已承認 BOED 在模型誤設情況下的局限性，但僅有少數論文對此進行了研究 [18, 40, 41, 42, 43]。

我們對模型誤設下的泛化誤差提供了新穎的理論分析。我們的分析表明，能夠對模型誤設具有魯棒性的訓練數據集具備兩個特性：它們代表了目標數據生成分布，并且具有“去放大”（de-amplifying）特性。期望信息增益既不包含代表性項，也不包含去放大項，因此標準 BOED 可能導致既不具代表性也不具去放大特性的訓練數據集。從這個意義上說，標準 BOED 對模型誤設并不魯棒。

非代表性訓練數據。BOED 選擇樣本以實現特定目標，而這些樣本很可能無法反映學習者希望泛化的分布。換句話說，BOED 引入了一種分布偏移形式，即用于（主動）學習的分布與用于評估的分布不同。近期關于模型誤設與分布偏移相互作用的研究提出了“誤設放大”（misspecification amplification）的概念 [44]，即由誤設引起的泛化誤差被測試與訓練輸入分布之間的密度比“放大”。在 BOED 的背景下也觀察到了類似現象：在模型誤設存在的情況下，某些設置中的泛化誤差已被證明同時依賴于模型誤設的程度和分布偏移的程度 [41]。

去放大訓練數據。正如我們對泛化誤差的新穎分解所示，泛化性能不僅取決于訓練數據的代表性，還取決于其與模型（誤）設定的交互方式：當訓練數據最能代表測試分布，并且同時位于模型誤設方向“有益”（即減少誤差）的區域時，泛化性能得到提升。我們將這一特性稱為誤差“去放大”（error “de-amplification”），以強調其作用是抵消而非放大誤設的影響。

貢獻。在本工作中，我們探討了模型誤設下的 BOED 問題，并做出以下貢獻：

泛化誤差的理論分解。以往工作主要探討了誤設和分布偏移的影響，忽略了去放大設計的作用。我們正式將泛化誤差分解為三個組成部分：(1) 誤設偏差，(2) 估計偏差，以及 (3) 我們引入的一個新項——誤差（去）放大。我們還推導了一個泛化誤差的上界，刻畫了其對訓練數據代表性、去放大程度以及模型誤設的依賴關系。
模型誤設下 BOED 的實證分析。我們從對模型誤設的魯棒性角度評估了短視（myopic）和非短視（non-myopic）BOED 方法。結果表明，性能差異可由我們分解中的各項解釋。我們提供了詳細的實證分析支持這一效應：能產生具有代表性且去放大訓練數據的方法提升了泛化性能。
通過代表性與去放大構建的新采集函數。我們提出了一種新穎的采集函數，旨在通過識別那些不僅信息豐富、而且具有代表性并隱式具備去放大特性的設計，來緩解模型誤設的影響。我們的實驗證明，該新采集函數在存在模型誤設的情況下優于傳統 BOED。

2 預備知識

2.1 問題設定

2.2 貝葉斯最優實驗設計

貝葉斯最優實驗設計（Bayesian Optimal Experimental Design, BOED）是一種基于模型的框架，通過最大化關于參數的期望信息量來選擇最優設計，從而實現預算和時間效率 [18, 32]。其主要目標是找到一個設計 ξ ，該設計在能夠提供關于參數 θ θ最多信息的意義上是最優的。期望信息增益（Expected Information Gain, EIG）用于刻畫關于 θ 所獲得的信息量 [47, 48]：

傳統 BOED 方法 [49, 50]，亦稱貝葉斯自適應設計（Bayesian Adaptive Design, BAD），通過反復評估式 (3) 來做出設計決策，并利用貝葉斯推斷對迄今為止所獲數據進行建模，從而更新底層模型。傳統 BOED 在計算上代價高昂，原因在于每一步均需耗費大量計算資源以估計和優化 EIG(ξ) 并更新模型。為緩解這些局限性，已提出基于策略（policy-based）的算法 [43, 51]，例如深度自適應設計（Deep Adaptive Design, DAD）[40]，該方法通過在一組模擬實驗軌跡上訓練一個神經網絡，實現對設計選擇過程的完全 amortization；由此，基于策略的方法消除了逐步在線模型更新的需求，顯著降低了計算開銷。

2.3 分布偏移

3 理論結果
3.1 泛化誤差的分解

近期研究表明，泛化誤差取決于協變量偏移程度（即訓練數據在多大程度上不能代表測試分布）與模型誤設程度之間的相互作用 [44, 52, 53]。在本節中，我們指出，泛化誤差還額外依賴于一種我們稱之為誤差（去）放大（error (de-)amplification）現象的存在程度。我們證明，泛化誤差可被分解為三項，分別反映了誤設偏差、估計偏差和誤差（去）放大各自所作出的貢獻。

3.2 一個含誤差（去）放大項的泛化誤差上界

我們的結果。定理 3.7 通過顯式刻畫泛化誤差的行為，將 [44] 的結果進行了擴展，其中納入了誤差（去）放大項。在 BOED 的有限訓練樣本設定下，這一額外項尤為重要，因為它刻畫了訓練數據與模型誤設之間的交互作用如何放大或去放大泛化誤差。

4 一種新穎的采集函數

利用定理 3.7 所提供的洞見，我們設計了一種采集函數，該函數能夠識別出既具有代表性又具備去放大特性的設計，同時還能提供關于感興趣參數的信息。盡管該采集函數并未包含一個顯式的去放大項（因為這一性質在實踐中不可計算；參見備注 3.9），但我們的實證結果表明，它仍然傾向于比其他 BOED 方法選擇更多具有去放大特性的樣本。為了度量兩個數據集所隱含分布之間的距離，我們采用最大均值差異（Maximum Mean Discrepancy, MMD）。

為應對協變量偏移，我們通過引入一個基于 MMD 的修正項對標準 EIG 采集函數進行修改。其核心思想是鼓勵選擇那些不僅具有高信息增益，而且有助于減小訓練點與測試點分布之間差異的設計點。具體而言，我們采用如下形式：

5 實驗

本節包含對比實驗與分析，旨在探究在模型誤設存在的情況下，何種算法在兩種實驗范式（一個玩具示例與一個源位置定位范式）中表現最優。我們還通過實驗對第 3 節中的理論結果進行了經驗性驗證。

我們比較以下方法：

隨機策略（Random strategy）：從測試分布中隨機選擇設計；
貝葉斯自適應設計（Bayesian Adaptive Design, BAD）[49]：依據傳統 BOED 策略逐次選擇設計，即在實驗的每一步進行選擇；
深度自適應設計（Deep Adaptive Design, DAD）[40]：依據一種基于策略的 BOED 算法選擇設計，即對整個設計過程進行完全 amortized（離線訓練）；
修正版 BAD（Adjusted BAD, BAD-Adj.）：依據我們提出的新型采集函數選擇設計。

除我們新采集函數的相對性能外，我們亦關注模型誤設如何影響 BAD 與 DAD 算法的性能差異。BAD 的迭代范式可使其在每次迭代中直接與真實 DGP 交互，從而在模型誤設時獲得適應機會；相比之下，DAD 為離線訓練，無法通過與真實 DGP 的交互進行適應。

5.1 玩具示例

代表性與泛化誤差之間的關系：圖 1 表明，在正確設定情形下，所有方法均產生相似的泛化誤差（圖 1d），無論協變量偏移程度如何（圖 1a）。這表明，當模型正確設定時，協變量偏移不會顯著影響泛化性能。然而，在模型誤設情形下，協變量偏移對模型性能產生負面影響。如圖 1a 所示，BAD 所誘導的協變量偏移程度高于隨機方法所誘導的程度（圖 1a）。這種更高的協變量偏移程度轉化為更大的泛化誤差（圖 1d）。這表明，在模型誤設存在的情況下，非代表性設計（即更大的協變量偏移）會降低模型性能。圖 1b 和圖 1e 展示了我們的采集函數在不同 λ λ 取值下的性能表現。對于較大的 λ λ 值，我們預期代表性項將主導采集函數，從而產生一個接近測試分布的設計分布。圖 1b 顯示，當設計更具代表性時，泛化誤差降低（圖 1e），這與定理 3.7 中的理論預測一致。這些結果再次證明：具有代表性的設計能有效減小估計偏差并提升泛化性能。

降低誤差放大的能力：為說明命題 3.2 中各項在每個設計點上的行為，我們選取 20 次運行中的某一次，在完成 10 步實驗后，計算誤差分解中的每一項，并將各值繪制于設計范圍 [ ? 4 , 4 ]上。相關結果見圖 2。

在訓練階段，隨機策略（Random strategy）選擇具有代表性的設計，但未包含任何針對（去）放大效應的項。如圖 2a 所示，該策略有時會偶然選中去放大設計（藍色線取正值），從而導致誤差（去）放大項在所有訓練設計上的期望值略為負值。

相比之下，BAD 與 DAD 所采用的采集函數均未顯式包含對應于（去）放大或代表性的項。圖 2b 與圖 2c 表明：盡管如此，這些方法所選擇的設計在訓練數據上總體仍導致一個負的放大項（即傾向于放大）。盡管 DAD 相較于 BAD 選擇了更具代表性的設計，但總體而言，DAD 所選設計比 BAD 所選設計更具放大性（對應藍色線的取值更低于零）。這與定理 3.7 的結論一致，并如圖 1a 所示，導致 DAD 在測試分布上產生更高的泛化誤差。

圖 2d 顯示，我們提出的方法 BAD-Adj 所生成的訓練集同時包含放大與去放大設計，表明盡管我們提出的采集函數并未直接針對去放大區域進行優化，但它選擇去放大設計的概率仍高于 BAD 或 DAD。圖 2d 還顯示，BAD-Adj 所選設計誘導出的整體（取）放大程度接近于零。這些結果表明，與隨機策略類似，BAD-Adj 有時也會偶然選中去放大設計。上述結果共同說明：選擇去放大設計有助于降低泛化誤差（如圖 1e 所示），這與定理 3.7 中建立的理論結果一致。

5.2 聲源定位實驗

6 結論

本文探討了模型誤設對 BOED 方法的影響。與以往僅關注訓練樣本代表性的研究不同，我們引入了一個新術語——“誤差（去）放大”（error (de-)amplification），并刻畫了“（去）放大”樣本對模型誤設魯棒性的貢獻。

局限性與未來工作本研究的一個局限在于，主要貢獻依賴于定理 3.7 所提供的洞見，而該定理僅給出了泛化性能的一個上界。該上界在多大程度上反映實際泛化性能，取決于這些界是否緊致（tightness）。因此，評估這些界的緊致性是未來工作的一個重要方向。

另一項局限在于，我們所提出的采集函數未顯式納入對放大風險的度量。與代表性不同，學習者無法評估訓練樣本在多大程度上具有（去）放大特性，因為這需要獲知（未知的）最優擬合近似。本工作一個顯而易見的拓展方向是：探究是否可利用非參數模型來捕捉模型的誤設情況，從而以一種原則性和自動化的方式指導（去）放大設計的選擇。

原文： https://arxiv.org/pdf/2506.07805v1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.