網易首頁 > 網易號 > 正文申請入駐

廣義貝葉斯推理下的穩健實驗設計

2026-01-30 00:09:23　來源: CreateAMind

上海舉報

分享至

廣義貝葉斯推理下的穩健實驗設計

Robust Experimental Design via Generalised Bayesian Inference

https://arxiv.org/pdf/2511.07671

摘要

貝葉斯最優實驗設計是一種基于原則的實驗框架，它利用貝葉斯推斷來量化從選擇某一特定設計中預期能獲得多少信息。然而，準確的貝葉斯推斷依賴于一個假設：即我們對數據生成過程所采用的統計模型是正確設定的。如果這一假設被違反，貝葉斯方法可能導致糟糕的推斷和對信息增益的錯誤估計。廣義貝葉斯（或吉布斯）推斷是一種更具魯棒性的概率推斷框架，它用一個合適的損失函數替代貝葉斯更新中的似然函數。在本工作中，我們提出了廣義貝葉斯最優實驗設計（GBOED），這是將吉布斯推斷擴展到實驗設計場景的方法，在設計與推斷兩方面均實現了魯棒性。借助一個擴展的信息論框架，我們推導出一種新的采集函數——吉布斯期望信息增益（Gibbs EIG）。我們的實證結果表明，GBOED 能夠增強對異常值和關于結果噪聲分布錯誤假設的魯棒性。

1 引言

許多現實場景在數據收集方面受到嚴重的資源和時間限制。在這種情況下，有效的學習要求從業者仔細選擇這些稀缺的數據，以最大化其學習目標。貝葉斯（最優）實驗設計（BOED）正是用于在此類場景中優化數據獲取的框架（Atkinson 和 Donev, 1992；Ryan 等, 2016；Rainforth 等, 2024；Huan 等, 2024）。該框架已在眾多學科中得到應用，例如系統生物學（Busetto 等, 2013；Pauwels 等, 2014）、心理學（Myung 等, 2013；Valentin 等, 2021）以及（醫學）成像（Karimi 等, 2021；Hyv?nen 等, 2024）。

BOED 利用貝葉斯推斷來更新關于感興趣參數的信念（Rainforth 等, 2024）。其關鍵假設是：數據由一個結構已知的統計模型生成，只是在某些（未知的）參數取值下運行。貝葉斯推斷的目標是通過觀測數據構建后驗分布，從而識別這些參數值。

BOED 將貝葉斯推斷進一步擴展，用于指定建模者希望如何分配資源以設置實驗設計。在 BOED 中，建模者選擇使某個目標函數（效用函數）最大化的實驗設計，從而根據該目標最優地開展實驗。最優設計取決于真實世界的狀態，而我們對此狀態并不確定；貝葉斯推斷為此不確定性提供了連貫的建模方法。一種常見的效用函數是期望信息增益（Lindley, 1956），它評估了關于感興趣參數所能獲得的預期信息量。因此，在 BOED 的背景下，建模者兩次依賴模型：一次用于設計實驗，另一次用于進行推斷。

假設所采用的統計模型是良好設定的——即該模型能夠準確捕捉真實的數據生成過程（DGP）——這一假設在現實世界中常常被打破。當領域知識準確可用時，科學家通常會選擇用簡單且易于處理的模型來表示這些知識，但由于科學上的不確定性或為了可解釋性，這些模型會忽略現實的某些方面。而很多時候，準確的領域知識根本就不可得。

模型誤設（model misspecification）指的是由于有意簡化和/或缺乏領域知識，導致所采用的統計模型無法完全捕捉真實 DGP 的情況（Walker, 2013）。即使在標準數據收集場景中，模型誤設也會對通過貝葉斯框架進行的推斷產生不利影響（Berk, 1966；Kleijn 和 van der Vaart, 2012）。在 BOED 情境下，它還可能通過提供無信息量或誤導性的設計選擇，影響設計序列的最優性（Vincent 和 Rainforth, 2017；Sloman 等, 2022；Tang 等, 2025）。

圖 1 展示了模型誤設對 BOED 有效性可能造成的損害。上排展示了在一個旨在定位兩個信號發射物體（紅色十字）的實驗中，BOED 在整個實驗過程中所選擇的設計，這些設計基于在預定義網格上選定位置測得的信號強度。當模型設定良好時，BOED 選擇的設計會聚集在物體周圍，為實驗者提供充足信息以精確定位物體。相反，當模型誤設時，所選設計卻聚集在沒有物體存在的區域。由于誤設模型無法準確評估某一位置所能提供的信息量，其所指導的設計選擇方法反而使實驗者逐步遠離目標物體。

一種對模型誤設具有魯棒性的設計選擇方法，將不容易被不準確的模型誤導。圖 1 的下排展示了我們提出的方法——廣義 BOED（GBOED）所選擇的設計序列。由于 GBOED “意識到”其所依據的模型在評估潛在信息增益方面能力有限，因此它會探索更廣泛的設計空間，即它所選擇的設計不像 BOED 那樣頻繁地聚集在單一區域。

盡管 BOED 中的模型誤設問題已受到相當多的關注，但相比之下，很少有研究探討廣義貝葉斯推斷（或吉布斯推斷；Bissiri 等, 2016；Knoblauch 等, 2022）在實驗設計背景下的應用，盡管它在更新關于感興趣參數的信念時對誤設統計模型具有魯棒性。在吉布斯推斷中，一個損失函數取代了傳統貝葉斯更新中的似然函數。吉布斯推斷作為貝葉斯推斷在模型誤設情況下的替代方案，已展現出有前景的理論和實證結果（Knoblauch 等, 2022；Martin 和 Syring, 2022）。

在本工作中，我們將吉布斯推斷擴展到實驗設計場景，將吉布斯框架同時應用于設計選擇和參數推斷。我們引入了廣義貝葉斯最優實驗設計（GBOED），這是一個利用吉布斯推斷應對模型誤設的新框架。其實現需要用戶指定一個損失函數，以應對諸如數據中的異常值等挑戰。我們考慮了加權得分匹配損失（Altamirano 等, 2024），該損失函數特別適用于實驗設計這類序列化應用場景，并提出了一種該函數的新參數化形式。

我們的貢獻可概括如下：

我們提出一種廣義的貝葉斯最優實驗設計（BOED）框架——GBOED，旨在應對模型誤設問題。
我們引入若干新穎、非傳統的信息論概念，使我們能夠使用在吉布斯推斷中出現的、違反概率密度函數性質的測度。
我們推導出期望信息增益的一種廣義形式，我們將其命名為“吉布斯期望信息增益”（Gibbs expected information gain），并給出近似該效用的若干方法。
最后，我們提供多項實證結果，詳細說明在何種條件下使用 GBOED 優于傳統 BOED，以及使用我們所提出的效用函數優于其他替代方案。

2 預備知識

2.1 記號
加粗的大寫希臘字母或拉丁字母表示隨機變量（rvs）（例如，Θ 是分配給參數空間的隨機變量）。隨機變量的實現用加粗小寫字母表示（例如，θ 是 Θ 的一個實現）。集合用花體大寫字母表示（例如，Θ 可取參數空間中的值）。????[()] 表示函數 () 關于（關于）概率密度函數（pdf）對變量的期望。未加粗的大寫希臘字母或拉丁字母表示概率分布。

2.2 貝葉斯推斷
實驗者選擇設計，以產生輸出數據。取值的隨機性由隨機變量刻畫。他們并不知道所服從的真實分布，但假定其形式為似然函數 ( ∣ , )。我們將該假設性似然函數稱為統計模型。

在貝葉斯推斷中（Gelman 等，2013），學習者為其關于參數值 ∈ 的初始信念賦予先驗密度 ()。隨后，他們基于新觀測到的數據 ∣ ，將該先驗更新為后驗密度 ( ∣ , )。

更具體地說，貝葉斯后驗分布的概率密度函數為

2.3 貝葉斯最優實驗設計

可驗證的是，期望信息增益（EIG）等價于參數 Θ 與數據 Y ∣ ξ 之間的互信息（Rainforth 等，2024）。通過選擇使 EIG 最大的設計 ξ*，目標在于高效利用實驗資源，以減少關于 Θ 的不確定性。傳統 BOED 通過每次獲得一個新的“設計–觀測”對時執行一次后驗更新來實現該過程。

請注意，實驗者在計算 EIG 時以及在計算貝葉斯后驗時，均兩次依賴統計模型 p ( y ∣ θ , ξ ) ：一次用于計算 EIG，另一次用于更新關于 θ 的信念。當模型設定良好時，此雙重依賴已被證明是一種有效的信念更新程序（Zellner, 1988；Paninski, 2005）。然而，當模型存在誤設時，這種雙重依賴會同時損害 BOED 在擬合已有數據和收集新數據兩方面的有效性（Rainforth 等，2024），其后果可能是實驗資源的浪費和/或產生誤導性的推斷。

廣義似然使損失函數能夠提供關于數據的信息，從而在吉布斯后驗更新中賦予某些參數取值更高的權重。當統計模型可用時，可通過設學習率 ω = 1
并令 ? θ ( ξ , y ) = ? log ? p ( y ∣ θ , ξ )來恢復貝葉斯推斷（Zellner, 1988）。當模型設定良好時，此方法是最優的。在可能存在誤設的情形下，已有研究探索了若干特定類型的損失函數，旨在提升對誤設模型的魯棒性（參見 Knoblauch 等，2022 提供的損失函數綜述）。

盡管損失函數本身無需依賴統計模型，但在許多情況下，該模型仍包含部分有效信息。例如，它可能捕捉到一種被異常值污染的一般趨勢。在此類情形下，實驗者通常希望其推斷能反映模型中所包含的信息。依賴于統計模型的損失函數可稱為“評分規則”（scoring rules）（Dawid 和 Musio, 2014；Giummolè 等, 2018）。本文考慮評分規則，因其既能從模型中提取相關信息，又能同時實現魯棒推斷。

2.5 評分規則

本文所研究的評分規則包括冪似然（power likelihoods）（Holmes 和 Walker, 2017；McLatchie 等, 2025）與評分匹配（score matching）（Barp 等, 2019；Matsubara 等, 2023；Altamirano 等, 2023）。有關我們所用評分規則的更多細節，見附錄 C。

3 廣義貝葉斯最優實驗設計

我們提出的框架——廣義貝葉斯最優實驗設計（GBOED）——是將 BOED 擴展至廣義貝葉斯推斷場景的框架。在傳統 BOED 中，我們旨在選擇設計 ξ ? ，以最大化貝葉斯期望信息增益（BEIG）。而在 GBOED 中，我們采用廣義貝葉斯推斷來更新關于感興趣參數的信念，因此“所獲信息量”成為吉布斯后驗的函數。本文中，我們引入吉布斯期望信息增益（Gibbs EIG），即在吉布斯推斷框架內對期望信息增益的度量。定義 8 表明，與 BEIG 類似，我們的 Gibbs EIG 定義可被解釋為：從吉布斯后驗到先驗的 KL 散度。定理 1 則表明，Gibbs EIG 的計算避免了對昂貴的后驗計算的依賴，從而提升了效用函數的可計算性。

全文中，我們假設可訪問一個（可能誤設的）模型 p ( y ∣ θ , ξ ) ，正如在傳統貝葉斯推斷中那樣。該假設用于定理 1 中 Gibbs EIG 的可 tractable 計算，并用于我們所選用的評分規則——其目的正是使推斷對模型誤設具有魯棒性。

3.1 補充記號

第 2.3 節引入了 KL 散度，用于量化貝葉斯框架下期望信息增益的大小。我們的目標是構建一個適用于吉布斯推斷的類似度量。然而，“期望信息增益”這一概念要求對結果分布進行期望運算；而在貝葉斯推斷中，該期望分布由邊緣分布 p ( y ∣ ξ )
和條件分布 p ( y ∣ θ , ξ ) 共同導出（二者均源于似然函數）。在吉布斯推斷中，由于缺乏似然函數，無法定義期望結果分布，導致第 2.3 節中的 BEIG 不再適用。因此，為在吉布斯框架下合理討論“預期獲得的信息”，我們除廣義推斷框架外，還需引入一個廣義的信息論框架。

令式 (2) 的分母稱為邊緣廣義似然（marginal generalised likelihood），記作 π ~ ( y ∣ ξ )

。全文中，我們使用波浪號（tilde）表示那些刻畫隱含隨機過程的量，我們稱其為偽隨機變量（pseudo-random variables, pseudo-rvs）。

3.2 吉布斯信息的度量
我們的第一個挑戰是在吉布斯推斷框架內定義類似于“信息論”的意外性（unexpectedness）和散度（divergence）度量。這些度量使得我們能夠基于損失函數構建效用函數，而這些效用函數可在無需計算昂貴歸一化常數的情況下進行評估（參見附錄 B）。

3.3 吉布斯期望信息增益

3.4 IMQ 參數的指數衰減

回顧第 2.5 節，加權評分匹配損失使用一個 IMQ 核函數來削弱觀測值的影響，而該核函數中“某次觀測是否為異常值”的判定主要取決于核參數的選擇（Altamirano 等, 2024）。為調節 IMQ 核的參數，并使其能根據某次觀測是否為異常值而動態調整其影響，Laplante 等（2025）提出：應基于后驗預測均值與標準差，分別指定中心函數 γ γ 與收縮函數 c c。

在大數據場景下，后驗標準差（即后驗估計的精度）通常與后驗均值的偏差（即后驗估計的準確性）密切相關。然而，在驅動實驗設計方法的小數據場景中，精度與準確性的關系可能截然不同：后驗方差通常隨每次更新而減小（即精度提高），而后驗預測方差（控制我們對觀測值的降權程度）也隨之減小。在所選先驗對數據生成值 θ θ賦予較低先驗概率的情形下，精度的增長速度往往快于準確性的提升：此時需要更多后驗更新才能識別出真實的 θ θ 值，而非大幅降低后驗方差。在初始實驗階段，后驗均值可能是一個對數據中心位置的較差估計；若收縮函數 c c 衰減過快，我們將對一個不可靠的預測均值賦予過高置信度。

應對這一問題的一種方法是：采用一種不同的自適應策略選擇 c c，而不依賴于后驗預測分布（原因已在前文說明）。我們采用指數衰減方式選擇 c c：在實驗開始時將其初始化為一個預設值，并按預定時間表在其后的實驗過程中逐步減小。更具體地，我們的指數衰減方法按如下公式計算第 i i 次實驗的 c c 值：

4 相關工作

已有多種方法被提出用于應對 BOED 中的模型誤設問題。其中許多方法屬于“M-閉合”（M-closed）設定，即假設真實模型存在于一個已知的可能模型集合之中。BOED 可應用于從該集合中選擇最能解釋數據的模型（Cavagnaro 等, 2010；Hainy 等, 2022）。類似地，也可通過修改效用函數，使其對整個模型集合具有魯棒性——例如，對由該模型集合生成的數據取期望（Catanach 和 Das, 2023）。另一種方法是在某個單一的替代模型下對效用函數取期望，該替代模型被認為能更好地捕捉真實的數據生成過程（DGP）（Overstall 和 McGree, 2022）。最后，還可采用另一種采集函數來選擇設計，以增強對模型誤設的魯棒性（Forster 等, 2025；Tang 等, 2025）。相比之下，GBOED 不僅在實驗設計上具有魯棒性，還通過廣義貝葉斯推斷在參數推斷上也實現了魯棒性。

利用吉布斯推斷進行實驗設計的想法最早由 Overstall 等人（2023）提出。然而，他們的框架要求提供一個被稱為“設計者分布”（designer distribution）的替代模型。該分布被假定具有足夠的靈活性且接近真實 DGP，并允許通過從該分布中抽樣來計算期望效用。這種方法的問題在于，這一假設通常不成立：我們往往無法選擇一個確信接近真實 DGP 的模型。我們的方法避免了這一假設，而是利用吉布斯推斷（基于一個可能誤設的統計模型）將魯棒性引入實驗設計過程。在此，我們承認：盡管存在誤設，該統計模型仍可能包含對實驗者有用的信息，代表了我們對現實運作機制的最佳理解。這使得我們可以使用能夠直接利用統計模型的損失函數進行吉布斯推斷，特別是通過評分規則（scoring rules）（Dawid 和 Musio, 2014；Giummolè 等, 2018）。此外，我們采用信息論方式，基于吉布斯測度計算期望效用，而非像 Overstall 等人（2023）那樣直接對統計模型取期望（關于我們的方法與 Overstall 等人（2023）方法的比較，見附錄 B.3）。

我們的方法與 Overstall 等人（2023）的另一區別在于：Overstall 等人對吉布斯后驗采用了正態近似——該近似既用于推斷，也用于計算期望效用。盡管在某些誤設情形下，正態近似是可行的（參見 Bochkina, 2023 的綜述），但這類近似通常要求擁有足夠大的數據集才能有效。而在實驗設計場景中，這一大數據要求通常無法滿足。

5 實驗

我們在三個難度各異的實驗設計問題上，對 GBOED 與標準 BOED 方法進行了實證比較。在線性回歸設定中，學習者假設一個帶有高斯誤差的線性模型，并選擇協變量以估計系數。在藥代動力學（pharmacokinetics）設定中，學習者使用一個藥代動力學（PK）模型（Ryan 等, 2014）研究藥物濃度隨時間的變化，通過為小規模患者隊列選擇給藥時間來學習模型參數。定位（location finding）設定則構成一個高維挑戰：任務是從選定位置觀測到的信號強度推斷兩個物體在 d 維空間中的位置（離物體越近，信號越強）。

我們進一步在兩種模型誤設場景下測試了魯棒性：非對稱異常值（Asymmetric Outliers，即被異常值污染的數據）和誤設的誤差方差（Misspecified Error Variance，即噪聲模型錯誤）。與 Overstall 等人（2023）采用后驗正態近似不同，我們選擇使用（廣義）變分推斷（Knoblauch 等, 2022）。在此方法中，指定一個變分族（variational family），并用該族中最接近真實后驗的成員對其進行近似。相關實驗細節及其他信息見附錄 E。學習率 ω ω 的選擇細節見附錄 D。

我們展示了在不同損失函數下所提出的 GBOED 框架（Gibbs EIG + Gibbs 推斷）的結果，有助于理解每種損失函數的優勢。我們還進行了消融研究，以理解使用新提出的 Gibbs EIG 進行設計選擇的效果：我們還將 GBOED 與結合其他采集函數的 Gibbs 推斷進行了比較。在表格/圖中，“Random” 和 “BEIG” 分別表示在指定損失函數下，結合 Gibbs 推斷的隨機設計選擇和基于 BEIG 的設計選擇。此處的比較隔離了推斷方法、采集函數和損失函數各自的影響，從而明確哪些因素驅動了性能表現。

每種方法的性能通過以下指標評估：均方根誤差（RMSE）、最大均值差異（MMD；Gretton 等, 2012），以及預測分布抽樣值與真實 DGP 抽樣值之間的（負）對數似然（NLL）（更多細節見附錄 F）。我們還提供了定性性能描述，例如圖 1 所示。

結果總結：在模型設定良好的情況下，GBOED 與 BOED 相當，仍能提供相對可靠的推斷。這在（不太可能的）模型良好設定情形下是有益的。由于 GBOED 是專門為應對模型誤設而提出和設計的，我們在此聚焦于誤設情形。關于良好設定情形的進一步討論見附錄 G.1。

圖 2、表 1 及附錄 G.1 的結果表明，當使用精心選擇超參數的評分規則時，GBOED 相比 BOED 能帶來更優的預測性能。總體而言，GBOED 在處理模型誤設方面比 BOED 更有效。我們的消融研究表明，在至少兩個實驗設計問題中，GBOED 的性能優勢可歸因于 Gibbs EIG 和 Gibbs 推斷的共同作用。特別是，當采用加權評分匹配——其中 c c 按照我們提出的指數衰減方法或 Laplante 等人（2025）的方法選擇時——性能最佳。在線性回歸的圖 2 結果中，我們提出的指數衰減方法優于 Laplante 等人（2025）的 IMQ 參數調優方法，因為其 c c 值是逐步下降而非快速下降。當模型函數形式的真實后驗與初始先驗相差較遠時，這一點尤為有用；而當兩者接近時，指數衰減方法仍與 Laplante 等人（2025）的方法具有競爭力。附錄 G 包含了完整的結果集和額外細節。

隔離 Gibbs EIG 的作用：在存在模型誤設的情況下，Gibbs EIG 在線性回歸和 PK 設定中帶來了比使用 BEIG 或 Random 更好的預測性能（見圖 2）。這可能是由于設計選擇與參數推斷相互補充（BEIG 使用貝葉斯后驗，Gibbs EIG 使用吉布斯后驗），也可能是因為 Gibbs EIG 所查詢的設計更能應對觀測誤差。在定位問題中，隨著維度升高，性能表現隨采集函數的選擇而變化，但當 d = 2
時，Gibbs EIG 平均優于 BEIG（見表 1）。附錄 G.3.2 提供了進一步結果，表明：若使用 BOED 獲取數據集后再進行 Gibbs 推斷，并不能獲得最優預測性能。換言之，在實驗過程中主動使用 GBOED，而非先用 BOED 再對最終數據集進行 Gibbs 推斷，可顯著提升性能。

Gibbs EIG 的探索行為：在缺乏先驗知識時，隨機查詢設計（完全探索）是一種自然策略，在模型誤設下可能優于 BEIG（Sloman 等, 2022；Tang 等, 2025）。我們將定位問題中 Random 與 Gibbs EIG 的定性比較留至附錄 G.5.3，其中表明 Gibbs EIG 的探索性依賴于所選損失函數。總體而言，Gibbs EIG 展現出強大的探索能力，可通過調節學習率 ω ω 進一步增強。在線性回歸設定中，BEIG 傾向于選擇設計空間邊緣處的設計，而 Gibbs EIG 則傾向于遠離邊緣進行查詢。附錄 G.3.4 和 G.4.3 分別展示了線性回歸和 PK 設定中 Gibbs EIG 在設計空間上的分布。

我們可通過圖 1 直觀地觀察 BOED 與 GBOED 在定位問題中的探索行為，這提供了對“所構建數據集質量”的另一種視角，而非僅依賴預測性能指標進行判斷。我們發現，當數據流中存在異常值時，BOED 所選設計會聚集在設計空間的錯誤區域（右上圖）。而 GBOED 能夠避免這種聚集，轉而在可能遭遇異常值的區域進行更多探索。這種探索行為反過來防止了 BOED 所表現出的預測性能下降。相比之下，盡管 Laplante 等人（2025）的方法在我們的指標上得分較高，但通過指數衰減獲得的數據集探索了更廣泛的設計空間（見附錄 G.5.3）。

高維下的 GBOED：隨著待學習設計與參數的維度 d 上升，GBOED 比 BOED 更強大。表 1 包含了使用 Laplante 等人（2025）方法進行 GBOED 的結果，我們發現該方法在預測性能上最強。有趣的是，這一現象在良好設定和誤設情形下均出現。

然而，我們的消融研究表明，性能差異可能源于 Gibbs 推斷本身，而非 Gibbs EIG：Gibbs EIG 并不總是在結合 Gibbs 推斷時優于其他采集函數。當學習率較小時（導致計算出的后驗對先驗的偏離較小），GBOED 的性能會提升，這可能使 Gibbs EIG 相對于其他方法更具優勢（見附錄 G.5.2）。

在處理異常值方面，2D 定位問題中隨機選擇設計似乎表現最佳，這可能是因為設計空間受限。但隨著 d 增大，這一優勢不再成立。另一方面，當噪聲模型錯誤時，使用 BEIG 的表現優于 Gibbs EIG 和 Random，表明此時重度利用（exploitation）更有利。Ivanova（2024）指出，我們用于近似后驗的變分推斷在定位問題中遠非最優，尤其在短視地最大化 EIG 時更是如此。避免使用變分推斷可能會提升 GBOED 的性能，因為這或許正是 BOED 即使在良好設定情形下也失敗的原因（如表 1 所示）。

6 討論

我們提出了 GBOED，一個在模型誤設情況下進行序列實驗設計的框架。GBOED 利用廣義貝葉斯推斷以改進參數推斷，并使用吉布斯期望信息增益（Gibbs EIG）來選擇最優的實驗設計序列。實證結果表明，與先前文獻一致，在模型誤設存在時，貝葉斯期望信息增益（BEIG）會導致次優性能。在這些情形下，Gibbs EIG 促使對設計空間進行更充分的探索，通常能比 BEIG 產生更具魯棒性的設計選擇和推斷。借助該框架，科學家現在即使面對可能誤設的模型，也能同時穩健地選擇實驗設計并進行推斷。

我們的框架并非沒有局限，這些局限可在未來工作中加以解決。首先，定理 1 中的重要性采樣機制在統計模型不適合作為計算 Gibbs EIG 的提議分布時可能帶來不良后果，導致高方差和數值不穩定性。此時，人們或許希望采用一個更合適的替代分布作為提議。評分匹配及許多其他評分規則與統計模型緊密相關，從而降低了出現此類問題的可能性。其次，我們可以采用更好的近似方法來計算 Gibbs EIG，因為已知 NMC 估計器收斂速度較慢，可被變分估計器所替代（Foster 等, 2019）。第三，GBOED 依賴于一個精心選擇的學習率；目前我們仍缺乏適用于實驗設計場景的學習率選擇方法。最后，如定位問題所示，我們的框架在復雜且高維的實驗設計問題中不易擴展。近期在攤銷（amortisation）和學習策略方面的進展（Foster 等, 2021；Blau 等, 2022）有助于實現非短視（non-myopic）的設計選擇，但僅有少量工作探討了在攤銷實驗設計設定下（先驗和/或模型）誤設與泛化能力的問題（Ivanova 等, 2024；Barlas 和 Salako, 2025；Tang 等, 2025）。

原文鏈接：https://arxiv.org/pdf/2511.07671

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.