網易首頁 > 網易號 > 正文申請入駐

假設穩健的因果推斷

2026-02-03 00:10:20　來源: CreateAMind

上海舉報

分享至

Assumption-robust Causal Inference

假設穩健的因果推斷

https://arxiv.org/pdf/2505.08729

摘要
在觀察性因果推斷中，常遇到多個看似同樣合理的調整集，而通常無法檢驗其中哪些滿足可忽略性（即有效）。這種不確定性帶來實際挑戰：難以協調多個可能沖突的平均處理效應（ATE）估計。樸素做法是報告所有置信區間的整體范圍（并集的凸包），但其寬度在大樣本下未必收斂至零，實際中可能過寬。為此，我們提出一種匯總程序，生成單一估計、一個置信區間，并識別出一組單元——只要至少一個調整集有效，該組上的因果效應估計即保持有效。所提置信區間寬度以 n ? 1 / 2速率隨樣本量收縮至零，而原始范圍保持常數量級。因此，即使多數調整集無效，該假設穩健方法仍可對 ATE 實現可靠推斷。需承認，穩健性有代價：推斷保證適用于與原目標總體接近但不同的重加權總體。合成與真實數據示例表明，相比整體范圍，本方法提供的 ATE 置信區間顯著更緊致。

關鍵詞：因果推斷，協變量調整，可忽略性，模型設定錯誤，多重宇宙分析，觀察性研究，重加權總體，穩健性。

1 引言
在觀察性研究中，回歸調整所用協變量的選擇至關重要卻固有復雜性。研究者常面臨若干看似合理的調整集，每個反映對潛在因果結構的不同假設。這種多重性成問題，因支撐任一調整集有效性的可忽略性（又稱無混雜性）假設無法由數據本身檢驗（Holland, 1986; Imbens and Rubin, 2015; Pearl, 2009），故從根本上無法判定哪些調整集有效。

實踐中，常難以判斷某協變量是否應被調整，抑或其僅為非混雜因素（如調節變量或中介變量；Pearl, 2009）。例如，評估新教學法對學生學業成就的影響時，學生自尊可能作為中介（教學法先提升自尊，進而改善表現）或調節變量（對高基線自尊學生更有效）。事實上，Huang 等（2022）指出，自尊可同時中介并調節積極師生關系對學生參與度的影響。

基于表1，我們進一步強調以下方法并不總能提供有效推斷：(i) 調整所有調整集的并集（在示例1與2中失效）；(ii) 調整所有調整集的交集（在示例3中失效）；(iii) 僅調整處理前協變量（在示例2中失效；參見Ding與Miratrix (2015)的詳細討論）。另一方面，一種樸素的置信區間構造方法是：只要至少一個調整集有效，即報告所得置信區間的凸包。然而，由于無效調整集導出的估計量對應非因果目標參數（不同于ATE），該樸素置信區間的寬度本質上不會隨樣本量增大而收斂至零（詳見第1.1節討論），因而在諸多實際應用中可能過寬。事實上，表1中所有設定下，該樸素置信區間同時包含真實的非零ATE與零值，表明其檢驗功效實質上可能為零。

下文第1.2節將介紹我們提出的假設穩健方法：只要所考慮的調整集中至少有一個有效，即可構造統一的因果估計量及其置信區間，并保證其漸近有效性（故稱“假設穩健”）。所提置信區間寬度以快速的參數速率隨樣本量收縮，而樸素置信區間寬度保持常數量級。經驗上，表1表明，在第4.1節所有模擬設定中，我們的假設穩健方法所得置信區間均顯著窄于樸素方法。

1.1 問題設定與符號

從圖模型視角看，若處理變量 A A 與結果變量 Y Y 之間的所有非因果路徑（后門路徑）均被阻斷，則調整集 S S 是有效的（參見，如 Pearl (2009)）。調整集可能因多種原因而無效，例如：(i) 調整集遺漏了重要混雜因子，即某些后門路徑仍保持開放；或 (ii) 調整集包含了非混雜因子，如中介變量（受處理影響的協變量）或對撞變量（同時受處理與結果影響的變量）。關于此主題的系統性論述，參見 Pearl (2009) 的專著。

1.2 我們的假設穩健方法

在如式 (3) 所示求得轉移權重后，我們基于每一個調整集，采用增廣逆概率加權（augmented inverse propensity weighting, AIPW）估計量（Robins 等，1994；Robins 與 Rotnitzky，1995；Hahn，1998；Scharfstein 等，1999；Chernozhukov 等，2018）對重加權總體的平均處理效應（ATE）進行推斷。通過使用非參數均值估計器進行經驗風險最小化來估計權重，會導致較慢的非參數收斂速率——我們通過額外的偏差校正來緩解這一問題。最后，由于所有調整集針對重加權總體均指向同一被估參數，我們通過對各估計量取凸組合的方式將其合并，從而獲得一個單一的置信區間；該置信區間在至少一個調整集有效的情況下具有漸近有效性，且其寬度以 √n 的速率隨樣本量增大而收縮；精確結果見定理 1，實證示例見第 4 節。

1.3 相關工作

1.3.1 移動目標（Moving the goalpost）

在因果推斷中，為應對可識別性問題而將估計與推斷的目標轉向某個子總體或重加權總體的做法并不罕見。例如，Imbens 與 Angrist（1994）提出的局部平均處理效應（Local Average Treatment Effect, LATE）框架，即針對依從者（compliers）估計因果效應——實質上是通過重加權將總體聚焦于該群體。Angrist 與 Pischke（2009）進一步討論了 LATE 如何對應于依從者群體中的重加權平均處理效應，強調了權重在定義被估參數中的作用。Imbens（2010）指出，此類被估參數雖具局部性，卻通過明確估計所適用的具體總體而增強了內部效度。Small 等（2017）表明，在隨機單調性假設下，標準工具變量估計量所針對的是一個加權的 ATE，對工具變量效應更強的個體賦予更高權重。我們的方法延續了這一傳統，通過識別一個目標總體——在該總體中，不同合理調整集所得的因果估計保持一致——從而確保即使在某些子總體中可忽略性假設可能被違反的情況下，推斷仍具有穩健性。

1.3.2 重加權方法

重加權方法長期以來在因果推斷中占據核心地位，有助于結果在不同總體間的推廣并提升穩健性。Horvitz 與 Thompson（1952）通過引入逆概率加權以校正偏差，為此奠定了基礎。然而，逆概率權重在實踐中往往不穩定，由此催生了一系列通過結果建模（如 Robins 等，1994）或正則化（Deville 與 S?rndal，1992；Hainmueller，2012）來穩定權重的方法。Hainmueller（2012）提出的熵平衡（entropy balancing）提供了一種靈活途徑，通過將協變量平衡約束直接納入加權方案，確保對指定協變量矩實現精確平衡。近期，Li 等（2018）引入了平衡權重，并證明以協變量重疊度最大的個體為目標，可最小化加權處理效應估計的漸近方差。盡管這些方法旨在針對單一（且假設有效）的調整集進行混雜調整并改進估計，我們的方法則有所不同：它應對的是存在多個調整集（其中部分可能無效）的情形。

1.3.3 穩定性與多重宇宙分析

在不同假設下評估穩健性的一種策略是多重宇宙分析（multiverse analysis），即在不同模型設定、預處理決策與調整集下執行所有合理可行的分析。Steegen 等（2016）指出，僅分析單一數據集或模型可能產生誤導，主張采用多重宇宙方法以揭示哪些分析選擇對結果影響最大。與之互補的是穩定性分析（stability analysis）的理念，即評估數據、模型參數或預處理步驟的微小變化是否會導致定性不同的推斷，并強調結論在合理擾動下應保持一致。穩定性原則已在多個領域受到重視，包括貝葉斯統計（Box，1980；Skene 等，1986）、計量經濟學（Leamer，1983）以及因果推斷（LaLonde，1986；Rosenbaum，1987；Imbens 與 Rubin，2015）。在數據科學領域，Yu（2013）提出了穩定性框架，Yu 與 Kumbier（2020）進一步發展了可預測性、可計算性與穩定性（Predictability, Computability, and Stability, PCS）框架，倡導在整個數據科學生命周期中評估分析決策對結果的影響。Jeong 與 Rothenh?usler（2025）將穩定性分析擴展至分布不確定性情形，將可忽略性等假設的違反建模為數據生成分布的微小擾動。采用不同估計策略以相互驗證因果假設的做法也廣為推薦（Freedman，1991；Rosenbaum，2010；Karmakar 等，2019）。我們的方法與此類視角相契合并加以拓展：它旨在應對“哪個調整集有效”這一不確定性，通過提供一種原則性方式來協調多個合理調整集下的推斷，從而穩定因果推斷。

1.3.4 敏感性分析

經典敏感性分析方法通過引入參數以量化未觀測混雜的影響，評估因果估計對可忽略性假設輕微違反的穩健性。自 Cornfield 等（1959）的開創性工作以來，已涌現出多種此類方法，包括 Rosenbaum 與 Rubin（1983）；Robins（1999）；Frank（2000）；Rosenbaum（2002）；Imbens（2003）；Brumback 等（2004）；Imai 等（2010）；Hosman 等（2010）；VanderWeele 與 Arah（2011）；Blackwell（2014）；Dorie 等（2016）；Cinelli 與 Hazlett（2019）；Oster（2019）；Zhao 等（2019）；Franks 等（2020）；Dorn 與 Guo（2023）；Kang 等（2024）；Dorn 等（2025）等。然而，這些方法通常基于單一調整集，并假定底層因果結構與調整集已正確設定，僅關注對該基準的微小偏離。相比之下，我們的工作應對的是因果圖未完全已知的情形，由此產生源自不同圖結構的多個合理調整集。此類不確定性可能導致某些總體中可忽略性出現實質性違反，即便它在其他總體中成立。我們的方法致力于尋找一個總體，在該總體中我們能夠提供具有窄置信區間的推斷，且該推斷在一系列合理調整集下均保持有效。

1.4 論文結構

本文其余部分組織如下。第 2 節中，我們描述了所提出的針對平均處理效應（ATE）的估計與推斷策略，該策略采用非參數函數估計器。第 3 節中，我們給出了通用方法的一個簡化版本，適用于如下特殊情形：至少存在一個調整集，使得包含處理變量與協變量交互項的線性模型成立。第 4 節中，我們通過若干模擬示例以及 Abadie（2003）與 Chernozhukov 等（2018）提供的真實數據集（研究 401(k) 退休計劃對凈金融資產的影響）來展示我們方法的經驗表現。第 5 節為討論與總結。

2 面向平均處理效應的假設穩健推斷

命題1表明，通過求解式(4)，我們能夠找到一個盡可能接近原始總體的重加權總體，使得所有候選調整集均能識別該重加權總體的平均處理效應（ATE）。請讀者參考圖1，以直觀比較例1中重加權總體與原始總體（另見圖4）。下文注釋將進一步闡述重加權總體在實際案例中的解釋及其實際應用價值。

注釋1（重加權總體的解釋）。在市場研究中，重加權總體通常具有實際解釋意義。通過將我們的方法應用于試點樣本，我們可以獲得權重，從而指導如何從協變量的特定分布中收集未來數據，以便在至少一個調整集有效（即假設1成立）的情況下，能夠報告穩健且可靠的置信區間。例如，在在線廣告中，我們的重加權程序有助于識別最相關的用戶細分群體，并調整數據收集過程以聚焦于這些群體。這確保了估計的平均處理效應（例如，新廣告策略相較于現狀的影響）及其對應的置信區間更加準確，并能更好地反映目標總體中的實際用戶行為。

接下來，我們將轉向求解優化問題(4)的問題。為保證式(4)解的存在性與唯一性，我們提出以下假設。

我們注意到，假設3本質上是一個異質性假設——它排除了退化情形，即異質性處理效應向量被約束在低維子空間中，此類情形可能無法保證存在一個重加權總體，使得各被估參數如式(4)所示達成一致。我們的下一個結果確保了式(4)解的存在性與唯一性，并將其簡化為一個有限維凸優化問題；證明見附錄A.2。

注釋2（不可行性本身具有信息量）。當某些調整集產生的估計值與其他調整集存在顯著差異時，假設3可能不成立，優化問題(4)可能無解。然而，這種不可行性本身是一個有意義的發現——它揭示了不同調整集所依據的假設可能存在根本性的不相容。在此情形下，我們的方法仍可用于識別內部相容的調整集簇：對于每個簇，我們能夠找到一個與原始總體接近的目標總體，使得該簇內的所有調整集均能識別這一新目標總體的平均處理效應（ATE）。

3 假設穩健推斷與參數基線

在應用研究中，包含處理變量-協變量交互項的線性回歸模型可以說是最常用于平均處理效應（ATE）推斷的參數方法，我們請讀者參考 Hainmueller 等（2019，第1節）和 Anoke 等（2019，第3.1節）的討論。交互線性模型之所以廣受歡迎，源于其實施簡便且系數具有清晰透明的可解釋性。

4 經驗示例

4.1 模擬示例

本節通過若干模擬示例展示我們方法的經驗表現，并與簡單報告全部范圍的樸素方法進行比較。此外，這些示例也說明：通過取并集或交集合并所有調整集，或僅將處理前協變量納入調整集，均不能始終保證推斷的有效性。具體而言，示例1與示例2表明，調整集的并集未必構成有效調整集；而示例3則顯示，即便其中一個調整集有效，調整集的交集也可能無效。此外，示例2還表明，處理前協變量亦可能并非混雜因子，將其納入調整集可能導致不一致的估計。在這些示例中，我們均考慮兩個調整集，即。我們從各自的數據生成過程中抽取個觀測樣本，并在下文示例1至3中報告基于交互項線性回歸模型、分別針對兩個調整集所得到的平均處理效應（ATE）的95%置信區間。特別地，我們觀察到在每個示例中，兩個調整集所得的置信區間對ATE的推斷存在沖突。

隨后，我們將上述實驗重復1000次，并在表1中報告經驗覆蓋率（所得置信區間包含真實ATE的平均比例）以及平均寬度（在各次重復中取平均）。我們注意到，在每個示例中，對應于無效調整集的置信區間均無法提供覆蓋率，這反映了在無法檢驗哪個調整集有效的情況下，選擇調整集所面臨的挑戰。表1中我們還報告了：(i) "樸素"置信區間，即兩個調整集對應置信區間之并集的凸包；(ii) 第3節中我們所提出的假設穩健置信區間。我們指出，盡管樸素方法在"至少一個調整集有效"的假設下能夠提供覆蓋率，我們的方法在保證相同覆蓋率的同時，所得置信區間顯著更窄。

4.2 應用：401(k)資格對金融資產的影響

我們現將假設穩健方法應用于Abadie（2003）最初研究并由Chernozhukov等（2018）重新考察的真實世界數據。本研究旨在考察401(k)資格（即雇主是否向員工提供401(k)計劃）對員工凈金融資產的因果效應。該數據集包含多種處理前協變量，包括年齡、收入、教育程度、家庭規模、婚姻狀況、住房所有權，以及個人是否被其他養老金或IRA計劃覆蓋。Abadie（2003）采用工具變量方法研究該問題。然而，我們遵循Chernozhukov等（2018）的方法，基于增廣逆概率加權（AIPW）估計量進行推斷（Robins等，1994；Robins與Rotnitzky，1995；Scharfstein等，1999；Chernozhukov等，2018）。此處的關注點仍在于無法確定應調整哪些協變量的不確定性，以及多個調整集可能同樣合理的事實。我們基于每個調整集的AIPW估計量構建置信區間。

關于哪些協變量應納入調整集存在一些模糊性，例如，在本例中IRA計劃參與可能是一個中介變量。我們考慮一個包含四個調整集的示例，按嵌套順序列出：S? = {年齡, 收入, 教育程度}，S? = S? ∪ {家庭規模, 婚姻狀況}，S? = S? ∪ {雙職工家庭, 房主}，以及 S? = S? ∪ {界定養老金計劃, 參與IRA計劃}。我們在圖3中比較了使用各調整集所得的95%置信區間，以及樸素方法報告的全范圍（紅色）和使用我們假設穩健方法構建的置信區間（綠色）。在此示例中，我們假設穩健置信區間的寬度比通過取不同AIPW置信區間凸包所形成的樸素假設穩健置信區間窄約80%。

我們在圖4中比較了原始總體與新目標總體在協變量年齡、收入和教育程度上的分布。在此示例中，重加權總體的年齡、收入和教育程度分布與原始總體非常接近，這并不意外，因為在式(4)中，我們最小化了新目標總體與原始總體之間的KL散度。我們還考慮了其他調整集組合，發現我們的置信區間遠短于全范圍（樸素置信區間），這驗證了我們的理論結果。

5 討論

在觀察性研究中，研究者常常面臨多個合理的調整集，但僅憑數據無法確認其中任何一個是否有效。這為因果推斷帶來了嚴峻挑戰，因為不同的調整集可能導致相互矛盾的結論，而報告所有估計值的范圍并不能消除這種模糊性。此外，諸如調整所有調整集的并集或交集，或僅調整處理前協變量等簡單方法同樣無效，正如我們在示例1至3中所展示的那樣。

在本文中，我們提出了一種方法，用于尋找一個接近原始總體的新目標總體，使得只要至少有一個候選調整集有效，我們便可以報告一個單一的平均處理效應估計值及其對應的單一置信區間。我們的方法通過求解一個凸優化問題來識別此類總體，該問題在滿足線性約束（即不同調整集所得被估參數的一致性）的條件下最小化KL散度。尋找轉移權重的過程可視為預處理步驟——在獲得這些權重后，我們使用增廣逆概率權重來平衡處理組與對照組，并返回一個具有√n收斂速率的單一估計量。我們的方法在以下意義上具有假設穩健性：無需知曉哪個調整集有效，且只要至少有一個調整集有效，即使大多數調整集無效，仍能得出有意義的推斷。所得置信區間比原始區間范圍顯著更窄，且在最小假設條件下保持名義覆蓋概率。

盡管我們通過合成數據與真實世界數據說明了該方法如何成為一種有效替代方案——即無需保證覆蓋概率而僅選擇一個調整集，或簡單報告全部范圍——但我們的方法仍存在一些局限性。首先，為使該方法有效，必須至少存在一個調整集滿足無混雜性假設（即不存在未觀測混雜）。其次，在某些情況下，調整集可能彼此不相容，即不存在一個總體使得所有相關估計量達成一致。當這種情況發生時，我們的優化問題無解。然而，這一發現本身具有信息量，它提示實踐者調整集所依據的假設彼此不相容。此外，我們的方法可將調整集聚類為相容的組（即存在一個重加權總體，使得這些調整集針對同一被估參數），從而啟動關于應選擇哪個簇的討論。

另一個局限性是可解釋性：盡管我們的經驗權重通常僅顯著改變一兩個協變量，但這并非總是成立。在實踐中，可通過添加約束將重加權限制在特定變量上，或鼓勵采用類似匹配的二元權重。

值得探索解決上述局限性的策略，并將所提方法擴展至包含大量候選調整集的情形。當考慮大量調整集時，要求被估參數嚴格一致可能過于嚴格，導致無法找到能夠提供假設穩健推斷的目標總體。在此類情形下，通過允許被估參數近似一致，或僅要求定性一致（例如，因果效應符號相同）來放寬約束可能更為有益。我們將這些方向留待未來研究。

原文鏈接：https://arxiv.org/pdf/2505.08729

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.