無分布假設下對條件量的可能性推理
Distribution-free possibilistic inference on conditional quantities
https://proceedings.mlr.press/v290/cella25a.html
![]()
![]()
摘要
對條件量(即與給定協變量下響應變量的條件分布相關的未知量)進行不確定性量化是一個基本問題。現有方法通常依賴于嚴格的參數假設或光滑性條件,并且通常僅提供未知量的集合估計。本文引入了推斷模型(Inferential Models, IMs),用于對條件量進行可能性(possibilistic)不確定性量化,超越了僅提供集合估計的簡單做法。與傳統方法不同,所提出的 IMs 完全無需分布假設(distribution-free),并能同時處理隨機和固定的條件量。此外,它們滿足一種邊緣有效性(marginal validity)準則,確保在對協變量分布取平均時,所有 IM 輸出均得到恰當校準。本文通過實例展示了該框架在隨機和固定條件量上的應用——具體而言,分別針對一個未來響應值和條件中位數。
關鍵詞:推斷模型,無分布假設,預測,條件中位數
引言
考慮一個常見的情境,其中一項研究涉及 p+1 個變量,(X, Y) ? ?? × ?,其中 Y 是響應變量——主要關注對象——而 X 中的 p 個協變量用于預測或理解 Y。具體而言,給定觀測到的配對 (X?, Y?), ..., (X?, Y?) 和一個新的協變量向量 X???,目標要么是根據給定 X = x??? 時 Y 的條件分布預測下一個實現值,要么是通過分析其矩或分位數等來深入了解該條件分布。
假設 (X?, Y?), ..., (X?, Y?) 和 X??? 獨立地從同一分布 P = P_Y|X × P_X 中抽取,在大多數應用中是合理的。然而,這通常伴隨著一個更強、更難以辯護的假設,即 P 遵循特定的參數模型。在這種情況下,對與 Y | X = x 條件分布相關的未知量進行不確定性量化成為一個兩步過程:首先,對模型參數進行不確定性量化,然后將這種不確定性傳播到所關注的量上。
如果參數模型被錯誤設定,這種間接方法可能會出現問題。因此,在幾乎沒有理由假設參數模型的情境下,能夠在不施加分布假設的情況下量化不確定性的能力尤其寶貴。
對下一個響應值 Y??? 的不確定性進行量化通常是應用中的首要目標。一種成熟的解決方法是共形預測 [2, 18, 27, 28],它構建具有有限樣本覆蓋保證的預測集合,且完全不依賴于對 P 的分布假設。然而,在許多應用中,希望將不確定性量化擴展到簡單的集合估計之外。一個更細致的視角涉及為關于 Y??? 的特定斷言分配(可能不精確的)概率。
例如,考慮一所大學正在評估一位高中 GPA 為 2.5 及其他相關特征的申請者。該機構可能不僅限于預測其未來大學 GPA 的范圍,而是特別關心以概率方式評估某個具體斷言——例如,該學生的大學 GPA 是否會低于 2。由于此類評估會影響重要決策,因此概率賦值必須得到恰當校準,以確保錯誤結論保持可控的稀有性 [26]。
推斷模型 (IMs) [20, 23, 24] 提供了一個針對未知量的不確定性量化的可能性框架。它們的關鍵特征是對可能性賦值進行校準,確保低可能性(或高必然性)測度以受控的比率被賦予真實(或虛假)斷言。早期的 IM 發展集中在假設有參數模型的情形,但近期進展已將其構造擴展到無分布假設的情形 [4–10, 22]。特別是,本文所考慮的條件預測問題此前已在 Cella 和 Martin [9] 中探討過。
當焦點從對 P_Y|X 下一個實現值的不確定性量化轉移到對 P_Y|X 函數的不確定性量化時,挑戰會增加。傳統的無分布假設方法旨在不僅為特定數據點 x??? 構建集合估計,而且為所有 x ∈ ?? 構建集合估計。然而,實現適當的覆蓋通常需要額外的假設。非參數回歸 [12, 29],例如,施加了光滑性條件,并假設在估計條件均值時 P_Y|X 具有足夠輕的尾部——這反映了為其構建非平凡置信區間的基本困難 [1]。即使是像條件分位數這樣穩健的函數,也需要對 x ∈ ?? 上的分位數函數施加額外的連續性假設,正如分位數回歸方法 [17] 所示。同樣的限制也適用于 Cella [5] 提出的用于條件分位數的無分布假設 IMs 構造,雖然它提供了經過校準的可能性不確定性量化,但也依賴于連續性假設。
這就引出了一個問題:能否在不施加任何額外假設的情況下,實現對 P_Y|X 至少某些函數的有意義的不確定性量化?該領域的最新進展由 Medarametla 和 Candès [25] 以及 Barber [3] 做出,二者都專注于通過集合估計進行不確定性量化。這些發展的一個核心要素是他們采用的有效性概念。類似于共形預測,所提出的集合估計的覆蓋范圍被認為是邊緣性的,而不是以特定的觀測值 x??? 為條件。換句話說,目標是在以邊緣分布 P_X 加權時覆蓋未知關注量的值。由于未對 P 所屬的分布類做任何假設,尋求針對單個數據點的校準集合估計比試圖在整個 x ∈ ?? 上實現逐點覆蓋更為可行 [25]。
在這些進展的基礎上,我們的目標是在 IM 框架內擴展這些思想,使條件量的不確定性量化無需分布假設,且超越集合估計。在第 4 節中,我們將上述討論的邊際有效性概念置于概率不確定性量化的更廣泛背景下進行形式化,并提出一種滿足此標準的具體無分布假設 IMs 構造。這種構造相當通用,能夠容納隨機和固定的條件量。具體而言,我們呈現兩個例子:一個是針對隨機量 Y???,另一個是針對固定量——條件中位數。前者此前已在 Cella 和 Martin [9] 中考察過,但在這里,我們通過新框架的視角重新詮釋它。后者是一項新穎的貢獻,從 Medarametla 和 Candès [25] 的工作中汲取了重要啟發。
本文其余部分組織如下。在第 2 節,提供了關于參數化 IMs 的簡要背景,以使讀者了解 IMs 背后的基本推理、其構造邏輯以及它們滿足的關鍵性質。第 3 節介紹了(無條件的)無分布假設 IMs,其中 Cella [5] 的發展(最初設計用于固定的關注量)被推廣以同時容納固定和隨機量。這種推廣很重要,因為第 4 節中提出的用于條件量的 IMs 遵循類似的邏輯。最后,第 5 節提供了一個簡明的總結、關鍵評論以及對開放問題的討論。
參數化IMs的背景
推理模型(IMs)大約在十五年前出現,旨在在統計學中兩種主要思想流派之間取得平衡:頻率主義和貝葉斯方法。換句話說,IMs被開發出來是為了提供關于未知數的概率不確定性量化,類似于貝葉斯框架,同時確保這些概率陳述經過校準并獲得,而無需事先指定,這符合頻率主義的觀點。實現這種“兩全其美”的關鍵——Efron稱之為統計推斷中“最未解決的問題”——在于IMs概率陳述中使用不精確概率。特別是,這些陳述通過必要性和可能性度量來表達。
![]()
![]()
換句話說,推斷模型(IMs)將小的可能性(≤ α)賦予真實斷言的頻率(作為數據 ? 的函數)也很小(≤ α)。
對于 IM 的必然性測度,也有相應的陳述,但我們在本文此處及后續部分均省略。關于這兩種測度在 IM 框架中各自所起的重要作用的討論,參見 Cella 和 Martin [11]。
這些校準性質的基礎是 IM 輪廓函數(contour)所謂的有效性(validity)性質,其形式如下:
![]()
若干其他關鍵性質可直接由此有效性條件推出。為避免重復,我們將其討論推遲到后續章節。
IM 構造背后的推理如下:相對似然自然地量化了未知參數 Θ 的某個候選值 與觀測數據 ? 之間的相容性。然而,它本身并不能保證我們所追求的經過校準的概率性不確定性量化。為解決這一問題,相對似然需經過公式 (1) 中所述的“可能性到概率”的變換,Martin [21] 將該過程稱為“有效化”(validification)。這種“相容性函數 + 有效化”的組合將在下文構建無分布假設的 IMs 中起到關鍵作用。
無分布假設的IMs
第2節回顧的參數化IMs功能強大,可以說為統計學中長期存在的頻率學派與貝葉斯學派之爭提供了一個有吸引力的解決方案。然而,如同所有參數化方法一樣,它們也存在一個主要缺點——需要為數據指定一個參數化分布。在許多現代應用中,此類假設往往缺乏依據,使得無分布假設的方法更為可取。因此,任何嚴肅的統計推斷框架都必須能夠適應無分布假設的情形,而IMs也不例外。
考慮一個感興趣的隨機量 Z,它在樣本空間 Z 中取值,并服從某個分布 P,但關于該分布 P 不做任何假設。可觀測數據 Z? = (Z?, ..., Z?) 由來自 P 的 n 個獨立同分布的實現構成。目標是在給定觀測數據 Z? = z? 的情況下,對一個未知量 Θ 進行不確定性量化,該量 Θ 在空間 T 中取值,并與分布 P 相關聯。為了盡可能保持一般性,我們考慮兩種情況:未知量是固定的(例如,作為底層分布的一個函數 Θ = Θ(P),如 P 的分位數),或是隨機的(例如,從 P 中抽取的一個未來實現值 Θ = Z???)。在本節余下部分,當 Θ 是固定時,? 將表示對 Z? 取的概率;當 Θ 是隨機時,? 將表示對 Z? 和 Θ 兩者取的概率。
第2節中參數化IMs的一個關鍵特征是其有能力對任何感興趣的斷言做出經過校準的概率賦值。針對 Θ 的一個無分布假設IM 應該保持類似的性質。更具體地說,
目標是構建一個無分布假設的IM,它將小的可能性賦予那些具有小 ?-概率的真實斷言。以下定義形式化了這一要求。
![]()
在構建針對 Θ 的無分布假設 IM 時,由于未假定模型,似然函數(以及相應的相對似然)不復存在。因此,無法通過公式 (1) 中的概率–可能性變換來獲得輪廓函數(contour)。然而,我們認為第 2 節中提出的核心思想仍然適用:對一個實值函數進行“有效化”(validification),只要該函數能夠度量 Θ 的候選值與觀測數據 ? 之間的相容性,就足以用于構建無分布假設的 IM。關鍵區別在于,在當前設定下,該相容性函數不能再基于相對似然,而需要一種新的策略。
![]()
![]()
![]()
除了確保對所關注斷言賦予的可能性測度具有校準性之外,(5) 還帶來另外兩個重要推論。首先,它意味著由 IM 輪廓函數導出的集合估計具有頻率學派的錯誤率控制保證。
![]()
(5) 的第二個重要推論涉及 IM 不確定性量化的整體可靠性。具體而言,它表明定理 3.1 中所推導的校準性不僅適用于關于 Θ 的某些預先指定的斷言,而且在所有此類斷言上是一致成立的(uniformly)。關于這一點的進一步討論將在定理陳述及證明之后給出。
定理 3.2. 無分布假設 IM 的可能性測度具有一致校準性,即
![]()
(6) 中的事件“存在某個滿足 ? Θ 的集合 ”可被視為所有包含 Θ 的斷言 的并集。這顯然比與任何一個固定的、包含 Θ 的集合 相關的事件要寬泛得多,這意味著 (6) 中的概率界比 (3) 中相應的界更強。這種更強的校準概念確保了:即使數據分析人員沒有遵循在數據收集之前預先設定感興趣斷言的推薦做法,而是讓數據影響其對斷言的選擇,錯誤的結論仍然能被控制在罕見的范圍內。
為了說明上述無分布假設 IM 的構造,我們考慮兩個例子。在這兩種情況下,Z?, ..., Z? 均為獨立同分布的連續定量變量。第一個例子考察一個固定的未知量 Θ,具體指 P 的中位數。第二個例子則關注一個隨機的未知量 Θ,即 P 的下一個實現值 Z???。
例 1. 考慮感興趣的未知量為 P 的中位數,即滿足 P(Z? ≤ Θ) = 0.5 的確切點 Θ。正如 Cella [5] 中所討論的,在此情境下,一個自然的選擇是相容性-樞軸(compatibility-pivot)為
![]()
![]()
圖1的底部面板以灰色顯示了該輪廓函數,其對應于頂部面板直方圖中所示的數據。由于 ??? 基于 ? 的中位數,因此該輪廓函數在樣本中位數處達到峰值。同樣值得注意的是,在例1中推導出的針對分布 中位數的輪廓函數具有更高的精確度。這是合理的,因為對像 ??? 這樣的隨機量進行不確定性量化,本質上比對像中位數這樣的固定量進行量化更為復雜;但請參見第4.4節。
用于條件量的無分布假設IMs
4.1 設置與目標。在本節中,我們處理本文的核心問題:數據 ? = (?, ..., ?) 由 = (, ) ? ?? × ? 的 n 個獨立同分布實現構成,其中 表示協變量, 表示定量響應變量。對 的分布 = _Y|X × _X 不做任何假設。關注點是一個與 _Y|X 相關的未知量 Θ。更具體地說,在觀測到數據 ? 和一個新的協變量向量 ??? 后,所關注的未知量與分布 | ??? = ??? 相關。類似于第3節,Θ 可以是隨機的(例如條件分布的下一個實現值 ???),也可以是固定的(例如其中位數)。
為了為這些與條件分布相關的 Θ 構建一個 IM,我們首先需要明確我們希望達成的有效性類型。觀測數據由 ? 中的 n 個協變量-響應配對以及第 (n+1) 個協變量向量 ??? 組成。我們將此組合數據記為 ???,即 ??? = {?, ???}。以下定義指定了基于 ??? = ??? 的針對 Θ 的無分布假設 IM 的輪廓函數應滿足的理想有效性,而后續定理則概述了具有此類輪廓函數的 IM 所具備的性質。在本節中,當 Θ 是固定時,? 表示對 ??? 取的概率;當 Θ 是隨機時,? 表示對 ??? 和 Θ 兩者取的概率。
![]()
![]()
![]()
![]()
4.2. IMs的構建
![]()
![]()
對于 Θ 的無分布假設 IM,其輪廓函數按 (12) 定義,保留了定理 4.1 中建立的所有性質。然而,一個關鍵挑戰是識別一個合適的相容性-樞軸 ρ,它在所提出的構造中起著至關重要的作用。這一挑戰與第 3 節中(無條件的)無分布假設 IM 構造中的挑戰類似。盡管特定應用允許識別該樞軸(如下文示例所示),但一種廣泛適用的策略仍難以捉摸。事實上,此類相容性-樞軸可能并不總是存在——詳見第 5 節的進一步討論。
4.3 用于條件預測的 IMs
![]()
![]()
作為說明,考慮圖2第一個圖中 n=200 的數據集 z?。圖中的直線代表為擬合數據 z? 而選定的三次中位數回歸模型。然而,我們關注的是 Y???,而所展示的三次中位數回歸模型正是我們在上述構造中將用作 m? 的模型。假設觀測到 X??? = 7。圖2底部的圖顯示了式 (13) 中的輪廓函數。
![]()
水平線確定了由式 (11) 導出的 Y??? 對應的 95% 集合估計。
4.4 用于條件中位數的 IMs。我們現在將焦點轉移到一個固定的 Θ,具體而言即條件中位數。記 m(x) 為給定 X = x 時 Y 的條件分布的中位數。在給定觀測數據 w??1 的情況下,目標是為 Θ = m(x???) 構建一個無分布假設的 IM。
為實現此目標,必須識別一個合適的相容性-樞軸。雖然人們可能會想從第3節中的(無條件)中位數示例中汲取靈感,但該方法在此處并不適用,原因很簡單:當 X 包含至少一個定量變量時,對于給定 X = x 的 Y 將沒有重復觀測值。在 Cella [5] 中,這一問題通過創建 X 的鄰域得以解決,從而能夠在對中位數函數在 x ∈ ?? 上附加連續性假設的前提下,構建用于條件中位數的無分布假設 IM。由于本文不愿假設連續性,因此必須開發一種新策略。
![]()
![]()
如果我們能獲得 i = 1, ..., n? 時的 m(X?),我們就可以直接應用前述結果來定義我們的相容性-樞軸,并完成條件中位數的無分布假設 IM 構造。然而,這種方法在實踐中不可行,因為對于 i = 1, ..., n?,m(X?) 是不可觀測的。對于我們數據集 Z?2 中的每個 X?,唯一可獲得的量是其對應的響應值 Y?。于是定義:
T? = -|Y? - m?(X?)|, i = 1, ..., n?, (14)
并令 r*(M????) 表示 M???? 相對于 T?, ..., T?? 的秩。由于 T?, ..., T?? 是可計算的,確定 r*(M????) 的分布并驗證其獨立于任何未知量,使我們能夠使用此秩作為相容性-樞軸。以下引理對于推導 r*(M????) 的分布至關重要,該分布將在后續定理中正式給出。
![]()
![]()
再次考慮圖2頂部面板中 n=200 的數據集 z?。異方差性顯而易見,因為 Y 的離散程度隨 X 變化顯著。這表明,對于給定 X 時 Y 的條件分布,中位數是一個合適的中心趨勢度量。現在,假設 X??? = 7。為應用上述針對 Θ = m(x???) 的無分布假設 IM 構造,我們首先將數據 z? 隨機分為兩半,其中 z?1 由圖3頂部面板中的黑色數據點表示。同一圖中的直線代表為 m? 選定的三次中位數回歸模型。圖3底部面板以黑色顯示了由式 (16) 得到的輪廓函數。作為對比,Θ = Y??? 的輪廓函數以灰色顯示。重要的是要注意,這是一個不同于圖2底部面板所展示的輪廓函數。為確保公平比較,此處的輪廓函數是使用第4.3節中所述構造的一個修正版本推導出來的。該方法依賴于數據分割,并利用了由式 (14) 定義的 T?, ..., T?? 的可交換性。
![]()
該輪廓函數被證明比條件中位數的輪廓函數精確得多,這與第3節中的例子形成了鮮明對比,在那些例子中觀察到的是相反的趨勢。此外,將上式右側與式 (16) 的右側進行比較可以發現,前者確實小于后者。關于這一點的進一步討論見第5節。
結論
本文提出了一種新穎的無分布假設推斷模型(IMs)構造方法,專門用于對條件量(即與給定協變量下響應變量的條件分布相關的量)進行可能性推理(possibilistic inference)。所提出的方法具有通用性,能夠處理隨機和固定的未知量,并且如定理 4.1 所示,其有效性可被嚴格證明。此處采用的有效性概念是邊緣性的(marginal),這與更常被討論的條件有效性(conditional validity)性質不同,且弱于后者。在無分布假設的背景下,若不引入額外假設,要在整個條件分布上實現逐點有效性(pointwise validity)極其困難。此外,基于 Lei 和 Wasserman [19] 等人的結果來看,似乎任何非平凡的 IM 都不可能滿足條件有效性。
本節最后提出一些評述與未來研究方向。首先,盡管我們提出的構造方法具有廣泛的適用性,但其實施高度依賴于識別一個合適的相容性-樞軸(compatibility-pivot)。目前尚無普適策略可用于此任務,這意味著每個具體問題都需單獨處理。此外,并不能保證總能找到合適的樞軸,尤其當所關注的量受分布尾部影響時更是如此。一個自然的未來研究方向是將我們的方法應用于其他條件量,只要在這些情形下有可能識別出相容性-樞軸。例如,用于條件中位數的方法可推廣至條件分位數。其他潛在目標包括條件四分位距、截尾均值和比例等。還需指出的是,使用相容性-樞軸構造無分布假設 IM 并非唯一途徑;其他策略也存在,且可在幾乎不損失或完全不損失有效性的前提下加以應用;參見 [10, 22]。
其次,針對條件中位數所提出的解決方案依賴于數據分割(data splitting),這對于近似所選相容性-樞軸的分布至關重要。然而,類似于在構建針對 Yn+1的 IM 時可以選擇是否使用數據分割,此處所提出方法的替代版本或許能在條件中位數的情形下消除對數據分割的需求。這為未來研究提供了一個有前景的方向。
最后,我們在第 4.4 節的示例中觀察到,針對條件中位數所提出的 IM 比針對 Yn+1的 IM 效率更低,這初看似乎違反直覺,可能暗示我們的方法并非最優。一方面,需注意我們的解決方案依賴于所選相容性-樞軸真實分布函數的一個上界,因此確實存在改進空間。另一方面,Medarametla 和 Candès [25] 已證明:以概率 1?α/2包含 Yn+1的置信區間,必然以概率 1?α包含條件中位數。這表明我們在示例中觀察到的現象并非完全出乎意料。這些發現將在不精確概率(imprecise probabilities)的框架下進一步探索,并在本文的后續擴展中予以報告。
原文鏈接:https://proceedings.mlr.press/v290/cella25a.html
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.