網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

典型性原則及其對(duì)統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)的啟示

2026-02-15 00:07:42　來(lái)源: CreateAMind

上海舉報(bào)

分享至

The typicality principle and its implications for statistics and data science

https://www.researchgate.net/publication/400209222_The_Typicality_Principle_and_Its_Implications_for_Statistics_and_Data_Science

摘要

數(shù)據(jù)科學(xué)的一個(gè)核心焦點(diǎn)是將經(jīng)驗(yàn)證據(jù)轉(zhuǎn)化為知識(shí)。這里所說(shuō)的“知識(shí)”，指的是那些 (i) 通過(guò)明確的推斷過(guò)程得到數(shù)據(jù)支持，且 (ii) 伴隨有校準(zhǔn)過(guò)的不確定性度量的主張。因此，像羅納德·A·費(fèi)希爾、卡爾·R·波普爾和約翰·W·圖基等深刻思想家的科學(xué)見(jiàn)解和態(tài)度，有望在未來(lái)幾年激發(fā)機(jī)器學(xué)習(xí)和人工智能領(lǐng)域激動(dòng)人心的新進(jìn)展。沿著這些思路，本文提出了一種新穎的典型性原則，該原則大致表述為：如果觀測(cè)數(shù)據(jù)相對(duì)于某個(gè)提出的理論在某種意義上足夠“非典型”，那么該理論就是沒(méi)有根據(jù)的。這種對(duì)典型性的強(qiáng)調(diào)，將模型檢驗(yàn)等熟悉但常被忽視的背景概念推到了推斷的前景。典型性原則的一個(gè)實(shí)例是在參數(shù)估計(jì)的背景下，我們提出了一種新的基于典型性的正則化策略，該策略在很大程度上依賴于擬合優(yōu)度檢驗(yàn)。這種新正則化策略的有效性在三個(gè)普通最大似然估計(jì)失敗的、非平凡的例子中得到了說(shuō)明。我們還展示了典型性原則如何適應(yīng)于可靠且高效的不確定性量化這一更廣闊的圖景。

關(guān)鍵詞 證偽；擬合優(yōu)度；推斷模型；似然；模型檢驗(yàn)；正則化；不確定性量化

1 引言

隨著數(shù)據(jù)科學(xué)的持續(xù)發(fā)展，它必將激發(fā)——同時(shí)也受啟發(fā)于——羅納德·A·費(fèi)希爾、卡爾·R·波普爾和約翰·W·圖基所倡導(dǎo)的基礎(chǔ)性研究工作。

現(xiàn)代數(shù)據(jù)集固有的復(fù)雜性意味著存在許多不確定性和模糊性的來(lái)源，因此使得分析以及隨后的歸納論證變得高度非平凡。正因如此，來(lái)自認(rèn)識(shí)論的見(jiàn)解是息息相關(guān)的，而占主導(dǎo)地位的思想流派是波普爾在其《科學(xué)發(fā)現(xiàn)的邏輯》（Popper, 1959a）中闡述的證偽主義。他的關(guān)鍵見(jiàn)解是，在一系列對(duì)相關(guān)理論進(jìn)行嚴(yán)苛檢驗(yàn)的實(shí)驗(yàn)中，那些經(jīng)受住這種檢驗(yàn)的理論便“證明了它們的實(shí)力”（Popper, 1959b, p. 10），這是任何理論被稱為“未被證偽”的必要但不充分條件。只有在一種極限意義上，隨著檢驗(yàn)次數(shù)/嚴(yán)苛程度的增加，一個(gè)理論才能贏得“未被證偽”的地位。

現(xiàn)代經(jīng)驗(yàn)科學(xué)中的一個(gè)挑戰(zhàn)——這在哲學(xué)文本中常討論的“所有天鵝都是白的”這類例子中并不存在——是經(jīng)驗(yàn)數(shù)據(jù)在邏輯上無(wú)法反駁任何合理的理論，因此在推斷時(shí)不可避免地存在不確定性。這就需要對(duì)所述不確定性進(jìn)行可靠的量化，而這正是我們當(dāng)前貢獻(xiàn)的焦點(diǎn)。

證偽主義觀點(diǎn)背后是這樣一種理解：實(shí)驗(yàn)往往會(huì)產(chǎn)生典型的數(shù)據(jù)，即看起來(lái)符合現(xiàn)實(shí)世界中預(yù)期情況的數(shù)據(jù)。因此，如果觀測(cè)到的數(shù)據(jù)相對(duì)于某個(gè)提出的理論而言是非典型的——或者說(shuō)看起來(lái)與預(yù)期情況足夠不同——那么就可以合理地認(rèn)為該理論被證偽了。這就是我們提出的典型性原則的基本形式。但是，數(shù)據(jù)“看起來(lái)像”預(yù)期情況究竟是什么意思？（嚴(yán)格來(lái)說(shuō)，在某種意義上，所有數(shù)據(jù)都是“非典型的”。例如，在涉及絕對(duì)連續(xù)分布的模型中，所有可能實(shí)現(xiàn)的數(shù)據(jù)在該模型下的概率都為零。幸運(yùn)的是，可靠的推斷并不需要嚴(yán)格意義上的非典型性——稍加創(chuàng)意，就可以發(fā)展出有意義的非典型性概念。）通常的做法是將模型的似然函數(shù)解釋為其對(duì)觀測(cè)數(shù)據(jù)擬合優(yōu)度的度量，反過(guò)來(lái)，通常也通過(guò)似然值的大小來(lái)判斷數(shù)據(jù)是否“看起來(lái)像”預(yù)期情況。似然法則（例如，Edwards, 1992; Hacking, 1976）對(duì)此進(jìn)行了形式化。然而，在某些情況下，似然函數(shù)值很大可能是由于某種退化所致，而不是因?yàn)閿?shù)據(jù)看起來(lái)像相應(yīng)理論下的預(yù)期。這凸顯了以似然為中心的歸納推理方法的缺陷，以及對(duì)新視角的需求。常見(jiàn)的正則化策略僅依賴于提出的理論——例如，懲罰與假定的“稀疏性”不相容的理論——而不依賴于數(shù)據(jù)本身，因此無(wú)法自行修復(fù)上述缺陷。作為替代，我們的典型性概念關(guān)注的是非參數(shù)擬合優(yōu)度意義上的擬合，而不是基于參數(shù)模型、大似然意義上的擬合。本文提出的典型性原則受到了圖基關(guān)于模型構(gòu)建/檢驗(yàn)的見(jiàn)解（Tukey, 1977, 1962）的啟發(fā)。雖然哲學(xué)原則往往是“自上而下”的，即由更高權(quán)威傳達(dá)的指令，但圖基的哲學(xué)風(fēng)格是“自下而上”的（例如，Dempster, 2002; Tukey, 1986），因此本質(zhì)上具有波普爾主義的色彩。例如，在模型構(gòu)建中，確實(shí)沒(méi)有哪個(gè)候選模型是神授的，所以一個(gè)模型的優(yōu)點(diǎn)必須通過(guò)提供對(duì)觀測(cè)結(jié)果的合理解釋來(lái)贏得。我們提出的典型性原則正是建立在這些關(guān)鍵思想之上。

我們?cè)诖说闹饕椒▌?chuàng)新是一種新的、以典型性為中心的正則化策略。更具體地說(shuō)，我們建議采用熟悉的懲罰似然框架，但有一個(gè)轉(zhuǎn)變：我們不再懲罰與先驗(yàn)知識(shí)不相容的理論，而是懲罰那些數(shù)據(jù)可能被判定為非典型的理論，從而確保我們推導(dǎo)出的程序獎(jiǎng)勵(lì)那些與數(shù)據(jù)擬合良好的理論，這有助于解釋并提高效率。從這個(gè)意義上說(shuō)，以典型性為中心的正則化不是一種結(jié)構(gòu)約束或先驗(yàn)規(guī)范，而是一種有原則的機(jī)制，用于將模型檢驗(yàn)和基于似然的擬合整合到一個(gè)單一、經(jīng)過(guò)校準(zhǔn)的推斷框架內(nèi)。我們通過(guò)將提出的以典型性為中心的正則化應(yīng)用于幾個(gè)具有挑戰(zhàn)性的問(wèn)題來(lái)評(píng)估其性能，這些問(wèn)題在歷史上一直是統(tǒng)計(jì)學(xué)基礎(chǔ)中的爭(zhēng)議點(diǎn)。我們的結(jié)果證明了它在點(diǎn)估計(jì)和更廣泛的不確定性量化方面的效率，突顯了它在解決統(tǒng)計(jì)科學(xué)中一些最深層次的未解決問(wèn)題方面的潛力。

除了實(shí)際應(yīng)用之外，我們還深入探討了典型性原則的理論基礎(chǔ)，揭示了它與其他常見(jiàn)統(tǒng)計(jì)原理的聯(lián)系——或缺乏聯(lián)系。這些聯(lián)系強(qiáng)調(diào)了典型性的更廣泛重要性，不僅作為一種方法論工具，而且作為連接統(tǒng)計(jì)推理各個(gè)方面的概念橋梁。通過(guò)將典型性原則置于這個(gè)豐富的理論和應(yīng)用背景下，本文為未來(lái)探索其在數(shù)據(jù)科學(xué)及其他領(lǐng)域的影響奠定了基礎(chǔ)。這種觀點(diǎn)與可信機(jī)器學(xué)習(xí)的目的一致，后者不僅尋求準(zhǔn)確的預(yù)測(cè)，還尋求可靠的不確定性陳述和診斷，以便在擬合模型的行為與假設(shè)不符時(shí)進(jìn)行檢測(cè)。最近的研究強(qiáng)調(diào)，可靠的不確定性量化是可信人工智能的核心組成部分，特別是用于檢測(cè)模型局限性和支持穩(wěn)健的決策制定（Deuschel et al., 2024; Liu et al., 2024）。特別是，基于典型性的評(píng)估可被視為一種統(tǒng)計(jì)機(jī)制，用于 (i) 對(duì)模型充分性進(jìn)行壓力測(cè)試，以及 (ii) 當(dāng)診斷證據(jù)表明擬合不足時(shí)，調(diào)節(jié)由似然驅(qū)動(dòng)的擬合，從而提高下游決策的可信度。

本文的其余部分安排如下。第2節(jié)設(shè)定了我們討論的背景，并介紹了一些關(guān)鍵概念和符號(hào)。第3節(jié)介紹了典型性原則的第一個(gè)基本版本，我們?cè)诖说挠懻搨?cè)重于統(tǒng)計(jì)直覺(jué)和哲學(xué)思考。在參數(shù)估計(jì)的背景下，典型性原則的一個(gè)具體實(shí)例產(chǎn)生了我們新的基于典型性的正則化策略，該策略也在那里進(jìn)行了詳細(xì)說(shuō)明。我們提出的基于典型性的正則化策略的性能在第4節(jié)中通過(guò)三個(gè)非平凡且充滿悖論的例子進(jìn)行了研究：勒卡姆混合模型、內(nèi)曼-斯科特問(wèn)題和斯坦因均值向量長(zhǎng)度問(wèn)題。這三個(gè)例子中面臨的挑戰(zhàn)在現(xiàn)代數(shù)據(jù)科學(xué)應(yīng)用中也普遍存在，因?yàn)檫@些應(yīng)用中存在過(guò)擬合的風(fēng)險(xiǎn)，因此我們?cè)诖说呢暙I(xiàn)超越了這里考慮的簡(jiǎn)單參數(shù)模型。第5節(jié)進(jìn)行更深入的探討，提出了一個(gè)形式化的典型性原則，并展示了它如何融入一個(gè)能夠提供可證明可靠的不確定性量化（超越點(diǎn)估計(jì)、假設(shè)檢驗(yàn)等）的通用框架。文中還討論了與其他統(tǒng)計(jì)原理的聯(lián)系，并通過(guò)一個(gè)數(shù)值示例展示了所提出框架在一個(gè)具有挑戰(zhàn)性的邊緣推斷問(wèn)題中的有效性和效率。我們?cè)诘?節(jié)以幾點(diǎn)評(píng)論作為結(jié)論。

2 問(wèn)題設(shè)定

3 典型性原則

我們采納波普爾的證偽主義觀點(diǎn)，即關(guān)于不確定的 Θ Θ的假設(shè) H H不能基于數(shù)據(jù) x x被確證，它只能根據(jù)假設(shè) H H的真實(shí)性與數(shù)據(jù) x x是否足夠矛盾，來(lái)決定是被反駁或未被反駁。重要的是，證偽主義實(shí)際上是我們唯一的選擇：以科學(xué)和數(shù)學(xué)上嚴(yán)謹(jǐn)?shù)姆绞讲捎脤?duì)立的卡爾納普-杰弗里斯-杰恩斯式的確證主義觀點(diǎn)（例如，Carnap, 1962; Jeffreys, 1998; Jaynes, 2003），需要一個(gè)真實(shí)的先驗(yàn)概率分布并應(yīng)用貝葉斯定理，而正如第2節(jié)所討論的，這是無(wú)法實(shí)現(xiàn)的。如第1節(jié)所述，我們的證偽主義視角建議指定一種策略，用于評(píng)估數(shù)據(jù) x x相對(duì)于關(guān)于 Θ Θ的某個(gè)陳述假設(shè) H H是否是“典型的”——如果是，那么是在何種意義上以及何種程度上是典型的。基于這樣的評(píng)估，至少在概念上，推斷就變得直接了當(dāng)。

我們從一個(gè)非正式且直觀的關(guān)鍵原則陳述開(kāi)始，該陳述側(cè)重于簡(jiǎn)單的、單點(diǎn)假設(shè)。更正式的形式將在第5節(jié)中給出。

我們提出的典型性原則的實(shí)現(xiàn)方式是通過(guò)正則化。這將圍繞似然函數(shù)展開(kāi)，因?yàn)樗谡齽t情形下是高效的，但我們提出的正則化在幾個(gè)重要方面與數(shù)據(jù)科學(xué)文獻(xiàn)中常見(jiàn)的正則化不同。具體來(lái)說(shuō)，考慮目標(biāo)函數(shù)

4 示例：非正則估計(jì) 4.1 勒卡姆混合模型

4.2 內(nèi)曼-斯科特問(wèn)題

4.3 斯坦因均值向量長(zhǎng)度

5 可靠的不確定性量化 5.1 典型性原則再探

也就是說(shuō)，頻率主義者并不試圖量化給定 x x 下假設(shè) H H 真實(shí)性的不確定性——他們滿足于一個(gè)控制錯(cuò)誤概率的決策規(guī)則。而那些試圖找到貝葉斯-頻率主義“圣杯”的努力則走得更遠(yuǎn)，即尋求一個(gè)框架，該框架能提供依賴于數(shù)據(jù)的、對(duì)假設(shè) H H 真實(shí)性的支持度量或信度度量，同時(shí)保持與梅奧的頻率主義證據(jù)原則一致。這包括默認(rèn)先驗(yàn)貝葉斯推斷（例如，Jeffreys, 1946; Datta and Ghosh, 1995; Berger et al., 2024）、費(fèi)希爾的信仰推斷（例如，F(xiàn)isher, 1933, 1935a; Zabell, 1992）及其推廣形式（例如，F(xiàn)raser, 1968; Hannig et al., 2016; Xie and Singh, 2013）、登普斯特-謝弗理論（例如，Dempster, 1966, 2008; Shafer, 1976, 1982）以及推斷模型（例如，Martin and Liu, 2013, 2015; Martin, 2025b）。這些方法的一個(gè)共同點(diǎn)是，至少?gòu)谋砻嫔峡矗鼈兾茨苷J(rèn)識(shí)到典型性是唯一的基本工作概念，這導(dǎo)致了混淆并阻礙了進(jìn)展。通過(guò)將典型性置于核心和中心位置，我們可以澄清這種混淆。特別是，我們展示了哪些類型的性質(zhì)與典型性度量是一致的，并進(jìn)而說(shuō)明了要實(shí)現(xiàn)可靠且有原則的不確定性量化這個(gè)“圣杯”需要什么條件。

實(shí)施所提出的框架需要能夠評(píng)估 (5.4) 中定義的輪廓。我們沒(méi)有足夠的篇幅來(lái)討論計(jì)算問(wèn)題，但我們將感興趣的讀者指引到 Jiang et al. (2023) 和 Martin (2025a) 了解細(xì)節(jié)；另見(jiàn) Martin (2025b)。

5.3 與其他統(tǒng)計(jì)原理的關(guān)系

為了將前面的討論置于背景中，回顧一下似然原理（例如，Birnbaum, 1962; Basu, 1975; Berger and Wolpert, 1984）是有幫助的，該原理指出，數(shù)據(jù)中用于推斷 Θ Θ的所有相關(guān)信息都由似然函數(shù)的形狀所捕捉。這似乎是直觀且無(wú)害的，因?yàn)槌Ｓ玫淖畲笏迫还烙?jì)量和似然比統(tǒng)計(jì)量只依賴于似然函數(shù)的形狀。然而，仔細(xì)觀察，我們通常用這些匯總統(tǒng)計(jì)量所做的事情，例如 p p-值計(jì)算，依賴于所設(shè)定模型下的抽樣分布，并且由于抽樣分布不是由觀測(cè)到的似然決定的，基于這些的推斷違反了似然原理。這種違反本身并不值得關(guān)注，但鑒于伯恩鮑姆定理指出似然原理等價(jià)于更常識(shí)性的充分性和條件性原理的結(jié)合，這就變得潛在有問(wèn)題了；因此，違反似然原理意味著至少違反了一個(gè)常識(shí)性原則，從而引發(fā)了爭(zhēng)議。對(duì)伯恩鮑姆定理適用范圍（最初見(jiàn)于 Durbin (1970)，最近見(jiàn)于 Evans (2013) 和 Mayo (2014)）的質(zhì)疑，更是火上澆油。

5.4 再論斯坦因均值向量長(zhǎng)度

6 結(jié)論

受費(fèi)希爾、波普爾和圖基科學(xué)視角的啟發(fā)，我們?cè)诖颂岢隽艘粭l新的典型性原則，該原則對(duì)數(shù)據(jù)科學(xué)具有諸多方法論和基礎(chǔ)性意義。首先，在方法論方面，典型性原則直接暗示了一種在參數(shù)估計(jì)背景下新穎的正則化策略。事實(shí)上，我們的基于典型性的焦點(diǎn)并非將估計(jì)量向假定的結(jié)構(gòu)（例如“稀疏性”）收縮，而是鼓勵(lì)擬合優(yōu)度，確保觀測(cè)數(shù)據(jù)在擬合模型下看起來(lái)是“典型的”。本文呈現(xiàn)了三個(gè)非平凡的例子，在這些例子中，最大似然方法徹底失效，而我們提出的以典型性為中心的正則化策略則表現(xiàn)得相當(dāng)令人滿意。其次，在基礎(chǔ)理論方面，典型性原則的一個(gè)更正式版本可以很容易地被通用推斷模型框架所容納，該框架用于提供超越點(diǎn)估計(jì)、假設(shè)檢驗(yàn)等的可證明可靠的不確定性量化。這種更廣泛形式的不確定性量化可以輕松容納馮·諾依曼和摩根斯坦風(fēng)格的決策制定以及其他形式的正式推斷，類似于貝葉斯方法，但無(wú)需先驗(yàn)分布，也不犧牲錯(cuò)誤率控制保證。更廣泛地說(shuō)，我們相信，所提出的典型性原則的各種實(shí)現(xiàn)將對(duì)數(shù)據(jù)科學(xué)有益，因?yàn)樽詣?dòng)化應(yīng)用有望在人工智能的進(jìn)步中發(fā)揮關(guān)鍵作用。盡管本文的重點(diǎn)是基于模型的推斷，但典型性的概念與擬合優(yōu)度的考量緊密相連，因此我們完全期望典型性原則及其衍生出的方法論能夠?qū)：屯茢喽籍a(chǎn)生影響。

典型性原則及其衍生的各種方法論進(jìn)展有待進(jìn)一步研究。首先，現(xiàn)代應(yīng)用涉及復(fù)雜模型，如果沒(méi)有這種或那種正則化策略的指導(dǎo)，很容易出現(xiàn)過(guò)擬合；正是這種過(guò)擬合的傾向?qū)е铝说?節(jié)例子中最大似然估計(jì)的糟糕表現(xiàn)。因此，本文的一個(gè)自然后續(xù)工作是研究我們所提出的基于典型性的正則化策略在一類現(xiàn)代數(shù)據(jù)科學(xué)相關(guān)問(wèn)題中的表現(xiàn)，這些問(wèn)題涉及深度神經(jīng)網(wǎng)絡(luò)和變換器（Vaswani et al., 2017）等復(fù)雜且過(guò)參數(shù)化的模型。將我們的提議與其他先進(jìn)技術(shù)（如知識(shí)蒸餾，例如 Hinton et al., 2015; Jiang and Liu, 2025）進(jìn)行比較也將很有意義。其次，還有一個(gè)重要的實(shí)踐問(wèn)題，即如何設(shè)置 (3.1) 中的調(diào)節(jié)參數(shù) λ。雖然現(xiàn)在有許多標(biāo)準(zhǔn)的調(diào)節(jié)參數(shù)選擇策略可用，但一個(gè)相關(guān)的問(wèn)題是，我們基于典型性的懲罰中固有的數(shù)據(jù)依賴性是否值得引入新的調(diào)節(jié)參數(shù)選擇考量。畢竟，與通常鼓勵(lì)稀疏性的懲罰相比，p-值具有有意義的尺度，因此可能需要新的考量來(lái)平衡后一種懲罰與似然的貢獻(xiàn)。第三，所提出的基于典型性的正則化最大似然估計(jì)量，以及第5節(jié)中發(fā)展的更廣泛的不確定性量化的有限樣本和大樣本效率性質(zhì)，完全有待研究。

所提出的框架依賴于選擇擬合優(yōu)度統(tǒng)計(jì)量來(lái)確保校準(zhǔn)，而這種選擇會(huì)影響統(tǒng)計(jì)效率和功效。在正則的、正確設(shè)定的模型中，這種影響通常是輕微的，因?yàn)槿缜耙欢嗡觯瑥V泛類別的擬合優(yōu)度統(tǒng)計(jì)量在真實(shí)參數(shù)鄰域內(nèi)產(chǎn)生的 p p-值都遠(yuǎn)離零，使得典型性懲罰不活躍。相比之下，在模型誤設(shè)或非正則設(shè)定下，不同的擬合優(yōu)度選擇會(huì)強(qiáng)調(diào)擬合不足的不同方面，導(dǎo)致在對(duì)特定備擇假設(shè)的敏感性和統(tǒng)計(jì)效率之間進(jìn)行權(quán)衡。從可信推斷的角度來(lái)看，這種行為是刻意的：該框架并非旨在優(yōu)化針對(duì)特定備擇假設(shè)的功效，而是允許實(shí)踐者選擇與科學(xué)或決策背景最相關(guān)的模型充分性方面相匹配的診斷。探索用于平衡校準(zhǔn)和效率的擬合優(yōu)度統(tǒng)計(jì)量的最優(yōu)或自適應(yīng)選擇，是未來(lái)工作的重要方向。

與我們提出的統(tǒng)計(jì)原理相一致，并受其他哲學(xué)思考的啟發(fā)，最近在增強(qiáng)人工智能的創(chuàng)造力和可信度方面取得了進(jìn)展（例如，Eschker and Liu, 2024）。一個(gè)主要挑戰(zhàn)在于理解這些及其他哲學(xué)進(jìn)展如何幫助改進(jìn)當(dāng)今的前沿方法，并激發(fā)推動(dòng)現(xiàn)代邊界的新發(fā)展。同樣重要的是，這些哲學(xué)貢獻(xiàn)應(yīng)當(dāng)具有圖基那種親自動(dòng)手、面向應(yīng)用的“自下而上”的風(fēng)格，而非象牙塔內(nèi)規(guī)定的那種束縛手腳、“自上而下”的教條式協(xié)議。

原文鏈接：https://www.researchgate.net/publication/400209222_The_Typicality_Principle_and_Its_Implications_for_Statistics_and_Data_Science

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.