典型性原則及其對(duì)統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)的啟示
The typicality principle and its implications for statistics and data science
https://www.researchgate.net/publication/400209222_The_Typicality_Principle_and_Its_Implications_for_Statistics_and_Data_Science
![]()
摘要
數(shù)據(jù)科學(xué)的一個(gè)核心焦點(diǎn)是將經(jīng)驗(yàn)證據(jù)轉(zhuǎn)化為知識(shí)。這里所說(shuō)的“知識(shí)”,指的是那些 (i) 通過(guò)明確的推斷過(guò)程得到數(shù)據(jù)支持,且 (ii) 伴隨有校準(zhǔn)過(guò)的不確定性度量的主張。因此,像羅納德·A·費(fèi)希爾、卡爾·R·波普爾和約翰·W·圖基等深刻思想家的科學(xué)見(jiàn)解和態(tài)度,有望在未來(lái)幾年激發(fā)機(jī)器學(xué)習(xí)和人工智能領(lǐng)域激動(dòng)人心的新進(jìn)展。沿著這些思路,本文提出了一種新穎的典型性原則,該原則大致表述為:如果觀測(cè)數(shù)據(jù)相對(duì)于某個(gè)提出的理論在某種意義上足夠“非典型”,那么該理論就是沒(méi)有根據(jù)的。這種對(duì)典型性的強(qiáng)調(diào),將模型檢驗(yàn)等熟悉但常被忽視的背景概念推到了推斷的前景。典型性原則的一個(gè)實(shí)例是在參數(shù)估計(jì)的背景下,我們提出了一種新的基于典型性的正則化策略,該策略在很大程度上依賴于擬合優(yōu)度檢驗(yàn)。這種新正則化策略的有效性在三個(gè)普通最大似然估計(jì)失敗的、非平凡的例子中得到了說(shuō)明。我們還展示了典型性原則如何適應(yīng)于可靠且高效的不確定性量化這一更廣闊的圖景。
關(guān)鍵詞 證偽;擬合優(yōu)度;推斷模型;似然;模型檢驗(yàn);正則化;不確定性量化
1 引言
隨著數(shù)據(jù)科學(xué)的持續(xù)發(fā)展,它必將激發(fā)——同時(shí)也受啟發(fā)于——羅納德·A·費(fèi)希爾、卡爾·R·波普爾和約翰·W·圖基所倡導(dǎo)的基礎(chǔ)性研究工作。
現(xiàn)代數(shù)據(jù)集固有的復(fù)雜性意味著存在許多不確定性和模糊性的來(lái)源,因此使得分析以及隨后的歸納論證變得高度非平凡。正因如此,來(lái)自認(rèn)識(shí)論的見(jiàn)解是息息相關(guān)的,而占主導(dǎo)地位的思想流派是波普爾在其《科學(xué)發(fā)現(xiàn)的邏輯》(Popper, 1959a)中闡述的證偽主義。他的關(guān)鍵見(jiàn)解是,在一系列對(duì)相關(guān)理論進(jìn)行嚴(yán)苛檢驗(yàn)的實(shí)驗(yàn)中,那些經(jīng)受住這種檢驗(yàn)的理論便“證明了它們的實(shí)力”(Popper, 1959b, p. 10),這是任何理論被稱為“未被證偽”的必要但不充分條件。只有在一種極限意義上,隨著檢驗(yàn)次數(shù)/嚴(yán)苛程度的增加,一個(gè)理論才能贏得“未被證偽”的地位。
現(xiàn)代經(jīng)驗(yàn)科學(xué)中的一個(gè)挑戰(zhàn)——這在哲學(xué)文本中常討論的“所有天鵝都是白的”這類例子中并不存在——是經(jīng)驗(yàn)數(shù)據(jù)在邏輯上無(wú)法反駁任何合理的理論,因此在推斷時(shí)不可避免地存在不確定性。這就需要對(duì)所述不確定性進(jìn)行可靠的量化,而這正是我們當(dāng)前貢獻(xiàn)的焦點(diǎn)。
證偽主義觀點(diǎn)背后是這樣一種理解:實(shí)驗(yàn)往往會(huì)產(chǎn)生典型的數(shù)據(jù),即看起來(lái)符合現(xiàn)實(shí)世界中預(yù)期情況的數(shù)據(jù)。因此,如果觀測(cè)到的數(shù)據(jù)相對(duì)于某個(gè)提出的理論而言是非典型的——或者說(shuō)看起來(lái)與預(yù)期情況足夠不同——那么就可以合理地認(rèn)為該理論被證偽了。這就是我們提出的典型性原則的基本形式。但是,數(shù)據(jù)“看起來(lái)像”預(yù)期情況究竟是什么意思?(嚴(yán)格來(lái)說(shuō),在某種意義上,所有數(shù)據(jù)都是“非典型的”。例如,在涉及絕對(duì)連續(xù)分布的模型中,所有可能實(shí)現(xiàn)的數(shù)據(jù)在該模型下的概率都為零。幸運(yùn)的是,可靠的推斷并不需要嚴(yán)格意義上的非典型性——稍加創(chuàng)意,就可以發(fā)展出有意義的非典型性概念。)通常的做法是將模型的似然函數(shù)解釋為其對(duì)觀測(cè)數(shù)據(jù)擬合優(yōu)度的度量,反過(guò)來(lái),通常也通過(guò)似然值的大小來(lái)判斷數(shù)據(jù)是否“看起來(lái)像”預(yù)期情況。似然法則(例如,Edwards, 1992; Hacking, 1976)對(duì)此進(jìn)行了形式化。然而,在某些情況下,似然函數(shù)值很大可能是由于某種退化所致,而不是因?yàn)閿?shù)據(jù)看起來(lái)像相應(yīng)理論下的預(yù)期。這凸顯了以似然為中心的歸納推理方法的缺陷,以及對(duì)新視角的需求。常見(jiàn)的正則化策略僅依賴于提出的理論——例如,懲罰與假定的“稀疏性”不相容的理論——而不依賴于數(shù)據(jù)本身,因此無(wú)法自行修復(fù)上述缺陷。作為替代,我們的典型性概念關(guān)注的是非參數(shù)擬合優(yōu)度意義上的擬合,而不是基于參數(shù)模型、大似然意義上的擬合。本文提出的典型性原則受到了圖基關(guān)于模型構(gòu)建/檢驗(yàn)的見(jiàn)解(Tukey, 1977, 1962)的啟發(fā)。雖然哲學(xué)原則往往是“自上而下”的,即由更高權(quán)威傳達(dá)的指令,但圖基的哲學(xué)風(fēng)格是“自下而上”的(例如,Dempster, 2002; Tukey, 1986),因此本質(zhì)上具有波普爾主義的色彩。例如,在模型構(gòu)建中,確實(shí)沒(méi)有哪個(gè)候選模型是神授的,所以一個(gè)模型的優(yōu)點(diǎn)必須通過(guò)提供對(duì)觀測(cè)結(jié)果的合理解釋來(lái)贏得。我們提出的典型性原則正是建立在這些關(guān)鍵思想之上。
我們?cè)诖说闹饕椒▌?chuàng)新是一種新的、以典型性為中心的正則化策略。更具體地說(shuō),我們建議采用熟悉的懲罰似然框架,但有一個(gè)轉(zhuǎn)變:我們不再懲罰與先驗(yàn)知識(shí)不相容的理論,而是懲罰那些數(shù)據(jù)可能被判定為非典型的理論,從而確保我們推導(dǎo)出的程序獎(jiǎng)勵(lì)那些與數(shù)據(jù)擬合良好的理論,這有助于解釋并提高效率。從這個(gè)意義上說(shuō),以典型性為中心的正則化不是一種結(jié)構(gòu)約束或先驗(yàn)規(guī)范,而是一種有原則的機(jī)制,用于將模型檢驗(yàn)和基于似然的擬合整合到一個(gè)單一、經(jīng)過(guò)校準(zhǔn)的推斷框架內(nèi)。我們通過(guò)將提出的以典型性為中心的正則化應(yīng)用于幾個(gè)具有挑戰(zhàn)性的問(wèn)題來(lái)評(píng)估其性能,這些問(wèn)題在歷史上一直是統(tǒng)計(jì)學(xué)基礎(chǔ)中的爭(zhēng)議點(diǎn)。我們的結(jié)果證明了它在點(diǎn)估計(jì)和更廣泛的不確定性量化方面的效率,突顯了它在解決統(tǒng)計(jì)科學(xué)中一些最深層次的未解決問(wèn)題方面的潛力。
除了實(shí)際應(yīng)用之外,我們還深入探討了典型性原則的理論基礎(chǔ),揭示了它與其他常見(jiàn)統(tǒng)計(jì)原理的聯(lián)系——或缺乏聯(lián)系。這些聯(lián)系強(qiáng)調(diào)了典型性的更廣泛重要性,不僅作為一種方法論工具,而且作為連接統(tǒng)計(jì)推理各個(gè)方面的概念橋梁。通過(guò)將典型性原則置于這個(gè)豐富的理論和應(yīng)用背景下,本文為未來(lái)探索其在數(shù)據(jù)科學(xué)及其他領(lǐng)域的影響奠定了基礎(chǔ)。這種觀點(diǎn)與可信機(jī)器學(xué)習(xí)的目的一致,后者不僅尋求準(zhǔn)確的預(yù)測(cè),還尋求可靠的不確定性陳述和診斷,以便在擬合模型的行為與假設(shè)不符時(shí)進(jìn)行檢測(cè)。最近的研究強(qiáng)調(diào),可靠的不確定性量化是可信人工智能的核心組成部分,特別是用于檢測(cè)模型局限性和支持穩(wěn)健的決策制定(Deuschel et al., 2024; Liu et al., 2024)。特別是,基于典型性的評(píng)估可被視為一種統(tǒng)計(jì)機(jī)制,用于 (i) 對(duì)模型充分性進(jìn)行壓力測(cè)試,以及 (ii) 當(dāng)診斷證據(jù)表明擬合不足時(shí),調(diào)節(jié)由似然驅(qū)動(dòng)的擬合,從而提高下游決策的可信度。
本文的其余部分安排如下。第2節(jié)設(shè)定了我們討論的背景,并介紹了一些關(guān)鍵概念和符號(hào)。第3節(jié)介紹了典型性原則的第一個(gè)基本版本,我們?cè)诖说挠懻搨?cè)重于統(tǒng)計(jì)直覺(jué)和哲學(xué)思考。在參數(shù)估計(jì)的背景下,典型性原則的一個(gè)具體實(shí)例產(chǎn)生了我們新的基于典型性的正則化策略,該策略也在那里進(jìn)行了詳細(xì)說(shuō)明。我們提出的基于典型性的正則化策略的性能在第4節(jié)中通過(guò)三個(gè)非平凡且充滿悖論的例子進(jìn)行了研究:勒卡姆混合模型、內(nèi)曼-斯科特問(wèn)題和斯坦因均值向量長(zhǎng)度問(wèn)題。這三個(gè)例子中面臨的挑戰(zhàn)在現(xiàn)代數(shù)據(jù)科學(xué)應(yīng)用中也普遍存在,因?yàn)檫@些應(yīng)用中存在過(guò)擬合的風(fēng)險(xiǎn),因此我們?cè)诖说呢暙I(xiàn)超越了這里考慮的簡(jiǎn)單參數(shù)模型。第5節(jié)進(jìn)行更深入的探討,提出了一個(gè)形式化的典型性原則,并展示了它如何融入一個(gè)能夠提供可證明可靠的不確定性量化(超越點(diǎn)估計(jì)、假設(shè)檢驗(yàn)等)的通用框架。文中還討論了與其他統(tǒng)計(jì)原理的聯(lián)系,并通過(guò)一個(gè)數(shù)值示例展示了所提出框架在一個(gè)具有挑戰(zhàn)性的邊緣推斷問(wèn)題中的有效性和效率。我們?cè)诘?節(jié)以幾點(diǎn)評(píng)論作為結(jié)論。
2 問(wèn)題設(shè)定
![]()
![]()
3 典型性原則
我們采納波普爾的證偽主義觀點(diǎn),即關(guān)于不確定的 Θ Θ的假設(shè) H H不能基于數(shù)據(jù) x x被確證,它只能根據(jù)假設(shè) H H的真實(shí)性與數(shù)據(jù) x x是否足夠矛盾,來(lái)決定是被反駁或未被反駁。重要的是,證偽主義實(shí)際上是我們唯一的選擇:以科學(xué)和數(shù)學(xué)上嚴(yán)謹(jǐn)?shù)姆绞讲捎脤?duì)立的卡爾納普-杰弗里斯-杰恩斯式的確證主義觀點(diǎn)(例如,Carnap, 1962; Jeffreys, 1998; Jaynes, 2003),需要一個(gè)真實(shí)的先驗(yàn)概率分布并應(yīng)用貝葉斯定理,而正如第2節(jié)所討論的,這是無(wú)法實(shí)現(xiàn)的。如第1節(jié)所述,我們的證偽主義視角建議指定一種策略,用于評(píng)估數(shù)據(jù) x x相對(duì)于關(guān)于 Θ Θ的某個(gè)陳述假設(shè) H H是否是“典型的”——如果是,那么是在何種意義上以及何種程度上是典型的。基于這樣的評(píng)估,至少在概念上,推斷就變得直接了當(dāng)。
我們從一個(gè)非正式且直觀的關(guān)鍵原則陳述開(kāi)始,該陳述側(cè)重于簡(jiǎn)單的、單點(diǎn)假設(shè)。更正式的形式將在第5節(jié)中給出。
![]()
![]()
![]()
我們提出的典型性原則的實(shí)現(xiàn)方式是通過(guò)正則化。這將圍繞似然函數(shù)展開(kāi),因?yàn)樗谡齽t情形下是高效的,但我們提出的正則化在幾個(gè)重要方面與數(shù)據(jù)科學(xué)文獻(xiàn)中常見(jiàn)的正則化不同。具體來(lái)說(shuō),考慮目標(biāo)函數(shù)
![]()
![]()
![]()
![]()
4 示例:非正則估計(jì) 4.1 勒卡姆混合模型
![]()
![]()
![]()
![]()
![]()
![]()
![]()
4.2 內(nèi)曼-斯科特問(wèn)題
![]()
![]()
![]()
![]()
![]()
4.3 斯坦因均值向量長(zhǎng)度
![]()
![]()
![]()
![]()
![]()
![]()
5 可靠的不確定性量化 5.1 典型性原則再探
![]()
也就是說(shuō),頻率主義者并不試圖量化給定 x x 下假設(shè) H H 真實(shí)性的不確定性——他們滿足于一個(gè)控制錯(cuò)誤概率的決策規(guī)則。而那些試圖找到貝葉斯-頻率主義“圣杯”的努力則走得更遠(yuǎn),即尋求一個(gè)框架,該框架能提供依賴于數(shù)據(jù)的、對(duì)假設(shè) H H 真實(shí)性的支持度量或信度度量,同時(shí)保持與梅奧的頻率主義證據(jù)原則一致。這包括默認(rèn)先驗(yàn)貝葉斯推斷(例如,Jeffreys, 1946; Datta and Ghosh, 1995; Berger et al., 2024)、費(fèi)希爾的信仰推斷(例如,F(xiàn)isher, 1933, 1935a; Zabell, 1992)及其推廣形式(例如,F(xiàn)raser, 1968; Hannig et al., 2016; Xie and Singh, 2013)、登普斯特-謝弗理論(例如,Dempster, 1966, 2008; Shafer, 1976, 1982)以及推斷模型(例如,Martin and Liu, 2013, 2015; Martin, 2025b)。這些方法的一個(gè)共同點(diǎn)是,至少?gòu)谋砻嫔峡矗鼈兾茨苷J(rèn)識(shí)到典型性是唯一的基本工作概念,這導(dǎo)致了混淆并阻礙了進(jìn)展。通過(guò)將典型性置于核心和中心位置,我們可以澄清這種混淆。特別是,我們展示了哪些類型的性質(zhì)與典型性度量是一致的,并進(jìn)而說(shuō)明了要實(shí)現(xiàn)可靠且有原則的不確定性量化這個(gè)“圣杯”需要什么條件。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
實(shí)施所提出的框架需要能夠評(píng)估 (5.4) 中定義的輪廓。我們沒(méi)有足夠的篇幅來(lái)討論計(jì)算問(wèn)題,但我們將感興趣的讀者指引到 Jiang et al. (2023) 和 Martin (2025a) 了解細(xì)節(jié);另見(jiàn) Martin (2025b)。
5.3 與其他統(tǒng)計(jì)原理的關(guān)系
為了將前面的討論置于背景中,回顧一下似然原理(例如,Birnbaum, 1962; Basu, 1975; Berger and Wolpert, 1984)是有幫助的,該原理指出,數(shù)據(jù)中用于推斷 Θ Θ的所有相關(guān)信息都由似然函數(shù)的形狀所捕捉。這似乎是直觀且無(wú)害的,因?yàn)槌S玫淖畲笏迫还烙?jì)量和似然比統(tǒng)計(jì)量只依賴于似然函數(shù)的形狀。然而,仔細(xì)觀察,我們通常用這些匯總統(tǒng)計(jì)量所做的事情,例如 p p-值計(jì)算,依賴于所設(shè)定模型下的抽樣分布,并且由于抽樣分布不是由觀測(cè)到的似然決定的,基于這些的推斷違反了似然原理。這種違反本身并不值得關(guān)注,但鑒于伯恩鮑姆定理指出似然原理等價(jià)于更常識(shí)性的充分性和條件性原理的結(jié)合,這就變得潛在有問(wèn)題了;因此,違反似然原理意味著至少違反了一個(gè)常識(shí)性原則,從而引發(fā)了爭(zhēng)議。對(duì)伯恩鮑姆定理適用范圍(最初見(jiàn)于 Durbin (1970),最近見(jiàn)于 Evans (2013) 和 Mayo (2014))的質(zhì)疑,更是火上澆油。
![]()
![]()
![]()
![]()
![]()
5.4 再論斯坦因均值向量長(zhǎng)度
![]()
![]()
![]()
6 結(jié)論
受費(fèi)希爾、波普爾和圖基科學(xué)視角的啟發(fā),我們?cè)诖颂岢隽艘粭l新的典型性原則,該原則對(duì)數(shù)據(jù)科學(xué)具有諸多方法論和基礎(chǔ)性意義。首先,在方法論方面,典型性原則直接暗示了一種在參數(shù)估計(jì)背景下新穎的正則化策略。事實(shí)上,我們的基于典型性的焦點(diǎn)并非將估計(jì)量向假定的結(jié)構(gòu)(例如“稀疏性”)收縮,而是鼓勵(lì)擬合優(yōu)度,確保觀測(cè)數(shù)據(jù)在擬合模型下看起來(lái)是“典型的”。本文呈現(xiàn)了三個(gè)非平凡的例子,在這些例子中,最大似然方法徹底失效,而我們提出的以典型性為中心的正則化策略則表現(xiàn)得相當(dāng)令人滿意。其次,在基礎(chǔ)理論方面,典型性原則的一個(gè)更正式版本可以很容易地被通用推斷模型框架所容納,該框架用于提供超越點(diǎn)估計(jì)、假設(shè)檢驗(yàn)等的可證明可靠的不確定性量化。這種更廣泛形式的不確定性量化可以輕松容納馮·諾依曼和摩根斯坦風(fēng)格的決策制定以及其他形式的正式推斷,類似于貝葉斯方法,但無(wú)需先驗(yàn)分布,也不犧牲錯(cuò)誤率控制保證。更廣泛地說(shuō),我們相信,所提出的典型性原則的各種實(shí)現(xiàn)將對(duì)數(shù)據(jù)科學(xué)有益,因?yàn)樽詣?dòng)化應(yīng)用有望在人工智能的進(jìn)步中發(fā)揮關(guān)鍵作用。盡管本文的重點(diǎn)是基于模型的推斷,但典型性的概念與擬合優(yōu)度的考量緊密相連,因此我們完全期望典型性原則及其衍生出的方法論能夠?qū):屯茢喽籍a(chǎn)生影響。
典型性原則及其衍生的各種方法論進(jìn)展有待進(jìn)一步研究。首先,現(xiàn)代應(yīng)用涉及復(fù)雜模型,如果沒(méi)有這種或那種正則化策略的指導(dǎo),很容易出現(xiàn)過(guò)擬合;正是這種過(guò)擬合的傾向?qū)е铝说?節(jié)例子中最大似然估計(jì)的糟糕表現(xiàn)。因此,本文的一個(gè)自然后續(xù)工作是研究我們所提出的基于典型性的正則化策略在一類現(xiàn)代數(shù)據(jù)科學(xué)相關(guān)問(wèn)題中的表現(xiàn),這些問(wèn)題涉及深度神經(jīng)網(wǎng)絡(luò)和變換器(Vaswani et al., 2017)等復(fù)雜且過(guò)參數(shù)化的模型。將我們的提議與其他先進(jìn)技術(shù)(如知識(shí)蒸餾,例如 Hinton et al., 2015; Jiang and Liu, 2025)進(jìn)行比較也將很有意義。其次,還有一個(gè)重要的實(shí)踐問(wèn)題,即如何設(shè)置 (3.1) 中的調(diào)節(jié)參數(shù) λ。雖然現(xiàn)在有許多標(biāo)準(zhǔn)的調(diào)節(jié)參數(shù)選擇策略可用,但一個(gè)相關(guān)的問(wèn)題是,我們基于典型性的懲罰中固有的數(shù)據(jù)依賴性是否值得引入新的調(diào)節(jié)參數(shù)選擇考量。畢竟,與通常鼓勵(lì)稀疏性的懲罰相比,p-值具有有意義的尺度,因此可能需要新的考量來(lái)平衡后一種懲罰與似然的貢獻(xiàn)。第三,所提出的基于典型性的正則化最大似然估計(jì)量,以及第5節(jié)中發(fā)展的更廣泛的不確定性量化的有限樣本和大樣本效率性質(zhì),完全有待研究。
![]()
所提出的框架依賴于選擇擬合優(yōu)度統(tǒng)計(jì)量來(lái)確保校準(zhǔn),而這種選擇會(huì)影響統(tǒng)計(jì)效率和功效。在正則的、正確設(shè)定的模型中,這種影響通常是輕微的,因?yàn)槿缜耙欢嗡觯瑥V泛類別的擬合優(yōu)度統(tǒng)計(jì)量在真實(shí)參數(shù)鄰域內(nèi)產(chǎn)生的 p p-值都遠(yuǎn)離零,使得典型性懲罰不活躍。相比之下,在模型誤設(shè)或非正則設(shè)定下,不同的擬合優(yōu)度選擇會(huì)強(qiáng)調(diào)擬合不足的不同方面,導(dǎo)致在對(duì)特定備擇假設(shè)的敏感性和統(tǒng)計(jì)效率之間進(jìn)行權(quán)衡。從可信推斷的角度來(lái)看,這種行為是刻意的:該框架并非旨在優(yōu)化針對(duì)特定備擇假設(shè)的功效,而是允許實(shí)踐者選擇與科學(xué)或決策背景最相關(guān)的模型充分性方面相匹配的診斷。探索用于平衡校準(zhǔn)和效率的擬合優(yōu)度統(tǒng)計(jì)量的最優(yōu)或自適應(yīng)選擇,是未來(lái)工作的重要方向。
與我們提出的統(tǒng)計(jì)原理相一致,并受其他哲學(xué)思考的啟發(fā),最近在增強(qiáng)人工智能的創(chuàng)造力和可信度方面取得了進(jìn)展(例如,Eschker and Liu, 2024)。一個(gè)主要挑戰(zhàn)在于理解這些及其他哲學(xué)進(jìn)展如何幫助改進(jìn)當(dāng)今的前沿方法,并激發(fā)推動(dòng)現(xiàn)代邊界的新發(fā)展。同樣重要的是,這些哲學(xué)貢獻(xiàn)應(yīng)當(dāng)具有圖基那種親自動(dòng)手、面向應(yīng)用的“自下而上”的風(fēng)格,而非象牙塔內(nèi)規(guī)定的那種束縛手腳、“自上而下”的教條式協(xié)議。
原文鏈接:https://www.researchgate.net/publication/400209222_The_Typicality_Principle_and_Its_Implications_for_Statistics_and_Data_Science
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.