Statistical exploration of the Manifold Hypothesis
流形假設(shè)的統(tǒng)計探索
https://arxiv.org/pdf/2208.11665v5
![]()
![]()
摘要:
流形假設(shè)是機器學(xué)習(xí)中一項被廣泛接受的基本原理,它斷言名義上高維的數(shù)據(jù)實際上集中分布在嵌入于高維空間中的低維流形附近。這一現(xiàn)象在許多現(xiàn)實場景中得到了經(jīng)驗性驗證,在過去幾十年中催生了大量統(tǒng)計方法的發(fā)展,并被認(rèn)為可能是現(xiàn)代人工智能技術(shù)取得成功的關(guān)鍵因素之一。我們證明,數(shù)據(jù)中豐富且有時錯綜復(fù)雜的流形結(jié)構(gòu),可以從一個通用且異常簡單的統(tǒng)計模型——潛在度量模型(Latent Metric Model)——中自然涌現(xiàn),其機制僅依賴于潛在變量、相關(guān)性與平穩(wěn)性等基本概念。這為流形假設(shè)何以在眾多情境中看似成立提供了一個普適的統(tǒng)計學(xué)解釋。基于潛在度量模型,我們推導(dǎo)出用于發(fā)現(xiàn)與解釋高維數(shù)據(jù)幾何結(jié)構(gòu)的程序,并可借此探索關(guān)于數(shù)據(jù)生成機制的假設(shè)。這些程序僅需極弱的假設(shè)條件,且利用了廣為人知的圖分析算法。
1 引言
流形假設(shè)是機器學(xué)習(xí)中一項被廣泛接受的基本原理,其主張如下[20]:
“……許多數(shù)據(jù)集的維度僅僅是人為地高;盡管每個數(shù)據(jù)點可能包含成千上萬個特征,但它或許僅由少數(shù)幾個潛在參數(shù)的函數(shù)所描述。換言之,這些數(shù)據(jù)點實際上是從嵌入于高維空間中的低維流形上采樣而得。”
這一現(xiàn)象已對眾多方法與算法產(chǎn)生了深遠影響。流形結(jié)構(gòu)的存在是流形估計與檢驗[35, 42, 41]、非線性降維技術(shù)[95, 108, 50, 9, 119, 116, 76]、本征維度估計[59, 71, 48, 19],以及專門針對協(xié)變量取值于流形上的情境所設(shè)計的回歸與分類技術(shù)[11, 7, 23, 123, 72, 82]的前提基礎(chǔ)。數(shù)據(jù)集中于低維拓?fù)浠驇缀谓Y(jié)構(gòu)附近的假設(shè),構(gòu)成了聚類技術(shù)與拓?fù)鋽?shù)據(jù)分析的理論基石[32, 83, 18, 8, 22, 21]。某些非參數(shù)方法(如最近鄰或基于樹的回歸方法)即使在缺乏流形結(jié)構(gòu)的情況下亦可運作,但當(dāng)流形結(jié)構(gòu)存在時,其性能將顯著提升,因為其收斂速率取決于協(xié)變量的本征維度而非環(huán)境維度[61, 62]。已有研究證明,深度神經(jīng)網(wǎng)絡(luò)亦展現(xiàn)出類似特性[81]。更廣泛而言,流形結(jié)構(gòu)的存在已被認(rèn)為是深度學(xué)習(xí)方法取得成功的關(guān)鍵因素之一[14]。數(shù)據(jù)位于嵌入高維空間中的低維流形這一假設(shè),已成為人工智能領(lǐng)域生成建模最新理論與實踐進展的核心,尤其在擴散模型中[101, 102, 51, 28, 29, 103, 24, 90, 47, 33]。
那么,數(shù)據(jù)中為何可能存在流形結(jié)構(gòu)?在某些情境下(如圖像分析),我們可以依據(jù)生成數(shù)據(jù)的物理機制給出一種直觀但啟發(fā)式的解釋(參見Pless與Souvenir[92]對該背景下流形估計的綜述)。圖1展示了24張灰度汽車圖像,選自文獻[43]中包含n = 75張圖像的子集,拍攝角度分別為圍繞圓形周長的0°、5°、10°、…、355°。每張圖像分辨率為384 × 288像素,因此可表示為長度為p = 110592的向量。然而,至少從直觀上看,我們僅需遠少于該數(shù)量的維度,即可通過相機在我們周圍三維世界空間中的位置來解釋該圖像集合中的變異。圖1展示了使用主成分分析(PCA)進行降維后的結(jié)果,由此我們可作出如下觀察:
![]()
前20個主成分解釋了總方差的91.5%,表明數(shù)據(jù)集中分布于R^110592中的某個低維線性子空間附近。前三個維度——即數(shù)據(jù)在對應(yīng)于最大三個特征值的特征向量上的坐標(biāo)——呈現(xiàn)出近似環(huán)狀的點分布,其形狀雖略顯不規(guī)則,但類似于相機位置所構(gòu)成的圓,只是經(jīng)受了彎曲與扭轉(zhuǎn)等形變。這些點沿環(huán)近似等距分布,恰如相機位置以5度為間隔均勻分布于圓周上。
顯然,通過對這些圖像數(shù)據(jù)應(yīng)用PCA進行降維,我們得以窺見數(shù)據(jù)生成機制的部分幾何結(jié)構(gòu),但仍存疑問:我們?yōu)楸阌诳梢暬x擇繪制前三個維度,這一選擇是否“合理”?其余維度可能傳達何種信息?環(huán)的精確形狀以及點沿環(huán)的分布間距相對于底層相機位置圓的差異,其成因又是什么?
在其他情境中,嵌入的拓?fù)渑c幾何結(jié)構(gòu)可能呈現(xiàn)不同形態(tài)并具有不同解釋。圖2展示了對成年扁蟲(一種扁形動物)中5000個單細(xì)胞的p = 5821個基因表達水平進行可視化的兩種方法。在單細(xì)胞轉(zhuǎn)錄組學(xué)領(lǐng)域——如2018年《Science》論文[91]所述——此類數(shù)據(jù)為揭示整個動物的細(xì)胞譜系樹提供了可能:目標(biāo)在于探明數(shù)據(jù)是否反映了干細(xì)胞分化為多種不同細(xì)胞類型的樹狀過程。數(shù)據(jù)經(jīng)與原論文[91]相同方式預(yù)處理,使用Python軟件包Scanpy[121]。
![]()
圖2左圖展示了將維度從5821降至2的PCA結(jié)果;右圖則先通過PCA降至14維,再使用t-SNE[116](一種廣受歡迎的非線性降維方法,通過最小化成對距離失真的特定度量來尋找數(shù)據(jù)集的低維表示)進一步降至2維。我們采用scikit-learn[89]中t-SNE的默認(rèn)參數(shù)設(shè)置。兩圖中的點均按細(xì)胞類型著色,但PCA與t-SNE均無法獲知該信息。與圖1類似,圖2清晰表明,通過某種形式的降維,我們得以揭示數(shù)據(jù)底層的結(jié)構(gòu)——盡管此處表現(xiàn)為離散的細(xì)胞類型,而非相機位置的幾何構(gòu)型。在圖1中,僅使用PCA降維便足以使該結(jié)構(gòu)可見;然而在圖2中,若僅用PCA降至2維,不同細(xì)胞類型并未清晰分離,而先降至14維再應(yīng)用t-SNE的方法似乎更為有效。t-SNE可視化結(jié)果暗示數(shù)據(jù)底層可能存在樹狀結(jié)構(gòu):部分區(qū)域呈現(xiàn)從中心點云發(fā)散出的分支狀臂,但其他譜系則缺乏清晰度或看似斷裂。
我們能否以不同方式組合方法,以獲得更清晰的圖像?
這些示例僅展示了數(shù)據(jù)中潛在結(jié)構(gòu)如何在嵌入的拓?fù)渑c幾何模式中顯現(xiàn)的若干方式。還有許多其他實例:在基因組學(xué)中,基因分型DNA位點揭示了顯著的地理分布模式[84, 64, 30];在神經(jīng)科學(xué)中,來自網(wǎng)格細(xì)胞的同時記錄顯示出似乎與行為任務(wù)無關(guān)的環(huán)面結(jié)構(gòu)[39];此外,無線傳感器網(wǎng)絡(luò)數(shù)據(jù)[85]、語音識別[15]、藥物發(fā)現(xiàn)[94]、RNA測序[79]以及人類動作合成[69]中也存在流形結(jié)構(gòu)。
在本研究中,我們提出一種視角:數(shù)據(jù)中嵌入的拓?fù)渑c幾何結(jié)構(gòu)可被解釋為一種普遍的統(tǒng)計現(xiàn)象,無需參考數(shù)據(jù)生成機制的物理屬性或其他特定領(lǐng)域的細(xì)節(jié)。
主要貢獻。我們的第一項主要貢獻是提出一個簡單而通用的統(tǒng)計模型,該模型能在高維數(shù)據(jù)中生成隱藏的低維流形結(jié)構(gòu),從而為流形假設(shè)提供統(tǒng)計學(xué)依據(jù)。
第二項主要貢獻是描述該隱藏流形如何與模型所定義的真實潛在域相關(guān)聯(lián),例如解釋為何圖1右側(cè)面板中的點雖非完美圓形(如相機位置所示),但仍構(gòu)成環(huán)狀結(jié)構(gòu)。更準(zhǔn)確地說,我們給出了流形與潛在域之間關(guān)系為同胚(一種拓?fù)涞葍r)的溫和條件,以及在更強條件下該關(guān)系可成為等距(一種度量等價)。
![]()
![]()
2 潛在度量模型
潛在度量模型(Latent Metric Model, LMM)由三種相互獨立的隨機性來源構(gòu)建而成。
![]()
![]()
我們強調(diào)兩點。首先,LMM的核心目的在于將數(shù)據(jù)中的流形結(jié)構(gòu)解釋并描述為一種普適的統(tǒng)計現(xiàn)象。這一目標(biāo)的廣泛性要求采用靈活的建模范式,因此除在具體示例中之外,我們并不施加特定的分布或函數(shù)假設(shè)(如高斯性)。本文所作的假設(shè)涉及更為一般的概念,例如連續(xù)性、光滑性或平穩(wěn)性。其次,我們強調(diào)此處的視角:函數(shù) f 與 ? 是由LMM的構(gòu)成要素隱式定義的導(dǎo)出量,而非需要人為設(shè)定取值的模型參數(shù)或超參數(shù)。
3 潛在度量模型的統(tǒng)計性質(zhì)與幾何性質(zhì)的聯(lián)系
本節(jié)將闡釋LMM的統(tǒng)計性質(zhì)如何使我們能夠?qū)?shù)據(jù)向量
(可視為 中的點云)的幾何結(jié)構(gòu)與流形 M 的結(jié)構(gòu),進而與潛在度量空間 Z 的結(jié)構(gòu)相聯(lián)系。這一聯(lián)系具有雙重重要性:其一,它揭示了數(shù)據(jù)中的流形結(jié)構(gòu)如何從LMM的基本統(tǒng)計性質(zhì)中自然涌現(xiàn),從而闡明流形假設(shè)在何種意義上成立以及其成立的原因;其二,它構(gòu)成了我們在第4節(jié)中詳述的數(shù)據(jù)分析程序的理論基礎(chǔ)。我們的論述將依循四個主要步驟展開:
![]()
![]()
3.1 數(shù)據(jù)內(nèi)積與特征映射內(nèi)積的關(guān)聯(lián)
![]()
![]()
3.2 潛在變量的可區(qū)分性與同胚的關(guān)聯(lián)
同胚(homeomorphism)是兩個度量空間之間的一種映射,該映射連續(xù)、雙射且具有連續(xù)的逆映射。若存在此類映射,則稱這兩個度量空間彼此同胚,或稱其拓?fù)涞葍r。為建立直觀理解,可考慮所討論的度量空間為我們周圍三維歐幾里得世界中的子集這一情形。在此情況下,符合同胚條件的映射包括通過彎曲、扭轉(zhuǎn)、拉伸與折疊等方式進行的形狀變換,但不包括切割、穿孔或粘合等操作[12]。拓?fù)涞葍r意味著所涉兩個度量空間必須具有相同數(shù)量的連通分支、相同數(shù)量的一維環(huán)圈,以及更一般地,相同數(shù)量的k維“空洞”。利用數(shù)據(jù)檢測此類特征,正是拓?fù)鋽?shù)據(jù)分析(Topological Data Analysis)領(lǐng)域中持續(xù)同調(diào)(persistent homology)方法的目的[18, 21]。然而,拓?fù)浣Y(jié)構(gòu)的內(nèi)涵遠不止于其同調(diào)性質(zhì);例如,在轉(zhuǎn)錄組學(xué)應(yīng)用中(引言及第5.2節(jié)),所假設(shè)的底層結(jié)構(gòu)呈現(xiàn)出有趣的“樹狀”拓?fù)洌瑓s不具備有趣的同調(diào)特征。
![]()
3.3 平穩(wěn)性與等距性的關(guān)聯(lián)
LMM中任一隨機函數(shù) X j
的弱平穩(wěn)性意味著:
![]()
命題3與命題4的證明見附錄C.1末尾。
3.4 光滑性與低維子空間內(nèi)集中性的關(guān)聯(lián)
![]()
![]()
3.5 一個可視化示例
![]()
![]()
![]()
![]()
![]()
![]()
4 方法論
本節(jié)利用LMM的性質(zhì)來解釋并論證第1節(jié)中概述的工作流程。關(guān)于步驟1的討論將推遲至步驟2討論之后進行。
4.1 通過PCA進行線性降維
![]()
![]()
關(guān)于假設(shè)A4-A6的討論
![]()
4.2 選擇PCA維度
![]()
![]()
![]()
![]()
圖6c)1-4展示了算法1計算的Wasserstein誤差(對數(shù)尺度),維度范圍至 ρ max ? = 30
。可觀察到:當(dāng)核秩有限時(配置1-3,虛線黑線),最優(yōu)解大致與真實秩重合;有趣的是,即使在核秩無限的情形(配置4),仍存在非退化解。若降低噪聲水平,最優(yōu)維度將增大(圖17,附錄),這反映了前述偏差/方差權(quán)衡。
為作對比,我們同時展示了基于'ladle'法[74]和'elbow'法[127]的選擇結(jié)果(分別通過R包'dimension'(GitHub鏈接:https://github.com/WenlanzZ)和'igraph'(The Comprehensive R Archive Network)實現(xiàn))。'ladle'法與Wasserstein法選擇結(jié)果相似,但計算成本較高(限制了 m a x ( n , p ) = 1000 的模擬規(guī)模)。我們不建議在LMM框架下使用'elbow'法進行維度選擇,因其傾向于選擇過低維度。
![]()
![]()
![]()
![]()
4.3 球面投影
在進行數(shù)據(jù)分析時,我們可能希望考慮假設(shè) f 屬于命題3或4中核函數(shù)族之一,因為它們具有平穩(wěn)性解釋,并且相關(guān)的等距性質(zhì)將支持使用PCA嵌入來恢復(fù) Z 的幾何特征。然而,所有這些核函數(shù)都具有以下性質(zhì):
![]()
![]()
4.4 最近鄰圖構(gòu)建
![]()
![]()
![]()
5 示例
![]()
在其名著《探索性數(shù)據(jù)分析》(Exploratory Data Analysis)[113]中,Tukey 指出刑事司法過程中存在一種廣為接受的分工:“搜尋證據(jù)——由警察及其他調(diào)查力量負(fù)責(zé)——與評估證據(jù)強度——由陪審團與法官裁決”。依此類比,我們所提出的工作流程旨在前者——即搜尋線索、跡象與表象。在后續(xù)示例中,除與均勻模型進行基線比較外,我們并不試圖對所呈證據(jù)的強度進行形式化評估。我們認(rèn)為此類驗證性分析是一項重要但性質(zhì)不同的任務(wù),需采用不同的技術(shù)手段。所用代碼與數(shù)據(jù)可在此獲取:https://github.com/anniegray52/explore_manifold_hyp
原文鏈接:https://arxiv.org/pdf/2208.11665v5
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.