![]()
這項(xiàng)由瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)、巴塞爾大學(xué)和瑞士應(yīng)用科學(xué)大學(xué)聯(lián)合開展的研究發(fā)表于2025年的機(jī)器學(xué)習(xí)頂級(jí)會(huì)議,論文編號(hào)為arXiv:2602.14486v1。研究團(tuán)隊(duì)深入探討了一個(gè)在人工智能領(lǐng)域備受關(guān)注的問題:不同的神經(jīng)網(wǎng)絡(luò)是否真的在朝著相同的"理解"方向發(fā)展?
在人工智能的世界里,存在一個(gè)被稱為"柏拉圖表征假說(shuō)"的有趣理論。這個(gè)理論認(rèn)為,就像古希臘哲學(xué)家柏拉圖相信存在一個(gè)完美的理想世界一樣,所有的神經(jīng)網(wǎng)絡(luò)最終都會(huì)收斂到同一種對(duì)現(xiàn)實(shí)世界的"理想理解"。換句話說(shuō),不管是處理圖像的視覺AI,還是理解文字的語(yǔ)言AI,它們?cè)谧兊迷絹?lái)越強(qiáng)大的過程中,內(nèi)部的"思維模式"會(huì)越來(lái)越相似。
這個(gè)假說(shuō)聽起來(lái)很有道理,畢竟它們都在學(xué)習(xí)同一個(gè)現(xiàn)實(shí)世界的規(guī)律。然而,EPFL的研究團(tuán)隊(duì)卻發(fā)現(xiàn)了一個(gè)令人意外的真相:之前支持這個(gè)假說(shuō)的證據(jù)中,很多都存在嚴(yán)重的測(cè)量偏差。這就像是用一把刻度不準(zhǔn)的尺子來(lái)測(cè)量物體長(zhǎng)度,得出的結(jié)論自然也是不可靠的。
研究團(tuán)隊(duì)的核心發(fā)現(xiàn)是,現(xiàn)有的相似性測(cè)量方法存在兩個(gè)關(guān)鍵問題。首先是"寬度混淆因子"——當(dāng)神經(jīng)網(wǎng)絡(luò)變得更寬(擁有更多神經(jīng)元)時(shí),測(cè)量工具會(huì)錯(cuò)誤地認(rèn)為它們更相似,即使實(shí)際上它們并沒有真正的相似性。這就像是兩個(gè)人站得越遠(yuǎn),在某種特殊鏡頭下看起來(lái)反而越像,這顯然是錯(cuò)覺。其次是"深度混淆因子"——當(dāng)比較更深的網(wǎng)絡(luò)(擁有更多層級(jí))時(shí),簡(jiǎn)單地取最高相似度分?jǐn)?shù)會(huì)人為地夸大相似性,因?yàn)檫x擇的范圍更大了。
為了解決這些問題,研究團(tuán)隊(duì)開發(fā)了一套"置換校準(zhǔn)框架"。這個(gè)框架的核心思想非常巧妙:通過隨機(jī)打亂數(shù)據(jù)的對(duì)應(yīng)關(guān)系來(lái)構(gòu)建一個(gè)"零假設(shè)"的基準(zhǔn)線,就像是在測(cè)試中加入對(duì)照組一樣。如果兩個(gè)網(wǎng)絡(luò)真的有相似性,那么這種相似性應(yīng)該明顯高于隨機(jī)情況下的相似性。
當(dāng)研究團(tuán)隊(duì)用這套校準(zhǔn)工具重新審視"柏拉圖表征假說(shuō)"時(shí),發(fā)現(xiàn)了一個(gè)令人驚訝的結(jié)果:之前看起來(lái)強(qiáng)烈的全局相似性在校準(zhǔn)后幾乎消失了,但局部鄰域的相似性卻依然顯著存在。這意味著不同的神經(jīng)網(wǎng)絡(luò)雖然在整體的"世界觀"上并不趨同,但在判斷"誰(shuí)和誰(shuí)更相似"這種局部關(guān)系上卻表現(xiàn)出驚人的一致性。
基于這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)提出了"亞里士多德表征假說(shuō)"。與柏拉圖相信的完美理想世界不同,亞里士多德更注重現(xiàn)實(shí)世界中事物之間的具體關(guān)系。同樣地,這個(gè)新假說(shuō)認(rèn)為,神經(jīng)網(wǎng)絡(luò)的收斂并不是朝著某個(gè)統(tǒng)一的"完美表征",而是在學(xué)習(xí)共同的局部鄰域關(guān)系——也就是說(shuō),它們會(huì)逐漸在"什么東西彼此相似"這個(gè)問題上達(dá)成共識(shí),但不會(huì)在絕對(duì)的距離測(cè)量上保持一致。
一、測(cè)量的陷阱:當(dāng)尺子本身有問題
在科學(xué)研究中,測(cè)量工具的準(zhǔn)確性往往決定了結(jié)論的可靠性。研究團(tuán)隊(duì)發(fā)現(xiàn),用于衡量神經(jīng)網(wǎng)絡(luò)相似性的傳統(tǒng)工具存在系統(tǒng)性偏差,這些偏差嚴(yán)重扭曲了我們對(duì)網(wǎng)絡(luò)收斂性的理解。
第一個(gè)問題被稱為"寬度混淆因子"。當(dāng)神經(jīng)網(wǎng)絡(luò)的維度增加時(shí)(也就是每一層包含更多神經(jīng)元),現(xiàn)有的相似性測(cè)量方法會(huì)錯(cuò)誤地產(chǎn)生更高的基準(zhǔn)分?jǐn)?shù),即使兩個(gè)網(wǎng)絡(luò)之間完全沒有真實(shí)的關(guān)聯(lián)。這種現(xiàn)象的數(shù)學(xué)根源在于高維空間中的虛假相關(guān)性。研究團(tuán)隊(duì)通過理論分析證明,對(duì)于常用的中心化核對(duì)齊(CKA)等指標(biāo),其零假設(shè)基線會(huì)隨著維度與樣本數(shù)量的比值而系統(tǒng)性增長(zhǎng)。
具體來(lái)說(shuō),假如你有兩個(gè)完全獨(dú)立的神經(jīng)網(wǎng)絡(luò),理論上它們的相似性應(yīng)該接近零。但是當(dāng)這些網(wǎng)絡(luò)變得更寬時(shí),傳統(tǒng)的測(cè)量方法會(huì)顯示出虛假的相似性。這就像是用一個(gè)有問題的溫度計(jì)測(cè)量?jī)蓚€(gè)房間的溫度:房間越大,溫度計(jì)顯示的溫度差異就越小,即使實(shí)際溫度完全不同。
第二個(gè)問題是"深度混淆因子"。當(dāng)比較具有多個(gè)層級(jí)的深度網(wǎng)絡(luò)時(shí),研究人員通常會(huì)計(jì)算所有可能的層對(duì)層比較,然后選擇最高的相似性分?jǐn)?shù)作為最終結(jié)果。這種做法忽略了一個(gè)重要的統(tǒng)計(jì)學(xué)原理:從更多次測(cè)量中選擇最佳結(jié)果會(huì)系統(tǒng)性地夸大真實(shí)效應(yīng)。這就像是一個(gè)學(xué)生參加多次考試,然后只報(bào)告最高分?jǐn)?shù)——即使這個(gè)學(xué)生的真實(shí)水平一般,多次嘗試也可能產(chǎn)生一個(gè)看起來(lái)不錯(cuò)的最高分。
研究團(tuán)隊(duì)通過極值理論分析證明,即使在完全沒有真實(shí)相似性的情況下,最大相似性分?jǐn)?shù)的期望值也會(huì)隨著比較次數(shù)的對(duì)數(shù)增長(zhǎng)。對(duì)于深度為L(zhǎng)A和LB的兩個(gè)網(wǎng)絡(luò),總共需要進(jìn)行LA×LB次比較,隨著網(wǎng)絡(luò)深度的增加,這種選擇偏差會(huì)變得越來(lái)越嚴(yán)重。
為了驗(yàn)證這些理論發(fā)現(xiàn),研究團(tuán)隊(duì)進(jìn)行了大量的合成實(shí)驗(yàn)。他們生成了完全獨(dú)立的隨機(jī)表征,然后用不同的相似性指標(biāo)進(jìn)行測(cè)量。結(jié)果清楚地顯示,隨著維度比值和網(wǎng)絡(luò)深度的增加,所有傳統(tǒng)指標(biāo)都表現(xiàn)出系統(tǒng)性的虛假相似性增長(zhǎng)。更重要的是,這種偏差的程度足以解釋之前研究中觀察到的大部分"收斂"現(xiàn)象。
這些發(fā)現(xiàn)揭示了一個(gè)令人擔(dān)憂的真相:許多關(guān)于神經(jīng)網(wǎng)絡(luò)表征收斂的結(jié)論可能建立在測(cè)量偏差的基礎(chǔ)上。這就像是用一把刻度不準(zhǔn)的尺子來(lái)測(cè)量建筑物的高度,然后據(jù)此得出所有建筑物都越來(lái)越高的結(jié)論。實(shí)際上,可能只是尺子本身隨著被測(cè)量物體的大小而產(chǎn)生了系統(tǒng)性錯(cuò)誤。
二、校準(zhǔn)框架:還原測(cè)量的真實(shí)面貌
面對(duì)測(cè)量工具的系統(tǒng)性偏差,研究團(tuán)隊(duì)開發(fā)了一套創(chuàng)新的"置換校準(zhǔn)框架"。這個(gè)框架的核心理念是為每一個(gè)相似性測(cè)量建立一個(gè)可靠的零基準(zhǔn)線,從而將真正的相似性從測(cè)量偏差中分離出來(lái)。
這個(gè)框架的工作原理可以用一個(gè)簡(jiǎn)單的實(shí)驗(yàn)來(lái)理解。假設(shè)你想知道兩個(gè)班級(jí)的學(xué)生在某項(xiàng)技能上是否真的相似。傳統(tǒng)的方法可能直接比較兩個(gè)班級(jí)學(xué)生的平均表現(xiàn)。但是校準(zhǔn)框架會(huì)采用不同的方法:它會(huì)保持第一個(gè)班級(jí)的學(xué)生不變,但隨機(jī)重新分配第二個(gè)班級(jí)學(xué)生的標(biāo)簽,然后重復(fù)這個(gè)過程很多次。通過觀察這種隨機(jī)分配產(chǎn)生的"虛假相似性"分布,我們可以確定什么水平的相似性是純屬偶然的,什么水平的相似性是真正有意義的。
在技術(shù)實(shí)現(xiàn)上,校準(zhǔn)框架通過置換樣本對(duì)應(yīng)關(guān)系來(lái)構(gòu)建經(jīng)驗(yàn)零分布。具體來(lái)說(shuō),對(duì)于兩個(gè)表征矩陣X和Y,框架會(huì)保持X不變,但隨機(jī)打亂Y的行順序,生成多個(gè)置換版本。然后在每個(gè)置換版本上計(jì)算相似性分?jǐn)?shù),最終得到一個(gè)零假設(shè)下的分?jǐn)?shù)分布。真正觀察到的相似性分?jǐn)?shù)只有顯著超過這個(gè)零分布時(shí),才被認(rèn)為是有意義的。
對(duì)于標(biāo)量相似性比較,校準(zhǔn)分?jǐn)?shù)的計(jì)算公式為:校準(zhǔn)分?jǐn)?shù) = max((觀察分?jǐn)?shù) - 臨界閾值)/(最大可能分?jǐn)?shù) - 臨界閾值), 0)。這個(gè)公式確保了校準(zhǔn)后的分?jǐn)?shù)在零假設(shè)成立時(shí)為零,而在存在真實(shí)相似性時(shí)保持有意義的數(shù)值。臨界閾值通過置換分布的高分位數(shù)確定,通常使用95%分位數(shù)以控制誤報(bào)率在5%以下。
對(duì)于涉及多層比較的聚合統(tǒng)計(jì)量,框架采用"聚合感知校準(zhǔn)"方法。這種方法的關(guān)鍵洞察是:必須校準(zhǔn)最終報(bào)告的統(tǒng)計(jì)量本身,而不是組成它的各個(gè)部分。換句話說(shuō),如果我們最終要報(bào)告所有層對(duì)比較中的最大值,那么就應(yīng)該直接校準(zhǔn)這個(gè)最大值的分布,而不是分別校準(zhǔn)每個(gè)個(gè)體比較。
這種方法通過以下步驟實(shí)現(xiàn):首先,對(duì)每個(gè)置換版本計(jì)算完整的層對(duì)層相似性矩陣;然后,對(duì)每個(gè)矩陣應(yīng)用相同的聚合操作(如取最大值);最后,用這些聚合后的置換分?jǐn)?shù)構(gòu)建零分布,并據(jù)此校準(zhǔn)觀察到的聚合分?jǐn)?shù)。這樣就確保了選擇偏差被正確地納入了校準(zhǔn)過程。
校準(zhǔn)框架具有幾個(gè)重要的理論保證。首先,它提供有限樣本的統(tǒng)計(jì)有效性:在零假設(shè)成立時(shí),校準(zhǔn)后的p值是超均勻分布的,這意味著誤報(bào)率得到了嚴(yán)格控制。其次,框架是度量無(wú)關(guān)的:它可以應(yīng)用于任何有界的相似性指標(biāo),而不需要針對(duì)特定指標(biāo)的理論推導(dǎo)。最后,它保持了單調(diào)不變性:相似性分?jǐn)?shù)的單調(diào)變換不會(huì)影響基于排序的校準(zhǔn)結(jié)果。
為了驗(yàn)證校準(zhǔn)框架的有效性,研究團(tuán)隊(duì)進(jìn)行了廣泛的實(shí)驗(yàn)驗(yàn)證。在合成數(shù)據(jù)上,校準(zhǔn)框架成功地將各種條件下的零假設(shè)分?jǐn)?shù)歸一化為零,同時(shí)保持了對(duì)真實(shí)信號(hào)的敏感性。在真實(shí)神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)上,校準(zhǔn)框架的結(jié)果與現(xiàn)有的分析偏差校正方法高度一致,但具有更廣的適用性和更強(qiáng)的理論保障。
特別值得注意的是,研究團(tuán)隊(duì)發(fā)現(xiàn)校準(zhǔn)框架不僅解決了偏差問題,還為相似性分?jǐn)?shù)提供了更好的可解釋性。校準(zhǔn)后的分?jǐn)?shù)可以直接解釋為"超出偶然水平的相似性程度",這使得不同研究之間的結(jié)果比較變得更加有意義。
三、重新審視柏拉圖假說(shuō):全局收斂的破滅
當(dāng)研究團(tuán)隊(duì)用校準(zhǔn)框架重新審視著名的"柏拉圖表征假說(shuō)"時(shí),發(fā)現(xiàn)了一個(gè)顛覆性的結(jié)果:之前被廣泛接受的跨模態(tài)表征收斂現(xiàn)象,很大程度上是測(cè)量偏差的產(chǎn)物。
柏拉圖表征假說(shuō)最初基于這樣的觀察:隨著模型規(guī)模的增加,不同類型的神經(jīng)網(wǎng)絡(luò)(如處理圖像的視覺模型和處理文本的語(yǔ)言模型)在表征相似性上表現(xiàn)出明顯的增長(zhǎng)趨勢(shì)。使用傳統(tǒng)的相似性指標(biāo),研究者發(fā)現(xiàn)更大更強(qiáng)的模型之間顯示出更高的相似性分?jǐn)?shù),這似乎支持了所有模型都在朝著某種"理想表征"收斂的觀點(diǎn)。
然而,當(dāng)應(yīng)用校準(zhǔn)框架后,這種表面的收斂現(xiàn)象發(fā)生了戲劇性的變化。對(duì)于全局譜分析指標(biāo)(如中心化核對(duì)齊CKA),原本隨模型容量增長(zhǎng)的相似性曲線在校準(zhǔn)后變得平坦,甚至略有下降。這意味著之前觀察到的"收斂"主要源于測(cè)量偏差,而非真實(shí)的表征對(duì)齊。
研究團(tuán)隊(duì)使用了包含204個(gè)視覺-語(yǔ)言模型對(duì)的大規(guī)模數(shù)據(jù)集進(jìn)行驗(yàn)證。這些模型對(duì)涵蓋了三個(gè)語(yǔ)言模型家族(BLOOM、OpenLLaMA、LLaMA)和五個(gè)視覺模型家族(ImageNet-21K、MAE、DINOv2、CLIP、CLIP微調(diào)版本),跨越多個(gè)規(guī)模級(jí)別。實(shí)驗(yàn)使用1024個(gè)圖像-文本對(duì),維度與樣本數(shù)量比值范圍為0.75到8,充分覆蓋了柏拉圖假說(shuō)的關(guān)鍵測(cè)試范圍。
在傳統(tǒng)測(cè)量下,線性CKA和RBF核CKA都顯示出清晰的上升趨勢(shì),似乎證實(shí)了隨著模型能力提升,跨模態(tài)對(duì)齊確實(shí)在增強(qiáng)。但校準(zhǔn)后的結(jié)果截然不同:這些全局指標(biāo)的校準(zhǔn)分?jǐn)?shù)不再表現(xiàn)出系統(tǒng)性增長(zhǎng),反而在很多情況下保持相對(duì)穩(wěn)定或輕微下降。
這一發(fā)現(xiàn)的含義是深遠(yuǎn)的。它表明神經(jīng)網(wǎng)絡(luò)并不像柏拉圖理論預(yù)測(cè)的那樣朝著統(tǒng)一的"理想表征"收斂。不同的訓(xùn)練目標(biāo)、架構(gòu)選擇和數(shù)據(jù)分布會(huì)產(chǎn)生本質(zhì)上不同的全局表征結(jié)構(gòu),即使這些模型在任務(wù)性能上都很出色。
更細(xì)致的分析揭示了這種現(xiàn)象的機(jī)制。全局相似性指標(biāo)主要捕捉表征空間的整體幾何結(jié)構(gòu),包括主成分方向、方差分布和全局聚類模式。這些特征高度依賴于模型的具體實(shí)現(xiàn)細(xì)節(jié):激活函數(shù)的選擇、歸一化策略、優(yōu)化算法等。即使兩個(gè)模型學(xué)到了相同的任務(wù)相關(guān)知識(shí),它們的全局表征結(jié)構(gòu)仍可能大相徑庭。
研究團(tuán)隊(duì)還驗(yàn)證了這一結(jié)論在其他模態(tài)對(duì)上的普遍性。在視頻-語(yǔ)言對(duì)齊實(shí)驗(yàn)中,使用VideoMAE、DINOv2和CLIP模型與同樣的語(yǔ)言模型進(jìn)行比較,結(jié)果完全一致:校準(zhǔn)后的全局相似性指標(biāo)失去了隨規(guī)模增長(zhǎng)的趨勢(shì)。這進(jìn)一步證實(shí)了全局收斂更多是測(cè)量偏差的產(chǎn)物,而非跨模態(tài)學(xué)習(xí)的本質(zhì)特征。
有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)不同全局指標(biāo)在校準(zhǔn)后的表現(xiàn)并不完全相同。雖然所有指標(biāo)都失去了明顯的增長(zhǎng)趨勢(shì),但它們?cè)诮^對(duì)水平上仍有差異。這反映了不同指標(biāo)對(duì)表征結(jié)構(gòu)的不同敏感性,也提醒研究者在選擇評(píng)估指標(biāo)時(shí)需要考慮其局限性。
這一發(fā)現(xiàn)對(duì)整個(gè)表征學(xué)習(xí)領(lǐng)域具有重要啟示。它表明我們需要重新思考什么是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的"普遍規(guī)律"。如果全局表征結(jié)構(gòu)并不收斂,那么模型之間的共同點(diǎn)可能存在于更細(xì)粒度的層面上。
四、局部對(duì)齊的發(fā)現(xiàn):亞里士多德的智慧
雖然全局收斂的證據(jù)在校準(zhǔn)后大幅減弱,但研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)更加有趣的現(xiàn)象:局部鄰域關(guān)系在不同模型間表現(xiàn)出顯著且穩(wěn)定的對(duì)齊。這一發(fā)現(xiàn)催生了"亞里士多德表征假說(shuō)"。
與全局指標(biāo)的戲劇性變化形成鮮明對(duì)比,基于鄰域的局部相似性指標(biāo)在校準(zhǔn)后依然保持了強(qiáng)勁的跨模態(tài)對(duì)齊信號(hào)。互鄰近鄰(mKNN)、循環(huán)k近鄰(cycle-kNN)和CKNNA等指標(biāo)都顯示出清晰的隨模型能力增長(zhǎng)的趨勢(shì),且這種趨勢(shì)在校準(zhǔn)后得到了保持。
為了深入理解這種局部對(duì)齊的本質(zhì),研究團(tuán)隊(duì)設(shè)計(jì)了精細(xì)的參數(shù)化分析。他們系統(tǒng)地變化了鄰域大小k(從10到100)和RBF核帶寬σ(從0.1到5.0),以探索對(duì)齊在不同空間尺度上的表現(xiàn)。結(jié)果揭示了一個(gè)關(guān)鍵區(qū)別:模型在鄰域身份上達(dá)成一致,但在精確距離上并不一致。
具體來(lái)說(shuō),當(dāng)使用較小的鄰域大小(k=10)時(shí),mKNN指標(biāo)顯示出最強(qiáng)的跨模態(tài)對(duì)齊和最清晰的規(guī)模化趨勢(shì)。隨著k增加到50、100,雖然對(duì)齊依然顯著,但規(guī)模化改進(jìn)的趨勢(shì)逐漸平緩。這表明模型間的一致性主要體現(xiàn)在最近鄰的識(shí)別上,而在更大范圍的鄰域結(jié)構(gòu)上則相對(duì)有限。
RBF核帶寬的分析進(jìn)一步證實(shí)了這一觀點(diǎn)。當(dāng)帶寬很小(σ=0.1)時(shí),CKA-RBF主要感知非常局部的距離差異,此時(shí)校準(zhǔn)后的相似性幾乎消失,p值普遍超過0.05。但當(dāng)帶寬適中(σ=0.5-2.0)時(shí),指標(biāo)開始捕捉到有意義的對(duì)齊信號(hào),雖然規(guī)模化趨勢(shì)在校準(zhǔn)后有所平緩。
這些發(fā)現(xiàn)揭示了一個(gè)重要的概念區(qū)分:拓?fù)鋵?duì)齊與度量對(duì)齊。拓?fù)鋵?duì)齊關(guān)注的是"誰(shuí)與誰(shuí)相近"的序關(guān)系,而度量對(duì)齊關(guān)注的是"有多相近"的具體數(shù)值。實(shí)驗(yàn)結(jié)果表明,不同訓(xùn)練目標(biāo)和架構(gòu)的神經(jīng)網(wǎng)絡(luò)在拓?fù)浣Y(jié)構(gòu)上趨于一致,但在度量結(jié)構(gòu)上保持差異。
這種現(xiàn)象有深刻的認(rèn)知科學(xué)和機(jī)器學(xué)習(xí)理論基礎(chǔ)。在人類認(rèn)知中,相似性判斷往往基于相對(duì)比較而非絕對(duì)度量。我們能夠一致地認(rèn)為蘋果比香蕉更像橙子,但很難準(zhǔn)確量化這種相似性的具體程度。類似地,神經(jīng)網(wǎng)絡(luò)似乎在學(xué)習(xí)數(shù)據(jù)的相對(duì)相似性結(jié)構(gòu),而這種結(jié)構(gòu)對(duì)于完成下游任務(wù)來(lái)說(shuō)可能比絕對(duì)距離更為關(guān)鍵。
從表征學(xué)習(xí)的角度來(lái)看,這一發(fā)現(xiàn)也有重要意義。它表明有效的表征學(xué)習(xí)可能不需要在所有細(xì)節(jié)上完全一致,只要在關(guān)鍵的相對(duì)關(guān)系上保持對(duì)齊即可。這種"關(guān)系對(duì)齊"可能是遷移學(xué)習(xí)和跨模態(tài)學(xué)習(xí)成功的關(guān)鍵機(jī)制。
研究團(tuán)隊(duì)進(jìn)一步驗(yàn)證了這一假說(shuō)在不同數(shù)據(jù)集和模型架構(gòu)上的普遍性。無(wú)論是圖像-文本對(duì)、視頻-文本對(duì),還是不同的預(yù)訓(xùn)練策略(自監(jiān)督vs監(jiān)督),局部鄰域?qū)R都表現(xiàn)出一致的模式。這表明亞里士多德表征假說(shuō)捕捉了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的一個(gè)基本特征。
有趣的是,研究團(tuán)隊(duì)還發(fā)現(xiàn)了模型規(guī)模與局部對(duì)齊質(zhì)量之間的非線性關(guān)系。在某些情況下,中等規(guī)模的模型反而表現(xiàn)出更好的跨模態(tài)對(duì)齊,這可能與過參數(shù)化和泛化性能的復(fù)雜關(guān)系有關(guān)。這一觀察為模型選擇和架構(gòu)設(shè)計(jì)提供了新的視角。
五、方法論創(chuàng)新:從工具到洞察
這項(xiàng)研究的方法論貢獻(xiàn)遠(yuǎn)不止于發(fā)現(xiàn)測(cè)量偏差。研究團(tuán)隊(duì)開發(fā)的校準(zhǔn)框架代表了表征分析領(lǐng)域的一個(gè)重要方法論進(jìn)步,為未來(lái)的研究提供了更可靠的工具和更嚴(yán)謹(jǐn)?shù)姆治龇妒健?/p>
校準(zhǔn)框架的理論基礎(chǔ)建立在置換檢驗(yàn)和隨機(jī)化推斷的堅(jiān)實(shí)數(shù)學(xué)基礎(chǔ)上。與傳統(tǒng)的參數(shù)統(tǒng)計(jì)方法不同,置換檢驗(yàn)不需要對(duì)數(shù)據(jù)分布做強(qiáng)假設(shè),只要求樣本在零假設(shè)下是可交換的。這種非參數(shù)特性使得框架能夠適用于各種復(fù)雜的神經(jīng)網(wǎng)絡(luò)表征,而不受特定架構(gòu)或訓(xùn)練程序的限制。
框架的核心創(chuàng)新在于將聚合感知校準(zhǔn)引入表征相似性分析。傳統(tǒng)的多重比較校正方法,如Bonferroni或Benjamini-Hochberg程序,主要關(guān)注控制個(gè)體比較的誤報(bào)率,但忽略了選擇偏差對(duì)最終統(tǒng)計(jì)量的影響。聚合感知校準(zhǔn)直接針對(duì)研究者實(shí)際報(bào)告的統(tǒng)計(jì)量(如最大相似性分?jǐn)?shù))進(jìn)行校準(zhǔn),從而提供了對(duì)選擇偏差的直接控制。
從計(jì)算效率角度來(lái)看,校準(zhǔn)框架雖然增加了計(jì)算成本,但這種成本是可控和可并行化的。對(duì)于標(biāo)量比較,框架只需要額外進(jìn)行K次置換計(jì)算,其中K通常在200-500之間。對(duì)于聚合比較,成本增加到K×LA×LB次計(jì)算,但這些計(jì)算完全獨(dú)立,可以高效并行化。考慮到現(xiàn)代深度學(xué)習(xí)的計(jì)算資源,這種額外成本是完全可以接受的。
框架還提供了多種輸出形式以滿足不同需求。除了校準(zhǔn)分?jǐn)?shù)外,框架還計(jì)算置換p值、效應(yīng)大小和置信區(qū)間,為研究者提供了豐富的統(tǒng)計(jì)信息。特別是置換p值具有有限樣本有效性,這意味著即使在樣本量有限的情況下,統(tǒng)計(jì)推斷仍然是可靠的。
研究團(tuán)隊(duì)特別強(qiáng)調(diào)了校準(zhǔn)框架的普適性。它不依賴于特定的相似性度量或神經(jīng)網(wǎng)絡(luò)架構(gòu),可以應(yīng)用于任何產(chǎn)生數(shù)值相似性分?jǐn)?shù)的分析流程。這種度量無(wú)關(guān)性使得框架能夠?yàn)檎麄€(gè)表征學(xué)習(xí)社區(qū)提供標(biāo)準(zhǔn)化的分析工具,促進(jìn)不同研究之間的可比性和可重復(fù)性。
在實(shí)際應(yīng)用中,框架還展現(xiàn)出了良好的魯棒性。研究團(tuán)隊(duì)測(cè)試了不同的噪聲分布(高斯、學(xué)生t、拉普拉斯等)、不同的置換策略和不同的顯著性水平,發(fā)現(xiàn)框架在各種條件下都保持了穩(wěn)定的性能。這種魯棒性對(duì)于處理真實(shí)世界數(shù)據(jù)的復(fù)雜性是至關(guān)重要的。
校準(zhǔn)框架的引入也推動(dòng)了表征分析領(lǐng)域方法論標(biāo)準(zhǔn)的提升。它明確了什么構(gòu)成有效的零假設(shè)、如何正確處理多重比較、以及如何解釋相似性分?jǐn)?shù)等基本問題。這些方法論上的澄清對(duì)于建立更嚴(yán)謹(jǐn)?shù)难芯繕?biāo)準(zhǔn)具有重要價(jià)值。
此外,研究團(tuán)隊(duì)還提供了完整的開源實(shí)現(xiàn)和詳細(xì)的使用指南,確保其他研究者能夠輕松采用這些方法。這種開放科學(xué)的實(shí)踐有助于方法的廣泛傳播和持續(xù)改進(jìn)。
六、實(shí)驗(yàn)驗(yàn)證:從理論到實(shí)踐
為了全面驗(yàn)證校準(zhǔn)框架的有效性和亞里士多德表征假說(shuō)的正確性,研究團(tuán)隊(duì)設(shè)計(jì)了一系列層次遞進(jìn)的實(shí)驗(yàn),從合成數(shù)據(jù)的控制實(shí)驗(yàn)到大規(guī)模真實(shí)模型的對(duì)比分析。
在合成數(shù)據(jù)實(shí)驗(yàn)中,研究團(tuán)隊(duì)構(gòu)建了精確可控的實(shí)驗(yàn)環(huán)境。他們生成了完全獨(dú)立的高斯隨機(jī)矩陣作為"表征",其中任何觀察到的相似性都應(yīng)該純屬偶然。通過系統(tǒng)地變化樣本數(shù)量n(從128到4096)和維度d(從128到2048),團(tuán)隊(duì)繪制了傳統(tǒng)相似性指標(biāo)在零假設(shè)條件下的行為圖譜。結(jié)果清楚地顯示,所有傳統(tǒng)指標(biāo)都表現(xiàn)出隨d/n比值增長(zhǎng)的系統(tǒng)性偏差,完全驗(yàn)證了理論分析的預(yù)測(cè)。
更重要的是,校準(zhǔn)框架在所有測(cè)試條件下都成功地將這些虛假相似性歸一化為零,展現(xiàn)了出色的偏差消除能力。即使在最極端的高維低樣本情況下(d/n > 2),校準(zhǔn)后的分?jǐn)?shù)仍然穩(wěn)定地保持在零附近,證明了框架的穩(wěn)健性。
在信號(hào)檢測(cè)能力的測(cè)試中,研究團(tuán)隊(duì)在隨機(jī)數(shù)據(jù)中注入了不同強(qiáng)度的共享信號(hào)。實(shí)驗(yàn)使用低秩矩陣分解的方式創(chuàng)建真實(shí)的相似性結(jié)構(gòu),然后在其中添加不同水平的噪聲。結(jié)果表明,校準(zhǔn)框架不僅消除了虛假信號(hào),還保持了對(duì)真實(shí)信號(hào)的高度敏感性。在信噪比合理的情況下,校準(zhǔn)后的檢測(cè)功效甚至超過了傳統(tǒng)方法,因?yàn)樗嗽肼暤母蓴_。
真實(shí)神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)規(guī)模更加龐大。研究團(tuán)隊(duì)收集了跨越五個(gè)主要模型家族、涵蓋多個(gè)規(guī)模級(jí)別的預(yù)訓(xùn)練模型,總計(jì)204個(gè)模型對(duì)的比較。這些模型包括了當(dāng)前最先進(jìn)的視覺和語(yǔ)言理解系統(tǒng),如CLIP、DINOv2、BLOOM、LLaMA等,確保了實(shí)驗(yàn)結(jié)果的代表性和現(xiàn)實(shí)意義。
實(shí)驗(yàn)數(shù)據(jù)來(lái)自WIT數(shù)據(jù)集的1024個(gè)圖像-文本對(duì),這個(gè)規(guī)模既足夠捕捉模型行為的主要特征,又允許高效的重復(fù)實(shí)驗(yàn)。研究團(tuán)隊(duì)特別選擇了使d/n比值覆蓋0.75到8的范圍,這正好對(duì)應(yīng)了柏拉圖假說(shuō)最關(guān)鍵的測(cè)試區(qū)域。
跨模態(tài)對(duì)齊的結(jié)果在校準(zhǔn)前后展現(xiàn)了截然不同的模式。未校準(zhǔn)的全局相似性指標(biāo)(如線性CKA、RBF-CKA)顯示出明顯的隨模型規(guī)模增長(zhǎng)的趨勢(shì),這與柏拉圖假說(shuō)的預(yù)測(cè)完全一致。然而,校準(zhǔn)后這些趨勢(shì)大多消失,取而代之的是相對(duì)平坦的曲線,表明之前觀察到的"收斂"主要是測(cè)量人工制品。
相比之下,局部相似性指標(biāo)(mKNN、cycle-kNN、CKNNA)在校準(zhǔn)后依然保持了顯著的對(duì)齊信號(hào)和規(guī)模化趨勢(shì)。這種對(duì)比清楚地支持了亞里士多德表征假說(shuō):神經(jīng)網(wǎng)絡(luò)確實(shí)在某些方面趨向一致,但這種一致性體現(xiàn)在局部鄰域關(guān)系而非全局幾何結(jié)構(gòu)上。
為了確保結(jié)果的普遍性,研究團(tuán)隊(duì)還進(jìn)行了跨數(shù)據(jù)集和跨模態(tài)的驗(yàn)證。他們將分析擴(kuò)展到視頻-語(yǔ)言對(duì)齊,使用VideoMAE等視頻理解模型與語(yǔ)言模型進(jìn)行比較。結(jié)果完全一致:全局指標(biāo)在校準(zhǔn)后失去增長(zhǎng)趨勢(shì),而局部指標(biāo)保持對(duì)齊。這進(jìn)一步證實(shí)了發(fā)現(xiàn)的普遍性。
研究團(tuán)隊(duì)還進(jìn)行了敏感性分析,測(cè)試了不同顯著性水平(α = 0.01, 0.05, 0.10)和不同置換次數(shù)(K = 100, 200, 500)對(duì)結(jié)果的影響。在所有測(cè)試條件下,主要結(jié)論都保持穩(wěn)定,證明了發(fā)現(xiàn)的魯棒性。
七、理論洞察:重新定義收斂
這項(xiàng)研究不僅在方法論上取得了突破,更重要的是在理論層面為我們理解神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)提供了新的視角。亞里士多德表征假說(shuō)的提出,標(biāo)志著從追求"完美統(tǒng)一"到認(rèn)識(shí)"關(guān)系一致"的范式轉(zhuǎn)變。
從認(rèn)知科學(xué)角度來(lái)看,這一發(fā)現(xiàn)與人類概念學(xué)習(xí)的理論高度契合。人類在學(xué)習(xí)概念時(shí),往往更關(guān)注對(duì)象間的相對(duì)關(guān)系而非絕對(duì)特征。例如,不同文化背景的人可能對(duì)顏色的絕對(duì)感知有所差異,但在識(shí)別"哪兩種顏色更相似"這個(gè)問題上卻表現(xiàn)出驚人的一致性。亞里士多德表征假說(shuō)表明,神經(jīng)網(wǎng)絡(luò)可能以類似的方式學(xué)習(xí)世界的結(jié)構(gòu):通過掌握相對(duì)關(guān)系而非絕對(duì)量度。
這種關(guān)系學(xué)習(xí)的優(yōu)勢(shì)在于其泛化能力和遷移潛力。如果兩個(gè)模型在局部鄰域關(guān)系上保持一致,那么它們更容易在新任務(wù)或新領(lǐng)域上實(shí)現(xiàn)知識(shí)遷移。這為解釋為什么預(yù)訓(xùn)練模型能夠在各種下游任務(wù)上表現(xiàn)出色提供了新的理論基礎(chǔ):關(guān)鍵不在于模型學(xué)到了完全相同的表征,而在于它們掌握了相似的關(guān)系結(jié)構(gòu)。
從機(jī)器學(xué)習(xí)理論的角度,這一發(fā)現(xiàn)也有深刻含義。它表明有效的表征學(xué)習(xí)可能存在多條路徑:不同的訓(xùn)練程序、架構(gòu)設(shè)計(jì)和優(yōu)化策略可能導(dǎo)致全局結(jié)構(gòu)迥異的表征空間,但這些空間在局部拓?fù)渖峡赡芨叨认嗨啤_@種"殊途同歸"的現(xiàn)象為理解深度學(xué)習(xí)的歸納偏置提供了新線索。
研究還揭示了表征學(xué)習(xí)中的一個(gè)重要權(quán)衡:全局一致性vs局部一致性。傳統(tǒng)觀點(diǎn)傾向于認(rèn)為更強(qiáng)的模型應(yīng)該在所有層面上都更加一致,但實(shí)際情況可能更加復(fù)雜。過度的全局一致性可能導(dǎo)致模型失去多樣性,從而限制其在不同任務(wù)上的適應(yīng)性。相反,保持全局多樣性而在局部關(guān)系上趨同,可能是一種更加有效的學(xué)習(xí)策略。
這一理論洞察對(duì)模型設(shè)計(jì)和訓(xùn)練策略具有重要指導(dǎo)意義。它提示我們?cè)谠O(shè)計(jì)損失函數(shù)和正則化策略時(shí),應(yīng)該更多關(guān)注相對(duì)關(guān)系的保持而非絕對(duì)表征的匹配。例如,對(duì)比學(xué)習(xí)的成功可能正是因?yàn)樗苯觾?yōu)化了樣本間的相對(duì)關(guān)系,而不是絕對(duì)表征值。
從哲學(xué)層面來(lái)看,亞里士多德表征假說(shuō)也體現(xiàn)了對(duì)學(xué)習(xí)本質(zhì)的深刻思考。它表明真正的"理解"可能不需要對(duì)世界有完全一致的內(nèi)部描述,只要在關(guān)鍵關(guān)系的識(shí)別上保持一致即可。這種觀點(diǎn)與亞里士多德的關(guān)系哲學(xué)高度吻合:現(xiàn)實(shí)世界的本質(zhì)在于事物間的關(guān)系和相互作用,而非事物的絕對(duì)屬性。
這一理論框架還為解釋人工智能系統(tǒng)的對(duì)齊問題提供了新視角。如果不同的AI系統(tǒng)在處理同樣問題時(shí)能夠在關(guān)鍵關(guān)系判斷上保持一致,那么即使它們的內(nèi)部工作機(jī)制不同,也可能實(shí)現(xiàn)有效的協(xié)作和互操作。這對(duì)于構(gòu)建多智能體系統(tǒng)和實(shí)現(xiàn)AI安全具有重要啟示。
未來(lái)的研究可以在這個(gè)理論框架基礎(chǔ)上探索更多問題:什么因素決定了哪些關(guān)系會(huì)被一致學(xué)習(xí)?如何主動(dòng)引導(dǎo)模型學(xué)習(xí)特定的關(guān)系結(jié)構(gòu)?不同類型的關(guān)系(空間、時(shí)間、語(yǔ)義等)在學(xué)習(xí)中的重要性如何排序?這些問題的答案將進(jìn)一步豐富我們對(duì)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)機(jī)制的理解。
說(shuō)到底,這項(xiàng)研究讓我們重新審視了什么是"智能的收斂"。也許真正的智能不在于擁有完全相同的世界模型,而在于能夠識(shí)別相同的關(guān)系模式。就像不同的人可能用不同的方式描述同一個(gè)故事,但在故事的核心關(guān)系上達(dá)成共識(shí)一樣,不同的神經(jīng)網(wǎng)絡(luò)也許正是通過這種"關(guān)系共識(shí)"而非"表征統(tǒng)一"來(lái)實(shí)現(xiàn)真正的智能對(duì)齊。這種認(rèn)識(shí)不僅改變了我們對(duì)機(jī)器學(xué)習(xí)的理解,也為未來(lái)構(gòu)建更加多樣化yet一致的AI系統(tǒng)指明了方向。
Q&A
Q1:什么是柏拉圖表征假說(shuō)和亞里士多德表征假說(shuō)?
A:柏拉圖表征假說(shuō)認(rèn)為不同的神經(jīng)網(wǎng)絡(luò)會(huì)收斂到同一種對(duì)現(xiàn)實(shí)世界的"理想理解",就像所有AI最終會(huì)形成相同的世界模型。而亞里士多德表征假說(shuō)則認(rèn)為,神經(jīng)網(wǎng)絡(luò)只會(huì)在局部鄰域關(guān)系上達(dá)成一致,也就是在判斷"什么東西彼此相似"這種關(guān)系問題上保持共識(shí),但不會(huì)在整體結(jié)構(gòu)上完全統(tǒng)一。
Q2:為什么之前的研究結(jié)論是錯(cuò)誤的?
A:主要原因是測(cè)量工具存在系統(tǒng)性偏差。當(dāng)神經(jīng)網(wǎng)絡(luò)變得更寬(更多神經(jīng)元)時(shí),傳統(tǒng)指標(biāo)會(huì)錯(cuò)誤顯示更高相似性;當(dāng)網(wǎng)絡(luò)更深時(shí),簡(jiǎn)單取最高分會(huì)夸大真實(shí)相似性。這就像用有問題的尺子測(cè)量,隨著被測(cè)物體增大,尺子本身的誤差也增大,導(dǎo)致錯(cuò)誤結(jié)論。
Q3:置換校準(zhǔn)框架是如何工作的?
A:這個(gè)框架通過隨機(jī)打亂數(shù)據(jù)對(duì)應(yīng)關(guān)系來(lái)建立"零基準(zhǔn)線"。具體是保持第一個(gè)網(wǎng)絡(luò)不變,隨機(jī)重排第二個(gè)網(wǎng)絡(luò)的數(shù)據(jù)標(biāo)簽,重復(fù)多次后得到一個(gè)"純屬偶然"的相似性分布。只有真實(shí)觀察到的相似性明顯超過這個(gè)隨機(jī)水平時(shí),才被認(rèn)為是有意義的對(duì)齊。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.