網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

EPFL研究揭示：神經(jīng)網(wǎng)絡(luò)表征相似性的理論理想與現(xiàn)實(shí)差異

2026-02-26 19:46:56　來(lái)源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

這項(xiàng)由瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)、巴塞爾大學(xué)和瑞士應(yīng)用科學(xué)大學(xué)聯(lián)合開展的研究發(fā)表于2025年的機(jī)器學(xué)習(xí)頂級(jí)會(huì)議，論文編號(hào)為arXiv:2602.14486v1。研究團(tuán)隊(duì)深入探討了一個(gè)在人工智能領(lǐng)域備受關(guān)注的問題：不同的神經(jīng)網(wǎng)絡(luò)是否真的在朝著相同的"理解"方向發(fā)展？

在人工智能的世界里，存在一個(gè)被稱為"柏拉圖表征假說(shuō)"的有趣理論。這個(gè)理論認(rèn)為，就像古希臘哲學(xué)家柏拉圖相信存在一個(gè)完美的理想世界一樣，所有的神經(jīng)網(wǎng)絡(luò)最終都會(huì)收斂到同一種對(duì)現(xiàn)實(shí)世界的"理想理解"。換句話說(shuō)，不管是處理圖像的視覺AI，還是理解文字的語(yǔ)言AI，它們?cè)谧兊迷絹?lái)越強(qiáng)大的過程中，內(nèi)部的"思維模式"會(huì)越來(lái)越相似。

這個(gè)假說(shuō)聽起來(lái)很有道理，畢竟它們都在學(xué)習(xí)同一個(gè)現(xiàn)實(shí)世界的規(guī)律。然而，EPFL的研究團(tuán)隊(duì)卻發(fā)現(xiàn)了一個(gè)令人意外的真相：之前支持這個(gè)假說(shuō)的證據(jù)中，很多都存在嚴(yán)重的測(cè)量偏差。這就像是用一把刻度不準(zhǔn)的尺子來(lái)測(cè)量物體長(zhǎng)度，得出的結(jié)論自然也是不可靠的。

研究團(tuán)隊(duì)的核心發(fā)現(xiàn)是，現(xiàn)有的相似性測(cè)量方法存在兩個(gè)關(guān)鍵問題。首先是"寬度混淆因子"——當(dāng)神經(jīng)網(wǎng)絡(luò)變得更寬（擁有更多神經(jīng)元）時(shí)，測(cè)量工具會(huì)錯(cuò)誤地認(rèn)為它們更相似，即使實(shí)際上它們并沒有真正的相似性。這就像是兩個(gè)人站得越遠(yuǎn)，在某種特殊鏡頭下看起來(lái)反而越像，這顯然是錯(cuò)覺。其次是"深度混淆因子"——當(dāng)比較更深的網(wǎng)絡(luò)（擁有更多層級(jí)）時(shí)，簡(jiǎn)單地取最高相似度分?jǐn)?shù)會(huì)人為地夸大相似性，因?yàn)檫x擇的范圍更大了。

為了解決這些問題，研究團(tuán)隊(duì)開發(fā)了一套"置換校準(zhǔn)框架"。這個(gè)框架的核心思想非常巧妙：通過隨機(jī)打亂數(shù)據(jù)的對(duì)應(yīng)關(guān)系來(lái)構(gòu)建一個(gè)"零假設(shè)"的基準(zhǔn)線，就像是在測(cè)試中加入對(duì)照組一樣。如果兩個(gè)網(wǎng)絡(luò)真的有相似性，那么這種相似性應(yīng)該明顯高于隨機(jī)情況下的相似性。

當(dāng)研究團(tuán)隊(duì)用這套校準(zhǔn)工具重新審視"柏拉圖表征假說(shuō)"時(shí)，發(fā)現(xiàn)了一個(gè)令人驚訝的結(jié)果：之前看起來(lái)強(qiáng)烈的全局相似性在校準(zhǔn)后幾乎消失了，但局部鄰域的相似性卻依然顯著存在。這意味著不同的神經(jīng)網(wǎng)絡(luò)雖然在整體的"世界觀"上并不趨同，但在判斷"誰(shuí)和誰(shuí)更相似"這種局部關(guān)系上卻表現(xiàn)出驚人的一致性。

基于這個(gè)發(fā)現(xiàn)，研究團(tuán)隊(duì)提出了"亞里士多德表征假說(shuō)"。與柏拉圖相信的完美理想世界不同，亞里士多德更注重現(xiàn)實(shí)世界中事物之間的具體關(guān)系。同樣地，這個(gè)新假說(shuō)認(rèn)為，神經(jīng)網(wǎng)絡(luò)的收斂并不是朝著某個(gè)統(tǒng)一的"完美表征"，而是在學(xué)習(xí)共同的局部鄰域關(guān)系——也就是說(shuō)，它們會(huì)逐漸在"什么東西彼此相似"這個(gè)問題上達(dá)成共識(shí)，但不會(huì)在絕對(duì)的距離測(cè)量上保持一致。

一、測(cè)量的陷阱：當(dāng)尺子本身有問題

在科學(xué)研究中，測(cè)量工具的準(zhǔn)確性往往決定了結(jié)論的可靠性。研究團(tuán)隊(duì)發(fā)現(xiàn)，用于衡量神經(jīng)網(wǎng)絡(luò)相似性的傳統(tǒng)工具存在系統(tǒng)性偏差，這些偏差嚴(yán)重扭曲了我們對(duì)網(wǎng)絡(luò)收斂性的理解。

第一個(gè)問題被稱為"寬度混淆因子"。當(dāng)神經(jīng)網(wǎng)絡(luò)的維度增加時(shí)（也就是每一層包含更多神經(jīng)元），現(xiàn)有的相似性測(cè)量方法會(huì)錯(cuò)誤地產(chǎn)生更高的基準(zhǔn)分?jǐn)?shù)，即使兩個(gè)網(wǎng)絡(luò)之間完全沒有真實(shí)的關(guān)聯(lián)。這種現(xiàn)象的數(shù)學(xué)根源在于高維空間中的虛假相關(guān)性。研究團(tuán)隊(duì)通過理論分析證明，對(duì)于常用的中心化核對(duì)齊(CKA)等指標(biāo)，其零假設(shè)基線會(huì)隨著維度與樣本數(shù)量的比值而系統(tǒng)性增長(zhǎng)。

具體來(lái)說(shuō)，假如你有兩個(gè)完全獨(dú)立的神經(jīng)網(wǎng)絡(luò)，理論上它們的相似性應(yīng)該接近零。但是當(dāng)這些網(wǎng)絡(luò)變得更寬時(shí)，傳統(tǒng)的測(cè)量方法會(huì)顯示出虛假的相似性。這就像是用一個(gè)有問題的溫度計(jì)測(cè)量?jī)蓚€(gè)房間的溫度：房間越大，溫度計(jì)顯示的溫度差異就越小，即使實(shí)際溫度完全不同。

第二個(gè)問題是"深度混淆因子"。當(dāng)比較具有多個(gè)層級(jí)的深度網(wǎng)絡(luò)時(shí)，研究人員通常會(huì)計(jì)算所有可能的層對(duì)層比較，然后選擇最高的相似性分?jǐn)?shù)作為最終結(jié)果。這種做法忽略了一個(gè)重要的統(tǒng)計(jì)學(xué)原理：從更多次測(cè)量中選擇最佳結(jié)果會(huì)系統(tǒng)性地夸大真實(shí)效應(yīng)。這就像是一個(gè)學(xué)生參加多次考試，然后只報(bào)告最高分?jǐn)?shù)——即使這個(gè)學(xué)生的真實(shí)水平一般，多次嘗試也可能產(chǎn)生一個(gè)看起來(lái)不錯(cuò)的最高分。

研究團(tuán)隊(duì)通過極值理論分析證明，即使在完全沒有真實(shí)相似性的情況下，最大相似性分?jǐn)?shù)的期望值也會(huì)隨著比較次數(shù)的對(duì)數(shù)增長(zhǎng)。對(duì)于深度為L(zhǎng)A和LB的兩個(gè)網(wǎng)絡(luò)，總共需要進(jìn)行LA×LB次比較，隨著網(wǎng)絡(luò)深度的增加，這種選擇偏差會(huì)變得越來(lái)越嚴(yán)重。

為了驗(yàn)證這些理論發(fā)現(xiàn)，研究團(tuán)隊(duì)進(jìn)行了大量的合成實(shí)驗(yàn)。他們生成了完全獨(dú)立的隨機(jī)表征，然后用不同的相似性指標(biāo)進(jìn)行測(cè)量。結(jié)果清楚地顯示，隨著維度比值和網(wǎng)絡(luò)深度的增加，所有傳統(tǒng)指標(biāo)都表現(xiàn)出系統(tǒng)性的虛假相似性增長(zhǎng)。更重要的是，這種偏差的程度足以解釋之前研究中觀察到的大部分"收斂"現(xiàn)象。

這些發(fā)現(xiàn)揭示了一個(gè)令人擔(dān)憂的真相：許多關(guān)于神經(jīng)網(wǎng)絡(luò)表征收斂的結(jié)論可能建立在測(cè)量偏差的基礎(chǔ)上。這就像是用一把刻度不準(zhǔn)的尺子來(lái)測(cè)量建筑物的高度，然后據(jù)此得出所有建筑物都越來(lái)越高的結(jié)論。實(shí)際上，可能只是尺子本身隨著被測(cè)量物體的大小而產(chǎn)生了系統(tǒng)性錯(cuò)誤。

二、校準(zhǔn)框架：還原測(cè)量的真實(shí)面貌

面對(duì)測(cè)量工具的系統(tǒng)性偏差，研究團(tuán)隊(duì)開發(fā)了一套創(chuàng)新的"置換校準(zhǔn)框架"。這個(gè)框架的核心理念是為每一個(gè)相似性測(cè)量建立一個(gè)可靠的零基準(zhǔn)線，從而將真正的相似性從測(cè)量偏差中分離出來(lái)。

這個(gè)框架的工作原理可以用一個(gè)簡(jiǎn)單的實(shí)驗(yàn)來(lái)理解。假設(shè)你想知道兩個(gè)班級(jí)的學(xué)生在某項(xiàng)技能上是否真的相似。傳統(tǒng)的方法可能直接比較兩個(gè)班級(jí)學(xué)生的平均表現(xiàn)。但是校準(zhǔn)框架會(huì)采用不同的方法：它會(huì)保持第一個(gè)班級(jí)的學(xué)生不變，但隨機(jī)重新分配第二個(gè)班級(jí)學(xué)生的標(biāo)簽，然后重復(fù)這個(gè)過程很多次。通過觀察這種隨機(jī)分配產(chǎn)生的"虛假相似性"分布，我們可以確定什么水平的相似性是純屬偶然的，什么水平的相似性是真正有意義的。

在技術(shù)實(shí)現(xiàn)上，校準(zhǔn)框架通過置換樣本對(duì)應(yīng)關(guān)系來(lái)構(gòu)建經(jīng)驗(yàn)零分布。具體來(lái)說(shuō)，對(duì)于兩個(gè)表征矩陣X和Y，框架會(huì)保持X不變，但隨機(jī)打亂Y的行順序，生成多個(gè)置換版本。然后在每個(gè)置換版本上計(jì)算相似性分?jǐn)?shù)，最終得到一個(gè)零假設(shè)下的分?jǐn)?shù)分布。真正觀察到的相似性分?jǐn)?shù)只有顯著超過這個(gè)零分布時(shí)，才被認(rèn)為是有意義的。

對(duì)于標(biāo)量相似性比較，校準(zhǔn)分?jǐn)?shù)的計(jì)算公式為：校準(zhǔn)分?jǐn)?shù) = max((觀察分?jǐn)?shù) - 臨界閾值)/(最大可能分?jǐn)?shù) - 臨界閾值), 0)。這個(gè)公式確保了校準(zhǔn)后的分?jǐn)?shù)在零假設(shè)成立時(shí)為零，而在存在真實(shí)相似性時(shí)保持有意義的數(shù)值。臨界閾值通過置換分布的高分位數(shù)確定，通常使用95%分位數(shù)以控制誤報(bào)率在5%以下。

對(duì)于涉及多層比較的聚合統(tǒng)計(jì)量，框架采用"聚合感知校準(zhǔn)"方法。這種方法的關(guān)鍵洞察是：必須校準(zhǔn)最終報(bào)告的統(tǒng)計(jì)量本身，而不是組成它的各個(gè)部分。換句話說(shuō)，如果我們最終要報(bào)告所有層對(duì)比較中的最大值，那么就應(yīng)該直接校準(zhǔn)這個(gè)最大值的分布，而不是分別校準(zhǔn)每個(gè)個(gè)體比較。

這種方法通過以下步驟實(shí)現(xiàn)：首先，對(duì)每個(gè)置換版本計(jì)算完整的層對(duì)層相似性矩陣；然后，對(duì)每個(gè)矩陣應(yīng)用相同的聚合操作（如取最大值）；最后，用這些聚合后的置換分?jǐn)?shù)構(gòu)建零分布，并據(jù)此校準(zhǔn)觀察到的聚合分?jǐn)?shù)。這樣就確保了選擇偏差被正確地納入了校準(zhǔn)過程。

校準(zhǔn)框架具有幾個(gè)重要的理論保證。首先，它提供有限樣本的統(tǒng)計(jì)有效性：在零假設(shè)成立時(shí)，校準(zhǔn)后的p值是超均勻分布的，這意味著誤報(bào)率得到了嚴(yán)格控制。其次，框架是度量無(wú)關(guān)的：它可以應(yīng)用于任何有界的相似性指標(biāo)，而不需要針對(duì)特定指標(biāo)的理論推導(dǎo)。最后，它保持了單調(diào)不變性：相似性分?jǐn)?shù)的單調(diào)變換不會(huì)影響基于排序的校準(zhǔn)結(jié)果。

為了驗(yàn)證校準(zhǔn)框架的有效性，研究團(tuán)隊(duì)進(jìn)行了廣泛的實(shí)驗(yàn)驗(yàn)證。在合成數(shù)據(jù)上，校準(zhǔn)框架成功地將各種條件下的零假設(shè)分?jǐn)?shù)歸一化為零，同時(shí)保持了對(duì)真實(shí)信號(hào)的敏感性。在真實(shí)神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)上，校準(zhǔn)框架的結(jié)果與現(xiàn)有的分析偏差校正方法高度一致，但具有更廣的適用性和更強(qiáng)的理論保障。

特別值得注意的是，研究團(tuán)隊(duì)發(fā)現(xiàn)校準(zhǔn)框架不僅解決了偏差問題，還為相似性分?jǐn)?shù)提供了更好的可解釋性。校準(zhǔn)后的分?jǐn)?shù)可以直接解釋為"超出偶然水平的相似性程度"，這使得不同研究之間的結(jié)果比較變得更加有意義。

三、重新審視柏拉圖假說(shuō)：全局收斂的破滅

當(dāng)研究團(tuán)隊(duì)用校準(zhǔn)框架重新審視著名的"柏拉圖表征假說(shuō)"時(shí)，發(fā)現(xiàn)了一個(gè)顛覆性的結(jié)果：之前被廣泛接受的跨模態(tài)表征收斂現(xiàn)象，很大程度上是測(cè)量偏差的產(chǎn)物。

柏拉圖表征假說(shuō)最初基于這樣的觀察：隨著模型規(guī)模的增加，不同類型的神經(jīng)網(wǎng)絡(luò)（如處理圖像的視覺模型和處理文本的語(yǔ)言模型）在表征相似性上表現(xiàn)出明顯的增長(zhǎng)趨勢(shì)。使用傳統(tǒng)的相似性指標(biāo)，研究者發(fā)現(xiàn)更大更強(qiáng)的模型之間顯示出更高的相似性分?jǐn)?shù)，這似乎支持了所有模型都在朝著某種"理想表征"收斂的觀點(diǎn)。

然而，當(dāng)應(yīng)用校準(zhǔn)框架后，這種表面的收斂現(xiàn)象發(fā)生了戲劇性的變化。對(duì)于全局譜分析指標(biāo)（如中心化核對(duì)齊CKA），原本隨模型容量增長(zhǎng)的相似性曲線在校準(zhǔn)后變得平坦，甚至略有下降。這意味著之前觀察到的"收斂"主要源于測(cè)量偏差，而非真實(shí)的表征對(duì)齊。

研究團(tuán)隊(duì)使用了包含204個(gè)視覺-語(yǔ)言模型對(duì)的大規(guī)模數(shù)據(jù)集進(jìn)行驗(yàn)證。這些模型對(duì)涵蓋了三個(gè)語(yǔ)言模型家族（BLOOM、OpenLLaMA、LLaMA）和五個(gè)視覺模型家族（ImageNet-21K、MAE、DINOv2、CLIP、CLIP微調(diào)版本），跨越多個(gè)規(guī)模級(jí)別。實(shí)驗(yàn)使用1024個(gè)圖像-文本對(duì)，維度與樣本數(shù)量比值范圍為0.75到8，充分覆蓋了柏拉圖假說(shuō)的關(guān)鍵測(cè)試范圍。

在傳統(tǒng)測(cè)量下，線性CKA和RBF核CKA都顯示出清晰的上升趨勢(shì)，似乎證實(shí)了隨著模型能力提升，跨模態(tài)對(duì)齊確實(shí)在增強(qiáng)。但校準(zhǔn)后的結(jié)果截然不同：這些全局指標(biāo)的校準(zhǔn)分?jǐn)?shù)不再表現(xiàn)出系統(tǒng)性增長(zhǎng)，反而在很多情況下保持相對(duì)穩(wěn)定或輕微下降。

這一發(fā)現(xiàn)的含義是深遠(yuǎn)的。它表明神經(jīng)網(wǎng)絡(luò)并不像柏拉圖理論預(yù)測(cè)的那樣朝著統(tǒng)一的"理想表征"收斂。不同的訓(xùn)練目標(biāo)、架構(gòu)選擇和數(shù)據(jù)分布會(huì)產(chǎn)生本質(zhì)上不同的全局表征結(jié)構(gòu)，即使這些模型在任務(wù)性能上都很出色。

更細(xì)致的分析揭示了這種現(xiàn)象的機(jī)制。全局相似性指標(biāo)主要捕捉表征空間的整體幾何結(jié)構(gòu)，包括主成分方向、方差分布和全局聚類模式。這些特征高度依賴于模型的具體實(shí)現(xiàn)細(xì)節(jié)：激活函數(shù)的選擇、歸一化策略、優(yōu)化算法等。即使兩個(gè)模型學(xué)到了相同的任務(wù)相關(guān)知識(shí)，它們的全局表征結(jié)構(gòu)仍可能大相徑庭。

研究團(tuán)隊(duì)還驗(yàn)證了這一結(jié)論在其他模態(tài)對(duì)上的普遍性。在視頻-語(yǔ)言對(duì)齊實(shí)驗(yàn)中，使用VideoMAE、DINOv2和CLIP模型與同樣的語(yǔ)言模型進(jìn)行比較，結(jié)果完全一致：校準(zhǔn)后的全局相似性指標(biāo)失去了隨規(guī)模增長(zhǎng)的趨勢(shì)。這進(jìn)一步證實(shí)了全局收斂更多是測(cè)量偏差的產(chǎn)物，而非跨模態(tài)學(xué)習(xí)的本質(zhì)特征。

有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)不同全局指標(biāo)在校準(zhǔn)后的表現(xiàn)并不完全相同。雖然所有指標(biāo)都失去了明顯的增長(zhǎng)趨勢(shì)，但它們?cè)诮^對(duì)水平上仍有差異。這反映了不同指標(biāo)對(duì)表征結(jié)構(gòu)的不同敏感性，也提醒研究者在選擇評(píng)估指標(biāo)時(shí)需要考慮其局限性。

這一發(fā)現(xiàn)對(duì)整個(gè)表征學(xué)習(xí)領(lǐng)域具有重要啟示。它表明我們需要重新思考什么是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的"普遍規(guī)律"。如果全局表征結(jié)構(gòu)并不收斂，那么模型之間的共同點(diǎn)可能存在于更細(xì)粒度的層面上。

四、局部對(duì)齊的發(fā)現(xiàn)：亞里士多德的智慧

雖然全局收斂的證據(jù)在校準(zhǔn)后大幅減弱，但研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)更加有趣的現(xiàn)象：局部鄰域關(guān)系在不同模型間表現(xiàn)出顯著且穩(wěn)定的對(duì)齊。這一發(fā)現(xiàn)催生了"亞里士多德表征假說(shuō)"。

與全局指標(biāo)的戲劇性變化形成鮮明對(duì)比，基于鄰域的局部相似性指標(biāo)在校準(zhǔn)后依然保持了強(qiáng)勁的跨模態(tài)對(duì)齊信號(hào)。互鄰近鄰(mKNN)、循環(huán)k近鄰(cycle-kNN)和CKNNA等指標(biāo)都顯示出清晰的隨模型能力增長(zhǎng)的趨勢(shì)，且這種趨勢(shì)在校準(zhǔn)后得到了保持。

為了深入理解這種局部對(duì)齊的本質(zhì)，研究團(tuán)隊(duì)設(shè)計(jì)了精細(xì)的參數(shù)化分析。他們系統(tǒng)地變化了鄰域大小k（從10到100）和RBF核帶寬σ（從0.1到5.0），以探索對(duì)齊在不同空間尺度上的表現(xiàn)。結(jié)果揭示了一個(gè)關(guān)鍵區(qū)別：模型在鄰域身份上達(dá)成一致，但在精確距離上并不一致。

具體來(lái)說(shuō)，當(dāng)使用較小的鄰域大小（k=10）時(shí)，mKNN指標(biāo)顯示出最強(qiáng)的跨模態(tài)對(duì)齊和最清晰的規(guī)模化趨勢(shì)。隨著k增加到50、100，雖然對(duì)齊依然顯著，但規(guī)模化改進(jìn)的趨勢(shì)逐漸平緩。這表明模型間的一致性主要體現(xiàn)在最近鄰的識(shí)別上，而在更大范圍的鄰域結(jié)構(gòu)上則相對(duì)有限。

RBF核帶寬的分析進(jìn)一步證實(shí)了這一觀點(diǎn)。當(dāng)帶寬很小（σ=0.1）時(shí)，CKA-RBF主要感知非常局部的距離差異，此時(shí)校準(zhǔn)后的相似性幾乎消失，p值普遍超過0.05。但當(dāng)帶寬適中（σ=0.5-2.0）時(shí)，指標(biāo)開始捕捉到有意義的對(duì)齊信號(hào)，雖然規(guī)模化趨勢(shì)在校準(zhǔn)后有所平緩。

這些發(fā)現(xiàn)揭示了一個(gè)重要的概念區(qū)分：拓?fù)鋵?duì)齊與度量對(duì)齊。拓?fù)鋵?duì)齊關(guān)注的是"誰(shuí)與誰(shuí)相近"的序關(guān)系，而度量對(duì)齊關(guān)注的是"有多相近"的具體數(shù)值。實(shí)驗(yàn)結(jié)果表明，不同訓(xùn)練目標(biāo)和架構(gòu)的神經(jīng)網(wǎng)絡(luò)在拓?fù)浣Y(jié)構(gòu)上趨于一致，但在度量結(jié)構(gòu)上保持差異。

這種現(xiàn)象有深刻的認(rèn)知科學(xué)和機(jī)器學(xué)習(xí)理論基礎(chǔ)。在人類認(rèn)知中，相似性判斷往往基于相對(duì)比較而非絕對(duì)度量。我們能夠一致地認(rèn)為蘋果比香蕉更像橙子，但很難準(zhǔn)確量化這種相似性的具體程度。類似地，神經(jīng)網(wǎng)絡(luò)似乎在學(xué)習(xí)數(shù)據(jù)的相對(duì)相似性結(jié)構(gòu)，而這種結(jié)構(gòu)對(duì)于完成下游任務(wù)來(lái)說(shuō)可能比絕對(duì)距離更為關(guān)鍵。

從表征學(xué)習(xí)的角度來(lái)看，這一發(fā)現(xiàn)也有重要意義。它表明有效的表征學(xué)習(xí)可能不需要在所有細(xì)節(jié)上完全一致，只要在關(guān)鍵的相對(duì)關(guān)系上保持對(duì)齊即可。這種"關(guān)系對(duì)齊"可能是遷移學(xué)習(xí)和跨模態(tài)學(xué)習(xí)成功的關(guān)鍵機(jī)制。

研究團(tuán)隊(duì)進(jìn)一步驗(yàn)證了這一假說(shuō)在不同數(shù)據(jù)集和模型架構(gòu)上的普遍性。無(wú)論是圖像-文本對(duì)、視頻-文本對(duì)，還是不同的預(yù)訓(xùn)練策略（自監(jiān)督vs監(jiān)督），局部鄰域?qū)R都表現(xiàn)出一致的模式。這表明亞里士多德表征假說(shuō)捕捉了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的一個(gè)基本特征。

有趣的是，研究團(tuán)隊(duì)還發(fā)現(xiàn)了模型規(guī)模與局部對(duì)齊質(zhì)量之間的非線性關(guān)系。在某些情況下，中等規(guī)模的模型反而表現(xiàn)出更好的跨模態(tài)對(duì)齊，這可能與過參數(shù)化和泛化性能的復(fù)雜關(guān)系有關(guān)。這一觀察為模型選擇和架構(gòu)設(shè)計(jì)提供了新的視角。

五、方法論創(chuàng)新：從工具到洞察

這項(xiàng)研究的方法論貢獻(xiàn)遠(yuǎn)不止于發(fā)現(xiàn)測(cè)量偏差。研究團(tuán)隊(duì)開發(fā)的校準(zhǔn)框架代表了表征分析領(lǐng)域的一個(gè)重要方法論進(jìn)步，為未來(lái)的研究提供了更可靠的工具和更嚴(yán)謹(jǐn)?shù)姆治龇妒健?/p>

校準(zhǔn)框架的理論基礎(chǔ)建立在置換檢驗(yàn)和隨機(jī)化推斷的堅(jiān)實(shí)數(shù)學(xué)基礎(chǔ)上。與傳統(tǒng)的參數(shù)統(tǒng)計(jì)方法不同，置換檢驗(yàn)不需要對(duì)數(shù)據(jù)分布做強(qiáng)假設(shè)，只要求樣本在零假設(shè)下是可交換的。這種非參數(shù)特性使得框架能夠適用于各種復(fù)雜的神經(jīng)網(wǎng)絡(luò)表征，而不受特定架構(gòu)或訓(xùn)練程序的限制。

框架的核心創(chuàng)新在于將聚合感知校準(zhǔn)引入表征相似性分析。傳統(tǒng)的多重比較校正方法，如Bonferroni或Benjamini-Hochberg程序，主要關(guān)注控制個(gè)體比較的誤報(bào)率，但忽略了選擇偏差對(duì)最終統(tǒng)計(jì)量的影響。聚合感知校準(zhǔn)直接針對(duì)研究者實(shí)際報(bào)告的統(tǒng)計(jì)量（如最大相似性分?jǐn)?shù)）進(jìn)行校準(zhǔn)，從而提供了對(duì)選擇偏差的直接控制。

從計(jì)算效率角度來(lái)看，校準(zhǔn)框架雖然增加了計(jì)算成本，但這種成本是可控和可并行化的。對(duì)于標(biāo)量比較，框架只需要額外進(jìn)行K次置換計(jì)算，其中K通常在200-500之間。對(duì)于聚合比較，成本增加到K×LA×LB次計(jì)算，但這些計(jì)算完全獨(dú)立，可以高效并行化。考慮到現(xiàn)代深度學(xué)習(xí)的計(jì)算資源，這種額外成本是完全可以接受的。

框架還提供了多種輸出形式以滿足不同需求。除了校準(zhǔn)分?jǐn)?shù)外，框架還計(jì)算置換p值、效應(yīng)大小和置信區(qū)間，為研究者提供了豐富的統(tǒng)計(jì)信息。特別是置換p值具有有限樣本有效性，這意味著即使在樣本量有限的情況下，統(tǒng)計(jì)推斷仍然是可靠的。

研究團(tuán)隊(duì)特別強(qiáng)調(diào)了校準(zhǔn)框架的普適性。它不依賴于特定的相似性度量或神經(jīng)網(wǎng)絡(luò)架構(gòu)，可以應(yīng)用于任何產(chǎn)生數(shù)值相似性分?jǐn)?shù)的分析流程。這種度量無(wú)關(guān)性使得框架能夠?yàn)檎麄€(gè)表征學(xué)習(xí)社區(qū)提供標(biāo)準(zhǔn)化的分析工具，促進(jìn)不同研究之間的可比性和可重復(fù)性。

在實(shí)際應(yīng)用中，框架還展現(xiàn)出了良好的魯棒性。研究團(tuán)隊(duì)測(cè)試了不同的噪聲分布（高斯、學(xué)生t、拉普拉斯等）、不同的置換策略和不同的顯著性水平，發(fā)現(xiàn)框架在各種條件下都保持了穩(wěn)定的性能。這種魯棒性對(duì)于處理真實(shí)世界數(shù)據(jù)的復(fù)雜性是至關(guān)重要的。

校準(zhǔn)框架的引入也推動(dòng)了表征分析領(lǐng)域方法論標(biāo)準(zhǔn)的提升。它明確了什么構(gòu)成有效的零假設(shè)、如何正確處理多重比較、以及如何解釋相似性分?jǐn)?shù)等基本問題。這些方法論上的澄清對(duì)于建立更嚴(yán)謹(jǐn)?shù)难芯繕?biāo)準(zhǔn)具有重要價(jià)值。

此外，研究團(tuán)隊(duì)還提供了完整的開源實(shí)現(xiàn)和詳細(xì)的使用指南，確保其他研究者能夠輕松采用這些方法。這種開放科學(xué)的實(shí)踐有助于方法的廣泛傳播和持續(xù)改進(jìn)。

六、實(shí)驗(yàn)驗(yàn)證：從理論到實(shí)踐

為了全面驗(yàn)證校準(zhǔn)框架的有效性和亞里士多德表征假說(shuō)的正確性，研究團(tuán)隊(duì)設(shè)計(jì)了一系列層次遞進(jìn)的實(shí)驗(yàn)，從合成數(shù)據(jù)的控制實(shí)驗(yàn)到大規(guī)模真實(shí)模型的對(duì)比分析。

在合成數(shù)據(jù)實(shí)驗(yàn)中，研究團(tuán)隊(duì)構(gòu)建了精確可控的實(shí)驗(yàn)環(huán)境。他們生成了完全獨(dú)立的高斯隨機(jī)矩陣作為"表征"，其中任何觀察到的相似性都應(yīng)該純屬偶然。通過系統(tǒng)地變化樣本數(shù)量n（從128到4096）和維度d（從128到2048），團(tuán)隊(duì)繪制了傳統(tǒng)相似性指標(biāo)在零假設(shè)條件下的行為圖譜。結(jié)果清楚地顯示，所有傳統(tǒng)指標(biāo)都表現(xiàn)出隨d/n比值增長(zhǎng)的系統(tǒng)性偏差，完全驗(yàn)證了理論分析的預(yù)測(cè)。

更重要的是，校準(zhǔn)框架在所有測(cè)試條件下都成功地將這些虛假相似性歸一化為零，展現(xiàn)了出色的偏差消除能力。即使在最極端的高維低樣本情況下（d/n > 2），校準(zhǔn)后的分?jǐn)?shù)仍然穩(wěn)定地保持在零附近，證明了框架的穩(wěn)健性。

在信號(hào)檢測(cè)能力的測(cè)試中，研究團(tuán)隊(duì)在隨機(jī)數(shù)據(jù)中注入了不同強(qiáng)度的共享信號(hào)。實(shí)驗(yàn)使用低秩矩陣分解的方式創(chuàng)建真實(shí)的相似性結(jié)構(gòu)，然后在其中添加不同水平的噪聲。結(jié)果表明，校準(zhǔn)框架不僅消除了虛假信號(hào)，還保持了對(duì)真實(shí)信號(hào)的高度敏感性。在信噪比合理的情況下，校準(zhǔn)后的檢測(cè)功效甚至超過了傳統(tǒng)方法，因?yàn)樗嗽肼暤母蓴_。

真實(shí)神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)規(guī)模更加龐大。研究團(tuán)隊(duì)收集了跨越五個(gè)主要模型家族、涵蓋多個(gè)規(guī)模級(jí)別的預(yù)訓(xùn)練模型，總計(jì)204個(gè)模型對(duì)的比較。這些模型包括了當(dāng)前最先進(jìn)的視覺和語(yǔ)言理解系統(tǒng)，如CLIP、DINOv2、BLOOM、LLaMA等，確保了實(shí)驗(yàn)結(jié)果的代表性和現(xiàn)實(shí)意義。

實(shí)驗(yàn)數(shù)據(jù)來(lái)自WIT數(shù)據(jù)集的1024個(gè)圖像-文本對(duì)，這個(gè)規(guī)模既足夠捕捉模型行為的主要特征，又允許高效的重復(fù)實(shí)驗(yàn)。研究團(tuán)隊(duì)特別選擇了使d/n比值覆蓋0.75到8的范圍，這正好對(duì)應(yīng)了柏拉圖假說(shuō)最關(guān)鍵的測(cè)試區(qū)域。

跨模態(tài)對(duì)齊的結(jié)果在校準(zhǔn)前后展現(xiàn)了截然不同的模式。未校準(zhǔn)的全局相似性指標(biāo)（如線性CKA、RBF-CKA）顯示出明顯的隨模型規(guī)模增長(zhǎng)的趨勢(shì)，這與柏拉圖假說(shuō)的預(yù)測(cè)完全一致。然而，校準(zhǔn)后這些趨勢(shì)大多消失，取而代之的是相對(duì)平坦的曲線，表明之前觀察到的"收斂"主要是測(cè)量人工制品。

相比之下，局部相似性指標(biāo)（mKNN、cycle-kNN、CKNNA）在校準(zhǔn)后依然保持了顯著的對(duì)齊信號(hào)和規(guī)模化趨勢(shì)。這種對(duì)比清楚地支持了亞里士多德表征假說(shuō)：神經(jīng)網(wǎng)絡(luò)確實(shí)在某些方面趨向一致，但這種一致性體現(xiàn)在局部鄰域關(guān)系而非全局幾何結(jié)構(gòu)上。

為了確保結(jié)果的普遍性，研究團(tuán)隊(duì)還進(jìn)行了跨數(shù)據(jù)集和跨模態(tài)的驗(yàn)證。他們將分析擴(kuò)展到視頻-語(yǔ)言對(duì)齊，使用VideoMAE等視頻理解模型與語(yǔ)言模型進(jìn)行比較。結(jié)果完全一致：全局指標(biāo)在校準(zhǔn)后失去增長(zhǎng)趨勢(shì)，而局部指標(biāo)保持對(duì)齊。這進(jìn)一步證實(shí)了發(fā)現(xiàn)的普遍性。

研究團(tuán)隊(duì)還進(jìn)行了敏感性分析，測(cè)試了不同顯著性水平（α = 0.01, 0.05, 0.10）和不同置換次數(shù)（K = 100, 200, 500）對(duì)結(jié)果的影響。在所有測(cè)試條件下，主要結(jié)論都保持穩(wěn)定，證明了發(fā)現(xiàn)的魯棒性。

七、理論洞察：重新定義收斂

這項(xiàng)研究不僅在方法論上取得了突破，更重要的是在理論層面為我們理解神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)提供了新的視角。亞里士多德表征假說(shuō)的提出，標(biāo)志著從追求"完美統(tǒng)一"到認(rèn)識(shí)"關(guān)系一致"的范式轉(zhuǎn)變。

從認(rèn)知科學(xué)角度來(lái)看，這一發(fā)現(xiàn)與人類概念學(xué)習(xí)的理論高度契合。人類在學(xué)習(xí)概念時(shí)，往往更關(guān)注對(duì)象間的相對(duì)關(guān)系而非絕對(duì)特征。例如，不同文化背景的人可能對(duì)顏色的絕對(duì)感知有所差異，但在識(shí)別"哪兩種顏色更相似"這個(gè)問題上卻表現(xiàn)出驚人的一致性。亞里士多德表征假說(shuō)表明，神經(jīng)網(wǎng)絡(luò)可能以類似的方式學(xué)習(xí)世界的結(jié)構(gòu)：通過掌握相對(duì)關(guān)系而非絕對(duì)量度。

這種關(guān)系學(xué)習(xí)的優(yōu)勢(shì)在于其泛化能力和遷移潛力。如果兩個(gè)模型在局部鄰域關(guān)系上保持一致，那么它們更容易在新任務(wù)或新領(lǐng)域上實(shí)現(xiàn)知識(shí)遷移。這為解釋為什么預(yù)訓(xùn)練模型能夠在各種下游任務(wù)上表現(xiàn)出色提供了新的理論基礎(chǔ)：關(guān)鍵不在于模型學(xué)到了完全相同的表征，而在于它們掌握了相似的關(guān)系結(jié)構(gòu)。

從機(jī)器學(xué)習(xí)理論的角度，這一發(fā)現(xiàn)也有深刻含義。它表明有效的表征學(xué)習(xí)可能存在多條路徑：不同的訓(xùn)練程序、架構(gòu)設(shè)計(jì)和優(yōu)化策略可能導(dǎo)致全局結(jié)構(gòu)迥異的表征空間，但這些空間在局部拓?fù)渖峡赡芨叨认嗨啤＿@種"殊途同歸"的現(xiàn)象為理解深度學(xué)習(xí)的歸納偏置提供了新線索。

研究還揭示了表征學(xué)習(xí)中的一個(gè)重要權(quán)衡：全局一致性vs局部一致性。傳統(tǒng)觀點(diǎn)傾向于認(rèn)為更強(qiáng)的模型應(yīng)該在所有層面上都更加一致，但實(shí)際情況可能更加復(fù)雜。過度的全局一致性可能導(dǎo)致模型失去多樣性，從而限制其在不同任務(wù)上的適應(yīng)性。相反，保持全局多樣性而在局部關(guān)系上趨同，可能是一種更加有效的學(xué)習(xí)策略。

這一理論洞察對(duì)模型設(shè)計(jì)和訓(xùn)練策略具有重要指導(dǎo)意義。它提示我們?cè)谠O(shè)計(jì)損失函數(shù)和正則化策略時(shí)，應(yīng)該更多關(guān)注相對(duì)關(guān)系的保持而非絕對(duì)表征的匹配。例如，對(duì)比學(xué)習(xí)的成功可能正是因?yàn)樗苯觾?yōu)化了樣本間的相對(duì)關(guān)系，而不是絕對(duì)表征值。

從哲學(xué)層面來(lái)看，亞里士多德表征假說(shuō)也體現(xiàn)了對(duì)學(xué)習(xí)本質(zhì)的深刻思考。它表明真正的"理解"可能不需要對(duì)世界有完全一致的內(nèi)部描述，只要在關(guān)鍵關(guān)系的識(shí)別上保持一致即可。這種觀點(diǎn)與亞里士多德的關(guān)系哲學(xué)高度吻合：現(xiàn)實(shí)世界的本質(zhì)在于事物間的關(guān)系和相互作用，而非事物的絕對(duì)屬性。

這一理論框架還為解釋人工智能系統(tǒng)的對(duì)齊問題提供了新視角。如果不同的AI系統(tǒng)在處理同樣問題時(shí)能夠在關(guān)鍵關(guān)系判斷上保持一致，那么即使它們的內(nèi)部工作機(jī)制不同，也可能實(shí)現(xiàn)有效的協(xié)作和互操作。這對(duì)于構(gòu)建多智能體系統(tǒng)和實(shí)現(xiàn)AI安全具有重要啟示。

未來(lái)的研究可以在這個(gè)理論框架基礎(chǔ)上探索更多問題：什么因素決定了哪些關(guān)系會(huì)被一致學(xué)習(xí)？如何主動(dòng)引導(dǎo)模型學(xué)習(xí)特定的關(guān)系結(jié)構(gòu)？不同類型的關(guān)系（空間、時(shí)間、語(yǔ)義等）在學(xué)習(xí)中的重要性如何排序？這些問題的答案將進(jìn)一步豐富我們對(duì)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)機(jī)制的理解。

說(shuō)到底，這項(xiàng)研究讓我們重新審視了什么是"智能的收斂"。也許真正的智能不在于擁有完全相同的世界模型，而在于能夠識(shí)別相同的關(guān)系模式。就像不同的人可能用不同的方式描述同一個(gè)故事，但在故事的核心關(guān)系上達(dá)成共識(shí)一樣，不同的神經(jīng)網(wǎng)絡(luò)也許正是通過這種"關(guān)系共識(shí)"而非"表征統(tǒng)一"來(lái)實(shí)現(xiàn)真正的智能對(duì)齊。這種認(rèn)識(shí)不僅改變了我們對(duì)機(jī)器學(xué)習(xí)的理解，也為未來(lái)構(gòu)建更加多樣化yet一致的AI系統(tǒng)指明了方向。

Q&A

Q1：什么是柏拉圖表征假說(shuō)和亞里士多德表征假說(shuō)？

A：柏拉圖表征假說(shuō)認(rèn)為不同的神經(jīng)網(wǎng)絡(luò)會(huì)收斂到同一種對(duì)現(xiàn)實(shí)世界的"理想理解"，就像所有AI最終會(huì)形成相同的世界模型。而亞里士多德表征假說(shuō)則認(rèn)為，神經(jīng)網(wǎng)絡(luò)只會(huì)在局部鄰域關(guān)系上達(dá)成一致，也就是在判斷"什么東西彼此相似"這種關(guān)系問題上保持共識(shí)，但不會(huì)在整體結(jié)構(gòu)上完全統(tǒng)一。

Q2：為什么之前的研究結(jié)論是錯(cuò)誤的？

A：主要原因是測(cè)量工具存在系統(tǒng)性偏差。當(dāng)神經(jīng)網(wǎng)絡(luò)變得更寬（更多神經(jīng)元）時(shí)，傳統(tǒng)指標(biāo)會(huì)錯(cuò)誤顯示更高相似性；當(dāng)網(wǎng)絡(luò)更深時(shí)，簡(jiǎn)單取最高分會(huì)夸大真實(shí)相似性。這就像用有問題的尺子測(cè)量，隨著被測(cè)物體增大，尺子本身的誤差也增大，導(dǎo)致錯(cuò)誤結(jié)論。

Q3：置換校準(zhǔn)框架是如何工作的？

A：這個(gè)框架通過隨機(jī)打亂數(shù)據(jù)對(duì)應(yīng)關(guān)系來(lái)建立"零基準(zhǔn)線"。具體是保持第一個(gè)網(wǎng)絡(luò)不變，隨機(jī)重排第二個(gè)網(wǎng)絡(luò)的數(shù)據(jù)標(biāo)簽，重復(fù)多次后得到一個(gè)"純屬偶然"的相似性分布。只有真實(shí)觀察到的相似性明顯超過這個(gè)隨機(jī)水平時(shí)，才被認(rèn)為是有意義的對(duì)齊。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.