![]()
新智元報道
編輯:傾傾
【新智元導讀】學霸的謊言被揭穿!一篇來自Adobe Research的論文發現,高語義理解并不會提升生成質量,反而可能破壞空間結構。用iREPA簡單修改,削弱全局干擾,生成質量立即飆升 。
我們經常會疑惑:為什么視覺模型越高級,生成效果反而越差?
最近,Adobe Research發了一篇論文,專門解釋了這個看起來有點反常、但反復出現的現象。
![]()
論文地址:https://arxiv.org/pdf/2512.10794
按直覺,模型要先知道「這是什么」,才能把它畫出來。
ImageNet上的分類準確率越高,說明模型的語義理解越強,生成的內容越穩定、越靠譜。
但這篇論文給出的結果,完全相反:
一些在識別任務中表現平平、甚至看起來「很不聰明」的視覺編碼器,反而能生成出結構更清晰、質量更高的圖像。
全局語義能力越強,生成反而越容易出問題。
很可能我們從一開始,就誤會了生成模型真正擅長的是什么。
![]()
為什么視覺模型越「聰明」,生成的反而越差?
先看一個已經被反復驗證的事實:一個模型在ImageNet上的線性探測準確率越高,并不意味著它更適合用來做生成。
最直觀的例子是SAM2。這是一個在識別任務里不出彩的模型,驗證準確率只有24.1%,遠低于主流視覺大模型。
但當這些編碼器被用于REPA時,SAM2的生成質量反而優于一批準確率高出約60%的模型。
![]()
SAM2的ImageNet驗證準確率僅為24.1%,但在REPA框架下的生成gFID明顯優于多種準確率超過70%的視覺編碼器。
這還不是某一個模型的偶然表現。
論文進一步比較了同一編碼器家族中不同規模的模型,結果發現:模型越大、分類準確率越高,生成質量反而可能相似或更差。
![]()
隨著模型規模和分類準確率提升,生成gFID反而整體變差,表明這一現象并非由個別模型導致。
顯然,「高語義能力=好生成」這條默認路徑,在大量實驗中并不成立 。
更關鍵的是,這種現象并不是噪聲。
在跨模型、跨設置的系統性分析中,全局語義指標與生成質量之間的相關性始終非常弱。
![]()
分類能力與生成質量幾乎無關,空間結構卻高度相關。左:線性探測準確率與生成 gFID 的相關性極弱(Pearson r=-0.26)。中:空間結構指標(LDS)與生成質量呈現出顯著強相關(Pearson r=-0.85)。右:基于空間結構改進的iREPA,在多種編碼器上穩定優于REPA。
論文進一步對多種視覺編碼器做了相關性分析,結果非常明確:
線性探測準確率與生成質量之間幾乎不存在相關性。
相比之下,反映patch空間結構的指標,與生成質量呈現出極強的正相關關系。
如果不是「懂得多」,那生成模型到底依賴的是什么?
反復確認會壓扁空間結構
在理解了「高語義≠好生成」之后,真正的問題變成了:
為什么模型越是反復確認,生成反而越容易出問題?
關鍵就是,全局語義會在生成過程中壓扁空間結構。
在生成任務中,模型并不是一次性輸出圖像,而是在訓練和采樣過程中,不斷對局部patch之間的關系做判斷。
論文將這種能力概括為「空間結構」:即相鄰patch之間應保持更高相似性,而遠處patch不應被全局語義過早拉近。
但當模型過度追求全局語義一致性,比如通過CLS token ,或對所有patch做全局平均來強化「這是什么」,這些局部差異就會被系統性地削弱。
這種做法會導致一個直接后果:前景物體的patch,與本應無關的背景patch之間,出現異常高的相似性。
空間對比度下降,邊界變得模糊,生成結果因此糊成一片。
![]()
PE-G和WebSSL-1B在ImageNet上具有更高的分類準確率,但它們的空間自相似性顯示,前景與背景被過度拉近,邊界模糊。相比之下,空間結構更清晰的SpatialPE-B,生成質量顯著更好。
研究員向模型中逐步加入全局語義信息,觀察分類能力和生成質量的變化。
結果如下圖所示:
![]()
增強全局語義信息會損害生成質量
隨著全局信息權重α從0增加到0.5,模型的線性探測準確率持續上升。
但生成質量卻顯著下降,FID明顯惡化。
也就是說,「更懂這是什么」確實在發生;但與此同時,模型也失去生成所依賴的空間結構。
這并不是優化不充分的副作用,而是因為全局語義在生成階段扮演了一個「過強約束」的角色。
它讓模型更快達成結論,卻也更早放棄了對局部結構的精細刻畫。
既然語義會干擾生成,iREPA選擇退后一步
如果說前面的實驗回答了「問題出在哪」,那 iREPA 回答的就是另一個問題:
既然全局語義會干擾生成,那該怎么對齊表示,才不會把結構壓扁?
iREPA給出了答案。它對原本的REPA訓練流程做了兩處非常簡單的修改,總共不到四行代碼 。
第一處,是投影方式的改變。
在標準REPA中,patch表征通常會經過MLP投影層進行對齊。
但論文指出,MLP在這一過程中容易混合不同位置的信息,無意中削弱了空間對比度 。
因此,iREPA用一個3×3的卷積層(padding=1)替換了MLP投影。
卷積的歸納偏置能保留局部鄰域關系:相鄰patch的相互影響被保留,遠處區域則不會被過早混在一起 。
第二處修改,直接針對全局語義。
iREPA在對齊過程中引入了一個空間歸一化層,移除了patch特征中的全局均值分量 ,讓模型專注于局部之間的差異與邊界。
![]()
iREPA如何通過兩處修改,恢復生成所需的空間結構。 (a) 使用卷積投影替代MLP,可更好地保留局部空間關系。 (b) 空間歸一化層通過移除全局分量,提高patch之間的空間對比度。 (c) 經過這兩步修改后,iREPA生成的diffusion特征呈現出更清晰的空間結構。
正是這兩點改動,讓iREPA在機制上與前一節的問題形成了嚴格對應:
全局語義太強會抹平結構,那就在對齊階段削弱全局分量、強化空間關系 。
結果也在意料之中。
無論是在ImageNet規模的生成任務,還是更高分辨率的設置,亦或是文本到圖像的多模態生成任務中,iREPA都表現出更快的收斂速度和更好的最終生成質量。
更重要的是,這種提升并不依賴于某一個特定編碼器。
在不同模型規模、不同視覺骨干網絡、不同訓練設置下,iREPA都能穩定改進。
這不僅是一個技巧,而是順著生成任務本身對結構的需求,把表示對齊這件事做得更克制、更精細。
很多時候,我們討論生成模型時,會下意識沿用一個標準。
但這篇論文提醒了我們,生成并不是理解的自然下游。
對生成來說,最重要的并不是「這是什么」,而是「哪些地方該靠近,哪些地方該分開」。
當我們一味強化全局語義,反復催促模型給出答案,其實是在替它提前下結論。
iREPA并沒有試圖讓模型變得更聰明。它做的更像是退后一步,把空間還給空間,把結構還給結構。
結果不是理解能力的飛躍,而是生成質量的回歸。
參考資料:
https://x.com/1jaskiratsingh/status/2000701128431034736?s=20
https://end2end-diffusion.github.io/irepa/
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.