網易首頁 > 網易號 > 正文申請入駐

謝賽寧REPA得到大幅改進，只需不到4行代碼

2025-12-15 16:10:19　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：Panda

鄒忌曾經有一個問題：吾與徐公孰美？

而對于 REPA，也有一個類似的問題：全局信息空間結構，哪個對表征對齊更重要？

表征對齊（REPA）可通過將強大的預訓練視覺編碼器的表征蒸餾為中間擴散特征，來指導生成式訓練。該方法于去年十月份問世，一直以來都備受關注，已成為加速擴散 Transformer（Diffusion Transformers）訓練的一項有力技術。參閱報道《擴散模型訓練方法一直錯了！謝賽寧：Representation matters》。

但是，其還有一個很基本的問題懸而未決：對生成而言，目標表征的哪個方面更重要？是其「全局」語義信息（例如，以 ImageNet-1K 準確率衡量），還是其空間結構（即，圖像塊 token 之間的成對余弦相似度）？

此前，普遍觀點認為，如果使用更強的全局語義性能作為目標表征，可以帶來更好的生成效果。

為了研究這一點，Adobe Research、澳大利亞國立大學和紐約大學的一個聯合團隊對 27 種不同的視覺編碼器和不同的模型規模進行了大規模的實證分析。

然后他們得到了一個出人意料的結果：驅動目標表征生成性能的是空間結構，而非全局性能！

更令人驚訝的是，基于此發現，他們還構建了一種簡單方法（代碼實現少于 4 行），即iREPA，其能在各種視覺編碼器、模型大小和訓練變體（如 REPA、REPA-E、Meanflow、JiT 等）中持續提高 REPA 的收斂速度。

論文標題：What matters for Representation Alignment: Global Information or Spatial Structure?
論文地址：https://arxiv.org/abs/2512.10794v1
項目頁面：https://end2end-diffusion.github.io/irepa/

本論文的第一作者是 Jaskirat Singh，澳大利亞國立大學二年級博士生，他在 Adobe 實習期間完成了此研究。目前也正在 Meta 實習。

此外，作者名單中還有多位萬引大佬，包括 Adobe 資深研究科學家 Richard Zhang、Adobe 高級首席科學家 Eli Shechtman 以及我們熟悉的紐約大學謝賽寧。

下面我們來看看這項研究的具體內容。

反直覺的發現：全局強，不代表生成強

在深入探究之前，我們先來看幾個令人費解的現象。

長期以來，研究人員通常假設：一個視覺編碼器在 ImageNet-1K 上的分類準確率越高，它提取的特征就越好，用來指導擴散模型生成圖像的效果也就應該越好。

然而，論文作者在測試了 27 種不同的編碼器后，發現事實并非如此。

該團隊舉了幾個非常有力的反例：

SAM2 的逆襲：分割模型 SAM2-S 的 ImageNet 準確率僅為 24.1%，這在分類任務上可以說表現平平。然而，當它被用作 REPA 的目標表征時，其生成的圖像質量（FID 分數）竟然優于那些準確率比它高出 60% 的模型（如 PE-Core-G）。
大模型的困境：在同一個模型家族中，更大的參數量通常意味著更高的分類準確率。但在表征對齊中，更大的模型（如 DINOv2-g）并不一定能帶來更好的生成效果，有時甚至更差。
畫蛇添足的 CLS token：如果強行將包含全局信息的 [CLS] token 融合到圖像塊（patch）特征中，雖然線性探測（Linear Probing）準確率上升了，但生成質量（FID）卻顯著下降了。

這些現象指向了一個結論：更高的驗證準確率，并不意味著它是更好的生成表征。

真正的主宰：空間結構

如果不是全局語義信息在起作用，那究竟是什么在驅動生成性能？

作者提出假設：是空間結構，即圖像塊 token 之間的成對余弦相似度。

為了量化這一指標，作者引入了空間自相似性（Spatial Self-Similarity）的概念。簡單來說，就是衡量特征圖在空間上的「紋理」和「關系」是否清晰。作者使用了幾種不同的度量標準，其中最直觀的是LDS（Local vs. Distant Similarity）：

通俗點說，LDS 衡量的是：在特征空間中，相鄰的圖像塊是否比相距較遠的圖像塊更相似？如果一個編碼器能很好地保留這種「近親遠疏」的空間結構，它的 LDS 分數就高。

令人震驚的相關性出現了（如上圖所示）：傳統的線性探測準確率（代表全局信息）與生成質量（FID）的相關性極低，皮爾遜相關系數僅為 r = -0.260。而空間結構指標（LDS）與生成質量的相關性高達 |r| = 0.852！

這完美解釋了之前的反例：SAM2 雖然不懂「這張圖是貓」，但它極其擅長理解「貓的輪廓在哪里」，因此擁有極佳的空間結構，進而帶來了出色的生成效果。

iREPA：不到 4 行代碼的改進

既然明確了「空間結構」才是核心，那么與其盲目追求更強的語義編碼器，不如想辦法在訓練過程中強化空間信息的傳遞。

基于此，該團隊提出了iREPA。但其核心改動非常簡單，代碼實現甚至不到 4 行，主要包含兩個修改：

1. 用卷積層替代 MLP 投影層

標準的 REPA 使用 MLP 將擴散模型的特征映射到目標表征的維度。作者指出，MLP 是「有損」的，會破壞 patch 之間的空間對比度。

其改進方法是：將其替換為一個簡單的3×3 卷積層。卷積天然具有歸納偏置（Inductive Bias），能夠更好地保留局部的空間關系。

2. 引入空間歸一化層

作者發現，預訓練視覺編碼器的 patch token 中往往包含大量的全局信息（就像一層籠罩全圖的「霧」），導致前景和背景的 token 居然有不低的相似度。

其改進方法是：既然這層全局均值信息對生成沒用甚至有害，那就把它去掉。作者對目標表征引入了一個空間歸一化（Spatial Normalization）層，減去均值，除以標準差。這犧牲了全局信息，但極大地增強了 patch 之間的空間對比度。

算法代碼如下：

效果：提升顯著

iREPA 的有效性并非僅停留在理論層面，作者通過一系列大規模實驗，證明了這一改進方案具有極強的魯棒性和通用性。

收斂速度更快

對于擴散 Transformer（如 SiT-XL/2）的訓練而言，收斂速度就是金錢。實驗結果表明，無論使用何種視覺編碼器作為「教師」，iREPA 都能顯著加速「學生」模型的訓練收斂。

從下圖可以看到，在各種模型規模（SiT-XL/2, SiT-B/2）和編碼器（DINOv3, WebSSL, CLIP 等）下，iREPA 都顯著提高了收斂速度。

編碼器通用性

通常一種優化方法可能只對特定類型的模型有效，但 iREPA 展現出了驚人的通用性。作者測試了多達 27 種不同的視覺編碼器，涵蓋了監督學習（如 DeiT）、自監督學習（如 DINOv2, MoCo v3, MAE）以及多模態模型（如 CLIP）。

如下圖所示，在橫跨所有測試的編碼器中，iREPA（紅色柱狀圖）的生成 FID 分數均低于標準 REPA（藍色柱狀圖）。

可以看到，即使是像 SAM2 這樣分類準確率極低（24.1%）的分割模型，在經過 iREPA 的空間增強處理后，其指導生成的 FID 分數甚至優于許多分類強模型。

同時，對于 DINOv3 和 WebSSL 等目前最強的特征提取器，iREPA 依然能進一步壓低 FID，提升生成上限。

擴展性：模型越大，收益越高

這是一個非常符合「Scaling Law」趨勢的發現。作者探究了 iREPA 在不同規模模型上的表現：

編碼器規模：當視覺編碼器從 PE-B (90M) 增大到 PE-G (1.88B) 時，iREPA 帶來的性能提升百分比也隨之增加（從 22.2% 提升至 39.6%）。
擴散模型規模：當生成模型從 SiT-B (130M) 擴展到 SiT-XL (675M) 時，iREPA 帶來的相對增益同樣在擴大。這意味著，模型做得越大，空間結構的重要性就越顯著，iREPA 的價值也就越高

廣泛適用性

iREPA 并不僅限于特定的 Transformer 架構，它能無縫集成到各種現有的先進訓練流中.

像素空間擴散 (Pixel-space Diffusion)：在下圖中，作者展示了將 iREPA 應用于 JiT (Just-in-Time) 模型的結果。即使在像素空間操作，強化空間信息傳遞依然能顯著加速收斂.

先進配方兼容：如下表所示，當結合 REPA-E（一種端到端調優 VAE 的方法）或 MeanFlow 等最新技術時，iREPA 依然能穩定地提供額外的性能增益。這說明它觸及了生成模型訓練的一個底層共性問題，而非僅僅是某種特定設置下的特例。

視覺質量有肉眼可見的結構改善

除了枯燥的數據，生成的圖像本身最有說服力。

如下圖所示，對比標準 REPA 和 iREPA 生成的樣本（如魚、公雞、貓等類別），可以發現 iREPA 生成的圖像在物體輪廓、紋理細節和整體結構的連貫性上都要優于前者。

而在下圖中，作者可視化了經過卷積投影和空間歸一化后的特征圖。可以看到，通過 iREPA 處理后，特征圖（右側）明顯比標準 REPA（左側）保留了更清晰的語義邊界和空間對比度，前景與背景的區分更加鮮明。

該團隊也進行了消融實驗，驗證了各組件的有效性。

結語

這篇論文與其說是提出了一種新方法，不如說是通過扎實的實證分析，撥正了社區的關注點。它告訴我們，在利用預訓練模型加速生成任務時，不要被「ImageNet 準確率」這一單一指標所迷惑。

對于生成模型而言，理解像素之間的空間關系，遠比知道「這圖里有只狗」要重要得多。正如作者在文中總結的那樣：Spatial structure not global information determines the generation performance.

更多詳情請訪問原論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.