<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      謝賽寧REPA得到大幅改進,只需不到4行代碼

      0
      分享至



      機器之心報道

      編輯:Panda

      鄒忌曾經有一個問題:吾與徐公孰美?

      而對于 REPA,也有一個類似的問題:全局信息空間結構,哪個對表征對齊更重要?

      表征對齊(REPA)可通過將強大的預訓練視覺編碼器的表征蒸餾為中間擴散特征,來指導生成式訓練。該方法于去年十月份問世,一直以來都備受關注,已成為加速擴散 Transformer(Diffusion Transformers)訓練的一項有力技術。參閱報道《擴散模型訓練方法一直錯了!謝賽寧:Representation matters》。

      但是,其還有一個很基本的問題懸而未決:對生成而言,目標表征的哪個方面更重要?是其「全局」語義信息(例如,以 ImageNet-1K 準確率衡量),還是其空間結構(即,圖像塊 token 之間的成對余弦相似度)?

      此前,普遍觀點認為,如果使用更強的全局語義性能作為目標表征,可以帶來更好的生成效果。

      為了研究這一點,Adobe Research、澳大利亞國立大學和紐約大學的一個聯合團隊對 27 種不同的視覺編碼器和不同的模型規模進行了大規模的實證分析。

      然后他們得到了一個出人意料的結果:驅動目標表征生成性能的是空間結構,而非全局性能!



      更令人驚訝的是,基于此發現,他們還構建了一種簡單方法(代碼實現少于 4 行),即iREPA,其能在各種視覺編碼器、模型大小和訓練變體(如 REPA、REPA-E、Meanflow、JiT 等)中持續提高 REPA 的收斂速度。



      • 論文標題:What matters for Representation Alignment: Global Information or Spatial Structure?
      • 論文地址:https://arxiv.org/abs/2512.10794v1
      • 項目頁面:https://end2end-diffusion.github.io/irepa/

      本論文的第一作者是 Jaskirat Singh,澳大利亞國立大學二年級博士生,他在 Adobe 實習期間完成了此研究。目前也正在 Meta 實習。

      此外,作者名單中還有多位萬引大佬,包括 Adobe 資深研究科學家 Richard Zhang、Adobe 高級首席科學家 Eli Shechtman 以及我們熟悉的紐約大學謝賽寧。

      下面我們來看看這項研究的具體內容。

      反直覺的發現:全局強,不代表生成強

      在深入探究之前,我們先來看幾個令人費解的現象。

      長期以來,研究人員通常假設:一個視覺編碼器在 ImageNet-1K 上的分類準確率越高,它提取的特征就越好,用來指導擴散模型生成圖像的效果也就應該越好。

      然而,論文作者在測試了 27 種不同的編碼器后,發現事實并非如此。

      該團隊舉了幾個非常有力的反例:

      • SAM2 的逆襲:分割模型 SAM2-S 的 ImageNet 準確率僅為 24.1%,這在分類任務上可以說表現平平。然而,當它被用作 REPA 的目標表征時,其生成的圖像質量(FID 分數)竟然優于那些準確率比它高出 60% 的模型(如 PE-Core-G)。
      • 大模型的困境:在同一個模型家族中,更大的參數量通常意味著更高的分類準確率。但在表征對齊中,更大的模型(如 DINOv2-g)并不一定能帶來更好的生成效果,有時甚至更差。
      • 畫蛇添足的 CLS token:如果強行將包含全局信息的 [CLS] token 融合到圖像塊(patch)特征中,雖然線性探測(Linear Probing)準確率上升了,但生成質量(FID)卻顯著下降了。



      這些現象指向了一個結論:更高的驗證準確率,并不意味著它是更好的生成表征。

      真正的主宰:空間結構

      如果不是全局語義信息在起作用,那究竟是什么在驅動生成性能?

      作者提出假設:是空間結構,即圖像塊 token 之間的成對余弦相似度。

      為了量化這一指標,作者引入了空間自相似性(Spatial Self-Similarity)的概念。簡單來說,就是衡量特征圖在空間上的「紋理」和「關系」是否清晰。作者使用了幾種不同的度量標準,其中最直觀的是LDS(Local vs. Distant Similarity):



      通俗點說,LDS 衡量的是:在特征空間中,相鄰的圖像塊是否比相距較遠的圖像塊更相似?如果一個編碼器能很好地保留這種「近親遠疏」的空間結構,它的 LDS 分數就高。



      令人震驚的相關性出現了(如上圖所示):傳統的線性探測準確率(代表全局信息)與生成質量(FID)的相關性極低,皮爾遜相關系數僅為 r = -0.260。而空間結構指標(LDS) 與生成質量的相關性高達 |r| = 0.852!

      這完美解釋了之前的反例:SAM2 雖然不懂「這張圖是貓」,但它極其擅長理解「貓的輪廓在哪里」,因此擁有極佳的空間結構,進而帶來了出色的生成效果。

      iREPA:不到 4 行代碼的改進

      既然明確了「空間結構」才是核心,那么與其盲目追求更強的語義編碼器,不如想辦法在訓練過程中強化空間信息的傳遞。

      基于此,該團隊提出了iREPA。但其核心改動非常簡單,代碼實現甚至不到 4 行,主要包含兩個修改:

      1. 用卷積層替代 MLP 投影層

      標準的 REPA 使用 MLP 將擴散模型的特征映射到目標表征的維度。作者指出,MLP 是「有損」的,會破壞 patch 之間的空間對比度。

      其改進方法是:將其替換為一個簡單的3×3 卷積層。卷積天然具有歸納偏置(Inductive Bias),能夠更好地保留局部的空間關系。

      2. 引入空間歸一化層

      作者發現,預訓練視覺編碼器的 patch token 中往往包含大量的全局信息(就像一層籠罩全圖的「霧」),導致前景和背景的 token 居然有不低的相似度。

      其改進方法是:既然這層全局均值信息對生成沒用甚至有害,那就把它去掉。作者對目標表征引入了一個空間歸一化(Spatial Normalization)層,減去均值,除以標準差。這犧牲了全局信息,但極大地增強了 patch 之間的空間對比度。

      算法代碼如下:



      效果:提升顯著

      iREPA 的有效性并非僅停留在理論層面,作者通過一系列大規模實驗,證明了這一改進方案具有極強的魯棒性和通用性。



      收斂速度更快

      對于擴散 Transformer(如 SiT-XL/2)的訓練而言,收斂速度就是金錢。實驗結果表明,無論使用何種視覺編碼器作為「教師」,iREPA 都能顯著加速「學生」模型的訓練收斂。

      從下圖可以看到,在各種模型規模(SiT-XL/2, SiT-B/2)和編碼器(DINOv3, WebSSL, CLIP 等)下,iREPA 都顯著提高了收斂速度 。



      編碼器通用性

      通常一種優化方法可能只對特定類型的模型有效,但 iREPA 展現出了驚人的通用性。作者測試了多達 27 種不同的視覺編碼器,涵蓋了監督學習(如 DeiT)、自監督學習(如 DINOv2, MoCo v3, MAE)以及多模態模型(如 CLIP)。

      如下圖所示,在橫跨所有測試的編碼器中,iREPA(紅色柱狀圖)的生成 FID 分數均低于標準 REPA(藍色柱狀圖)。



      可以看到,即使是像 SAM2 這樣分類準確率極低(24.1%)的分割模型,在經過 iREPA 的空間增強處理后,其指導生成的 FID 分數甚至優于許多分類強模型。

      同時,對于 DINOv3 和 WebSSL 等目前最強的特征提取器,iREPA 依然能進一步壓低 FID,提升生成上限。

      擴展性:模型越大,收益越高

      這是一個非常符合「Scaling Law」趨勢的發現。作者探究了 iREPA 在不同規模模型上的表現:

      • 編碼器規模:當視覺編碼器從 PE-B (90M) 增大到 PE-G (1.88B) 時,iREPA 帶來的性能提升百分比也隨之增加(從 22.2% 提升至 39.6%)。
      • 擴散模型規模:當生成模型從 SiT-B (130M) 擴展到 SiT-XL (675M) 時,iREPA 帶來的相對增益同樣在擴大。這意味著,模型做得越大,空間結構的重要性就越顯著,iREPA 的價值也就越高



      廣泛適用性

      iREPA 并不僅限于特定的 Transformer 架構,它能無縫集成到各種現有的先進訓練流中.

      像素空間擴散 (Pixel-space Diffusion):在下圖中,作者展示了將 iREPA 應用于 JiT (Just-in-Time) 模型的結果。即使在像素空間操作,強化空間信息傳遞依然能顯著加速收斂.



      先進配方兼容: 如下表所示,當結合 REPA-E(一種端到端調優 VAE 的方法)或 MeanFlow 等最新技術時,iREPA 依然能穩定地提供額外的性能增益。這說明它觸及了生成模型訓練的一個底層共性問題,而非僅僅是某種特定設置下的特例。



      視覺質量有肉眼可見的結構改善

      除了枯燥的數據,生成的圖像本身最有說服力。

      如下圖所示,對比標準 REPA 和 iREPA 生成的樣本(如魚、公雞、貓等類別),可以發現 iREPA 生成的圖像在物體輪廓、紋理細節和整體結構的連貫性上都要優于前者。



      而在下圖中,作者可視化了經過卷積投影和空間歸一化后的特征圖。可以看到,通過 iREPA 處理后,特征圖(右側)明顯比標準 REPA(左側)保留了更清晰的語義邊界和空間對比度,前景與背景的區分更加鮮明。



      該團隊也進行了消融實驗,驗證了各組件的有效性。



      結語

      這篇論文與其說是提出了一種新方法,不如說是通過扎實的實證分析,撥正了社區的關注點。它告訴我們,在利用預訓練模型加速生成任務時,不要被「ImageNet 準確率」這一單一指標所迷惑。

      對于生成模型而言,理解像素之間的空間關系,遠比知道「這圖里有只狗」要重要得多。正如作者在文中總結的那樣:Spatial structure not global information determines the generation performance.

      更多詳情請訪問原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      93年存款4萬5,《老舅》讓觀眾看清國產劇假窮人有多離譜

      93年存款4萬5,《老舅》讓觀眾看清國產劇假窮人有多離譜

      娛樂圈十三太保
      2025-12-17 16:32:22
      外籍男子國際航班上辱罵兩名中國女乘客,哈爾濱女博士用英語反擊,當事人:他酒后鬧事,被帶離后全場鼓掌

      外籍男子國際航班上辱罵兩名中國女乘客,哈爾濱女博士用英語反擊,當事人:他酒后鬧事,被帶離后全場鼓掌

      極目新聞
      2025-12-18 13:41:36
      意外!上港球迷曾質疑他不如蒯紀聞,如今德轉身價飆升到350萬

      意外!上港球迷曾質疑他不如蒯紀聞,如今德轉身價飆升到350萬

      懂個球
      2025-12-18 17:42:06
      哈佛大學驚奇發現:壽命和晚飯有關!晚飯吃的越多,活的就越久?

      哈佛大學驚奇發現:壽命和晚飯有關!晚飯吃的越多,活的就越久?

      阿捤武器裝備科普
      2025-12-16 19:00:35
      500強黃金企業金雅福相關理財項目出現延期兌付,公司總部已搬離,當地政府部門全面介入,律師稱涉嫌非法吸存

      500強黃金企業金雅福相關理財項目出現延期兌付,公司總部已搬離,當地政府部門全面介入,律師稱涉嫌非法吸存

      每日經濟新聞
      2025-12-18 17:18:10
      為什么中國革命,一會兒左一會兒右?講講課本不會告訴你的真相

      為什么中國革命,一會兒左一會兒右?講講課本不會告訴你的真相

      聞識
      2025-12-17 12:02:57
      特朗普又有大動作,另起爐灶成立“C5”,中俄在列,歐洲盟友出局

      特朗普又有大動作,另起爐灶成立“C5”,中俄在列,歐洲盟友出局

      兵說
      2025-12-17 16:30:28
      我退休后回老家養老,村書記擺架子要給我上一課,不料縣長來考察

      我退休后回老家養老,村書記擺架子要給我上一課,不料縣長來考察

      五元講堂
      2025-12-04 11:49:42
      蘋果官宣:部分老款 iPhone 存在嚴重技術故障

      蘋果官宣:部分老款 iPhone 存在嚴重技術故障

      簡科技
      2025-12-17 19:00:17
      記者:徐正源與國安進行了深度接觸,隨后被相關方面“叫停”

      記者:徐正源與國安進行了深度接觸,隨后被相關方面“叫停”

      懂球帝
      2025-12-18 13:00:48
      《全女格斗》,體現了一個時代的工匠精神

      《全女格斗》,體現了一個時代的工匠精神

      街機時代
      2025-12-17 18:00:03
      海南突然搶了臺灣飯碗?島內企業慌了!年輕人扎堆去大陸?

      海南突然搶了臺灣飯碗?島內企業慌了!年輕人扎堆去大陸?

      李博世財經
      2025-12-18 14:25:42
      給口碑最好的10部諜戰劇排名:《沉默的榮耀》第10,第1實至名歸

      給口碑最好的10部諜戰劇排名:《沉默的榮耀》第10,第1實至名歸

      皮皮電影
      2025-11-19 13:55:03
      從澳大利亞探親回來,才敢說幾句真心話,移民真的不適合所有人嗎

      從澳大利亞探親回來,才敢說幾句真心話,移民真的不適合所有人嗎

      i書與房
      2025-12-18 11:10:02
      國際足聯開罰單!亞洲勁旅歸化違規:3場比賽被判0-3!罰款9萬

      國際足聯開罰單!亞洲勁旅歸化違規:3場比賽被判0-3!罰款9萬

      小火箭愛體育
      2025-12-18 12:14:57
      你聽過的相聲里最棒的現掛是啥?網友:除了馬季,其他都不是現掛

      你聽過的相聲里最棒的現掛是啥?網友:除了馬季,其他都不是現掛

      帶你感受人間冷暖
      2025-12-18 00:10:08
      張韶涵“裁員裁到大動脈”登熱搜,前發型師發文回應

      張韶涵“裁員裁到大動脈”登熱搜,前發型師發文回應

      紅星新聞
      2025-12-18 11:38:30
      泰國重申停火必要條件, 柬埔寨暫無回應

      泰國重申停火必要條件, 柬埔寨暫無回應

      每日經濟新聞
      2025-12-17 23:00:35
      超級罕見!廣西發現稀有血型“恐龍血”,全球僅2例報道

      超級罕見!廣西發現稀有血型“恐龍血”,全球僅2例報道

      黃河新聞網呂梁頻道
      2025-12-18 14:07:02
      三觀盡毀!“性冷淡”女教師床上發騷求歡,情婦人設崩塌惹眾怒!

      三觀盡毀!“性冷淡”女教師床上發騷求歡,情婦人設崩塌惹眾怒!

      歷史偉人錄
      2025-12-18 16:59:42
      2025-12-18 19:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11950文章數 142512關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽

      頭條要聞

      南京博物院稱受贈5幅畫被鑒定為"假" 捐贈者后人回應

      頭條要聞

      南京博物院稱受贈5幅畫被鑒定為"假" 捐贈者后人回應

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      親子
      房產
      游戲
      家居
      數碼

      親子要聞

      聚焦教聯體+協同共育!這場培訓為學前教育高質量發展蓄能

      房產要聞

      太強了!封關時刻,兩天砸下50億!央企綠發,重倉三亞!

      從雙榜第一到500名外!《劍靈》衍生作1年停運,玩家吐槽毀IP

      家居要聞

      高端私宅 理想隱居圣地

      數碼要聞

      XREAL 1S智能AR眼鏡上架預約:3299元,首發原生2D→3D

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 五月婷婷激情第四季| 沁水县| 国产精品成人观看视频国产奇米| 曰本无码人妻丰满熟妇5g影院| 韩国三级+mp4| 日韩AV高清无码| 国内少妇偷人精品视频| 国产亚洲精品久久久久久牛牛| 免费又爽又大又高潮视频| 亚洲丝袜精品在线视频| 亚洲精品另类| 男女做爰猛烈吃奶啪啪喷水网站| 亚洲成A人片在线观看无码不卡| 国产精品???A片在线观看| 人妻va精品va欧美va| 日本高清aⅴ毛片免费| 亚洲日韩一区二区| 淫射网| 黄色99| 国产精品a无线| 中文字幕亚洲综合第一页| 亚洲图片另类| 女人被狂躁c到高潮| 专干老熟女视频在线观看| 日韩码无第15页| 亚洲成人aⅤ| 国产精品日韩欧美一区二区三区| 国产微拍一区二区三区四区| 色婷婷粉嫩Av| 国产95在线| 亚洲成人Aⅴ| 久久久久亚洲AV成人网人人小说| 孟州市| 进贤县| 亚洲日韩精品一区二区三区| 亚洲无码成人视频| 男人天堂网址| 天天成人综合网| 久久久久久人妻精品一区| 乱女乱妇熟女熟妇综合网| 亚洲成人电影院|