<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      謝賽寧REPA得到大幅改進,只需不到4行代碼

      0
      分享至



      機器之心報道

      編輯:Panda

      鄒忌曾經有一個問題:吾與徐公孰美?

      而對于 REPA,也有一個類似的問題:全局信息空間結構,哪個對表征對齊更重要?

      表征對齊(REPA)可通過將強大的預訓練視覺編碼器的表征蒸餾為中間擴散特征,來指導生成式訓練。該方法于去年十月份問世,一直以來都備受關注,已成為加速擴散 Transformer(Diffusion Transformers)訓練的一項有力技術。參閱報道《擴散模型訓練方法一直錯了!謝賽寧:Representation matters》。

      但是,其還有一個很基本的問題懸而未決:對生成而言,目標表征的哪個方面更重要?是其「全局」語義信息(例如,以 ImageNet-1K 準確率衡量),還是其空間結構(即,圖像塊 token 之間的成對余弦相似度)?

      此前,普遍觀點認為,如果使用更強的全局語義性能作為目標表征,可以帶來更好的生成效果。

      為了研究這一點,Adobe Research、澳大利亞國立大學和紐約大學的一個聯合團隊對 27 種不同的視覺編碼器和不同的模型規模進行了大規模的實證分析。

      然后他們得到了一個出人意料的結果:驅動目標表征生成性能的是空間結構,而非全局性能!



      更令人驚訝的是,基于此發現,他們還構建了一種簡單方法(代碼實現少于 4 行),即iREPA,其能在各種視覺編碼器、模型大小和訓練變體(如 REPA、REPA-E、Meanflow、JiT 等)中持續提高 REPA 的收斂速度。



      • 論文標題:What matters for Representation Alignment: Global Information or Spatial Structure?
      • 論文地址:https://arxiv.org/abs/2512.10794v1
      • 項目頁面:https://end2end-diffusion.github.io/irepa/

      本論文的第一作者是 Jaskirat Singh,澳大利亞國立大學二年級博士生,他在 Adobe 實習期間完成了此研究。目前也正在 Meta 實習。

      此外,作者名單中還有多位萬引大佬,包括 Adobe 資深研究科學家 Richard Zhang、Adobe 高級首席科學家 Eli Shechtman 以及我們熟悉的紐約大學謝賽寧。

      下面我們來看看這項研究的具體內容。

      反直覺的發現:全局強,不代表生成強

      在深入探究之前,我們先來看幾個令人費解的現象。

      長期以來,研究人員通常假設:一個視覺編碼器在 ImageNet-1K 上的分類準確率越高,它提取的特征就越好,用來指導擴散模型生成圖像的效果也就應該越好。

      然而,論文作者在測試了 27 種不同的編碼器后,發現事實并非如此。

      該團隊舉了幾個非常有力的反例:

      • SAM2 的逆襲:分割模型 SAM2-S 的 ImageNet 準確率僅為 24.1%,這在分類任務上可以說表現平平。然而,當它被用作 REPA 的目標表征時,其生成的圖像質量(FID 分數)竟然優于那些準確率比它高出 60% 的模型(如 PE-Core-G)。
      • 大模型的困境:在同一個模型家族中,更大的參數量通常意味著更高的分類準確率。但在表征對齊中,更大的模型(如 DINOv2-g)并不一定能帶來更好的生成效果,有時甚至更差。
      • 畫蛇添足的 CLS token:如果強行將包含全局信息的 [CLS] token 融合到圖像塊(patch)特征中,雖然線性探測(Linear Probing)準確率上升了,但生成質量(FID)卻顯著下降了。



      這些現象指向了一個結論:更高的驗證準確率,并不意味著它是更好的生成表征。

      真正的主宰:空間結構

      如果不是全局語義信息在起作用,那究竟是什么在驅動生成性能?

      作者提出假設:是空間結構,即圖像塊 token 之間的成對余弦相似度。

      為了量化這一指標,作者引入了空間自相似性(Spatial Self-Similarity)的概念。簡單來說,就是衡量特征圖在空間上的「紋理」和「關系」是否清晰。作者使用了幾種不同的度量標準,其中最直觀的是LDS(Local vs. Distant Similarity):



      通俗點說,LDS 衡量的是:在特征空間中,相鄰的圖像塊是否比相距較遠的圖像塊更相似?如果一個編碼器能很好地保留這種「近親遠疏」的空間結構,它的 LDS 分數就高。



      令人震驚的相關性出現了(如上圖所示):傳統的線性探測準確率(代表全局信息)與生成質量(FID)的相關性極低,皮爾遜相關系數僅為 r = -0.260。而空間結構指標(LDS) 與生成質量的相關性高達 |r| = 0.852!

      這完美解釋了之前的反例:SAM2 雖然不懂「這張圖是貓」,但它極其擅長理解「貓的輪廓在哪里」,因此擁有極佳的空間結構,進而帶來了出色的生成效果。

      iREPA:不到 4 行代碼的改進

      既然明確了「空間結構」才是核心,那么與其盲目追求更強的語義編碼器,不如想辦法在訓練過程中強化空間信息的傳遞。

      基于此,該團隊提出了iREPA。但其核心改動非常簡單,代碼實現甚至不到 4 行,主要包含兩個修改:

      1. 用卷積層替代 MLP 投影層

      標準的 REPA 使用 MLP 將擴散模型的特征映射到目標表征的維度。作者指出,MLP 是「有損」的,會破壞 patch 之間的空間對比度。

      其改進方法是:將其替換為一個簡單的3×3 卷積層。卷積天然具有歸納偏置(Inductive Bias),能夠更好地保留局部的空間關系。

      2. 引入空間歸一化層

      作者發現,預訓練視覺編碼器的 patch token 中往往包含大量的全局信息(就像一層籠罩全圖的「霧」),導致前景和背景的 token 居然有不低的相似度。

      其改進方法是:既然這層全局均值信息對生成沒用甚至有害,那就把它去掉。作者對目標表征引入了一個空間歸一化(Spatial Normalization)層,減去均值,除以標準差。這犧牲了全局信息,但極大地增強了 patch 之間的空間對比度。

      算法代碼如下:



      效果:提升顯著

      iREPA 的有效性并非僅停留在理論層面,作者通過一系列大規模實驗,證明了這一改進方案具有極強的魯棒性和通用性。



      收斂速度更快

      對于擴散 Transformer(如 SiT-XL/2)的訓練而言,收斂速度就是金錢。實驗結果表明,無論使用何種視覺編碼器作為「教師」,iREPA 都能顯著加速「學生」模型的訓練收斂。

      從下圖可以看到,在各種模型規模(SiT-XL/2, SiT-B/2)和編碼器(DINOv3, WebSSL, CLIP 等)下,iREPA 都顯著提高了收斂速度 。



      編碼器通用性

      通常一種優化方法可能只對特定類型的模型有效,但 iREPA 展現出了驚人的通用性。作者測試了多達 27 種不同的視覺編碼器,涵蓋了監督學習(如 DeiT)、自監督學習(如 DINOv2, MoCo v3, MAE)以及多模態模型(如 CLIP)。

      如下圖所示,在橫跨所有測試的編碼器中,iREPA(紅色柱狀圖)的生成 FID 分數均低于標準 REPA(藍色柱狀圖)。



      可以看到,即使是像 SAM2 這樣分類準確率極低(24.1%)的分割模型,在經過 iREPA 的空間增強處理后,其指導生成的 FID 分數甚至優于許多分類強模型。

      同時,對于 DINOv3 和 WebSSL 等目前最強的特征提取器,iREPA 依然能進一步壓低 FID,提升生成上限。

      擴展性:模型越大,收益越高

      這是一個非常符合「Scaling Law」趨勢的發現。作者探究了 iREPA 在不同規模模型上的表現:

      • 編碼器規模:當視覺編碼器從 PE-B (90M) 增大到 PE-G (1.88B) 時,iREPA 帶來的性能提升百分比也隨之增加(從 22.2% 提升至 39.6%)。
      • 擴散模型規模:當生成模型從 SiT-B (130M) 擴展到 SiT-XL (675M) 時,iREPA 帶來的相對增益同樣在擴大。這意味著,模型做得越大,空間結構的重要性就越顯著,iREPA 的價值也就越高



      廣泛適用性

      iREPA 并不僅限于特定的 Transformer 架構,它能無縫集成到各種現有的先進訓練流中.

      像素空間擴散 (Pixel-space Diffusion):在下圖中,作者展示了將 iREPA 應用于 JiT (Just-in-Time) 模型的結果。即使在像素空間操作,強化空間信息傳遞依然能顯著加速收斂.



      先進配方兼容: 如下表所示,當結合 REPA-E(一種端到端調優 VAE 的方法)或 MeanFlow 等最新技術時,iREPA 依然能穩定地提供額外的性能增益。這說明它觸及了生成模型訓練的一個底層共性問題,而非僅僅是某種特定設置下的特例。



      視覺質量有肉眼可見的結構改善

      除了枯燥的數據,生成的圖像本身最有說服力。

      如下圖所示,對比標準 REPA 和 iREPA 生成的樣本(如魚、公雞、貓等類別),可以發現 iREPA 生成的圖像在物體輪廓、紋理細節和整體結構的連貫性上都要優于前者。



      而在下圖中,作者可視化了經過卷積投影和空間歸一化后的特征圖。可以看到,通過 iREPA 處理后,特征圖(右側)明顯比標準 REPA(左側)保留了更清晰的語義邊界和空間對比度,前景與背景的區分更加鮮明。



      該團隊也進行了消融實驗,驗證了各組件的有效性。



      結語

      這篇論文與其說是提出了一種新方法,不如說是通過扎實的實證分析,撥正了社區的關注點。它告訴我們,在利用預訓練模型加速生成任務時,不要被「ImageNet 準確率」這一單一指標所迷惑。

      對于生成模型而言,理解像素之間的空間關系,遠比知道「這圖里有只狗」要重要得多。正如作者在文中總結的那樣:Spatial structure not global information determines the generation performance.

      更多詳情請訪問原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      機構稱市場已經基本完成調整,A股跨年行情可期,A500ETF易方達(159361)近4個交易日“吸金”近8億元

      機構稱市場已經基本完成調整,A股跨年行情可期,A500ETF易方達(159361)近4個交易日“吸金”近8億元

      每日經濟新聞
      2025-12-17 10:30:17
      女教師結婚墜亡后續:婚紗照眼神無光,村干部透露女方家條件很好

      女教師結婚墜亡后續:婚紗照眼神無光,村干部透露女方家條件很好

      觀察鑒娛
      2025-12-15 08:56:27
      一個軍走出三位大區司令,連警衛員都干到正國級,老軍長見面卻只喊他小王

      一個軍走出三位大區司令,連警衛員都干到正國級,老軍長見面卻只喊他小王

      老杉說歷史
      2025-12-11 19:56:06
      首秀30+5+2!湖人決定交易!再見了,洛杉磯

      首秀30+5+2!湖人決定交易!再見了,洛杉磯

      籃球教學論壇
      2025-12-17 19:31:08
      大海:我唯一忠實的傾聽者

      大海:我唯一忠實的傾聽者

      疾跑的小蝸牛
      2025-12-17 20:32:35
      香港再無董建華

      香港再無董建華

      華人星光
      2025-11-25 12:01:27
      又一個大V被封!任何政治狂熱,都是國家和人民的災難!

      又一個大V被封!任何政治狂熱,都是國家和人民的災難!

      深度報
      2025-12-10 22:37:02
      泰國轟炸柬埔寨電詐園區,美國“FCC命令”,境外電詐會被鏟除?

      泰國轟炸柬埔寨電詐園區,美國“FCC命令”,境外電詐會被鏟除?

      村里的月光
      2025-12-16 13:54:17
      黎智英定罪不到24小時,特朗普求中方一件事,英首相要訪華討說法

      黎智英定罪不到24小時,特朗普求中方一件事,英首相要訪華討說法

      歷史有些冷
      2025-12-16 18:40:04
      甘肅大范圍降雪+降溫馬上到!局地有中到大雪

      甘肅大范圍降雪+降溫馬上到!局地有中到大雪

      天之水網
      2025-12-17 21:44:21
      中國出生人口斷崖:21年1062萬人,2023年902萬人,24年令人意外

      中國出生人口斷崖:21年1062萬人,2023年902萬人,24年令人意外

      時尚的弄潮
      2025-12-17 10:40:56
      抵達深圳,張明池正式簽約,新球隊曝光,目標沖冠,杜鋒期待

      抵達深圳,張明池正式簽約,新球隊曝光,目標沖冠,杜鋒期待

      樂聊球
      2025-12-17 12:09:20
      金正恩帶妻子女兒一起亮相了!12歲千金穿黑色大衣美翻,不輸媽媽

      金正恩帶妻子女兒一起亮相了!12歲千金穿黑色大衣美翻,不輸媽媽

      時尚麗人風行
      2025-12-17 09:56:25
      糖尿病最怕的早餐!醫生再三強調:寧可餓著,也別碰這5種早餐

      糖尿病最怕的早餐!醫生再三強調:寧可餓著,也別碰這5種早餐

      讀懂世界歷史
      2025-12-17 21:28:48
      48年蔣介石得知遼沈戰役落敗后,立即下令處決謝士炎,這是為何?

      48年蔣介石得知遼沈戰役落敗后,立即下令處決謝士炎,這是為何?

      醉飲前山
      2024-11-22 10:05:49
      央視推薦的四大長壽食物!南瓜僅排第三,第一名家家有卻不懂珍惜

      央視推薦的四大長壽食物!南瓜僅排第三,第一名家家有卻不懂珍惜

      觀察者小海風
      2025-12-15 19:03:13
      有人問杜平為何能與許世友默契搭檔十年,杜平:我有對付他的絕招

      有人問杜平為何能與許世友默契搭檔十年,杜平:我有對付他的絕招

      云霄紀史觀
      2025-12-17 17:26:29
      里瑟:曼聯應該簽下羅賓遜,他能在老特拉福德大放異彩

      里瑟:曼聯應該簽下羅賓遜,他能在老特拉福德大放異彩

      懂球帝
      2025-12-17 21:53:15
      1931年,周恩來帶人處決叛徒顧順章家人,放過3小孩,卻釀成禍患

      1931年,周恩來帶人處決叛徒顧順章家人,放過3小孩,卻釀成禍患

      獅拓一葉知秋
      2024-08-23 21:46:48
      投資95億!海南第一高樓封頂,形如“蓮花”

      投資95億!海南第一高樓封頂,形如“蓮花”

      GA環球建筑
      2025-12-16 22:13:10
      2025-12-18 00:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11943文章數 142512關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      數碼
      手機
      旅游
      健康
      公開課

      數碼要聞

      連續五年全國銷量第一 添可洗地機為何被稱一次性用品?

      手機要聞

      iQOO Z11 Pro曝光,3D超聲波指紋+2億大底主攝

      旅游要聞

      龍湖上海寶山天街歡樂季來啦~

      這些新療法,讓化療不再那么痛苦

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 91亚瑟视频| 91偷拍视频| 亚洲国产资源| 国产精品99久久免费黑人人妻| 无码www毛色一区二区| 91在线小视频| 无码成人一区二区三区| 欧美牲交videossexeso欧美| 人妻成人网站| 91丨国产丨熟女熟女 | 亚洲国产成人AⅤ片在线观看| 亚洲色婷婷六月亚洲婷婷6月| 国产69精品久久久久人妻刘玥| 熟女?人妻?人妻のA片| 小泽玛利亚av无码专区| 人妻少妇久久久久久97人妻| 欧美精品中文字幕亚洲专区| 久久精品亚洲中文无东京热| 新巴尔虎右旗| 91视频免费入口| 人妻精品视频| 亚洲人妻一区二区精品| 免费a级毛片18以上观看精品| 性一交一乱一乱一视频| 一色屋精品视频在线观看| 日韩中文字幕人妻无码| 丝袜.制服.丝袜.亚洲.日韩.中文 国产制服丝袜在线视频 | 99噜噜噜在线播放| 色综合久久中文| 亚洲成人av一区| 亚洲欧美综合| 中文字幕有码在线观看| 日韩精品久久| 在线a人片免费观看| jk白丝喷浆| 四虎影视一区二区精品| 國产一二三内射在线看片| 亚洲午夜精品久久久久久浪潮| 亚洲中文无码av永久不收费| 国内精品久久久久伊人aⅴ| 国产在线精品熟女|