<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      僅用64個token生成高清圖像,MacTok攻破連續分詞器后驗坍塌難題

      0
      分享至



      本文作者團隊來自復旦大學,共同第一作者為復旦大學曾恒宇(生物醫學工程專業二年級碩士)和高鑫(應用數學專業三年級碩士,即將赴耶魯大學攻讀計算機科學博士),通訊作者為浦劍教授。

      在視覺生成領域,提升擴散模型或自回歸模型的推理效率,關鍵在于將圖像壓縮為更少量的 token。當前主流的圖像分詞器分為離散(如 VQ-VAE、VQ-GAN)與連續(如 KL-VAE)兩派。離散分詞器雖然應用廣泛,但其不可求導的量化過程需要進行梯度近似,容易引入量化誤差。相比之下,連續分詞器摒棄了硬性的離散碼本,保留了連續平滑的潛在空間,原生支持梯度優化并能容納更豐富的表征細節,因此被視為更具潛力的壓縮范式。

      然而,連續分詞器在極度壓縮(例如僅使用 64 個 token)時,會面臨一個核心挑戰:強 KL 正則化會導致潛在空間嚴重退化。編碼器常常無法有效寫入語義特征,而是直接向先驗分布妥協,引發嚴重的「后驗坍塌」(posterior collapse)。這往往會導致重建或生成的圖像失去細節。

      本文提出的MacTok(Masked Augmenting 1D Continuous Tokenizer)從連續分詞器的底層邏輯出發,提出了一種簡潔實用的核心洞察:只有讓潛在空間學會真正「富含語義」的表征,才能徹底杜絕后驗坍塌。為了達成這一目標,MacTok 脫離了單一層面的局部魔改,而是在圖像空間與表征空間進行了雙管齊下的協同設計。



      • 論文標題:MacTok: Masked Augmenting 1D Continuous Tokenizer for Efficient Image Generation
      • 論文鏈接:
      • https://arxiv.org/pdf/2603.29634

      在圖像空間層面,MacTok 引入了隨機掩碼與語義掩碼(Semantic Masking)的混合機制,強迫模型在最殘缺的條件下補全最高信息密度的焦點區域;在表征空間層面,則利用全局(Global)與局部(Local)的表征同時對齊來直接約束潛在空間的語義結構。

      結合兩者的協同機制,MacTok 僅需 64 或 128 個 token,便在 ImageNet 256×256 上實現了 1.44 的 gFID,在 512×512 上達到了 1.52 的 gFID,其實際使用的 token 數量相比傳統方法壓縮了 64 倍。該工作已被 CVPR 2026 錄用并入選為Highlight論文!



      「化繁為簡」:重新認知連續分詞器與后驗坍塌

      既然離散分詞器技術已相對成熟,為何業界仍需深入探討連續分詞器?主要原因在于離散碼本的表征瓶頸逐漸顯現,而連續空間擁有良好的數學連續性和原生梯度優勢,具備更高的優化潛力。但是,要讓連續分詞器走向商業可用,就必須解決「后驗坍塌」這一技術阻礙。

      后驗坍塌的直觀表現是,潛在空間中的各類特征嚴重重疊,解碼器生成的往往是一片模糊。從本質上看,這是由于在強正則約束與稀缺 Token 的雙重限制下,模型傾向于選擇最容易滿足先驗分布的優化路徑,而非去刻畫復雜的圖像語義。



      學術界此前的解法大多專注于調低正則強度或加入循環退火系數,這類基于損失函數層面的調整難以觸及問題根源。若直接套用普通的隨機掩碼策略(如直接遮擋 Latent Token),在 64 Token 的苛刻限制下,也會因后期訓練的信息流失而再度引發坍塌。

      MacTok 團隊提出,改變模型這種「優化怠情」的唯一做法是促使其學習到具備豐富語義信息的表征。為此,MacTok 放棄了單一維度的修修補補,提出了一個統籌圖像空間(Image Space)與表征空間(Representation Space)的雙管齊下方案:在圖像端通過掩碼提高「考題難度」,在表征端通過對齊直接注入語義引導,構建了一個魯棒的抗坍塌學習環境。

      雙空間協同設計:從圖像到表征的語義注入

      MacTok 團隊意識到,避免后驗坍塌的核心宗旨只有一個:必須迫使模型學到具有豐富語義信息的表征。為了達成這一目標,不能僅僅依賴常規的特征對齊,必須在圖像空間和表征空間同時作用,完成雙管齊下的語義注入。

      首先是在圖像空間的設計。在輸入端施加重度掩碼可以為模型提供一個更難的預測目標,從而提升模型特征提取的魯棒性。為進一步強化對語義的關注,MacTok 引入了混合掩碼策略:

      • 隨機掩碼(Random Masking):提供基礎的重建挑戰,促使模型建立更穩健的結構映射。

      • 語義掩碼(Semantic Masking):這是在圖像層面注入語義保留意識的關鍵。系統會評估圖像各個區域的語義重要性,并優先遮擋「富含最高語義」的區域。使得模型在預測殘缺圖像時,必須更加關注深層語義信息的推理與關聯,而非基于簡單紋理的像素填補。

      如下方曲線圖所示,引入語義掩碼后其生成質量有顯著提升,實驗測定最優的圖像掩碼比例在 70% 左右:



      其次是在表征空間的直接約束。在圖像空間的重建約束之外,MacTok 還引入了全局與局部表征對齊(Global and Local Alignment)。具體而言,分詞器的 Latent token 不僅在局部維度上與細粒度的 Patch 特征對齊,還在全局維度上與高度濃縮宏觀語義的 CLS 特征對齊。

      圖像空間層面的語義掩碼(增加理解難度),配合表征空間層面的全局-局部對齊(指明優化方向),兩者相輔相成。這套雙空間協同機制共同構筑了連續潛在空間高度的語義魯棒性,從根本上阻斷了后驗坍塌的發生。



      突破壓縮極限:主流 Benchmark 上的表現

      在主流驗證基準上,主打極少 token 的 MacTok 保持了極高的運行效率和視覺質量。

      1. 256×256 分辨率下的表現



      與使用大基數 token 的生成模型相比,MacTok 具備較為明顯的單 token 信息密度優勢。

      可以看到,僅使用 64 個 token 的 MacTok,在無 CFG 的測試條件下獲得了優于 SoftVQ-VAE 的生成結果(gFID 降低了 2.21)。128 token 的 MacTok 則達到了與擁有 1024 token 的主流基線模型(如 REPA 對應 gFID 1.42)相近的水平。

      2. 512×512 分辨率下的擴展能力

      在 512×512 分辨率下,模型需處理的圖像信息量成倍增長,而 MacTok 的各項核心指標并未出現衰減:



      在 512×512 測試中,MacTok 的 128 token 與 64 token 版本均取得了 1.52 的 gFID 與超過 306.0 的 IS(Inception Score),在大幅縮減序列長度的同時維持了該量級的領先效果。

      總結

      借助 UMAP 降維可視化,我們可以客觀地評估該方法在潛在空間特征分布上的改善:相比以往方法常出現的因坍塌而嚴重重疊的隨機點陣,MacTok 更能明確保持各語義類別的聚類結構。



      MacTok 的研究成果說明,后驗坍塌的根源在于強正則條件體系下缺乏足夠有效的數據特征引導約束。在不改變原生分詞架構基礎結構的前提下,僅僅通過在圖像輸入層引入具有挑戰性的語義掩碼重建任務,即可極大激活連續潛在空間編碼深層信息的潛能。面對未來對圖像生成分辨率、吞吐延遲要求越來越苛刻的大模型場景,MacTok 提供了一項具有較高實用價值的技術參照方案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      大反轉:掌摑女家長的男保安,真實身份曝光!

      大反轉:掌摑女家長的男保安,真實身份曝光!

      仕道
      2026-04-24 08:12:39
      3次交手全勝 鄭欽文2-1打崩前澳網冠軍:獎金43萬元 沖到世界第31

      3次交手全勝 鄭欽文2-1打崩前澳網冠軍:獎金43萬元 沖到世界第31

      風過鄉
      2026-04-24 19:26:42
      果然不出所料,國民黨主席鄭麗文表態了!

      果然不出所料,國民黨主席鄭麗文表態了!

      達文西看世界
      2026-04-24 16:08:18
      美伊將進行第二輪談判,美防長:談判底線是“伊朗不可能獲得核彈”,對伊朗封鎖已擴展至全球范圍,34艘船只在霍爾木茲海峽被勒令折返

      美伊將進行第二輪談判,美防長:談判底線是“伊朗不可能獲得核彈”,對伊朗封鎖已擴展至全球范圍,34艘船只在霍爾木茲海峽被勒令折返

      魯中晨報
      2026-04-24 21:04:06
      中央紀委國家監委公開通報八起違反中央八項規定精神典型問題

      中央紀委國家監委公開通報八起違反中央八項規定精神典型問題

      新華社
      2026-04-24 17:05:33
      美媒稱特朗普派遣其女婿及特使赴巴基斯坦同伊朗談判

      美媒稱特朗普派遣其女婿及特使赴巴基斯坦同伊朗談判

      新華社
      2026-04-24 23:56:17
      布達諾夫撂出狠話:我們將很快讓俄國人大吃一驚!

      布達諾夫撂出狠話:我們將很快讓俄國人大吃一驚!

      史政先鋒
      2026-04-24 11:28:28
      伯恩利“幫”了阿森納一把,爭冠懸念又回來了?

      伯恩利“幫”了阿森納一把,爭冠懸念又回來了?

      樂道足球
      2026-04-24 12:01:43
      別不當回事!4月30日前趕緊辦完,5月1日全面嚴查,誰躲都沒用

      別不當回事!4月30日前趕緊辦完,5月1日全面嚴查,誰躲都沒用

      復轉這些年
      2026-04-24 21:20:33
      58歲江珊露面,150斤穿西裝腚大腰圓,但臉顯年輕幾乎沒皺紋

      58歲江珊露面,150斤穿西裝腚大腰圓,但臉顯年輕幾乎沒皺紋

      墨印齋
      2026-04-24 16:43:38
      再一次感謝梁文鋒,歷史性的一刻。

      再一次感謝梁文鋒,歷史性的一刻。

      販財局
      2026-04-24 13:07:34
      特朗普下達“毀滅性打擊”授權,以色列揚言斬首穆杰塔巴,伊朗當即亮劍反擊

      特朗普下達“毀滅性打擊”授權,以色列揚言斬首穆杰塔巴,伊朗當即亮劍反擊

      咣當地球
      2026-04-24 16:44:13
      黃宗澤牙齦萎縮影響顏值,再帥的港圈男神,也扛不住一口牙毀所有

      黃宗澤牙齦萎縮影響顏值,再帥的港圈男神,也扛不住一口牙毀所有

      觀魚聽雨
      2026-04-24 23:08:32
      駐歐盟使團發言人就歐盟第20輪對俄制裁列單制裁中國實體答記者問

      駐歐盟使團發言人就歐盟第20輪對俄制裁列單制裁中國實體答記者問

      環球網資訊
      2026-04-24 23:16:26
      丁俊暉大心臟!轟單桿81分,翻袋制勝領先趙心童,囧哥6連鞭逆轉

      丁俊暉大心臟!轟單桿81分,翻袋制勝領先趙心童,囧哥6連鞭逆轉

      劉姚堯的文字城堡
      2026-04-24 22:39:01
      特朗普用關稅搜刮的錢填補軍費!是對伊戰爭吃虧了還是唯恐落后中俄?

      特朗普用關稅搜刮的錢填補軍費!是對伊戰爭吃虧了還是唯恐落后中俄?

      網易新聞出品
      2026-04-24 10:23:05
      多國反對,中國專機抵美,G20峰會出現變故,80歲總統硬剛特朗普

      多國反對,中國專機抵美,G20峰會出現變故,80歲總統硬剛特朗普

      小影的娛樂
      2026-04-24 16:20:33
      提前起飛10分鐘,大學生把海航告了

      提前起飛10分鐘,大學生把海航告了

      中國新聞周刊
      2026-04-24 18:21:10
      61歲何智麗現狀:從日本回老家上海,與老友聚餐,面色紅潤沒發福

      61歲何智麗現狀:從日本回老家上海,與老友聚餐,面色紅潤沒發福

      以茶帶書
      2026-04-14 14:09:22
      5月19日,賴清德面臨彈劾投票

      5月19日,賴清德面臨彈劾投票

      樞密院十號
      2026-04-24 20:15:04
      2026-04-25 03:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12852文章數 142635關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4牽手華為,價格依然"屠夫級"

      頭條要聞

      歐盟公布制裁中國企業和個人名單 中方回應

      頭條要聞

      歐盟公布制裁中國企業和個人名單 中方回應

      體育要聞

      上海男籃23連勝+主場全勝 姚明之后最強一季

      娛樂要聞

      停工16個月!趙露思證實接拍新劇

      財經要聞

      LG財閥內斗:百億美元商業帝國爭奪戰

      汽車要聞

      零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

      態度原創

      健康
      游戲
      教育
      數碼
      公開課

      干細胞如何讓燒燙傷皮膚"再生"?

      《光與影:33號遠征隊》發售一周年 銷量破800萬

      教育要聞

      帝國理工IC相當于國內什么大學?

      數碼要聞

      蘋果繼續拓展賽道!換帥后將進軍新品類?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 99久久人妻无码精品系列蜜桃 | 精品无码久久久久国产电影| 色噜噜亚洲男人的天堂| 99精品国产一区二区三区| 绵阳市| 国产精品久久久久久久久人妻| 久久99免费麻辣视频| 人妻少妇精品性色av蜜桃| 国产精品无码素人福利不卡| 天堂亚洲国产中文在线| 成年午夜性影院| 欧韩一区| 九九热爱视频精品| a4yy私人毛片| 国语自产少妇精品视频蜜桃| 99久久精品免费看国产电影| 亚洲av色在线播放一区| 国产乱人伦av在线a麻豆| 正阳县| 国产欧美精品区一区二区三区| 成人网站18禁| 国内综合精品午夜久久资源| 中文字幕无码传媒| 白丝精品一区二区三区| 国产日韩精品视频无码| 最新国产麻豆AⅤ精品无码| 新狼窝色av性久久久久久 | www.亚洲555久久久| 天天做天天爱天天高潮| 国产精品任我爽爆在线播放6080| 手机永久无码国产av毛片| 免费看无码自慰一区二区| 免费看美女毛片| 欧美乱妇狂野欧美在线视频| 亚洲无线国产观看| 东京热一本无码av| 成人精品18| 欧美性大战久久久久久| 国产一区二区波多野结衣| 婷婷99狠狠躁天天躁| 中文字幕亚洲二|