<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      VFMTok: Visual Foundation Models驅動的Tokenizer時代來臨

      0
      分享至



      視覺 Tokenizer 的困境與破局

      近年來,自回歸(Autoregressive, AR)模型在語言生成領域的成功激發了其在圖像生成領域的應用,涌現出 DALL-E、Parti、VAR 和 LlamaGen 等代表性工作。這類技術高度依賴于 VQGAN 等視覺 Tokenizer,它負責將高維、冗余的像素空間映射到一個低維、緊湊的離散潛在空間,是決定生成模型上限的基石。

      然而,以 VQGAN 為代表的傳統 Tokenizer 通常需要從零開始訓練,其訓練目標由像素級重建損失函數主導,導致其產生的潛在空間:

      1. 富含低層細節特征卻缺乏高層語義信息:能很好地還原圖像細節,但潛在編碼本身缺乏高層語義信息。
      2. 較高的潛在空間冗余:VAGAN 基于圖像塊 (patch) 逐一進行量化,而圖像中的物體通常是不規則的區域,基于圖像塊的量化降低了 tokens 的編碼效率。
      3. 無視結構特性的表征:潛在空間的組織較為混亂,使得生成模型不僅需要更長的訓練時間來學習其潛在空間分布,而且往往得借助 CFG(Classifier-Free Guidance, CFG)等技巧來實現高保真度的圖像生成,增加了模型推理時間。

      與此同時,預訓練的視覺基礎模型(Visual Foundation Models, VFMs),如 CLIP、DINOv2、SigLIP2 等,在提取豐富語義且可泛化視覺特征方面表現出了強大的能力。這些模型通過自監督或語言監督的方式進行訓練,它們能夠有效抽象出圖像中的高層語義信息,因此這些預訓練的視覺基礎模型大多應用于圖像內容理解任務當中。直接將其應用于圖像重建和生成任務上卻鮮有人探索。

      基于此,香港大學 CVMI Lab 和階躍星辰 AIGC 團隊提出一個大膽假設:原本為視覺理解任務設計的預訓練視覺基礎模型,其潛在特征是否也能直接作為圖像重建與生成的魯棒結構化表征?

      為了驗證這一猜想,我們探索了一個基礎視覺模型新的應用新方向:用凍結的預訓練視覺基礎模型構造離散的視覺 Tokenizer,將其應用于圖像重建和自回歸圖像生成任務上。

      我們發現,相比于傳統的視覺 Tokenizer 模型,視覺基礎模型驅動的圖像 Tokenizer 在這兩項任務上均表現出優異的性能。



      • 論文標題: Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation
      • 論文地址: https://arxiv.org/pdf/2507.08441
      • Huggingface: https://huggingface.co/papers/2507.08441
      • Github:
      • https://github.com/CVMI-Lab/VFMTok.git (Vanilla version)
      • https://github.com/CVMI-Lab/VFMTok-RAR.git (Ultra version)

      探索性發現

      為了驗證視覺基礎模型 (VFMs) 能否構造高質量的視覺 Tokenizer,我們首次嘗試使用不同的凍結的預訓練基礎視覺模型 (VFMs) 提取圖像特征,將其送入 VQGAN 的編碼器中進行端到端訓練。訓練階段只有量化器(quantilizer)和解碼器中的參數會進行更新,隨后用它完成自回歸圖像生成任務。

      實驗表明:凍結的視覺基礎模型 (VFMs) 提取的圖像特征可以直接用于圖像重建,且訓練好的視覺 Tokenizer 在自回歸圖像生成任務上的表現優于傳統的視覺 Tokenizer 模型。

      這一發現凸顯了預訓練視覺基礎模型 (VFMs) 構造高質量視覺 Tokenizer 的巨大潛力。



      核心思想

      基于我們的探索性發現:凍結的視覺基礎模型 (VFMs) 可以直接構造高質量的視覺 Tokenizer 并進行端到端地訓練,我們對構造的視覺 Tokenizer 的結構進行進一步的優化 —— 利用視覺基礎模型 (VFMs)提取圖像的多層特征 (Multi-level Features Extraction),這有助于同時捕獲圖像中的低層細節特征和高層語義信息。

      同時,我們注意到現有的量化機制 (quantization) 都是對圖像塊 (patch) 逐一量化,而圖像中物體一般都是形狀不規則的,因此我們設計了區域自適應的量化 (Region-Adaptive Quantization) 方案。該方案可以進一步降低潛在特征空間的冗余度,提高視覺 tokens 的利用效率。

      此外,因為視覺基礎模型的參數是凍結的,因此在重建圖像內容的同時,我們也設計了語義特征重建的目標函數 (Semantic Reconstruction Objective),來提升視覺 Tokenizer 的語義保真度。我們將基于視覺基礎模型 (VFMs) 的 Tokenizer 稱之為VFMTok。



      VFMTok 架構圖

      關鍵技術細節

      • 多層圖像特征提取 (Multi-level Features Extraction)

      為了同時捕獲圖像低層細節特征和高層語義信息方便圖像重建,VFMTok 采用凍結的預訓練的視覺基礎模型 (VFMs) 作為編碼器提取多層級語義特征。VFMTok 按照等間隔的方式從預訓練基礎模型 (VFMs) 中提取多層特征 (multi-level features)。

      • 區域自適應量化 (Region-Adaptive Quantization)

      為了實現區域自適應量化 (Region-Adaptive Quantization) 機制,VFMTok 通過可學習「錨點查詢」(Anchor Queries)結合可變形注意力機制(Deformable Attention)自適應地從多層級特征 (multi-level features) 中進行區域自適應的特征采樣 (Region-Adaptive Sampling)。

      這種方式能聚焦于采樣圖像中模式一致的區域。隨后,VFMToks 對可學習「錨點查詢」(Anchor Queries)進行量化 (quantization)。這種方式可以有效提升 token 的利用效率 —— 用更少的 tokens(256)來表征一張圖像。



      • 語義重建目標(Semantic Reconstruction Objective)

      因為視覺基礎模型在 Tokenizer 的訓練階段參數是凍結的,因此 VFMTok 在重建圖像的同時,也會重建凍結的基礎模型(VFM)最后一層的語義特征。

      為了實現這一點,VFMTok 解碼階段設計了一個共享的輕量級 Vision Transformer(ViT)。這個 ViT 接收區域自適應量化后的 tokens,結合一個可學習的 mask token 以及一組可學習的位置編碼(Positional Embedding)作為輸入,分別產生用于圖像重建和語義重建的特征。共享 ViT 的設計既減少了參數量又保證了語義保真度。其雙重目標函數是:





      訓練完成后,VFMTok 可以被應用于圖像自適應回歸任務上,基于 next-token prediction 的方式生成高質量的圖像內容。

      實驗亮點與分析

      1.卓越的重建生成質量與效率

      大量實驗表明,基于視覺基礎模型 (VFMs) 構造的視覺 Tokenizer——VFMTok,具備高質量、高效率的圖像重建和自回歸圖像生成能力。

      • 更好的圖像重建質量:相較于傳統的視覺 Tokenizer,VFMTok 可以用更少的 token 數量(僅用 256 個)實現更優的重建質量(0.89 rFID, 215.4 rIS)和更高的碼本利用率 (100%),超越了之前大部分傳統的離散 Tokenizers。



      • 更快的生成訓練收斂速度:相比于經典的 VQGAN 這類 Tokenizer,VFMTok 能夠顯著提升自回歸模型訓練階段的收斂速度 ——訓練收斂速度提升了 3 倍。



      • 更好的生成性能:在 ImageNet 256x256 的 class-to-image 生成任務上,VFMTok-1.4B 模型在參數量更少、訓練迭代次數更少的情況下,自回歸生成性能超越了同類 LlamaGen-3B。此外,在接入更好的自回歸圖像生成框架 RAR 后,實現了SOTA 的圖像生成性能(gFID: 1.36)。



      • CFG-free 優越性:值得注意的是,VFMTok 在有無 CFG 的情況下性能幾乎一致(gFID: 2.07 vs 2.04),而 LlamaGen 則會從 2.19 急劇惡化至 9.38。這證明了其潛在空間具有極強的語義一致性,無需 CFG 即可實現高保真度的 class-to-image 圖像生成,可以進一步減少圖像生成時間。
      • 更快的推理速度:由于 tokens 數量減半(256 vs. 576),自回歸模型的生成過程長度減半,推理速度因此獲得了約 4 倍的提升。

      2.消融實驗的有力證明

      僅使用凍結的 VFM 作為編碼器,線性探針準確率(linear probing)就從 VQGAN 的 23.1% 提升至56.4%。引入區域自適應量化 (Region-Adaptive Quantization) 和語義特征重建 (Semantic Reconstruction Objective) 后,VFMTok 僅用 256 個 Token 就能在重建質量(rFID 0.89 vs 0.95) 上全面超越使用 576 個 Token 的 VQGAN 基線 Tokenizer。



      總結與展望

      VFMTok 首次證明了凍結的視覺基礎模型 (VFMs) 提取的圖像特征能有效用于圖像重建與生成,同時可以提升 Tokenizer 語義表征能力,使自回歸 (AR) 圖像生成模型收斂更快,并能實現 CFG-free 的高保真圖像合成。VFMTok 提出的區域自適應量化機制,通過有效利用圖像區域的固有冗余實現緊湊編碼,在減少視覺 token 數量的同時提升性能,實現高效且高質量的自回歸圖像生成。

      大量實驗驗證了 VFMTok 在圖像重建和自回歸生成中的有效性,確立了預訓練視覺基礎模型 (VFMs) 構造高質量、高效率 Tokenizer 的主導地位。

      由此可見,利用 VFM 的先驗知識是構建高質量潛在空間的必由之路,也是構建下一代 Tokenizer 的關鍵,這比任何從零開始的正則化或約束都更根本、更有效。預訓練視覺基礎模型的巨大潛力值得我們在未來深入挖掘,最終可能探索出一個能夠有效兼容所有生成模型的、語義豐富、高質高效的「統一 Tokenizer」。

      VFMTok 論文與代碼均已公開,歡迎感興趣的同學閱讀、復現以及深入討論。

      作者介紹

      本文作者主要來自于香港大學 CVMI Lab 和階躍星辰 AIGC 團隊。階躍星辰 AIGC 團隊主要致力于圖像生成底模、圖像編輯底模、世界模型以及 RL 后訓練研究和落地。歡迎志同道合的同學交流和加入,一起為 AIGC 社區貢獻力量。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      近期“熱播劇”排個名:大生意人第3,風與潮第6,第一殺瘋了!

      近期“熱播劇”排個名:大生意人第3,風與潮第6,第一殺瘋了!

      頂流八卦大明星
      2025-12-16 15:18:25
      跑圈公認張水華不具備職業運動員實力,白巖松言論缺乏馬拉松常識

      跑圈公認張水華不具備職業運動員實力,白巖松言論缺乏馬拉松常識

      楊華評論
      2025-12-16 03:01:54
      好苗子!19歲小將年薪僅40萬,曾韌帶斷裂,如今場均16分4助攻

      好苗子!19歲小將年薪僅40萬,曾韌帶斷裂,如今場均16分4助攻

      金山話體育
      2025-12-17 09:21:37
      四川退休人員1088萬人,共發放3982.7億養老金,人均養老金多少?

      四川退休人員1088萬人,共發放3982.7億養老金,人均養老金多少?

      云鵬敘事
      2025-12-17 08:16:13
      12架日機攜48彈直撲遼寧艦,美媒直接報喪:被解放軍全面碾壓

      12架日機攜48彈直撲遼寧艦,美媒直接報喪:被解放軍全面碾壓

      星落山間
      2025-12-15 05:10:17
      刺激夜:巴塞羅那2-0晉級,切爾西3-1晉級,埃因霍溫3-0晉級,埃及2-1

      刺激夜:巴塞羅那2-0晉級,切爾西3-1晉級,埃因霍溫3-0晉級,埃及2-1

      側身凌空斬
      2025-12-17 06:32:05
      2025“廣西制造”龍頭:一年營收高達1113億,累計納稅超百億元

      2025“廣西制造”龍頭:一年營收高達1113億,累計納稅超百億元

      柳先說
      2025-12-16 19:47:24
      拿600萬,14投11鐵,攻防都不行,粵蜜:把你時間分一半給家政吧

      拿600萬,14投11鐵,攻防都不行,粵蜜:把你時間分一半給家政吧

      南海浪花
      2025-12-17 09:53:59
      美國著名演員去世!

      美國著名演員去世!

      下水道男孩
      2025-12-14 23:33:39
      韓國劇情電影推薦《媽媽的職業》,關系很亂的一部電影

      韓國劇情電影推薦《媽媽的職業》,關系很亂的一部電影

      東方不敗然多多
      2025-12-15 09:15:30
      鄭愷超市采購被偶遇!39歲身高引熱議,甚至有人猜測其身高不足一米七

      鄭愷超市采購被偶遇!39歲身高引熱議,甚至有人猜測其身高不足一米七

      今古深日報
      2025-12-16 10:52:39
      特朗普政府宣布對40國實施入境限制

      特朗普政府宣布對40國實施入境限制

      新華社
      2025-12-17 05:15:03
      浙江一高速服務區,將關閉15個月!

      浙江一高速服務區,將關閉15個月!

      浙江之聲
      2025-12-16 08:13:05
      馬斯克逆襲哲學:你每天躺著不運動不學習不掙錢,你離完蛋不遠

      馬斯克逆襲哲學:你每天躺著不運動不學習不掙錢,你離完蛋不遠

      杏花煙雨江南的碧園
      2025-10-31 16:30:03
      新加坡網友:1個發電量只有中國50%的國家,卻堅信能永遠世界第一

      新加坡網友:1個發電量只有中國50%的國家,卻堅信能永遠世界第一

      詩意世界
      2025-12-16 10:00:03
      去新西蘭前,我把家里網絡斷了,第5天樓下鄰居打電話質問我

      去新西蘭前,我把家里網絡斷了,第5天樓下鄰居打電話質問我

      小秋情感說
      2025-12-03 14:48:31
      為什么天庭寧愿花500年教化孫悟空,也不愿直接派哪吒去取經

      為什么天庭寧愿花500年教化孫悟空,也不愿直接派哪吒去取經

      另子維愛讀史
      2025-12-16 16:55:42
      孩子用水銀體溫計測水溫爆炸,媽媽一口喝下水銀水,醫生:不用治

      孩子用水銀體溫計測水溫爆炸,媽媽一口喝下水銀水,醫生:不用治

      戶外釣魚哥阿勇
      2025-12-16 00:36:11
      頂著30國壓力,中方拒不放人,黎智英已遭裁決,28天后還有場硬仗

      頂著30國壓力,中方拒不放人,黎智英已遭裁決,28天后還有場硬仗

      標體
      2025-12-16 13:11:15
      馬英九的身份大揭秘:外祖父是軍統行動處長,自己竟也是情報頭子

      馬英九的身份大揭秘:外祖父是軍統行動處長,自己竟也是情報頭子

      小lu侃侃而談
      2025-12-16 19:40:11
      2025-12-17 10:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11935文章數 142511關注度
      往期回顧 全部

      科技要聞

      無人駕駛邁關鍵一步 特斯拉股價觸歷史新高

      頭條要聞

      牛彈琴:特朗普下狠手BBC面臨生死存亡 英國人急壞了

      頭條要聞

      牛彈琴:特朗普下狠手BBC面臨生死存亡 英國人急壞了

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      鞠婧祎收入曝光,絲芭稱已支付1.3億

      財經要聞

      "祥源系"爆雷 有投資者數百萬元無法提現

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      旅游
      手機
      教育
      時尚
      本地

      旅游要聞

      江西南昌:冬日杉景醉游人

      手機要聞

      消息稱小米17 Ultra徠卡特別版手機啟用雙品牌

      教育要聞

      很多人瞧不上高校行政,其實它是“金餑餑” ,很多人不知道

      那些被稱贊 “老得慢” 的阿姨們,這樣穿,比同齡人顯年輕

      本地新聞

      云游安徽|踏過戰壕與石板,讀一部活的淮北史

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩伊在线| 国产人妻aⅴ色偷| 国产精品久久久久无码网站| 淫色综合网| 永昌县| 大陆熟妇丰满多毛xxxⅹ| 无码gogo大胆啪啪艺术| 国产欧美另类久久久精品丝瓜| 亚洲最大的成人网| 亚洲成人在线网站| 九九热爱视频精品| 好吊妞无缓冲视频观看| 亚洲精品一区二区三区四区乱码 | 亚洲性网| 色欲色香天天天综| 无码人妻精品一区二区三| 亚洲∧v久久久无码精品| 91新视频| 咸丰县| 欧美黑人粗暴多交高潮水最多| 国产精品美女一区二区视频| 99人妻| 金坛市| 在线亚洲+欧美+日本专区| 熟妇人妻av中文字幕老熟妇 | 午夜精品一区二区三区在线视频| 精品人妻一区二区三区四区在线| 一区二区三区精品偷拍| 国产制服丝袜在线播放| 中文字幕人妻熟女人妻a?6| 少妇人妻系列无码专区视频| 7777精品久久久大香线蕉| 中文字幕制服丝袜| 国产成人精品亚洲精品色欲| 国产成人久久婷婷精品流白浆| 国产一区二区三区免费观看| 久久熟妇| 毛葺葺老太做受视频| 韩国三级a视频在线观看| 风韵丰满妇啪啪区老老熟女杏吧| 爽妇综合网|