<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      VFMTok: Visual Foundation Models驅(qū)動(dòng)的Tokenizer時(shí)代來(lái)臨

      0
      分享至



      視覺(jué) Tokenizer 的困境與破局

      近年來(lái),自回歸(Autoregressive, AR)模型在語(yǔ)言生成領(lǐng)域的成功激發(fā)了其在圖像生成領(lǐng)域的應(yīng)用,涌現(xiàn)出 DALL-E、Parti、VAR 和 LlamaGen 等代表性工作。這類技術(shù)高度依賴于 VQGAN 等視覺(jué) Tokenizer,它負(fù)責(zé)將高維、冗余的像素空間映射到一個(gè)低維、緊湊的離散潛在空間,是決定生成模型上限的基石。

      然而,以 VQGAN 為代表的傳統(tǒng) Tokenizer 通常需要從零開(kāi)始訓(xùn)練,其訓(xùn)練目標(biāo)由像素級(jí)重建損失函數(shù)主導(dǎo),導(dǎo)致其產(chǎn)生的潛在空間:

      1. 富含低層細(xì)節(jié)特征卻缺乏高層語(yǔ)義信息:能很好地還原圖像細(xì)節(jié),但潛在編碼本身缺乏高層語(yǔ)義信息。
      2. 較高的潛在空間冗余:VAGAN 基于圖像塊 (patch) 逐一進(jìn)行量化,而圖像中的物體通常是不規(guī)則的區(qū)域,基于圖像塊的量化降低了 tokens 的編碼效率。
      3. 無(wú)視結(jié)構(gòu)特性的表征:潛在空間的組織較為混亂,使得生成模型不僅需要更長(zhǎng)的訓(xùn)練時(shí)間來(lái)學(xué)習(xí)其潛在空間分布,而且往往得借助 CFG(Classifier-Free Guidance, CFG)等技巧來(lái)實(shí)現(xiàn)高保真度的圖像生成,增加了模型推理時(shí)間。

      與此同時(shí),預(yù)訓(xùn)練的視覺(jué)基礎(chǔ)模型(Visual Foundation Models, VFMs),如 CLIP、DINOv2、SigLIP2 等,在提取豐富語(yǔ)義且可泛化視覺(jué)特征方面表現(xiàn)出了強(qiáng)大的能力。這些模型通過(guò)自監(jiān)督或語(yǔ)言監(jiān)督的方式進(jìn)行訓(xùn)練,它們能夠有效抽象出圖像中的高層語(yǔ)義信息,因此這些預(yù)訓(xùn)練的視覺(jué)基礎(chǔ)模型大多應(yīng)用于圖像內(nèi)容理解任務(wù)當(dāng)中。直接將其應(yīng)用于圖像重建和生成任務(wù)上卻鮮有人探索。

      基于此,香港大學(xué) CVMI Lab 和階躍星辰 AIGC 團(tuán)隊(duì)提出一個(gè)大膽假設(shè):原本為視覺(jué)理解任務(wù)設(shè)計(jì)的預(yù)訓(xùn)練視覺(jué)基礎(chǔ)模型,其潛在特征是否也能直接作為圖像重建與生成的魯棒結(jié)構(gòu)化表征?

      為了驗(yàn)證這一猜想,我們探索了一個(gè)基礎(chǔ)視覺(jué)模型新的應(yīng)用新方向:用凍結(jié)的預(yù)訓(xùn)練視覺(jué)基礎(chǔ)模型構(gòu)造離散的視覺(jué) Tokenizer,將其應(yīng)用于圖像重建和自回歸圖像生成任務(wù)上。

      我們發(fā)現(xiàn),相比于傳統(tǒng)的視覺(jué) Tokenizer 模型,視覺(jué)基礎(chǔ)模型驅(qū)動(dòng)的圖像 Tokenizer 在這兩項(xiàng)任務(wù)上均表現(xiàn)出優(yōu)異的性能。



      • 論文標(biāo)題: Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation
      • 論文地址: https://arxiv.org/pdf/2507.08441
      • Huggingface: https://huggingface.co/papers/2507.08441
      • Github:
      • https://github.com/CVMI-Lab/VFMTok.git (Vanilla version)
      • https://github.com/CVMI-Lab/VFMTok-RAR.git (Ultra version)

      探索性發(fā)現(xiàn)

      為了驗(yàn)證視覺(jué)基礎(chǔ)模型 (VFMs) 能否構(gòu)造高質(zhì)量的視覺(jué) Tokenizer,我們首次嘗試使用不同的凍結(jié)的預(yù)訓(xùn)練基礎(chǔ)視覺(jué)模型 (VFMs) 提取圖像特征,將其送入 VQGAN 的編碼器中進(jìn)行端到端訓(xùn)練。訓(xùn)練階段只有量化器(quantilizer)和解碼器中的參數(shù)會(huì)進(jìn)行更新,隨后用它完成自回歸圖像生成任務(wù)。

      實(shí)驗(yàn)表明:凍結(jié)的視覺(jué)基礎(chǔ)模型 (VFMs) 提取的圖像特征可以直接用于圖像重建,且訓(xùn)練好的視覺(jué) Tokenizer 在自回歸圖像生成任務(wù)上的表現(xiàn)優(yōu)于傳統(tǒng)的視覺(jué) Tokenizer 模型。

      這一發(fā)現(xiàn)凸顯了預(yù)訓(xùn)練視覺(jué)基礎(chǔ)模型 (VFMs) 構(gòu)造高質(zhì)量視覺(jué) Tokenizer 的巨大潛力。



      核心思想

      基于我們的探索性發(fā)現(xiàn):凍結(jié)的視覺(jué)基礎(chǔ)模型 (VFMs) 可以直接構(gòu)造高質(zhì)量的視覺(jué) Tokenizer 并進(jìn)行端到端地訓(xùn)練,我們對(duì)構(gòu)造的視覺(jué) Tokenizer 的結(jié)構(gòu)進(jìn)行進(jìn)一步的優(yōu)化 —— 利用視覺(jué)基礎(chǔ)模型 (VFMs)提取圖像的多層特征 (Multi-level Features Extraction),這有助于同時(shí)捕獲圖像中的低層細(xì)節(jié)特征和高層語(yǔ)義信息。

      同時(shí),我們注意到現(xiàn)有的量化機(jī)制 (quantization) 都是對(duì)圖像塊 (patch) 逐一量化,而圖像中物體一般都是形狀不規(guī)則的,因此我們?cè)O(shè)計(jì)了區(qū)域自適應(yīng)的量化 (Region-Adaptive Quantization) 方案。該方案可以進(jìn)一步降低潛在特征空間的冗余度,提高視覺(jué) tokens 的利用效率。

      此外,因?yàn)橐曈X(jué)基礎(chǔ)模型的參數(shù)是凍結(jié)的,因此在重建圖像內(nèi)容的同時(shí),我們也設(shè)計(jì)了語(yǔ)義特征重建的目標(biāo)函數(shù) (Semantic Reconstruction Objective),來(lái)提升視覺(jué) Tokenizer 的語(yǔ)義保真度。我們將基于視覺(jué)基礎(chǔ)模型 (VFMs) 的 Tokenizer 稱之為VFMTok。



      VFMTok 架構(gòu)圖

      關(guān)鍵技術(shù)細(xì)節(jié)

      • 多層圖像特征提取 (Multi-level Features Extraction)

      為了同時(shí)捕獲圖像低層細(xì)節(jié)特征和高層語(yǔ)義信息方便圖像重建,VFMTok 采用凍結(jié)的預(yù)訓(xùn)練的視覺(jué)基礎(chǔ)模型 (VFMs) 作為編碼器提取多層級(jí)語(yǔ)義特征。VFMTok 按照等間隔的方式從預(yù)訓(xùn)練基礎(chǔ)模型 (VFMs) 中提取多層特征 (multi-level features)。

      • 區(qū)域自適應(yīng)量化 (Region-Adaptive Quantization)

      為了實(shí)現(xiàn)區(qū)域自適應(yīng)量化 (Region-Adaptive Quantization) 機(jī)制,VFMTok 通過(guò)可學(xué)習(xí)「錨點(diǎn)查詢」(Anchor Queries)結(jié)合可變形注意力機(jī)制(Deformable Attention)自適應(yīng)地從多層級(jí)特征 (multi-level features) 中進(jìn)行區(qū)域自適應(yīng)的特征采樣 (Region-Adaptive Sampling)。

      這種方式能聚焦于采樣圖像中模式一致的區(qū)域。隨后,VFMToks 對(duì)可學(xué)習(xí)「錨點(diǎn)查詢」(Anchor Queries)進(jìn)行量化 (quantization)。這種方式可以有效提升 token 的利用效率 —— 用更少的 tokens(256)來(lái)表征一張圖像。



      • 語(yǔ)義重建目標(biāo)(Semantic Reconstruction Objective)

      因?yàn)橐曈X(jué)基礎(chǔ)模型在 Tokenizer 的訓(xùn)練階段參數(shù)是凍結(jié)的,因此 VFMTok 在重建圖像的同時(shí),也會(huì)重建凍結(jié)的基礎(chǔ)模型(VFM)最后一層的語(yǔ)義特征。

      為了實(shí)現(xiàn)這一點(diǎn),VFMTok 解碼階段設(shè)計(jì)了一個(gè)共享的輕量級(jí) Vision Transformer(ViT)。這個(gè) ViT 接收區(qū)域自適應(yīng)量化后的 tokens,結(jié)合一個(gè)可學(xué)習(xí)的 mask token 以及一組可學(xué)習(xí)的位置編碼(Positional Embedding)作為輸入,分別產(chǎn)生用于圖像重建和語(yǔ)義重建的特征。共享 ViT 的設(shè)計(jì)既減少了參數(shù)量又保證了語(yǔ)義保真度。其雙重目標(biāo)函數(shù)是:





      訓(xùn)練完成后,VFMTok 可以被應(yīng)用于圖像自適應(yīng)回歸任務(wù)上,基于 next-token prediction 的方式生成高質(zhì)量的圖像內(nèi)容。

      實(shí)驗(yàn)亮點(diǎn)與分析

      1.卓越的重建生成質(zhì)量與效率

      大量實(shí)驗(yàn)表明,基于視覺(jué)基礎(chǔ)模型 (VFMs) 構(gòu)造的視覺(jué) Tokenizer——VFMTok,具備高質(zhì)量、高效率的圖像重建和自回歸圖像生成能力。

      • 更好的圖像重建質(zhì)量:相較于傳統(tǒng)的視覺(jué) Tokenizer,VFMTok 可以用更少的 token 數(shù)量(僅用 256 個(gè))實(shí)現(xiàn)更優(yōu)的重建質(zhì)量(0.89 rFID, 215.4 rIS)和更高的碼本利用率 (100%),超越了之前大部分傳統(tǒng)的離散 Tokenizers。



      • 更快的生成訓(xùn)練收斂速度:相比于經(jīng)典的 VQGAN 這類 Tokenizer,VFMTok 能夠顯著提升自回歸模型訓(xùn)練階段的收斂速度 ——訓(xùn)練收斂速度提升了 3 倍。



      • 更好的生成性能:在 ImageNet 256x256 的 class-to-image 生成任務(wù)上,VFMTok-1.4B 模型在參數(shù)量更少、訓(xùn)練迭代次數(shù)更少的情況下,自回歸生成性能超越了同類 LlamaGen-3B。此外,在接入更好的自回歸圖像生成框架 RAR 后,實(shí)現(xiàn)了SOTA 的圖像生成性能(gFID: 1.36)。



      • CFG-free 優(yōu)越性:值得注意的是,VFMTok 在有無(wú) CFG 的情況下性能幾乎一致(gFID: 2.07 vs 2.04),而 LlamaGen 則會(huì)從 2.19 急劇惡化至 9.38。這證明了其潛在空間具有極強(qiáng)的語(yǔ)義一致性,無(wú)需 CFG 即可實(shí)現(xiàn)高保真度的 class-to-image 圖像生成,可以進(jìn)一步減少圖像生成時(shí)間。
      • 更快的推理速度:由于 tokens 數(shù)量減半(256 vs. 576),自回歸模型的生成過(guò)程長(zhǎng)度減半,推理速度因此獲得了約 4 倍的提升。

      2.消融實(shí)驗(yàn)的有力證明

      僅使用凍結(jié)的 VFM 作為編碼器,線性探針準(zhǔn)確率(linear probing)就從 VQGAN 的 23.1% 提升至56.4%。引入?yún)^(qū)域自適應(yīng)量化 (Region-Adaptive Quantization) 和語(yǔ)義特征重建 (Semantic Reconstruction Objective) 后,VFMTok 僅用 256 個(gè) Token 就能在重建質(zhì)量(rFID 0.89 vs 0.95) 上全面超越使用 576 個(gè) Token 的 VQGAN 基線 Tokenizer。



      總結(jié)與展望

      VFMTok 首次證明了凍結(jié)的視覺(jué)基礎(chǔ)模型 (VFMs) 提取的圖像特征能有效用于圖像重建與生成,同時(shí)可以提升 Tokenizer 語(yǔ)義表征能力,使自回歸 (AR) 圖像生成模型收斂更快,并能實(shí)現(xiàn) CFG-free 的高保真圖像合成。VFMTok 提出的區(qū)域自適應(yīng)量化機(jī)制,通過(guò)有效利用圖像區(qū)域的固有冗余實(shí)現(xiàn)緊湊編碼,在減少視覺(jué) token 數(shù)量的同時(shí)提升性能,實(shí)現(xiàn)高效且高質(zhì)量的自回歸圖像生成。

      大量實(shí)驗(yàn)驗(yàn)證了 VFMTok 在圖像重建和自回歸生成中的有效性,確立了預(yù)訓(xùn)練視覺(jué)基礎(chǔ)模型 (VFMs) 構(gòu)造高質(zhì)量、高效率 Tokenizer 的主導(dǎo)地位。

      由此可見(jiàn),利用 VFM 的先驗(yàn)知識(shí)是構(gòu)建高質(zhì)量潛在空間的必由之路,也是構(gòu)建下一代 Tokenizer 的關(guān)鍵,這比任何從零開(kāi)始的正則化或約束都更根本、更有效。預(yù)訓(xùn)練視覺(jué)基礎(chǔ)模型的巨大潛力值得我們?cè)谖磥?lái)深入挖掘,最終可能探索出一個(gè)能夠有效兼容所有生成模型的、語(yǔ)義豐富、高質(zhì)高效的「統(tǒng)一 Tokenizer」。

      VFMTok 論文與代碼均已公開(kāi),歡迎感興趣的同學(xué)閱讀、復(fù)現(xiàn)以及深入討論。

      作者介紹

      本文作者主要來(lái)自于香港大學(xué) CVMI Lab 和階躍星辰 AIGC 團(tuán)隊(duì)。階躍星辰 AIGC 團(tuán)隊(duì)主要致力于圖像生成底模、圖像編輯底模、世界模型以及 RL 后訓(xùn)練研究和落地。歡迎志同道合的同學(xué)交流和加入,一起為 AIGC 社區(qū)貢獻(xiàn)力量。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      美國(guó)派16名特工暗殺斯諾登,駐澳特戰(zhàn)隊(duì)擊退CIA,榮獲集體一等功

      美國(guó)派16名特工暗殺斯諾登,駐澳特戰(zhàn)隊(duì)擊退CIA,榮獲集體一等功

      富強(qiáng)巨靠譜
      2025-02-26 09:30:43
      有沒(méi)有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      有沒(méi)有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      夜深愛(ài)雜談
      2026-02-18 20:55:58
      文章上海開(kāi)陜西館子八號(hào)院兒!穿工服端盤子招呼客人,全程微笑

      文章上海開(kāi)陜西館子八號(hào)院兒!穿工服端盤子招呼客人,全程微笑

      觀魚聽(tīng)雨
      2026-04-09 20:06:27
      斯諾克單賽季獎(jiǎng)金榜:趙心童力壓羅伯遜排第1,百萬(wàn)英鎊到手!

      斯諾克單賽季獎(jiǎng)金榜:趙心童力壓羅伯遜排第1,百萬(wàn)英鎊到手!

      劉姚堯的文字城堡
      2026-04-10 09:34:16
      3-1!0-3!瘋狂一夜,維拉掀翻博洛尼亞,塞爾塔慘敗,波爾圖戰(zhàn)平

      3-1!0-3!瘋狂一夜,維拉掀翻博洛尼亞,塞爾塔慘敗,波爾圖戰(zhàn)平

      足球狗說(shuō)
      2026-04-10 05:10:46
      1978年陳麗華丈夫遲重瑞罕見(jiàn)青春珍貴留影

      1978年陳麗華丈夫遲重瑞罕見(jiàn)青春珍貴留影

      荒野老五
      2026-04-08 17:55:21
      掃墓才知道家里有長(zhǎng)輩是餓死的!網(wǎng)友:原來(lái)荒誕的從來(lái)都只是人生

      掃墓才知道家里有長(zhǎng)輩是餓死的!網(wǎng)友:原來(lái)荒誕的從來(lái)都只是人生

      夜深愛(ài)雜談
      2026-04-08 17:04:46
      澳大利亞等7國(guó)發(fā)表聯(lián)合聲明:“以最強(qiáng)烈措辭”譴責(zé)造成聯(lián)合國(guó)維和人員死亡等行徑

      澳大利亞等7國(guó)發(fā)表聯(lián)合聲明:“以最強(qiáng)烈措辭”譴責(zé)造成聯(lián)合國(guó)維和人員死亡等行徑

      環(huán)球網(wǎng)資訊
      2026-04-09 14:51:06
      重磅!佤邦下令:全邦所有化工廠、炸藥廠全面停業(yè)整頓

      重磅!佤邦下令:全邦所有化工廠、炸藥廠全面停業(yè)整頓

      緬甸中文網(wǎng)
      2026-04-09 14:44:17
      廣東3消息!贊助商力撐杜鋒,跟隊(duì)記者披露新大外,焦泊喬新進(jìn)展

      廣東3消息!贊助商力撐杜鋒,跟隊(duì)記者披露新大外,焦泊喬新進(jìn)展

      多特體育說(shuō)
      2026-04-09 23:18:22
      藤蔓,不要再讀téng màn了!丟不起那個(gè)人!

      藤蔓,不要再讀téng màn了!丟不起那個(gè)人!

      未央看點(diǎn)
      2026-04-08 05:50:07
      貝爾湖的歸屬終于有了結(jié)果?歷經(jīng)8年艱苦談判,我國(guó)拿回多少面積

      貝爾湖的歸屬終于有了結(jié)果?歷經(jīng)8年艱苦談判,我國(guó)拿回多少面積

      抽象派大師
      2026-04-09 14:45:59
      原來(lái)她已去世4年,曾穿旗袍滿身帝王綠,300間商鋪345套房隨便住

      原來(lái)她已去世4年,曾穿旗袍滿身帝王綠,300間商鋪345套房隨便住

      混沌錄
      2026-04-09 18:24:16
      作家王朔回應(yīng)“被八旬作家楊本芬抄襲”:只言片語(yǔ)算不上抄襲,老太太挺好的,道歉必須原諒

      作家王朔回應(yīng)“被八旬作家楊本芬抄襲”:只言片語(yǔ)算不上抄襲,老太太挺好的,道歉必須原諒

      極目新聞
      2026-04-09 15:35:29
      世錦賽開(kāi)打,丁俊暉發(fā)長(zhǎng)文引熱議!談到克魯斯堡夢(mèng)想及趙心童奪冠

      世錦賽開(kāi)打,丁俊暉發(fā)長(zhǎng)文引熱議!談到克魯斯堡夢(mèng)想及趙心童奪冠

      小火箭愛(ài)體育
      2026-04-10 09:45:13
      73歲大爺伺候95歲母親12年后哭訴:家有長(zhǎng)壽母親,是我晚年的噩夢(mèng)

      73歲大爺伺候95歲母親12年后哭訴:家有長(zhǎng)壽母親,是我晚年的噩夢(mèng)

      烙任情感
      2026-04-09 09:50:30
      美媒重排2025年選秀:楊瀚森掉出首輪 弗拉格狀元克努佩爾榜眼

      美媒重排2025年選秀:楊瀚森掉出首輪 弗拉格狀元克努佩爾榜眼

      羅說(shuō)NBA
      2026-04-10 05:50:24
      蔣介石孫子召開(kāi)發(fā)布會(huì),提出“兩蔣”移靈大陸,2句話讓世人唏噓

      蔣介石孫子召開(kāi)發(fā)布會(huì),提出“兩蔣”移靈大陸,2句話讓世人唏噓

      老謝談史
      2026-03-18 18:33:35
      電動(dòng)車真實(shí)用車成本曝光:省的電費(fèi)全被車轱轆吃光,看完太真實(shí)了

      電動(dòng)車真實(shí)用車成本曝光:省的電費(fèi)全被車轱轆吃光,看完太真實(shí)了

      復(fù)轉(zhuǎn)這些年
      2026-04-08 13:12:11
      日企最后的堡壘正在崩塌,幾乎被中企逼上絕路,難怪日媒這么絕望

      日企最后的堡壘正在崩塌,幾乎被中企逼上絕路,難怪日媒這么絕望

      小熊侃史
      2026-04-08 07:40:09
      2026-04-10 11:16:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12721文章數(shù) 142621關(guān)注度
      往期回顧 全部

      科技要聞

      程序員驚喜,每月100美元!OpenAI推新套餐

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個(gè)不祥的信號(hào)

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個(gè)不祥的信號(hào)

      體育要聞

      把孫穎莎逼入絕境后,18歲非洲女孩哭著離場(chǎng)

      娛樂(lè)要聞

      夏克立婚內(nèi)出軌 曾參加《爸爸去哪兒》

      財(cái)經(jīng)要聞

      AI短劇"買臉"成風(fēng) 肖像生意成灰色產(chǎn)業(yè)

      汽車要聞

      全新一代理想 L8 五座旗艦+5C增程系統(tǒng) 三季度交付

      態(tài)度原創(chuàng)

      旅游
      本地
      手機(jī)
      公開(kāi)課
      軍事航空

      旅游要聞

      花開(kāi)如雪 云南南華這株古流蘇樹驚艷春天

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

      手機(jī)要聞

      華為最強(qiáng)旗艦來(lái)了!Pura 90系列多地啟動(dòng)盲約:Pro+/Ultra版退場(chǎng)

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      黎真主黨發(fā)射火箭彈 回應(yīng)以違反停火協(xié)議

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版