<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      視覺生成的隱藏天花板|VTP:MiniMax海螺視頻首次開源 · 技術解讀

      0
      分享至

      MiniMax 的視頻向來很頂,但技術上一直是個黑盒

      剛剛,海螺團隊第一次自揭面紗,帶來了首個開源項目:VTP
      Visual Tokenizer Pre-training

      VTP 這東西非常有趣:搞圖像、視頻生成的團隊,或都能因此受益


      Tech Report

      先做個信息鋪墊,現在主流的 AI 生圖模型,底層都是兩步走:

      第一步,壓縮
      把一張圖像壓縮成一組數字,這組數字能代表這張圖的核心信息

      第二步,生成
      AI 在這組數字的空間里做生成,生成完再還原成圖像


      兩階段架構

      其中,負責第一步的模塊,就叫「分詞器」,Tokenizer;負責第二步的,則是擴散模型Diffusion Model

      論文中,發現一個反直覺的現象
      分詞器訓練得越久,還原能力越強,生成效果反而越差
      論文把這個困境叫做預訓練縮放問題


      預訓練縮放問題

      進一步,論文中也發現了
      讓分詞器學會「理解」,比學會「還原」更重要
      論文管這叫理解力驅動生成

      于是,對于分詞器,就有了

      理解力越強,壓出的數字越有意義,擴散模型越容易學,生成效果越好
      問題在哪

      視覺分詞器是怎么訓練的?
      傳統做法,是讓它學「重建」:把圖像壓縮成一組數字,再從這組數字還原回圖像,還原得越接近原圖越好

      這個訓練目標聽起來很合理
      壓縮再還原,損失越小,說明這組數字保留的信息越完整

      但論文做了一組實驗,發現了問題


      訓練越久,重建越好,生成越差

      具體來說,就是,隨著訓練時間增加,模型產生了一些有趣的現象

      重建能力持續變強
      rFID(衡量還原質量,越小越好)從2.0降到0.5

      生成能力持續變差
      gFID(衡量生成質量,越小越好)從55漲到58

      這就是論文定義的「預訓練縮放問題」(Pre-training Scaling Problem):你往視覺分詞器里砸再多算力,也換不來更好的生成效果


      持續投入,并不會帶來顯著結果

      對于做圖像生成、視頻生成的團隊來說,這是個壞消息
      論文數據顯示,傳統方法在總算力的1/10處就開始停滯了
      之后再加算力,生成效果不升反降

      為什么會這樣

      重建任務,讓模型學錯了東西
      論文給出了這樣的解釋

      當視覺分詞器學習「還原像素」時,它會把注意力放在「底層信息」上:
      邊緣在哪紋理是什么樣顏色的精確數值是多少
      這些信息對于「還原」很重要
      像素級的細節越準確,還原出來的圖像越接近原圖


      底層信息(重建) vs 高層語義(生成)

      但生成的時候,其實需要的不是這些
      生成模型需要的是「高層語義」:
      這張圖里有什么東西是什么場景物體之間是什么關系整體氛圍是什么

      在分詞器被過度訓練后,通過它的到的信息,就會更偏向于「底層信息」,而非「高層語義
      到了生成的時候,,很難從中「理解」圖像應該是什么樣的,效果自然變差

      于是,從結果上,我們就看到了做得越好,效果越差
      (像不像辦公室里,讓你加班改細節的老板)


      理解力與生成質量的關系

      可以看一下這個圖,是論文的核心發現
      對于傳統自編碼器,理解力和生成質量都卡在左下角,增加訓練量也不動
      對于 VTP(紅色點),理解力越強,生成質量越好,持續往右上角走

      綜上:理解力才是驅動生成的關鍵因素

      怎么解決

      既然問題定位到了:分詞器學偏了
      那么,解決方案也很清晰:讓分詞器學全
      一邊學重建,一邊學理解

      VTP 正式這個思路
      把三種訓練目標合在一起,聯合優化

      其一、圖文對比學習

      圖文對比學習這一過程中,VTP 采用 CLIP 的訓練方式

      大致是這樣 給模型看大量的「圖像 + 文字描述」配對數據,讓圖像壓縮出來的數字表示和對應文字的數字表示靠近

      比如,給一張狗的照片,壓縮后的數字表示要和「一只金毛犬在草地上奔跑」這句話的數字表示相似


      圖文對比學習

      這樣視覺分詞器在壓縮圖像時,就會保留語義信息,知道這張圖「是什么」

      其二、感知空間結構

      感知空間結構中,VTP 采用 DINOv2 的訓練方式,具體包括兩類任務

      第一類:
      遮住圖像的一部分,讓模型預測被遮住的內容
      這迫使模型理解圖像的整體結構,而不是只記住局部像素

      第二類
      是對同一張圖像做不同的裁剪和變換,讓模型輸出的表示保持一致

      這樣,模型就會被迫使著學習圖像的本質特征,而不是被具體的像素值干擾


      通過自監督,學習空間結構其三、像素重建

      上面說了,要一邊學重建,一邊學理解
      所以,傳統的還原任務不能完全丟掉,但權重要調低

      論文發現,把重建任務的損失權重設成0.1,對生成效果最好
      (相比而言,理解任務的權重為1.0


      權重需要調整

      至此,把這三個目標聯合訓練,讓視覺分詞器同時具備三種能力
      理解圖像內容感知空間結構保留像素細節


      就這樣,VTP 有了三種能力

      額外的,VTP 用的是 Vision Transformer(ViT),不是傳統的 CNN
      實驗數據顯示,ViT 架構在同等配置下生成效果更好,計算量還更低

      還有一個有關于 batch size 的細節
      不同訓練任務,對 batch size 的需求差異很大:

      • ? 圖文對比學習需要很大的 batch(16k

      • ? 自監督和重建任務用小 batch 就夠(4k2k


      對于 batch 這個問題,解決方法是這樣:
      每個 batch 里,全部樣本用于圖文對比學習,隨機抽取一部分用于自監督和重建

      效果如何

      論文做了大量對比實驗,從三個維度驗證 VTP 的效果

      維度一:理解、重建、生成的關系

      先看下對比吧

      純重建訓練:越練越差


      重建越好、生成越差

      隨著訓練時間增加:

      • ? 重建能力持續變強:rFID2.07降到0.51

      • ? 生成能力反而變差:gFID55.04漲到58.56

      加入理解任務:三項全漲


      CLIP+SSL+AE 聯合訓練

      用 CLIP + SSL + 重建 聯合訓練后:

      • ? 生成能力大幅提升:gFID降到27.8

      • ? 理解能力同步提升:Linear Probe 達到74.9%

      • ? 重建能力也沒掉:rFID降到0.36

      三種能力不沖突,可以同時提升

      維度二:縮放特性

      傳統方法存在天花板,VTP 則打破了這個天花板


      縮放特性對比:算力、參數、數據

      數據縮放

      • ? 傳統自編碼器:訓練數據從 10 萬張擴到 1 億張,gFID只從58.37降到56.71

      • ? VTP:同樣的數據擴展,gFID47.59降到27.45

      算力縮放

      • ? 傳統自編碼器:算力增加到1/10處就停滯,之后gFID不降反升

      • ? VTP:算力增加10倍,gFID提升65.8%,曲線仍在下降

      參數縮放

      • ? 傳統自編碼器:模型從20M參數擴到300M參數,gFID卡在57不動

      • ? VTP:模型從 Small 到 Large,gFID31.28降到26.12

      這意味著:在視覺分詞器階段投入更多資源,終于能換來持續的回報了

      維度三:與現有方法對比VTP 與主流方案的效果對比

      • ? VTP-L 在理解能力上超過了原版 CLIP(78.2%vs75.5%

      • ? 在重建能力上超過了 Stable Diffusion 的 VAE(rFID 0.36vs0.63

      • ? 在生成能力上超過了此前的改進方法 VA-VAE(gFID 2.81vs4.29

      收斂速度方面:

      • ? 比 VA-VAE 快4.1 倍

      • ? 比原版 LDM 快5.7 倍

      收斂速度 最后

      MiniMax 的視頻能力很能打,實屬第一梯隊,但技術上幾乎不對外

      而 MiniMax 這次的開源,選了視覺分詞器這個方向,去嘗試解決一個行業里很多人遇到過、但沒人系統解釋過的問題:
      為什么分詞器訓得越好,生成效果反而沒提升

      過去一年的動作看,隔段時間,總能掏出點新東西

      論文
      https://huggingface.co/papers/2512.13687

      模型
      https://huggingface.co/collections/MiniMaxAI/vtp

      代碼
      https://github.com/MiniMax-AI/VTP

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      戲子誤國!2026年剛開年,就有3位明星相繼塌房,個個荒唐

      戲子誤國!2026年剛開年,就有3位明星相繼塌房,個個荒唐

      不似少年游
      2026-02-24 19:24:23
      10連勝,8勝1負!NBA戰力最強+豪門終結者,你們真有奪冠的實力

      10連勝,8勝1負!NBA戰力最強+豪門終結者,你們真有奪冠的實力

      毒舌NBA
      2026-02-26 12:42:34
      72歲大媽對98歲母親哭訴:雖然你退休金7000,但你還是早點離開吧

      72歲大媽對98歲母親哭訴:雖然你退休金7000,但你還是早點離開吧

      烙任情感
      2026-02-25 10:46:36
      西媒:西班牙隊決定不與國足熱身 世界第一選擇交手伊拉克

      西媒:西班牙隊決定不與國足熱身 世界第一選擇交手伊拉克

      新英體育
      2026-02-26 10:55:21
      被教練性侵27次,你以為她是什么純潔的白蓮花?攻和受都是邪惡

      被教練性侵27次,你以為她是什么純潔的白蓮花?攻和受都是邪惡

      我心縱橫天地間
      2026-02-24 08:52:19
      馬斯克再甩 “王炸”:SpaceX 真能重塑 “太空經濟學”?

      馬斯克再甩 “王炸”:SpaceX 真能重塑 “太空經濟學”?

      鈦媒體APP
      2026-02-25 12:08:07
      汪東興活到了2015年,他對當下中國有何看法?他心里確實有些成見

      汪東興活到了2015年,他對當下中國有何看法?他心里確實有些成見

      明月清風閣
      2026-02-19 07:25:09
      “流水220萬,利潤0” 2026開年多了個新詞——無利潤繁榮

      “流水220萬,利潤0” 2026開年多了個新詞——無利潤繁榮

      餐飲界
      2026-02-13 19:49:19
      體制內情商高能帶來啥意外驚喜?網友:別在地鐵看,別問我為什么

      體制內情商高能帶來啥意外驚喜?網友:別在地鐵看,別問我為什么

      帶你感受人間冷暖
      2026-02-24 01:03:13
      成本19元賣300元!又一騙局暴雷,專坑老年人,9萬養老錢血本無歸

      成本19元賣300元!又一騙局暴雷,專坑老年人,9萬養老錢血本無歸

      財經八卦
      2026-02-25 22:57:34
      上海滑稽笑星毛猛達,一家4口全端“鐵飯碗”,兒女憑實力爭光

      上海滑稽笑星毛猛達,一家4口全端“鐵飯碗”,兒女憑實力爭光

      白面書誏
      2026-02-19 17:16:58
      美軍想不通:10幾架F16悄摸起飛,連韓國都沒說,解放軍咋會知道

      美軍想不通:10幾架F16悄摸起飛,連韓國都沒說,解放軍咋會知道

      壹知眠羊
      2026-02-23 11:30:46
      “小婉君”金銘45歲現狀:個子太矮事業受挫,住北京豪宅不婚不育

      “小婉君”金銘45歲現狀:個子太矮事業受挫,住北京豪宅不婚不育

      削桐作琴
      2026-01-29 00:03:53
      馬場土拍牌桌眾生相

      馬場土拍牌桌眾生相

      科學發掘
      2026-02-26 05:16:07
      俄羅斯駐聯合國大使當眾表態:我是烏克蘭人

      俄羅斯駐聯合國大使當眾表態:我是烏克蘭人

      阿離家居
      2026-02-26 08:48:14
      行程有變,默茨訪華縮短一天?德國發出警告,中方身份發生變化

      行程有變,默茨訪華縮短一天?德國發出警告,中方身份發生變化

      無情有思ss
      2026-02-25 14:59:41
      華為正式官宣:2月26日,新機全球發布!

      華為正式官宣:2月26日,新機全球發布!

      科技堡壘
      2026-02-25 13:18:13
      抱歉,這不是拍電影,而是性犯罪

      抱歉,這不是拍電影,而是性犯罪

      皮蛋兒電影
      2026-02-13 12:46:22
      3大主力缺陣!騎士2分惜敗雄鹿,誰發揮失常,數據不會說謊

      3大主力缺陣!騎士2分惜敗雄鹿,誰發揮失常,數據不會說謊

      劉剮說體壇
      2026-02-26 11:53:09
      默茨終于到北京,趕在下專機前,德方與日本通電話,高市開門見山

      默茨終于到北京,趕在下專機前,德方與日本通電話,高市開門見山

      李橑在北漂
      2026-02-26 10:53:45
      2026-02-26 13:31:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      302文章數 44關注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

      頭條要聞

      特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財經要聞

      短劇市場風云突變!有人投百萬賠得精光

      汽車要聞

      第五代宏光MINIEV煥新 四門玩趣代步車來襲

      態度原創

      手機
      本地
      房產
      公開課
      軍事航空

      手機要聞

      三星Galaxy S26 Ultra手機支持2400萬像素直出

      本地新聞

      津南好·四時總相宜

      房產要聞

      2.2萬/m2起!三亞主城性價比標桿 海墾·桃花源實景現房春節被瘋搶

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美政府給新伊核協議設限內容遭披露

      無障礙瀏覽 進入關懷版