網易首頁 > 網易號 > 正文申請入駐

視覺生成的隱藏天花板｜VTP：MiniMax海螺視頻首次開源 · 技術解讀

2025-12-19 09:48:18　來源: 賽博禪心

北京舉報

分享至

MiniMax 的視頻向來很頂，但技術上一直是個黑盒

剛剛，海螺團隊第一次自揭面紗，帶來了首個開源項目：VTP
Visual Tokenizer Pre-training

VTP 這東西非常有趣：搞圖像、視頻生成的團隊，或都能因此受益

Tech Report

先做個信息鋪墊，現在主流的 AI 生圖模型，底層都是兩步走：

第一步，壓縮
把一張圖像壓縮成一組數字，這組數字能代表這張圖的核心信息

第二步，生成
AI 在這組數字的空間里做生成，生成完再還原成圖像

兩階段架構

其中，負責第一步的模塊，就叫「分詞器」，Tokenizer；負責第二步的，則是擴散模型Diffusion Model

論文中，發現一個反直覺的現象
分詞器訓練得越久，還原能力越強，生成效果反而越差
論文把這個困境叫做預訓練縮放問題

預訓練縮放問題

進一步，論文中也發現了
讓分詞器學會「理解」，比學會「還原」更重要
論文管這叫理解力驅動生成

于是，對于分詞器，就有了

理解力越強，壓出的數字越有意義，擴散模型越容易學，生成效果越好

問題在哪

視覺分詞器是怎么訓練的？
傳統做法，是讓它學「重建」：把圖像壓縮成一組數字，再從這組數字還原回圖像，還原得越接近原圖越好

這個訓練目標聽起來很合理
壓縮再還原，損失越小，說明這組數字保留的信息越完整

但論文做了一組實驗，發現了問題

訓練越久，重建越好，生成越差

具體來說，就是，隨著訓練時間增加，模型產生了一些有趣的現象

重建能力持續變強
rFID（衡量還原質量，越小越好）從2.0降到0.5

生成能力持續變差
gFID（衡量生成質量，越小越好）從55漲到58

這就是論文定義的「預訓練縮放問題」（Pre-training Scaling Problem）：你往視覺分詞器里砸再多算力，也換不來更好的生成效果

持續投入，并不會帶來顯著結果

對于做圖像生成、視頻生成的團隊來說，這是個壞消息
論文數據顯示，傳統方法在總算力的1/10處就開始停滯了
之后再加算力，生成效果不升反降

為什么會這樣

重建任務，讓模型學錯了東西
論文給出了這樣的解釋

當視覺分詞器學習「還原像素」時，它會把注意力放在「底層信息」上：
邊緣在哪、紋理是什么樣、顏色的精確數值是多少
這些信息對于「還原」很重要
像素級的細節越準確，還原出來的圖像越接近原圖

底層信息（重建） vs 高層語義（生成）

但生成的時候，其實需要的不是這些
生成模型需要的是「高層語義」：
這張圖里有什么東西、是什么場景、物體之間是什么關系、整體氛圍是什么

在分詞器被過度訓練后，通過它的到的信息，就會更偏向于「底層信息」，而非「高層語義」
到了生成的時候，，很難從中「理解」圖像應該是什么樣的，效果自然變差

于是，從結果上，我們就看到了做得越好，效果越差
（像不像辦公室里，讓你加班改細節的老板）

理解力與生成質量的關系

可以看一下這個圖，是論文的核心發現
對于傳統自編碼器，理解力和生成質量都卡在左下角，增加訓練量也不動
對于 VTP（紅色點），理解力越強，生成質量越好，持續往右上角走

綜上：理解力才是驅動生成的關鍵因素

怎么解決

既然問題定位到了：分詞器學偏了
那么，解決方案也很清晰：讓分詞器學全
一邊學重建，一邊學理解

VTP 正式這個思路
把三種訓練目標合在一起，聯合優化

其一、圖文對比學習

在圖文對比學習這一過程中，VTP 采用 CLIP 的訓練方式

大致是這樣給模型看大量的「圖像 + 文字描述」配對數據，讓圖像壓縮出來的數字表示和對應文字的數字表示靠近

比如，給一張狗的照片，壓縮后的數字表示要和「一只金毛犬在草地上奔跑」這句話的數字表示相似

圖文對比學習

這樣視覺分詞器在壓縮圖像時，就會保留語義信息，知道這張圖「是什么」

其二、感知空間結構

在感知空間結構中，VTP 采用 DINOv2 的訓練方式，具體包括兩類任務

第一類：
遮住圖像的一部分，讓模型預測被遮住的內容
這迫使模型理解圖像的整體結構，而不是只記住局部像素

第二類
是對同一張圖像做不同的裁剪和變換，讓模型輸出的表示保持一致

這樣，模型就會被迫使著學習圖像的本質特征，而不是被具體的像素值干擾

通過自監督，學習空間結構其三、像素重建

上面說了，要一邊學重建，一邊學理解
所以，傳統的還原任務不能完全丟掉，但權重要調低

論文發現，把重建任務的損失權重設成0.1，對生成效果最好
（相比而言，理解任務的權重為1.0）

權重需要調整

至此，把這三個目標聯合訓練，讓視覺分詞器同時具備三種能力
理解圖像內容、感知空間結構、保留像素細節

就這樣，VTP 有了三種能力

額外的，VTP 用的是 Vision Transformer（ViT），不是傳統的 CNN
實驗數據顯示，ViT 架構在同等配置下生成效果更好，計算量還更低

還有一個有關于 batch size 的細節
不同訓練任務，對 batch size 的需求差異很大：

? 圖文對比學習需要很大的 batch（16k）
? 自監督和重建任務用小 batch 就夠（4k和2k）

對于 batch 這個問題，解決方法是這樣：
每個 batch 里，全部樣本用于圖文對比學習，隨機抽取一部分用于自監督和重建

效果如何

論文做了大量對比實驗，從三個維度驗證 VTP 的效果

維度一：理解、重建、生成的關系

先看下對比吧

純重建訓練：越練越差

重建越好、生成越差

隨著訓練時間增加：

? 重建能力持續變強：rFID從2.07降到0.51
? 生成能力反而變差：gFID從55.04漲到58.56

加入理解任務：三項全漲

CLIP+SSL+AE 聯合訓練

用 CLIP + SSL + 重建聯合訓練后：

? 生成能力大幅提升：gFID降到27.8
? 理解能力同步提升：Linear Probe 達到74.9%
? 重建能力也沒掉：rFID降到0.36

三種能力不沖突，可以同時提升

維度二：縮放特性

傳統方法存在天花板，VTP 則打破了這個天花板

縮放特性對比：算力、參數、數據

數據縮放

? 傳統自編碼器：訓練數據從 10 萬張擴到 1 億張，gFID只從58.37降到56.71
? VTP：同樣的數據擴展，gFID從47.59降到27.45

算力縮放

? 傳統自編碼器：算力增加到1/10處就停滯，之后gFID不降反升
? VTP：算力增加10倍，gFID提升65.8%，曲線仍在下降

參數縮放

? 傳統自編碼器：模型從20M參數擴到300M參數，gFID卡在57不動
? VTP：模型從 Small 到 Large，gFID從31.28降到26.12

這意味著：在視覺分詞器階段投入更多資源，終于能換來持續的回報了

維度三：與現有方法對比VTP 與主流方案的效果對比

? VTP-L 在理解能力上超過了原版 CLIP（78.2%vs75.5%）
? 在重建能力上超過了 Stable Diffusion 的 VAE（rFID 0.36vs0.63）
? 在生成能力上超過了此前的改進方法 VA-VAE（gFID 2.81vs4.29）

收斂速度方面：

? 比 VA-VAE 快4.1 倍
? 比原版 LDM 快5.7 倍

收斂速度最后

MiniMax 的視頻能力很能打，實屬第一梯隊，但技術上幾乎不對外

而 MiniMax 這次的開源，選了視覺分詞器這個方向，去嘗試解決一個行業里很多人遇到過、但沒人系統解釋過的問題：
為什么分詞器訓得越好，生成效果反而沒提升

過去一年的動作看，隔段時間，總能掏出點新東西

論文
https://huggingface.co/papers/2512.13687

模型
https://huggingface.co/collections/MiniMaxAI/vtp

代碼
https://github.com/MiniMax-AI/VTP

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Minimax持續猛挖“龍蝦肉”

華爾街見聞官方 2026-02-26 12:33:33
1 跟貼 1
別了，OpenClaw！19個頂尖AI夜襲硅谷，3萬刀金融終端變「廢鐵」

新智元 2026-02-26 11:56:23
0 跟貼 0

最先失業的是演員

X博士 2026-02-26 12:00:38
0 跟貼 0

北大ProAct：首個雙系統「主動社交」智能體，不做提線木偶

新智元 2026-02-26 11:53:31
0 跟貼 0
AI對抗遷移性評估的「撥亂反正」：那些年效果虛高的攻防算法們

機器之心Pro 2025-10-27 18:44:58
0 跟貼 0

AP2O-Coder 讓大模型擁有「錯題本」，像人類一樣按題型高效刷題

機器之心Pro 2026-01-14 15:07:07
0 跟貼 0

應對意料之外的改變

經濟觀察報 2026-02-26 12:14:15
0 跟貼 0
DeepSeek新模型曝光：傳華為搶先適配

智東西 2026-02-26 13:18:24
0 跟貼 0

“2億美金薪酬”華人AI大牛跳槽OpenAI！小扎天價留不住人

智東西 2026-02-26 13:18:24
0 跟貼 0
老一輩吃的都是細糠，你眼中的老阿姨，當年都是甜妹天花板！

大嘴愛嗶嗶 2026-02-22 12:57:33
4 跟貼 4
MiniMax又來吃龍蝦肉了！OpenClaw真一鍵部署，還有上萬智能體

量子位 2026-02-25 23:52:50
16 跟貼 16
東北年味天花板，一場拔河全員回到小時候，第二天集體戰損！

哇哇愛搞笑 2026-02-24 15:20:52
1 跟貼 1
最近海邊好多海螺呀！小章每次都能抓到好多！爆桶的節奏真過癮！

小章趕海 2026-02-22 15:00:00
0 跟貼 0
今日份趕海收獲

海之美 2026-02-25 11:24:10
1 跟貼 1
跑路姐Q彈爽口的清蒸海螺

姬海棠羽笠果 2026-02-26 02:16:19
0 跟貼 0
無需螺絲即可固定天花板的200年歷史的填充方法

胖胖洞洞觀 2026-02-23 15:24:20
1 跟貼 1
武力天花板高大毛，誰的人生沒有兩個高光時刻

兔子王追劇 2026-02-25 10:44:53
1 跟貼 1
女漁民潛海發現滿石海螺，揮叉取肉又擒蜘蛛螺，趕海收獲拉滿！

云初搞笑 2026-02-24 11:56:47
1 跟貼 1
美女路邊買完小吃才發現，原來都是這樣操作的，果然無奸不商

明月搞笑社 2026-02-25 13:19:26
1 跟貼 1
春晚《串門指南》CP，大亂燉！這波是跨劇團建天花板

原夢叁生 2026-02-25 17:26:02
5 跟貼 5
這到底是哪個人才設計的

奇觀趣聞 2026-02-24 10:19:36
7 跟貼 7
別以為這是畫畫，其實你每天都在看

安安海外視頻精選 2026-02-25 22:09:00
0 跟貼 0
海螺偽裝的再好，卻還是被漁民輕松捕獲

小悅動物匯 2026-02-24 12:26:52
1 跟貼 1
破案了！電影院普遍都是紅色座椅，竟是因為它

大象新聞 2026-02-25 18:57:06
1 跟貼 1
“36斤活羊烤完剩6.9斤”，網友質疑店家約剔除5斤，有博主現場做實驗測重

大風新聞 2026-02-25 23:10:03
8684 跟貼 8684
雙屏球幕電影！內蒙古唯一！快來康巴什這里免費體驗→

康巴什發布 2026-02-26 08:07:13
0 跟貼 0
代駕天花板，上車之前先來一段，噴火助助興

老沾看生活 2026-02-25 15:40:21
0 跟貼 0
身材顏值天花板小姐姐，看得眼花繚亂！

叮叮搞事情 2026-02-24 14:17:24
0 跟貼 0
你好，小朋友 Vol.09

膠片的味道 2026-02-25 22:10:34
0 跟貼 0
女子分享衣服抽絲恢復小技巧，只需用硬幣順著抽絲的紋理刮一刮就好了

南陽日報 2026-02-23 18:45:27
1 跟貼 1
也是看到追星天花板了

小影娛樂v 2026-02-25 12:45:37
3 跟貼 3
港股MINIMAX盤中一度漲超6%

每日經濟新聞 2026-02-26 10:45:06
0 跟貼 0
我在滁州過大年 | 春節喝酒，咱來談談酒與泉

醉美滁州 2026-02-26 10:47:51
0 跟貼 0
全景視覺的Depth Anything來了！

機器之心Pro 2025-12-29 16:54:58
0 跟貼 0
仿真落地三難點：物理、視覺、交互

量子位 2025-12-12 04:34:09
0 跟貼 0
近百萬元存款被悄悄轉走！上海獨居老太毫無察覺，還說“我有兩套房，你可以搬來同住”

瀟湘晨報 2026-02-25 16:39:13
6141 跟貼 6141
賈旭明諷刺回歸，依舊是天花板

春月yy 2026-02-23 06:47:08
46 跟貼 46
媽媽上車就“吐槽”舅舅，不料舅舅就在身后，網友：社死天花板

蝦仁狂徒 2026-02-24 09:04:01
6 跟貼 6
施工現場磚塊運輸過程，看著有點像模型，竟還有點好玩！

幽默小火山 2026-02-25 11:39:53
1 跟貼 1
日本計劃部署導彈部隊距臺灣僅110公里中方強硬表態

環球網資訊 2026-02-26 06:54:33
3957 跟貼 3957

戲子誤國！2026年剛開年，就有3位明星相繼塌房，個個荒唐

不似少年游

2026-02-24 19:24:23

10連勝，8勝1負！NBA戰力最強+豪門終結者，你們真有奪冠的實力

毒舌NBA

2026-02-26 12:42:34

72歲大媽對98歲母親哭訴：雖然你退休金7000，但你還是早點離開吧

烙任情感

2026-02-25 10:46:36

西媒：西班牙隊決定不與國足熱身世界第一選擇交手伊拉克

新英體育

2026-02-26 10:55:21

被教練性侵27次，你以為她是什么純潔的白蓮花？攻和受都是邪惡

我心縱橫天地間

2026-02-24 08:52:19

馬斯克再甩 “王炸”：SpaceX 真能重塑 “太空經濟學”？

鈦媒體APP

2026-02-25 12:08:07

汪東興活到了2015年，他對當下中國有何看法？他心里確實有些成見

明月清風閣

2026-02-19 07:25:09

“流水220萬，利潤0” 2026開年多了個新詞——無利潤繁榮

餐飲界

2026-02-13 19:49:19

體制內情商高能帶來啥意外驚喜?網友：別在地鐵看，別問我為什么

帶你感受人間冷暖

2026-02-24 01:03:13

成本19元賣300元!又一騙局暴雷，專坑老年人，9萬養老錢血本無歸

財經八卦

2026-02-25 22:57:34

上海滑稽笑星毛猛達，一家4口全端“鐵飯碗”，兒女憑實力爭光

白面書誏

2026-02-19 17:16:58

美軍想不通：10幾架F16悄摸起飛，連韓國都沒說，解放軍咋會知道

壹知眠羊

2026-02-23 11:30:46

“小婉君”金銘45歲現狀：個子太矮事業受挫，住北京豪宅不婚不育

削桐作琴

2026-01-29 00:03:53

馬場土拍牌桌眾生相

科學發掘

2026-02-26 05:16:07

俄羅斯駐聯合國大使當眾表態：我是烏克蘭人

阿離家居

2026-02-26 08:48:14

行程有變，默茨訪華縮短一天？德國發出警告，中方身份發生變化

無情有思ss

2026-02-25 14:59:41

華為正式官宣：2月26日，新機全球發布！

科技堡壘

2026-02-25 13:18:13

抱歉，這不是拍電影，而是性犯罪

皮蛋兒電影

2026-02-13 12:46:22

3大主力缺陣！騎士2分惜敗雄鹿，誰發揮失常，數據不會說謊

劉剮說體壇

2026-02-26 11:53:09

默茨終于到北京，趕在下專機前，德方與日本通電話，高市開門見山

李橑在北漂

2026-02-26 10:53:45

賽博禪心

拜AI古佛，修賽博禪心

302文章數 44關注度

往期回顧全部

科技要聞

單季營收681億凈利429億！英偉達再次炸裂

頭條要聞

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

頭條要聞

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

體育要聞

從排球少女到冰壺女神，她在米蘭冬奧練出6塊腹肌

娛樂要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財經要聞

短劇市場風云突變！有人投百萬賠得精光

汽車要聞

第五代宏光MINIEV煥新四門玩趣代步車來襲

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

本地

房產

公開課

軍事航空

手機要聞

三星Galaxy S26 Ultra手機支持2400萬像素直出

本地新聞

津南好·四時總相宜

房產要聞

2.2萬/m2起！三亞主城性價比標桿海墾·桃花源實景現房春節被瘋搶

公開課

手機 / 數碼

房產 / 家居

視覺生成的隱藏天花板｜VTP：MiniMax海螺視頻首次開源 · 技術解讀

單季營收681億凈利429億！英偉達再次炸裂

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

從排球少女到冰壺女神，她在米蘭冬奧練出6塊腹肌

尼格買提撒貝寧滑雪被偶遇 17年老友情

短劇市場風云突變！有人投百萬賠得精光

第五代宏光MINIEV煥新 四門玩趣代步車來襲

態度原創

三星Galaxy S26 Ultra手機支持2400萬像素直出

津南好·四時總相宜

2.2萬/m2起！三亞主城性價比標桿 海墾·桃花源實景現房春節被瘋搶

美政府給新伊核協議設限內容遭披露

第五代宏光MINIEV煥新四門玩趣代步車來襲

2.2萬/m2起！三亞主城性價比標桿海墾·桃花源實景現房春節被瘋搶