網易首頁 > 網易號 > 正文申請入駐

MiniMax海螺視頻團隊首次開源：Tokenizer也具備明確Scaling Law

2025-12-22 12:55:00　來源: 量子位

北京舉報

分享至

MiniMax海螺視頻團隊不藏了！

首次開源就揭曉了一個困擾行業已久的問題的答案——

為什么往第一階段的視覺分詞器里砸再多算力，也無法提升第二階段的生成效果？

翻譯成大白話就是，雖然圖像/視頻生成模型的參數越做越大、算力越堆越猛，但用戶實際體驗下來總有一種微妙的感受——這些龐大的投入與產出似乎不成正比，模型離完全真正可用總是差一段距離。

So why？問題，大概率就出在視覺分詞器（Tokenizer）這個東西身上了。

當算力不再是答案時，真正需要被重新審視的，其實是生成模型的“起點”。

在當前主流的兩階段生成框架中（分詞器+生成模型），業界已經在視覺分詞器的預訓練上投入了大量算力與數據，但一個尷尬的事實是：

這些成本，幾乎沒有線性地轉化為生成質量的提升

而MiniMax海螺視頻團隊，不止挑戰了這一現實——用實驗證明“Tokenizer的scaling能夠提升模型性能”。

更關鍵的是，還帶來了一款開箱即用、專為“下一代生成模型”打造的可擴展視覺分詞器預訓練框架——Visual Tokenizer Pre-training（以下簡稱VTP）。

只需換上這個視覺分詞器，即可在不改變下游主模型（如DiT）任何訓練配置的情況下，實現端到端生成性能的倍數級提升。

下面詳細來看——

傳統Tokenizer的缺陷：更好的重建≠更好的生成

要理解VTP存在的意義，首先我們需要回到更基礎的問題上——

Tokenizer是什么？它又為何如此關鍵？

以AI生圖為例，當前主流的生圖模型幾乎清一色采用了“兩階段”生成框架：

第一階段（壓縮）：使用視覺Tokenizer（如VAE）這個組件，將原始圖像壓縮并映射到一個潛在空間（latent space）中；
第二階段（還原生成）：再由以擴散模型為核心的生成器（如DiT），在這個潛在空間中學習分布，并逐步還原、生成最終圖像。

用一張圖來形容這個過程be like（先壓縮后還原）：

而Tokenizer，就是在第一階段中負責壓縮圖片信息的組件。

如果沒有這個組件，擴散模型就得直接在數百萬像素組成的原始像素空間中進行“去噪”和生成——其計算復雜度和內存開銷將是天文數字。

因此，Tokenizer稱得上是讓模型能夠在消費級顯卡上運行起來的“關鍵功臣”。

除此之外，Tokenize過程所得的低維潛在表征，其質量直接決定了最終生成圖像的語義保真度、細節豐富度以及整體真實性，所以業界也普遍認為——

從某種程度上來說，Tokenize幾乎決定了后續生成模型的上限。

基于此，人們在研究如何提升下游生成模型的質量時，也不約而同地將重點放在了“如何精準復刻原始像素”上，即要求模型將壓縮后的潛在特征（latent）盡可能精準地還原為原始圖像。

而問題，也正出在這里。

傳統Tokenizer在追求“像素級重建”時，往往會過度沉迷于捕捉圖像的局部紋理、噪點等低層信息，從而忽視了生成任務真正依賴的高層語義與整體結構。

這就像學渣為了應付考試，只想著死記硬背各種試題，卻完全不理解題目背后的知識點與邏輯結構。結果真正到了需要舉一反三、解決新問題的時候，一下就傻眼了。

在論文中，海螺視頻團隊將這一現象定義為“預訓練縮放問題”（Pre-training Scaling Problem）：

更好的像素級重建精度并不能帶來更高質量的生成效果

如圖所示，傳統僅基于“重建”目標訓練的Tokenizer（灰線），隨著算力投入增加，模型的生成性能不僅沒有提升，反而逐漸趨于飽和甚至略微下降。（ps：gFID衡量生成質量，越小越好）

由此，論文得出第一個關鍵發現：重建做得越好，生成反而可能越差。換言之，傳統VAE所依賴的純重建訓練范式，在面向生成任務時存在根本性局限。

那么，VTP是如何破局的呢？

VTP破局之道：從像素級重建到強調“理解力”的重要性

事實上，VTP并非橫空出世，而是海螺視頻團隊在長期實踐中反復試錯與認知迭代的產物。

一些早期探索：從易學性到通用表征學習

在早期工作VA-VAE中，團隊注意到：

有些“壓縮后的特征”能讓后續的擴散模型學得又快又好，而另一些則不能。

基于此，他們提出了“易學性”這一概念——即不同的潛在表征（latents）對于下游生成模型的學習難度截然不同，并期望通過優化latent的某些“友好特性”（如均勻性、頻域分布等）來間接改善生成效果。

然而實踐發現，這些方法雖有一定效果，卻未觸及本質。按團隊自己的話來說就是：

嘗試將易學性等價為可精確計算的單一指標（例如頻域分布、均勻性、scale不變性、低秩效應等等）有些過于理想了，這些指標可能和易學性有一定關聯，但遠不是全部。

就是說，當優化目標被限制在少數可測量指標上時，模型往往只是學會了在特定指標上“刷分”，而沒有從根本上學會理解圖像的結構與語義（本質上仍未脫離“重建”范疇）。

△在VA-VAE中，團隊曾嘗試將易學性對應到latent分布的“均勻性”

而經過持續反思，團隊逐漸意識到VA-VAE和后來的很多嘗試，其深層目標并非僅僅是優化幾個指標，而是在試圖讓latents具備某些更高級的“結構”。其背后邏輯在于：

假如某種latents對于圖像中的實體、位置關系具有高度結構化的表達，那么這種結構化表達對于下游diffusion建模來說也會更簡潔、更容易，這些方面的生成效果也自然會更好。

這就好比另一種層面上的“大道至簡”——當模型真正掌握了物體、關系與語義這些視覺世界的本質規律時，它能應對的任務自然也就越多了（以不變應萬變）。

因此，與其為“易學性”設計脆弱的代理指標，不如直接讓Tokenizer去學習人類視覺系統本身所依賴的那種高度結構化、語義化的通用表征。

畢竟像CLIP、DINOv2這樣的現代通用表征學習方法，正是在大規模數據上自動化地學習了這種“人類對齊”的視覺表達，才在多種下游任務中表現出強大的泛化能力。

至此，團隊的研究重心正式從“像素級重建”轉向了強調理解力的“通用表征學習”。

VTP：回歸“壓縮即智能”本質

基于這一認知轉變，VTP的設計原則變得異常清晰。團隊表示：

我們應該融合所有已知有效的表征學習方法來構建一個Tokenizer

具體而言，VTP這次率先實現了從只練“重建”到“理解、重建、生成”的聯合優化。

一是通過圖文對比學習，建立高層語義理解。

在訓練時，團隊會給模型看大量圖像-文本配對數據（如“一只貓在沙發上”與對應圖片），然后要求圖片的特征向量和文字的特征向量盡可能接近。

這和之前的CLIP思路一脈相承，但目標更聚焦。CLIP追求的是廣義的圖文匹配能力，而VTP則要求Tokenizer在壓縮圖像為緊湊的潛在編碼時，必須保留與文本對齊的語義結構。

這意味著，生成模型后續接收到的每一個潛在表示，本身就已經是“有語義的”——它不只是一堆像素的壓縮，而是攜帶了“貓”、“沙發”等概念及其關系的結構化表達。和以往相比，“語義注入”被提前到了壓縮階段。

二是通過自監督學習，掌握空間結構與視覺常識。

在VTP框架中，自監督學習模塊通過結合掩碼圖像建模（MIM）和自蒸餾（DINO風格），“迫使”模型去理解圖片的空間關系和物體結構。

這個過程會“逼著”Tokenizer來回答不同問題：

通過自蒸餾回答：拋開具體的像素細節，這張圖片最核心的視覺主題或概念是什么？（全局語義）
通過MIM回答：根據你看到的“冰山一角”，你能推斷出整個“冰山”的形狀和結構嗎？（結構推理）
二者協同回答：為了識別圖片主題或從局部重建整體，哪些視覺線索是決定性、不可缺失的？（聚焦核心）

這一套流程走下來，模型對圖像的理解便不再停留在像素層面，而是構建起了結構化的視覺認知。

三是通過重建，保留必要的底層視覺細節。

VTP依然保留了重建目標，但它的定位發生了變化——其作用不再是“越準越好”，而是確保潛在空間中仍然保有生成所需的紋理、顏色與邊緣等細節信息。

這三重目標并非孤立進行，而是通過一個統一的多任務損失函數進行聯合優化：

最終，VTP得到的不是一個在某個指標上“特別優秀”的壓縮器，而是一個自帶理解能力、對生成模型非常友好的視覺Tokenizer。

這里也補充一個細節：為什么他們不像很多工作一樣直接使用現有的CLIP或DINOv2作為Tokenizer，而非要投入巨大算力從頭預訓練一個？

其核心思考在于兩點（團隊原話如下）：

表征真的很重要，我們想要做到很極致。在我們的視角下表征包含了自監督、對比學習、甚至是重建（這些只是已知比較成熟的方法，實際上理想的表征遠不止這些），市面上沒有一個能夠很好地融匯這些方法的模型，我們需要自己訓練一個。
基于表征的Tokenizer方案具備scaling的潛力，預訓練是最合理的實現方式。如果直接利用已有模型蒸餾或者遷移，會因為setting過于復雜而破壞scaling的性質，也會受限于已有的模型規格而無法做充分的論證。

所以，選擇“從頭開始”的VTP，其實際表現究竟如何呢？

首次展示了Tokenizer的Scaling Law

概括而言，團隊通過VTP得出了兩大關鍵發現：

理解力是驅動生成的關鍵因素
視覺Tokenizer也具備明確的Scaling Law

先說第一點。

VTP用實驗證明，如果只做重建的話，投入資源越多生成反而可能越差。

下圖中，代表重建能力的rFID從2.0降至0.5，重建效果變好；但代表生成能力的gFID從55.04升至58.56，生成效果變差。

而一旦注入“理解力”（即引入CLIP圖文對比/SSL自監督任務），模型的生成質量（gFID）會隨著理解能力（Linear Probe）的提升而同步變好——

二者呈現明顯的正相關，且這種提升會隨著訓練計算量增加持續推進。相比之下，缺少“理解力”的傳統AE Only方案，其生成質量和理解能力很快陷入停滯。

更進一步，團隊在同等算力下對比了不同組合，證明“CLIP+SSL+AE”的聯合訓練方式上限最高，生成與理解指標均最優。

基于此，團隊訓練的VTP在理解、重建、生成方面均交出了不錯的答卷——

在ImageNet上的零樣本分類準確率達到78.2%，超過了原版CLIP的75.5%，已經具備強通用視覺理解能力；在重建能力上超過了Stable Diffusion的VAE， rFID低至0.36；在生成能力上超過了此前的改進方法VA-VAE，gFID低至2.81。

更關鍵的是，在達到相同生成質量的前提下，VTP的訓練收斂速度比LDM快5.7倍、比VA-VAE快4.1倍，大幅降低了訓練成本。

這一系列表現共同印證了團隊的判斷：Tokenizer的“語義理解力”而非單純的像素重建精度，才是驅動生成性能與效率提升的核心動力。

再說第二點，也是更具突破性的一點。

團隊在實驗中發現，VTP首次展示了Tokenizer的Scaling Law，即生成性能可以隨預訓練中投入的計算量、參數量和數據規模有效增長。

僅從算力維度對比，在不改動下游DiT標準訓練配置的前提下，單純將Tokenizer的預訓練計算量放大，VTP就能為最終生成效果帶來65.8%的性能提升，且提升曲線仍未觸頂。

反觀傳統自編碼器（AE），其性能在僅投入約1/10計算量時便已飽和，且繼續增加算力不僅收益微乎其微，甚至可能導致生成質量倒退。

以上發現表明，接下來除了在主模型上投入更多參數/算力/數據之外，還可以通過Tokenizer的scaling來提升整個生成系統的性能。

這個結論，乍一看可能會讓人有點轉不過彎：什么時候，Tokenizer也開始談scaling了？

在大模型語境里，“Scaling Law”幾乎天然只屬于主模型——參數更大、數據更多、算力更猛，性能就該繼續往上走。至于Tokenizer，則長期被視作一個“前置模塊”，主打一個夠用就行，做完重建任務就退場。

但VTP的出現卻改變了這一現實，團隊表示：

VTP在latents易學性和通用表征學習之間建立起了明確關聯，從而第一次將Tokenizer作為scaling的主角，展現出全面的scaling曲線和擴展方向

就是說，如果Tokenizer只是被用來精準復刻像素，那么無論怎么堆算力，提升都將很快見頂；而一旦Tokenizer學到的是具備語義結構、對下游更友好的通用表征，事情就完全不一樣了。

比如對整個行業來說，由于VTP在Tokenizer層面就已經統一了語義對齊、結構認知和細節表達，因此其產出的視覺表征天然具備多任務協同的潛力。

這有點像先把世界翻譯成了一種統一、結構化的“視覺語言”。

一旦這套語言確定下來，下游無論是理解任務（如分類、檢測），還是生成任務（如圖像合成、編輯），都不再需要各自“重新學怎么描述這個世界”，而只是站在同一套底層表達之上，做不同的事情。

從這個角度看，VTP天然適合用來構建“理解-生成統一模型”。正如團隊所言：

Tokenizer層面的統一，是更本質的統一

也因此，此次VTP的開源就不單單只是提供了一個組件那么簡單了。

其更大的價值或許在于，它為整個行業提供了一條新的、且被實驗證明行之有效的路徑——

在主模型之外，Tokenizer同樣是一個值得長期投入、且具備明確scaling回報的核心環節。

目前，VTP的論文和模型權重已經公開，動手能力強的朋友也可以嘗試體驗下：

換一個視覺Tokenizer，模型性能就能變得不一樣的feeling（手動狗頭）。

【傳送門】
代碼：https://github.com/MiniMax-AI/VTP
論文：https://arxiv.org/abs/2512.13687v1
模型：https://huggingface.co/collections/MiniMaxAI/vtp

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.