<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      視覺生成的隱藏天花板|VTP:MiniMax海螺視頻首次開源 · 技術解讀

      0
      分享至

      MiniMax 的視頻向來很頂,但技術上一直是個黑盒

      剛剛,海螺團隊第一次自揭面紗,帶來了首個開源項目:VTP
      Visual Tokenizer Pre-training

      VTP 這東西非常有趣:搞圖像、視頻生成的團隊,或都能因此受益


      Tech Report

      先做個信息鋪墊,現在主流的 AI 生圖模型,底層都是兩步走:

      第一步,壓縮
      把一張圖像壓縮成一組數字,這組數字能代表這張圖的核心信息

      第二步,生成
      AI 在這組數字的空間里做生成,生成完再還原成圖像


      兩階段架構

      其中,負責第一步的模塊,就叫「分詞器」,Tokenizer;負責第二步的,則是擴散模型Diffusion Model

      論文中,發現一個反直覺的現象
      分詞器訓練得越久,還原能力越強,生成效果反而越差
      論文把這個困境叫做預訓練縮放問題


      預訓練縮放問題

      進一步,論文中也發現了
      讓分詞器學會「理解」,比學會「還原」更重要
      論文管這叫理解力驅動生成

      于是,對于分詞器,就有了

      理解力越強,壓出的數字越有意義,擴散模型越容易學,生成效果越好
      問題在哪

      視覺分詞器是怎么訓練的?
      傳統做法,是讓它學「重建」:把圖像壓縮成一組數字,再從這組數字還原回圖像,還原得越接近原圖越好

      這個訓練目標聽起來很合理
      壓縮再還原,損失越小,說明這組數字保留的信息越完整

      但論文做了一組實驗,發現了問題


      訓練越久,重建越好,生成越差

      具體來說,就是,隨著訓練時間增加,模型產生了一些有趣的現象

      重建能力持續變強
      rFID(衡量還原質量,越小越好)從2.0降到0.5

      生成能力持續變差
      gFID(衡量生成質量,越小越好)從55漲到58

      這就是論文定義的「預訓練縮放問題」(Pre-training Scaling Problem):你往視覺分詞器里砸再多算力,也換不來更好的生成效果


      持續投入,并不會帶來顯著結果

      對于做圖像生成、視頻生成的團隊來說,這是個壞消息
      論文數據顯示,傳統方法在總算力的1/10處就開始停滯了
      之后再加算力,生成效果不升反降

      為什么會這樣

      重建任務,讓模型學錯了東西
      論文給出了這樣的解釋

      當視覺分詞器學習「還原像素」時,它會把注意力放在「底層信息」上:
      邊緣在哪紋理是什么樣顏色的精確數值是多少
      這些信息對于「還原」很重要
      像素級的細節越準確,還原出來的圖像越接近原圖


      底層信息(重建) vs 高層語義(生成)

      但生成的時候,其實需要的不是這些
      生成模型需要的是「高層語義」:
      這張圖里有什么東西是什么場景物體之間是什么關系整體氛圍是什么

      在分詞器被過度訓練后,通過它的到的信息,就會更偏向于「底層信息」,而非「高層語義
      到了生成的時候,,很難從中「理解」圖像應該是什么樣的,效果自然變差

      于是,從結果上,我們就看到了做得越好,效果越差
      (像不像辦公室里,讓你加班改細節的老板)


      理解力與生成質量的關系

      可以看一下這個圖,是論文的核心發現
      對于傳統自編碼器,理解力和生成質量都卡在左下角,增加訓練量也不動
      對于 VTP(紅色點),理解力越強,生成質量越好,持續往右上角走

      綜上:理解力才是驅動生成的關鍵因素

      怎么解決

      既然問題定位到了:分詞器學偏了
      那么,解決方案也很清晰:讓分詞器學全
      一邊學重建,一邊學理解

      VTP 正式這個思路
      把三種訓練目標合在一起,聯合優化

      其一、圖文對比學習

      圖文對比學習這一過程中,VTP 采用 CLIP 的訓練方式

      大致是這樣 給模型看大量的「圖像 + 文字描述」配對數據,讓圖像壓縮出來的數字表示和對應文字的數字表示靠近

      比如,給一張狗的照片,壓縮后的數字表示要和「一只金毛犬在草地上奔跑」這句話的數字表示相似


      圖文對比學習

      這樣視覺分詞器在壓縮圖像時,就會保留語義信息,知道這張圖「是什么」

      其二、感知空間結構

      感知空間結構中,VTP 采用 DINOv2 的訓練方式,具體包括兩類任務

      第一類:
      遮住圖像的一部分,讓模型預測被遮住的內容
      這迫使模型理解圖像的整體結構,而不是只記住局部像素

      第二類
      是對同一張圖像做不同的裁剪和變換,讓模型輸出的表示保持一致

      這樣,模型就會被迫使著學習圖像的本質特征,而不是被具體的像素值干擾


      通過自監督,學習空間結構其三、像素重建

      上面說了,要一邊學重建,一邊學理解
      所以,傳統的還原任務不能完全丟掉,但權重要調低

      論文發現,把重建任務的損失權重設成0.1,對生成效果最好
      (相比而言,理解任務的權重為1.0


      權重需要調整

      至此,把這三個目標聯合訓練,讓視覺分詞器同時具備三種能力
      理解圖像內容感知空間結構保留像素細節


      就這樣,VTP 有了三種能力

      額外的,VTP 用的是 Vision Transformer(ViT),不是傳統的 CNN
      實驗數據顯示,ViT 架構在同等配置下生成效果更好,計算量還更低

      還有一個有關于 batch size 的細節
      不同訓練任務,對 batch size 的需求差異很大:

      • ? 圖文對比學習需要很大的 batch(16k

      • ? 自監督和重建任務用小 batch 就夠(4k2k


      對于 batch 這個問題,解決方法是這樣:
      每個 batch 里,全部樣本用于圖文對比學習,隨機抽取一部分用于自監督和重建

      效果如何

      論文做了大量對比實驗,從三個維度驗證 VTP 的效果

      維度一:理解、重建、生成的關系

      先看下對比吧

      純重建訓練:越練越差


      重建越好、生成越差

      隨著訓練時間增加:

      • ? 重建能力持續變強:rFID2.07降到0.51

      • ? 生成能力反而變差:gFID55.04漲到58.56

      加入理解任務:三項全漲


      CLIP+SSL+AE 聯合訓練

      用 CLIP + SSL + 重建 聯合訓練后:

      • ? 生成能力大幅提升:gFID降到27.8

      • ? 理解能力同步提升:Linear Probe 達到74.9%

      • ? 重建能力也沒掉:rFID降到0.36

      三種能力不沖突,可以同時提升

      維度二:縮放特性

      傳統方法存在天花板,VTP 則打破了這個天花板


      縮放特性對比:算力、參數、數據

      數據縮放

      • ? 傳統自編碼器:訓練數據從 10 萬張擴到 1 億張,gFID只從58.37降到56.71

      • ? VTP:同樣的數據擴展,gFID47.59降到27.45

      算力縮放

      • ? 傳統自編碼器:算力增加到1/10處就停滯,之后gFID不降反升

      • ? VTP:算力增加10倍,gFID提升65.8%,曲線仍在下降

      參數縮放

      • ? 傳統自編碼器:模型從20M參數擴到300M參數,gFID卡在57不動

      • ? VTP:模型從 Small 到 Large,gFID31.28降到26.12

      這意味著:在視覺分詞器階段投入更多資源,終于能換來持續的回報了

      維度三:與現有方法對比VTP 與主流方案的效果對比

      • ? VTP-L 在理解能力上超過了原版 CLIP(78.2%vs75.5%

      • ? 在重建能力上超過了 Stable Diffusion 的 VAE(rFID 0.36vs0.63

      • ? 在生成能力上超過了此前的改進方法 VA-VAE(gFID 2.81vs4.29

      收斂速度方面:

      • ? 比 VA-VAE 快4.1 倍

      • ? 比原版 LDM 快5.7 倍

      收斂速度 最后

      MiniMax 的視頻能力很能打,實屬第一梯隊,但技術上幾乎不對外

      而 MiniMax 這次的開源,選了視覺分詞器這個方向,去嘗試解決一個行業里很多人遇到過、但沒人系統解釋過的問題:
      為什么分詞器訓得越好,生成效果反而沒提升

      過去一年的動作看,隔段時間,總能掏出點新東西

      論文
      https://huggingface.co/papers/2512.13687

      模型
      https://huggingface.co/collections/MiniMaxAI/vtp

      代碼
      https://github.com/MiniMax-AI/VTP

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      笑死了,這才是普通人最真實的存款

      笑死了,這才是普通人最真實的存款

      夜深愛雜談
      2025-12-12 19:25:44
      美軍押寶特朗普級戰列艦?為何中國一笑而過,美國卻很認真?

      美軍押寶特朗普級戰列艦?為何中國一笑而過,美國卻很認真?

      兵國大事
      2025-12-24 00:05:10
      她曾一年換7任男友,風流成性未婚生女,如今43歲無人敢娶

      她曾一年換7任男友,風流成性未婚生女,如今43歲無人敢娶

      小熊侃史
      2025-12-20 11:01:12
      冬至后包餃子,3種餡是首選,時令蔬菜勝過韭菜,鮮嫩多汁又營養

      冬至后包餃子,3種餡是首選,時令蔬菜勝過韭菜,鮮嫩多汁又營養

      江江食研社
      2025-12-24 13:30:06
      土耳其中部農業區出現近700個巨大天坑,疑因氣候變化導致

      土耳其中部農業區出現近700個巨大天坑,疑因氣候變化導致

      環球網資訊
      2025-12-24 13:51:56
      藍營支持度暴跌5.2%!蔡正元敲響警鐘:別再用民調不準自我安慰了

      藍營支持度暴跌5.2%!蔡正元敲響警鐘:別再用民調不準自我安慰了

      達文西看世界
      2025-12-24 21:18:45
      全新一代寶馬5系曝光,外觀變化大,雙腎格柵縮小,預計明年發布

      全新一代寶馬5系曝光,外觀變化大,雙腎格柵縮小,預計明年發布

      紅濤說車
      2025-12-22 15:43:21
      央行終于出手,2026年2月1日起正式執行!拒收現金正式納入嚴管!

      央行終于出手,2026年2月1日起正式執行!拒收現金正式納入嚴管!

      今朝牛馬
      2025-12-24 22:30:26
      全球最精確預言家:2026,歷史性的一年, 能說的都在這里

      全球最精確預言家:2026,歷史性的一年, 能說的都在這里

      神奇故事
      2025-12-24 23:34:15
      張蘭直播被調侃!有新孫子了,玥玥霖霖還疼嗎?張蘭的回答很溫暖

      張蘭直播被調侃!有新孫子了,玥玥霖霖還疼嗎?張蘭的回答很溫暖

      小徐講八卦
      2025-12-24 08:48:59
      評論炸了,網友卻不敢看她坐下來

      評論炸了,網友卻不敢看她坐下來

      章眽八卦
      2025-12-07 11:32:57
      炒股成功的人是如何一步步走出來的?此文熬夜也要細細閱讀幾遍!

      炒股成功的人是如何一步步走出來的?此文熬夜也要細細閱讀幾遍!

      一方聊市
      2025-10-17 09:54:32
      何穗曬2個月寶寶會抬頭,頭發稀耳朵大有福,對陳偉霆稱呼顯親昵

      何穗曬2個月寶寶會抬頭,頭發稀耳朵大有福,對陳偉霆稱呼顯親昵

      心靜物娛
      2025-12-24 10:39:01
      38歲已婚女與37歲情人,在石凳子上發生關系,溫存后被殘忍殺害

      38歲已婚女與37歲情人,在石凳子上發生關系,溫存后被殘忍殺害

      胖胖侃咖
      2024-06-08 08:00:08
      女人真正的“性”高潮,原來是如此獨特而深邃的體驗

      女人真正的“性”高潮,原來是如此獨特而深邃的體驗

      精彩分享快樂
      2025-12-25 00:05:10
      今天,A股觸及3947,做好準備,明天,12月25號,大概率會這樣走

      今天,A股觸及3947,做好準備,明天,12月25號,大概率會這樣走

      有范又有料
      2025-12-24 14:57:09
      這身打扮就是一種特別舒服又特別抓人的好看

      這身打扮就是一種特別舒服又特別抓人的好看

      美女穿搭分享
      2025-12-22 20:56:32
      直面輿論話語權轉移現實,重建中國社會信任感

      直面輿論話語權轉移現實,重建中國社會信任感

      明叔雜談
      2025-12-24 15:05:20
      何晴去世第九天,許亞軍怒了,發文要追究網暴他現任妻兒者的責任

      何晴去世第九天,許亞軍怒了,發文要追究網暴他現任妻兒者的責任

      法老不說教
      2025-12-23 20:19:40
      2005年必將載入人類史冊的7大事件

      2005年必將載入人類史冊的7大事件

      史政先鋒
      2025-12-24 15:13:06
      2025-12-25 02:16:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      224文章數 12關注度
      往期回顧 全部

      科技要聞

      智譜和MiniMax拿出了“血淋淋”的賬本

      頭條要聞

      幼兒園8人遇難學生家屬:女兒4歲 今年9月才入讀

      頭條要聞

      幼兒園8人遇難學生家屬:女兒4歲 今年9月才入讀

      體育要聞

      26歲廣西球王,在質疑聲中成為本土得分王

      娛樂要聞

      懷孕增重30斤!闞清子驚傳誕一女夭折?

      財經要聞

      北京進一步放松限購 滬深是否會跟進?

      汽車要聞

      “運動版庫里南”一月份亮相???或命名極氪9S

      態度原創

      藝術
      數碼
      游戲
      教育
      軍事航空

      藝術要聞

      巨星劉德華1000萬善款建村,為何如今竟成山間“空心村”?

      數碼要聞

      AMD Zen 6與Intel Nova Lake或將上演288 MB 3D緩存“大戰”

      前《DOTA2》選手起訴LGD 稱拖欠近14萬賽事獎金

      教育要聞

      掏空家底全力托舉子女,這是父母最大的悲哀

      軍事要聞

      軍事專家:"特朗普級"戰艦設計疑大量借鑒中國055大驅

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 极品人妻少妇一区二区三区| 久久久中文| 日本91视频| 国产人人干| 荥阳市| 人妻无码| 少妇综合网| 国产99视频精品免费视频6| 国产美女久久久亚洲综合| 国产女同一区二区在线| 99国产欧美另类久久久精品| 日韩成人无码影院| 亚洲国产午夜精品理论片| 毛片夜夜夜夜夜夜欢| 妺妺窝人体色www看美女| 激情五月天婷婷| 崇礼县| 福利视频在线导航| 国产资源网| 人人做人人爽人人爱| 国产9 9在线 | 中文| 精品无码国产不卡在线观看| 国产熟睡乱子伦视频在线播放| 人人爽人人爽人人片av东京热| 伊人二区| 亚洲国产精品成人网站| 人妻激情另类乱人伦人妻| 国产99久一区二区三区a片| 大胸美女被吃奶爽死视频| 无遮挡边吃摸边吃奶边做| 国产精品久久精品| 顶级少妇做爰视频在线观看| 成年午夜性影院| 亚洲欧洲av综合色无码| 国产后入又长又硬| 欧美日韩精品久久久免费观看| 吉川爱美一区二区三区视频| 91成人在线播放| 91视频免费入口| 平罗县| 池州市|