<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      QVGen讓「超低比特視頻生成量化」真正可用!

      0
      分享至



      視頻生成擴(kuò)散模型越做越大:2B、5B、14B…… 效果提升很快,但訓(xùn)練與推理的成本也隨之飆升。社區(qū)一直希望用量化把模型 “壓小”,把顯存和算力成本打下來,真正落到更多卡、更便宜的機(jī)器、更多真實(shí)應(yīng)用中。可現(xiàn)實(shí)很殘酷:一到 3/4 bit,視頻生成的量化感知訓(xùn)練(QAT)往往比圖像更難訓(xùn)、更不穩(wěn)定,質(zhì)量掉得更狠 —— 不是 “略降一點(diǎn)”,而是直接不可用。



      圖表 1 在 CogVideoX-2B 模型上 4-bit 逐通道權(quán)重量化與逐 token 激活量化的效果對比。(a)原始模型;(b)該論文所提出方案;(c-e)已有的量化感知訓(xùn)練方案;(f)已有的后訓(xùn)練量化方案。

      香港科技大學(xué) & 北航 & 商湯等提出了一個(gè)專門面向視頻生成擴(kuò)散模型的 QAT 范式 ——QVGen,在 3-bit / 4-bit 都能把質(zhì)量拉回來,并且讓 4-bit 首次接近全精度表現(xiàn)成為現(xiàn)實(shí)。該論文現(xiàn)已被 ICLR 高分接收:rebuttal 前 88666(top 1.4%),rebuttal 后 88886 (top 0.5%)。



      • 論文地址:https://arxiv.org/pdf/2505.11497
      • 代碼地址:https://github.com/ModelTC/QVGen
      • 模型地址:https://huggingface.co/collections/Harahan/qvgen



      圖表 2 QVGen 論文框架圖。

      為什么視頻擴(kuò)散模型一量化就容易 “崩”?

      QVGen 的切入點(diǎn)很直接:視頻生成的 QAT 并不是把圖像擴(kuò)散的配方照搬過來就行。作者在論文里給了一個(gè)關(guān)鍵觀察(見圖表 3):在相近規(guī)模、相似訓(xùn)練設(shè)置下,視頻擴(kuò)散模型的梯度范數(shù)明顯更大,這會讓優(yōu)化過程更不穩(wěn)定,最終導(dǎo)致低比特訓(xùn)練難以收斂、生成質(zhì)量難以維持。

      換句話說,如果不先解決 “訓(xùn)練不穩(wěn)” 這個(gè)根因,只靠常見量化技巧做修補(bǔ),視頻生成很難真正落地。



      圖表 3 第一行為已有方案(藍(lán)色)與論文方案(黃色)在量化感知訓(xùn)練中的梯度范數(shù)比較;第二行為損失比較。左右分別為 CogVideoX-2B 和 Wan 1.3B 模型上的可視化。

      QVGen 做對了什么:先把訓(xùn)練救穩(wěn),再把推理成本 “還回去”


      QVGen 的核心思路是 “訓(xùn)練期做增強(qiáng)、推理期不背包袱”,它把一個(gè)看似矛盾的目標(biāo)拆成了兩步來解決 (見圖表 2)。

      第一步,訓(xùn)練階段引入一個(gè)輔助模塊 Φ。這個(gè)模塊不是為了讓推理更重,而是為了在低比特條件下降低梯度范數(shù)、提升訓(xùn)練穩(wěn)定性,讓 3/4-bit 的 QAT 先 “訓(xùn)得動、訓(xùn)得好”。此外,除了圖表 3 中的實(shí)驗(yàn)論證,在論文中還提供了詳細(xì)的理論證明。

      第二步,訓(xùn)練過程中逐步移除 Φ,讓最終推理階段不再依賴這個(gè)模塊。作者的觀察是:隨著訓(xùn)練推進(jìn),Φ 的參數(shù)里會逐漸出現(xiàn)越來越多 “貢獻(xiàn)很小” 的成分。于是論文設(shè)計(jì)了 rank-decay:反復(fù)做分解,識別低影響的分量,并用基于秩的正則把這些分量逐步衰減到 0,直到 Φ 被完全消掉。最終效果是:推理階段幾乎不增加額外開銷,但訓(xùn)練階段又能獲得穩(wěn)定性紅利。

      結(jié)果有多硬:4-bit 接近全精度,3-bit 也把指標(biāo)拉回 “可用區(qū)間”


      在主實(shí)驗(yàn)中,QVGen 在 W4A4/W3A3 的設(shè)置下對比了多類量化方法。論文給出的結(jié)論很清晰:很多方法在 4-bit 下仍有明顯退化,到了 3-bit 更加明顯;QVGen 在 3-bit 能大幅恢復(fù)質(zhì)量,在 4-bit 則可以做到接近全精度(見圖表 4)。

      更關(guān)鍵的是,它不只在小模型上有效。論文還展示了在更大的視頻生成模型上(例如 5B、14B 級別,以及更高分辨率設(shè)置),4-bit 仍能保持接近全精度的總體水平(見圖表 5-6)。

      該論文同時(shí)給出了大量定性樣例證明 “不是只在指標(biāo)上好看” (見圖表 7-8)。



      圖表 4 對于 Wan 1.3B 和 CogVideoX-2B 模型,QVGen 與已有方案在 VBench 上的性能比較。



      圖表 5 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench 結(jié)果。



      圖表 6 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench-2.0 結(jié)果。



      圖表 7 QVGen 與已有方案在 Wan 1.3B 上的可視化結(jié)果對比。



      圖表 8 QVGen 在 Wan 14B 上的可視化結(jié)果。

      不只是省顯存:它能帶來真實(shí)加速,還能和其他加速方法疊加


      對部署來說,低比特的直接好處是顯存下降。論文報(bào)告量化后能夠帶來大幅的內(nèi)存節(jié)?。ɡ?4× 級別的壓縮量級),從而讓同樣的模型更容易跑在更小的卡上,或者把 batch、分辨率等配置拉高。

      更實(shí)際的一點(diǎn)是:QVGen 使用標(biāo)準(zhǔn)的均勻量化思路,意味著它可以更容易對接現(xiàn)有的 W4A4 推理內(nèi)核。論文也強(qiáng)調(diào)它和其他視頻生成加速方向是正交的:例如與某些 3D attention 加速方案疊加后,推理速度還能進(jìn)一步提升(見圖表 9)。



      圖表 9 (左)模型大小對比; (中)模型加速對比;(右)與 attention 加速方案結(jié)合后加速對比。其中藍(lán)色代表 Wan 1.3B 模型,黃色代表 Wan 14B 模型。

      訓(xùn)練成本會不會更高?論文給出的答案是 “幾乎不多花”

      很多讀者會擔(dān)心:訓(xùn)練期加了 Φ、還要做 rank-decay,會不會導(dǎo)致訓(xùn)練成本暴漲?論文做了訓(xùn)練效率分析,結(jié)論是:相對一些蒸餾式 QAT 基線,QVGen 的額外訓(xùn)練開銷很小(例如 GPU-days、峰值顯存幾乎不變的量級),但在最終生成質(zhì)量上仍能拉開明顯差距(見圖表 10)。



      圖表 10 QVGen 與已有方法的訓(xùn)練時(shí)間和訓(xùn)練顯存開銷對比。

      總結(jié):視頻擴(kuò)散也能 4bit 接近滿血,先穩(wěn)訓(xùn)練再輕推理!


      當(dāng)下視頻生成擴(kuò)散模型越來越大,但 3/4-bit 量化一落到視頻上,常見問題是:QAT 訓(xùn)練不穩(wěn)定、收斂困難、畫質(zhì)明顯下滑。QVGen 的核心判斷很直接:視頻低比特量化的關(guān)鍵不只是 “怎么量化”,而是先把訓(xùn)練穩(wěn)定性問題解決,否則再好的量化細(xì)節(jié)也很難落地。

      在這一點(diǎn)上,QVGen 給出了一套完整范式,主要包括:

      • 訓(xùn)練期引入輔助模塊 Φ:用于降低梯度范數(shù)、提升低比特 QAT 的穩(wěn)定性,讓 3/4-bit 訓(xùn)練 “跑得起來、訓(xùn)得下去”;
      • rank-decay 逐步移除 Φ:訓(xùn)練過程中識別并衰減低貢獻(xiàn)成分,最終把 Φ 完全去掉,使推理階段幾乎不背額外負(fù)擔(dān);
      • 面向部署的低比特設(shè)置:支持 W4A4/W3A3,并強(qiáng)調(diào)可對接現(xiàn)有推理實(shí)現(xiàn);在顯存上帶來明顯下降,同時(shí)還能與其他推理加速方法疊加。

      總體來看,QVGen 在 CogVideoX、Wan 等視頻擴(kuò)散模型上實(shí)現(xiàn)了 4-bit 接近全精度、3-bit 也能把質(zhì)量拉回可用區(qū)間的結(jié)果,并且訓(xùn)練額外開銷很小。對希望把視頻生成模型從 “貴且難跑” 推進(jìn)到 “更省、更快、更好用” 的場景,這是一條很實(shí)用的路線。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      廣東一網(wǎng)友自駕云南途中爆胎,不到4公里路被收1400元拖車費(fèi)后續(xù):當(dāng)事人稱涉事公司提出刪除視頻可退錢,但他不接受,希望依法處罰

      廣東一網(wǎng)友自駕云南途中爆胎,不到4公里路被收1400元拖車費(fèi)后續(xù):當(dāng)事人稱涉事公司提出刪除視頻可退錢,但他不接受,希望依法處罰

      極目新聞
      2026-02-25 14:18:31
      蔚來CEO李斌分享螢火蟲國風(fēng)改裝:已收獲超高回頭率

      蔚來CEO李斌分享螢火蟲國風(fēng)改裝:已收獲超高回頭率

      智車情報(bào)局
      2026-02-24 11:21:51
      央視重磅官宣:殲16單機(jī)雙鎖兩架F-22,外軍隱身戰(zhàn)機(jī)嚇得再不敢來

      央視重磅官宣:殲16單機(jī)雙鎖兩架F-22,外軍隱身戰(zhàn)機(jī)嚇得再不敢來

      52赫茲實(shí)驗(yàn)室
      2026-02-23 12:43:04
      濟(jì)南領(lǐng)秀城,房價(jià)從2015年9200漲到39600,如今回落樓市真實(shí)價(jià)位

      濟(jì)南領(lǐng)秀城,房價(jià)從2015年9200漲到39600,如今回落樓市真實(shí)價(jià)位

      阿離家居
      2026-02-25 11:34:16
      終于有人把話說透了:當(dāng)普通人存款到20–50萬,危險(xiǎn)的不是沒錢

      終于有人把話說透了:當(dāng)普通人存款到20–50萬,危險(xiǎn)的不是沒錢

      生活新鮮市
      2026-02-22 06:40:40
      李澤楷被她迷,林丹為她不顧妻兒,她究竟有什么魅力?

      李澤楷被她迷,林丹為她不顧妻兒,她究竟有什么魅力?

      趣文說娛
      2025-12-12 18:03:47
      突發(fā)!這家公司被證監(jiān)會立案

      突發(fā)!這家公司被證監(jiān)會立案

      數(shù)據(jù)寶
      2026-02-25 21:44:06
      段永平,加倉巨頭超1110%

      段永平,加倉巨頭超1110%

      證券之星
      2026-02-25 16:56:04
      周總理逝世21年后,中國銀行核查賬目時(shí)發(fā)現(xiàn)他名下存有巨額存款,一番調(diào)查后揭開了背后的真相

      周總理逝世21年后,中國銀行核查賬目時(shí)發(fā)現(xiàn)他名下存有巨額存款,一番調(diào)查后揭開了背后的真相

      寄史言志
      2026-01-17 16:37:15
      上海這晚,57歲周濤秒了30歲李雪琴,不愧是央視嚴(yán)選的國泰民安臉

      上海這晚,57歲周濤秒了30歲李雪琴,不愧是央視嚴(yán)選的國泰民安臉

      大鐵貓娛樂
      2026-02-08 00:10:03
      南京市委書記周紅波會見萬億巨頭中國總裁

      南京市委書記周紅波會見萬億巨頭中國總裁

      創(chuàng)客公社-江蘇第一創(chuàng)投媒體
      2026-02-25 20:05:05
      印度突然轉(zhuǎn)向!時(shí)隔一年重啟委油進(jìn)口,200萬桶重油抵港

      印度突然轉(zhuǎn)向!時(shí)隔一年重啟委油進(jìn)口,200萬桶重油抵港

      老馬拉車莫少裝
      2026-02-25 20:46:32
      吳易昺爆冷魯?shù)律涎萃跽邭w來,張帥用時(shí)67分鐘下班向新贊助商獻(xiàn)禮

      吳易昺爆冷魯?shù)律涎萃跽邭w來,張帥用時(shí)67分鐘下班向新贊助商獻(xiàn)禮

      網(wǎng)球之家
      2026-02-25 20:37:53
      蘋果官方支持測網(wǎng)速了!

      蘋果官方支持測網(wǎng)速了!

      簡科技
      2026-02-25 20:54:22
      輕傷二級有多嚴(yán)重?平頂山打人夫妻或?qū)⒚媾R3-7年刑期

      輕傷二級有多嚴(yán)重?平頂山打人夫妻或?qū)⒚媾R3-7年刑期

      民言民語
      2026-02-25 09:07:07
      超越馬英九,蓋過洪秀柱,他才是臺灣藍(lán)營內(nèi)最堅(jiān)定的統(tǒng)派人物

      超越馬英九,蓋過洪秀柱,他才是臺灣藍(lán)營內(nèi)最堅(jiān)定的統(tǒng)派人物

      墨蘭史書
      2026-02-07 18:25:03
      錢再多有什么用?52歲劉強(qiáng)東上千億身家,兒子卻是他一生的遺憾

      錢再多有什么用?52歲劉強(qiáng)東上千億身家,兒子卻是他一生的遺憾

      墨印齋
      2026-01-31 16:37:48
      港姐、知名導(dǎo)演在珠海拍?。∵@里即將爆火!

      港姐、知名導(dǎo)演在珠海拍劇!這里即將爆火!

      珠海發(fā)布
      2026-02-25 19:15:56
      被北京制裁后,日本一片哀嚎,高市下決心:5年內(nèi)從中國東邊反擊

      被北京制裁后,日本一片哀嚎,高市下決心:5年內(nèi)從中國東邊反擊

      策略述
      2026-02-25 19:32:54
      女人默許你“得手”從不主動靠近:這三種默許,已是最明確的信號

      女人默許你“得手”從不主動靠近:這三種默許,已是最明確的信號

      青蘋果sht
      2026-02-22 06:58:10
      2026-02-25 22:11:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12362文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      “機(jī)器人只跳舞,沒什么用”

      頭條要聞

      被指涉愛潑斯坦案 挪威前首相自殺未遂命懸一線

      頭條要聞

      被指涉愛潑斯坦案 挪威前首相自殺未遂命懸一線

      體育要聞

      曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

      娛樂要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財(cái)經(jīng)要聞

      上海樓市放大招,地產(chǎn)預(yù)期別太大

      汽車要聞

      750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

      態(tài)度原創(chuàng)

      數(shù)碼
      本地
      藝術(shù)
      時(shí)尚
      公開課

      數(shù)碼要聞

      2026款聯(lián)想YOGA Pro 15/16筆記本電腦預(yù)熱

      本地新聞

      津南好·四時(shí)總相宜

      藝術(shù)要聞

      這位藝術(shù)家的馬賽克畫讓人驚嘆不已!

      “復(fù)古甜心”穿搭突然大火!春天穿時(shí)髦又減齡

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版