QVGen讓「超低比特視頻生成量化」真正可用！

2026-02-25 18:07:24　來源: 機器之心Pro

河北舉報

分享至

視頻生成擴散模型越做越大：2B、5B、14B…… 效果提升很快，但訓(xùn)練與推理的成本也隨之飆升。社區(qū)一直希望用量化把模型 “壓小”，把顯存和算力成本打下來，真正落到更多卡、更便宜的機器、更多真實應(yīng)用中。可現(xiàn)實很殘酷：一到 3/4 bit，視頻生成的量化感知訓(xùn)練（QAT）往往比圖像更難訓(xùn)、更不穩(wěn)定，質(zhì)量掉得更狠 —— 不是 “略降一點”，而是直接不可用。

圖表 1 在 CogVideoX-2B 模型上 4-bit 逐通道權(quán)重量化與逐 token 激活量化的效果對比。（a）原始模型；（b）該論文所提出方案；（c-e）已有的量化感知訓(xùn)練方案；（f）已有的后訓(xùn)練量化方案。

香港科技大學(xué) & 北航 & 商湯等提出了一個專門面向視頻生成擴散模型的 QAT 范式 ——QVGen，在 3-bit / 4-bit 都能把質(zhì)量拉回來，并且讓 4-bit 首次接近全精度表現(xiàn)成為現(xiàn)實。該論文現(xiàn)已被 ICLR 高分接收：rebuttal 前 88666（top 1.4%），rebuttal 后 88886 （top 0.5%）。

論文地址：https://arxiv.org/pdf/2505.11497
代碼地址：https://github.com/ModelTC/QVGen
模型地址：https://huggingface.co/collections/Harahan/qvgen

圖表 2 QVGen 論文框架圖。

為什么視頻擴散模型一量化就容易 “崩”？

QVGen 的切入點很直接：視頻生成的 QAT 并不是把圖像擴散的配方照搬過來就行。作者在論文里給了一個關(guān)鍵觀察（見圖表 3）：在相近規(guī)模、相似訓(xùn)練設(shè)置下，視頻擴散模型的梯度范數(shù)明顯更大，這會讓優(yōu)化過程更不穩(wěn)定，最終導(dǎo)致低比特訓(xùn)練難以收斂、生成質(zhì)量難以維持。

換句話說，如果不先解決 “訓(xùn)練不穩(wěn)” 這個根因，只靠常見量化技巧做修補，視頻生成很難真正落地。

圖表 3 第一行為已有方案（藍色）與論文方案（黃色）在量化感知訓(xùn)練中的梯度范數(shù)比較；第二行為損失比較。左右分別為 CogVideoX-2B 和 Wan 1.3B 模型上的可視化。

QVGen 做對了什么：先把訓(xùn)練救穩(wěn)，再把推理成本 “還回去”

QVGen 的核心思路是 “訓(xùn)練期做增強、推理期不背包袱”，它把一個看似矛盾的目標(biāo)拆成了兩步來解決（見圖表 2）。

第一步，訓(xùn)練階段引入一個輔助模塊 Φ。這個模塊不是為了讓推理更重，而是為了在低比特條件下降低梯度范數(shù)、提升訓(xùn)練穩(wěn)定性，讓 3/4-bit 的 QAT 先 “訓(xùn)得動、訓(xùn)得好”。此外，除了圖表 3 中的實驗論證，在論文中還提供了詳細的理論證明。

第二步，訓(xùn)練過程中逐步移除 Φ，讓最終推理階段不再依賴這個模塊。作者的觀察是：隨著訓(xùn)練推進，Φ 的參數(shù)里會逐漸出現(xiàn)越來越多 “貢獻很小” 的成分。于是論文設(shè)計了 rank-decay：反復(fù)做分解，識別低影響的分量，并用基于秩的正則把這些分量逐步衰減到 0，直到 Φ 被完全消掉。最終效果是：推理階段幾乎不增加額外開銷，但訓(xùn)練階段又能獲得穩(wěn)定性紅利。

結(jié)果有多硬：4-bit 接近全精度，3-bit 也把指標(biāo)拉回 “可用區(qū)間”

在主實驗中，QVGen 在 W4A4/W3A3 的設(shè)置下對比了多類量化方法。論文給出的結(jié)論很清晰：很多方法在 4-bit 下仍有明顯退化，到了 3-bit 更加明顯；QVGen 在 3-bit 能大幅恢復(fù)質(zhì)量，在 4-bit 則可以做到接近全精度（見圖表 4）。

更關(guān)鍵的是，它不只在小模型上有效。論文還展示了在更大的視頻生成模型上（例如 5B、14B 級別，以及更高分辨率設(shè)置），4-bit 仍能保持接近全精度的總體水平（見圖表 5-6）。

該論文同時給出了大量定性樣例證明 “不是只在指標(biāo)上好看” （見圖表 7-8）。

圖表 4 對于 Wan 1.3B 和 CogVideoX-2B 模型，QVGen 與已有方案在 VBench 上的性能比較。

圖表 5 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench 結(jié)果。

圖表 6 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench-2.0 結(jié)果。

圖表 7 QVGen 與已有方案在 Wan 1.3B 上的可視化結(jié)果對比。

圖表 8 QVGen 在 Wan 14B 上的可視化結(jié)果。

不只是省顯存：它能帶來真實加速，還能和其他加速方法疊加

對部署來說，低比特的直接好處是顯存下降。論文報告量化后能夠帶來大幅的內(nèi)存節(jié)省（例如 4× 級別的壓縮量級），從而讓同樣的模型更容易跑在更小的卡上，或者把 batch、分辨率等配置拉高。

更實際的一點是：QVGen 使用標(biāo)準(zhǔn)的均勻量化思路，意味著它可以更容易對接現(xiàn)有的 W4A4 推理內(nèi)核。論文也強調(diào)它和其他視頻生成加速方向是正交的：例如與某些 3D attention 加速方案疊加后，推理速度還能進一步提升（見圖表 9）。

圖表 9 （左）模型大小對比；（中）模型加速對比；（右）與 attention 加速方案結(jié)合后加速對比。其中藍色代表 Wan 1.3B 模型，黃色代表 Wan 14B 模型。

訓(xùn)練成本會不會更高？論文給出的答案是 “幾乎不多花”

很多讀者會擔(dān)心：訓(xùn)練期加了 Φ、還要做 rank-decay，會不會導(dǎo)致訓(xùn)練成本暴漲？論文做了訓(xùn)練效率分析，結(jié)論是：相對一些蒸餾式 QAT 基線，QVGen 的額外訓(xùn)練開銷很小（例如 GPU-days、峰值顯存幾乎不變的量級），但在最終生成質(zhì)量上仍能拉開明顯差距（見圖表 10）。

圖表 10 QVGen 與已有方法的訓(xùn)練時間和訓(xùn)練顯存開銷對比。

總結(jié)：視頻擴散也能 4bit 接近滿血，先穩(wěn)訓(xùn)練再輕推理！

當(dāng)下視頻生成擴散模型越來越大，但 3/4-bit 量化一落到視頻上，常見問題是：QAT 訓(xùn)練不穩(wěn)定、收斂困難、畫質(zhì)明顯下滑。QVGen 的核心判斷很直接：視頻低比特量化的關(guān)鍵不只是 “怎么量化”，而是先把訓(xùn)練穩(wěn)定性問題解決，否則再好的量化細節(jié)也很難落地。

在這一點上，QVGen 給出了一套完整范式，主要包括：

訓(xùn)練期引入輔助模塊 Φ：用于降低梯度范數(shù)、提升低比特 QAT 的穩(wěn)定性，讓 3/4-bit 訓(xùn)練 “跑得起來、訓(xùn)得下去”；
rank-decay 逐步移除 Φ：訓(xùn)練過程中識別并衰減低貢獻成分，最終把 Φ 完全去掉，使推理階段幾乎不背額外負擔(dān)；
面向部署的低比特設(shè)置：支持 W4A4/W3A3，并強調(diào)可對接現(xiàn)有推理實現(xiàn)；在顯存上帶來明顯下降，同時還能與其他推理加速方法疊加。

總體來看，QVGen 在 CogVideoX、Wan 等視頻擴散模型上實現(xiàn)了 4-bit 接近全精度、3-bit 也能把質(zhì)量拉回可用區(qū)間的結(jié)果，并且訓(xùn)練額外開銷很小。對希望把視頻生成模型從 “貴且難跑” 推進到 “更省、更快、更好用” 的場景，這是一條很實用的路線。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.