從分鐘級等待到20倍超速：LightX2V重寫AI視頻生成速度上限

2025-12-08 14:11:58　來源: 機(jī)器之心Pro

北京舉報

分享至

今年以來，開源項目LightX2V 及其 4 步視頻生成蒸餾模型在 ComfyUI 社區(qū)迅速走紅，單月下載量超過 170 萬次。越來越多創(chuàng)作者用它在消費(fèi)級顯卡上完成高質(zhì)量視頻生成，把“等幾分鐘出一段視頻”變成“邊看邊出片”。

LightX2V 背后并不是單一模型的優(yōu)化，而是一整套面向低成本、強(qiáng)實(shí)時視頻生成的推理技術(shù)棧：從步數(shù)蒸餾與輕量VAE，到低比特算子、稀疏算子、多卡并行與分級Offloading，目標(biāo)只有一個——在主流硬件上，把視頻生成推到 1:1 實(shí)時。

GitHub：https://github.com/ModelTC/LightX2V
Hugging Face：https://huggingface.co/lightx2v
項目主頁：https://light-ai.top

1:1 實(shí)時，遠(yuǎn)超現(xiàn)有框架

在很多視頻生成框架中，生成 5–10 秒視頻依然需要幾分鐘時間。LightX2V 在相同分辨率和硬件條件下，通過極少步數(shù)的推理和系統(tǒng)級優(yōu)化，將生成時間壓縮到與視頻時長接近的水平 (如上圖端到端耗時所示)，實(shí)現(xiàn)接近 1:1 的實(shí)時體驗(yàn)。

在同類開源方案中，LightX2V 相比 SGLang Diffusion, FastVideo 等優(yōu)秀的開源框架在延遲和吞吐上都具有明顯優(yōu)勢（如下圖單步耗時對比所示），尤其是在 8GB–24GB 消費(fèi)級顯卡區(qū)間，更容易跑滿硬件能力。

雙核心算法：Phased DMD 步數(shù)蒸餾 + LightVAE

LightX2V 的速度并不是簡單 “少采樣幾步” 得到的，而是通過兩項關(guān)鍵算法協(xié)同設(shè)計：

Phased DMD 步數(shù)蒸餾

LightX2V 自研的 Phased DMD 步數(shù)蒸餾，把原本 40–50 步的視頻擴(kuò)散過程壓縮到 4 步，同時保持時間一致性和運(yùn)動細(xì)節(jié)。基于這一技術(shù)產(chǎn)出的少步模型（如 Wan2.1 / Qwen-Image 等）已經(jīng)在 Hugging Face 趨勢榜中長期靠前，累積下載量達(dá)到百萬級。

LightVAE 輕量級 VAE

針對視頻生成場景對吞吐和分辨率的雙重需求，LightX2V 設(shè)計了極致輕量的 LightVAE。與常規(guī) VAE 相比，在保持高清畫質(zhì)和時間一致性的前提下，有效降低了編解碼開銷，為 4 步推理釋放出更多預(yù)算。

這兩部分相當(dāng)于在 “算法上先把路打通”，再讓后續(xù)工程優(yōu)化盡可能榨干硬件性能。

全棧性能工程：從 8GB 顯存到多卡強(qiáng)實(shí)時

在算法壓縮完成后，LightX2V 通過一套全棧推理框架，把 “能跑” 變成 “跑得快、跑得省”：

顯存門檻：通過步數(shù)蒸餾、低比特量化和分級 Offloading，將完整視頻生成工作流的顯存需求壓到 8GB 以下，入門級消費(fèi)卡即可運(yùn)行。
吞吐與延遲：綜合使用低比特算子、稀疏注意力與特征緩存，在常見 5 秒視頻場景下達(dá)到接近 1:1 的實(shí)時生成速度。

關(guān)鍵技術(shù)模塊包括：

低比特算子（MXFP8 / MXFP6 / NVFP4）：在不明顯損傷畫質(zhì)的前提下壓縮計算與帶寬，釋放硬件算力。
稀疏注意力算子：利用視頻時空特征的稀疏性，減少冗余計算，提升大分辨率下的吞吐。
特征緩存：對中間特征進(jìn)行緩存與復(fù)用，降低重復(fù)計算，進(jìn)一步縮短延遲。
三層延遲隱藏 Offloading：通過精細(xì)化的顯存–內(nèi)存調(diào)度，在 8GB 顯存上完成 28B 級別 MoE 模型推理，兼顧成本與能力。
FP8 通信多卡并行：結(jié)合 FP8 通信和流水線 / 序列并行，在多卡環(huán)境下進(jìn)一步提升吞吐，面向 5090 等消費(fèi)級新卡實(shí)現(xiàn)更高幀率的強(qiáng)實(shí)時目標(biāo)。

這些技術(shù)疊加，使 LightX2V 不僅在單機(jī)單卡上易于部署，也可以順暢擴(kuò)展到多卡集群。

模型與硬件生態(tài)：從 Wan 到國產(chǎn)芯片

為了方便創(chuàng)作者直接受益于上述優(yōu)化，LightX2V 面向主流模型和硬件做了系統(tǒng)支持：

模型生態(tài)：當(dāng)前已支持 Wan2.1 / Wan2.2、CogVideo1.5、HunyuanVideo1.5 等主流視頻生成模型，以及 Matrix Game、MagicDrive 等世界模型，并在這些模型上提供 4 步或少步數(shù)配置與加速方案。
應(yīng)用生態(tài)：LightX2V 深度集成 ComfyUI，LightVAE 等核心組件已進(jìn)入社區(qū)主干工作流，用戶可以在熟悉的圖形界面中直接調(diào)用加速推理。
硬件生態(tài)：除 NVIDIA 3060 / 4090 / 5090 及 A100 / A800 / H100 / H800 / H200 等顯卡外，LightX2V 還原生支持寒武紀(jì) MLU590、沐曦 C500 等國產(chǎn) AI 芯片，為本地化、大規(guī)模部署提供了基礎(chǔ)。

使用與落地：從個人創(chuàng)作到企業(yè)集群

在實(shí)際使用上，LightX2V 覆蓋了從個人到企業(yè)的不同需求：

個人開發(fā)者：只需要一臺帶獨(dú)顯的筆記本或臺式機(jī)，就可以本地啟動帶前端界面的視頻生成工具，在 ComfyUI 中完成素材調(diào)試、風(fēng)格迭代和項目輸出。
企業(yè)用戶：通過 LightX2V 的服務(wù)化部署方案，可以一鍵搭建面向外部的 API 服務(wù)和 Web 應(yīng)用，并按需擴(kuò)展到多機(jī)多卡集群，支持批量視頻生產(chǎn)和內(nèi)部工具集成。
普通用戶：可直接訪問網(wǎng)頁版入口 x2v.light-ai.top，在瀏覽器中體驗(yàn)少步視頻生成和實(shí)時預(yù)覽。

從圖像轉(zhuǎn)視頻、文本轉(zhuǎn)視頻，到世界模型和自動駕駛仿真，LightX2V 試圖用開源的方式，把 “高質(zhì)量、低成本、強(qiáng)實(shí)時” 的視頻生成能力交到更多人手里。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.