![]()
今年以來,開源項目LightX2V 及其 4 步視頻生成蒸餾模型在 ComfyUI 社區(qū)迅速走紅,單月下載量超過 170 萬次。越來越多創(chuàng)作者用它在消費(fèi)級顯卡上完成高質(zhì)量視頻生成,把“等幾分鐘出一段視頻”變成“邊看邊出片”。
LightX2V 背后并不是單一模型的優(yōu)化,而是一整套面向低成本、強(qiáng)實(shí)時視頻生成的推理技術(shù)棧:從步數(shù)蒸餾與輕量VAE,到低比特算子、稀疏算子、多卡并行與分級Offloading,目標(biāo)只有一個——在主流硬件上,把視頻生成推到 1:1 實(shí)時。
![]()
- GitHub:https://github.com/ModelTC/LightX2V
- Hugging Face:https://huggingface.co/lightx2v
- 項目主頁:https://light-ai.top
1:1 實(shí)時,遠(yuǎn)超現(xiàn)有框架
![]()
在很多視頻生成框架中,生成 5–10 秒視頻依然需要幾分鐘時間。LightX2V 在相同分辨率和硬件條件下,通過極少步數(shù)的推理和系統(tǒng)級優(yōu)化,將生成時間壓縮到與視頻時長接近的水平 (如上圖端到端耗時所示),實(shí)現(xiàn)接近 1:1 的實(shí)時體驗(yàn)。
在同類開源方案中,LightX2V 相比 SGLang Diffusion, FastVideo 等優(yōu)秀的開源框架在延遲和吞吐上都具有明顯優(yōu)勢 (如下圖單步耗時對比所示),尤其是在 8GB–24GB 消費(fèi)級顯卡區(qū)間,更容易跑滿硬件能力。
![]()
![]()
雙核心算法:Phased DMD 步數(shù)蒸餾 + LightVAE
LightX2V 的速度并不是簡單 “少采樣幾步” 得到的,而是通過兩項關(guān)鍵算法協(xié)同設(shè)計:
Phased DMD 步數(shù)蒸餾
LightX2V 自研的 Phased DMD 步數(shù)蒸餾,把原本 40–50 步的視頻擴(kuò)散過程壓縮到 4 步,同時保持時間一致性和運(yùn)動細(xì)節(jié)。基于這一技術(shù)產(chǎn)出的少步模型(如 Wan2.1 / Qwen-Image 等)已經(jīng)在 Hugging Face 趨勢榜中長期靠前,累積下載量達(dá)到百萬級。
LightVAE 輕量級 VAE
針對視頻生成場景對吞吐和分辨率的雙重需求,LightX2V 設(shè)計了極致輕量的 LightVAE。與常規(guī) VAE 相比,在保持高清畫質(zhì)和時間一致性的前提下,有效降低了編解碼開銷,為 4 步推理釋放出更多預(yù)算。
這兩部分相當(dāng)于在 “算法上先把路打通”,再讓后續(xù)工程優(yōu)化盡可能榨干硬件性能。
全棧性能工程:從 8GB 顯存到多卡強(qiáng)實(shí)時
在算法壓縮完成后,LightX2V 通過一套全棧推理框架,把 “能跑” 變成 “跑得快、跑得省”:
- 顯存門檻:通過步數(shù)蒸餾、低比特量化和分級 Offloading,將完整視頻生成工作流的顯存需求壓到 8GB 以下,入門級消費(fèi)卡即可運(yùn)行。
- 吞吐與延遲:綜合使用低比特算子、稀疏注意力與特征緩存,在常見 5 秒視頻場景下達(dá)到接近 1:1 的實(shí)時生成速度。
關(guān)鍵技術(shù)模塊包括:
- 低比特算子(MXFP8 / MXFP6 / NVFP4):在不明顯損傷畫質(zhì)的前提下壓縮計算與帶寬,釋放硬件算力。
- 稀疏注意力算子:利用視頻時空特征的稀疏性,減少冗余計算,提升大分辨率下的吞吐。
- 特征緩存:對中間特征進(jìn)行緩存與復(fù)用,降低重復(fù)計算,進(jìn)一步縮短延遲。
- 三層延遲隱藏 Offloading:通過精細(xì)化的顯存–內(nèi)存調(diào)度,在 8GB 顯存上完成 28B 級別 MoE 模型推理,兼顧成本與能力。
- FP8 通信多卡并行:結(jié)合 FP8 通信和流水線 / 序列并行,在多卡環(huán)境下進(jìn)一步提升吞吐,面向 5090 等消費(fèi)級新卡實(shí)現(xiàn)更高幀率的強(qiáng)實(shí)時目標(biāo)。
這些技術(shù)疊加,使 LightX2V 不僅在單機(jī)單卡上易于部署,也可以順暢擴(kuò)展到多卡集群。
模型與硬件生態(tài):從 Wan 到國產(chǎn)芯片
為了方便創(chuàng)作者直接受益于上述優(yōu)化,LightX2V 面向主流模型和硬件做了系統(tǒng)支持:
- 模型生態(tài):當(dāng)前已支持 Wan2.1 / Wan2.2、CogVideo1.5、HunyuanVideo1.5 等主流視頻生成模型,以及 Matrix Game、MagicDrive 等世界模型,并在這些模型上提供 4 步或少步數(shù)配置與加速方案。
- 應(yīng)用生態(tài):LightX2V 深度集成 ComfyUI,LightVAE 等核心組件已進(jìn)入社區(qū)主干工作流,用戶可以在熟悉的圖形界面中直接調(diào)用加速推理。
- 硬件生態(tài):除 NVIDIA 3060 / 4090 / 5090 及 A100 / A800 / H100 / H800 / H200 等顯卡外,LightX2V 還原生支持寒武紀(jì) MLU590、沐曦 C500 等國產(chǎn) AI 芯片,為本地化、大規(guī)模部署提供了基礎(chǔ)。
使用與落地:從個人創(chuàng)作到企業(yè)集群
在實(shí)際使用上,LightX2V 覆蓋了從個人到企業(yè)的不同需求:
- 個人開發(fā)者:只需要一臺帶獨(dú)顯的筆記本或臺式機(jī),就可以本地啟動帶前端界面的視頻生成工具,在 ComfyUI 中完成素材調(diào)試、風(fēng)格迭代和項目輸出。
- 企業(yè)用戶:通過 LightX2V 的服務(wù)化部署方案,可以一鍵搭建面向外部的 API 服務(wù)和 Web 應(yīng)用,并按需擴(kuò)展到多機(jī)多卡集群,支持批量視頻生產(chǎn)和內(nèi)部工具集成。
- 普通用戶:可直接訪問網(wǎng)頁版入口 x2v.light-ai.top,在瀏覽器中體驗(yàn)少步視頻生成和實(shí)時預(yù)覽。
從圖像轉(zhuǎn)視頻、文本轉(zhuǎn)視頻,到世界模型和自動駕駛仿真,LightX2V 試圖用開源的方式,把 “高質(zhì)量、低成本、強(qiáng)實(shí)時” 的視頻生成能力交到更多人手里。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.