![]()
機器之心報道
編輯:楊文
自 Sora 2 發布以來,各大科技廠商迎來新一輪視頻生成模型「軍備競賽」,紛紛趕在年底前推出更強的迭代版本。
谷歌推出 Veo 3.1,通過首尾幀控制和多圖參考解決了以往視頻生成「抽卡」隨機性太強的問題;Runway 拿出 Gen-4.5,強化了物理模擬和表情動作遷移;快手祭出 Kling 2.6,實現了原生音畫同步……
各家都在炫技,但一個更本質的問題卻常被忽略:這些模型距離真正的生產力工具,究竟還有多遠?
12 月 15 日,商湯科技產品發布周正式開啟,第一天就重磅上線了全新的Seko 2.0 版本,讓 AI 短劇創作真正實現「一人劇組」。
![]()
比如只需輸入一句簡單的提示詞,它立馬就能策劃劇本大綱,生成分鏡和視頻,整個過程相當麻溜。
![]()
視頻來自 Seko 官網,創作者:小銘AI百寶箱
無論是 1 分半鐘的 3D 藝術風格的動畫短片:
![]()
視頻來自 Seko 官網,創作者:噪維 AIGC
還是唇形同步精準的數字人音樂 MV,Seko 2.0 也都能在最短時間內信手拈來。
![]()
視頻來自 Seko 官網,創作者:AI制片人Webb
作為行業首個創編一體、多劇集生成智能體,Seko 已經服務上百家短劇工作室,大量 AI 短劇成功上線。
![]()
用商湯 Seko 創作的《婉心計》登頂抖音 AI 短劇榜第一
而此次 2.0 版本的升級,背后是商湯在視頻生成底層技術上的深度突破。從開源推理框架 LightX2V 到產品化落地,再到國產芯片的全面適配,商湯正在構建一條完整的 AI 視頻生產鏈路。
視頻生成的「不可能三角」
盡管賽道火熱,但當 AI 視頻生成模型步入短劇制作等實戰場景時,往往會撞上由效率、成本、質量構成的「不可能三角」。
目前即便如 Sora 2 級別的產品,生成 10 秒視頻往往需要數分鐘乃至十分鐘。這種漫長的等待時間,讓創作者難以進行快速迭代和實時反饋,嚴重制約了創作效率,更無法支撐工業化生產。
有數據表明,開源模型生成一段 5s 視頻通常超過十分鐘,商用閉源模型生成 5s 的視頻通常也需 1 至 10 分鐘不等。這意味著生成與實時播放之間存在著很長的時間差距,距離真正的「強實時生成」,即生成 5 秒視頻所需時間小于 5 秒,還有遙遠的距離。
實時性問題的背后,是更為本質的計算成本困境。如果要投入如此高昂的算力成本,任何試圖用 AI 大規模生產視頻內容的商業計劃,都會在財務模型上遭遇滑鐵盧。
對于 AI 短劇和漫劇創作而言,這個問題更加尖銳。短劇制作的本質是多劇集、多場景、多分鏡的復雜工程,這直接導致了計算量的指數級增長。一個僅 5 秒的視頻片段就需要生成接近 10 萬 token,而在實際創作流程中,一鍵生成通常會產生 10 到 20 個分鏡,這意味著單次操作的 token 消耗量就達到 100 萬到 200 萬級別。
按照傳統視頻生成模型的成本結構,制作一集 10 分鐘的 AI 短劇,所需的計算資源和時間成本將達到令人咋舌的地步。沒有哪家內容制作公司能夠承受每生成一分鐘內容就要支付數小時高端 GPU 算力的成本。在這種場景下,效率與成本直接決定了項目的生死。
當行業試圖通過降低推理步數、壓縮模型參數等方式提升速度、降低成本時,又往往會遭遇生成質量下降的挑戰。視頻的一致性、動態性、畫面清晰度都可能在優化過程中受損,而對于商業應用而言,質量是不可妥協的底線。
如此看來,現有的視頻生成技術架構似乎陷入了一個「不可能三角」,要么犧牲質量換取速度,要么保證質量但付出巨大的時間和算力代價,要么在兩者之間艱難平衡卻難以真正滿足商業應用需求。這個困局讓無數技術團隊在實驗室里的驚艷演示,最終折戟于真實商業場景的嚴苛考驗。
打破這個困局,需要的不僅僅是單點技術的突破,更需要從算法、架構到系統工程的全方位創新。
商湯悄悄開源的 AI 視頻生成框架
速度快 10 倍
今年上半年,一個名為 LightX2V 的開源項目及其推出的圖像和視頻生成 4 步蒸餾模型,在 ComfyUI 社區走紅,還在 Reddit 上引發熱烈討論。截至目前,該項目上傳的模型累計下載量已突破 350 萬次
這個備受矚目的項目背后的研發團隊一度頗為神秘,如今答案揭曉,LightX2V 是由商湯科技與北航聯合研發的成果,也是業界首個開源的實時視頻生成推理框架
LightX2V 的核心價值在于真正做到了實時視頻生成。
它通過一系列創新技術的組合應用,在消費級顯卡上實現了強實時生成,生成 5 秒視頻所需時間小于 5 秒,速度達到現在行業主流的數倍甚至十倍以上。
算法創新:實時生成的基礎
LightX2V 的性能突破首先源于其深層的算法創新。
商湯原創設計的 Phased DMD 步數蒸餾技術,讓視頻生成在 4 步推理下就能實現高質量的一致性和動態性。這套技術產出的 Wan2.1、Qwen-Image 等多步模型,登上 HuggingFace 趨勢榜前 10,累計下載量超過 358 萬次。
傳統的分布匹配蒸餾(DMD)方法雖然可以將分數匹配生成模型壓縮成高效的多步生成器,但在直接擴展到多步蒸餾時,會面臨生成多樣性顯著降低、訓練不穩定以及難以有效處理復雜分布的局限性。
為了解決這些難題,研究者提出了 Phased DMD。這是一個結合了階段式蒸餾和專家混合思想的多步蒸餾框架,旨在降低學習難度并增強模型能力。
![]()
圖 1:(a) 多步 DMD、(b) 采用隨機梯度截斷策略的多步 DMD、(c) Phased DMD 和 (d) 采用 SGTS 的 Phased DMD 的示意圖。
Phased DMD 建立在兩個核心理念之上:
- 漸進式分布匹配:該方法將信噪比(SNR)范圍劃分成多個子區間,通過這種劃分,模型可以漸進式地將自身精度優化到更高的 SNR 級別,從而更好地捕獲復雜分布,并提高訓練的穩定性和生成性能。在去噪過程中,低 SNR 階段聚焦于全局結構,而高 SNR 階段則關注精細細節。
- 子區間內分數匹配:由于要對齊子區間的分布,研究者通過嚴格的推導,得到一個具有理論保證的訓練目標。這個目標能夠正確估計子區間內的分數,確保階段式訓練的理論正確性。
Phased DMD 的結構設計是一個天然的 Mixture-of-Experts 架構,允許模型中的不同專家專門學習處理不同的 SNR 階段,而不會引入額外的推理成本。Phased DMD 不僅原生支持 MoE 模型,而且對于非 MoE 的教師模型,該技術也可以將之蒸餾為 MoE 學生模型。
實驗結果表明,Phased DMD 相較于傳統 DMD 方法,能更好地保持基模型的動態效果和多樣性。Phased DMD 通過蒸餾 Qwen-Image (20B 參數) 和 Wan2.2 (28B 參數) 等先進的模型得到了充分驗證,開源的部分模型也受到開源社區的討論和好評。
![]()
來自 Wan2.1-T2V-14B 基礎模型(40 步、CFG=4)及其蒸餾變體(4 步、CFG=1)的樣本(隨機種子 0–3):(a) 基礎模型,(b) DMD,(c) 帶 SGTS 的 DMD,(d) Phased DMD。與基礎模型和 Phased DMD 相比,DMD 與 SGTS 展現出更弱的運動動態。類似地,帶 SGTS 的 DMD 傾向于生成特寫視角,而 Phased DMD 和基礎模型更好地遵循提示中的相機指令。
![]()
通過 Phased DMD 蒸餾生成的 Qwen-Image 示例。
在高效視頻生成領域,自編碼器(VAE)模型是不可或缺的關鍵組件。它負責將像素空間壓縮到更小的潛在空間,以實現更快處理。然而,傳統的官方 VAE 模型往往內存占用大、推理速度慢,嚴重制約了視頻生成效率。
針對這一行業痛點,LightX2V 團隊發布了LightVAE、LightTAE 系列高效視頻自編碼器模型集合,旨在通過深度優化和蒸餾技術,在最大限度保持高清畫質的同時,實現高達 10 倍以上的性能提升,為實時生成奠定了堅實的算法基礎。
LightVAE 系列被定位為「最佳平衡解決方案」,通過對官方 VAE 架構進行剪枝和蒸餾,例如對 Wan2.1 VAE 剪枝 75%,成功將顯存占用減少了約 50%(降至約 4-5 GB),同時將推理速度提升了 2 到 3 倍。LightVAE 保持了接近官方模型的優異質量,使其成為日常生產和高性能需求的理想選擇。
對于追求極致速度和最小內存占用的場景,團隊則推出了 LightTAE 系列,采用更輕量級的 2D 卷積架構,將顯存占用降至極低的約 0.4 GB,并實現了極快的推理速度。盡管其基礎架構與開源的 TAE 相似,但 LightTAE 經過團隊的蒸餾優化,其生成質量顯著超越了普通的開源 TAE,達到了接近官方 VAE 的水平,非常適合開發測試和快速迭代等對效率有高要求的場景。
實際測試結果表明,LightX2V 的優化效果是顯著的。例如,在處理一段 5 秒 81 幀的視頻時,官方 Wan2.1 VAE 的解碼時間約為 5.46 秒,顯存需求超過 10 GB。相比之下,LightVAE 將解碼時間縮短到約 2.07 秒,顯存降至 5.57 GB 左右。而 LightTAE 則表現出驚人的速度,解碼時間僅需約 0.25 秒,且顯存幾乎可以忽略不計。
![]()
工程創新:全棧優化實現「強實時」
真正讓實時生成視頻變為可能的,是 LightX2V 在工程層面的全棧優化。
LightX2V 構建了一個面向低成本、強實時的視頻生成推理完整方案,覆蓋了模型、調度、計算、存儲和通信五個維度,通過低比特量化、稀疏注意力、特征緩存、高效 Offloading 和多卡通信優化等技術,形成了清晰且高效的五層體系結構。
![]()
在框架的最底層是算子實現層,它是所有性能優化的根基,集成了多種高度定制和優化的低級計算操作,特別是針對計算密集型的注意力機制。通過引入 Flash Attention V3、Sage Attention V1/V2/V3、Radial Attention 和 Ring Attention 等創新算子,LightX2V 為上層提供了強大的計算加速能力,從硬件層面保證了推理的高效運行。
![]()
緊接著是內核庫層,它負責封裝底層算子的復雜性,并為上層模型提供穩定、高性能的調用接口和運行時環境。
再向上,框架的核心執行環境位于模型模塊層。該層以并行推理為核心機制,最大化了計算資源的利用。它包含一個負責任務順序和時間步管理的調度器,以及一個支持主流視頻生成模型如 Hunyuan、Cogvideo 和 Wan 系列的模型組件,還集成了 Offload(用于顯存卸載管理)和 Weight(權重管理)等模塊,確保了在有限硬件資源下依然能夠高效運行大型模型。
在模型模塊之上,是 LightX2V 的優化算法層,這一層匯聚了框架的關鍵加速策略。它通過量化技術來壓縮模型體積并加速計算;利用特征緩存來避免中間結果的重復計算;并結合底層的優化算子實現高效注意力機制,共同將模型的推理效率推向極致。
最后,位于頂層的是用戶入口層,它體現了 LightX2V 的易用性。為適應不同場景,框架提供了多樣化的接入方式,包括集成到流行的節點式工具 ComfyUI Workflow 中、通過 Gradio Web 快速部署在線演示服務、支持本地服務器部署,以及提供用于穩定生產環境的靜態推理接口。
這種全棧優化帶來的直接效果就是顯存門檻降至 8GB 以下,入門級消費卡即可流暢運行;在 RTX 5090 等消費級顯卡上,已經實現了 1:1 的實時生成效果
![]()
從技術架構來看,不是簡單優化某個環節,而是構建了一套面向低成本、強實時的視頻生成推理完整方案,這也是為什么它能在開源社區獲得如此廣泛關注的原因。它不僅是一個模型,更是一個可落地、可復用的技術框架。
國產化芯片適配
商業化的最后一塊拼圖
技術突破之外,商湯在 Seko 2.0 中還實現了另一個關鍵布局 —— 全面適配國產化芯片。
借助 LightX2V 框架,Seko 已成功支持多款國產 AI 芯片,真正實現了視頻生成模型的全國產化部署能力。
從實際效果來看,在國產芯片與英偉達芯片上生成的視頻,質量差距并不明顯。雖然國產芯片的生成速度略慢,但其性價比優勢突出。未來商湯計劃給創作者提供國產化和非國產化兩套方案,使用國產化方案的用戶將獲得更優惠的價格政策。
![]()
英偉達芯片(左)和國產芯片(右)生成視頻對比
這不僅僅是成本優化的技術選擇,更是對國產 AI 生態的戰略性支持。在視頻生成這一 AI 應用的關鍵場景中,打通從算法框架到硬件芯片的全鏈路國產化能力,意味著中國 AI 產業在核心技術上邁出了實質性的一步。
當視頻生成真正做到實時、低成本、可規模化,AI 短劇乃至更廣泛的視頻內容創作,或許將迎來真正的生產力革命。而這場革命的起點,正是像 LightX2V 這樣從底層技術開始的系統性創新。
文中視頻鏈接:https://mp.weixin.qq.com/s/JkH_x_aajxyzG8_EzLQ8Tw
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.