金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
現在生成一個視頻,比你刷視頻還要快。
因為一個開源新框架,竟能讓視頻生成在保證質量的情況下,最高提速200多倍!
而且還是單張顯卡就能hold住的那種,來感受一下這個feel:

沒錯,原先1.3B-480P在單張RTX 5090生成一個5秒的視頻,需要的時間大概是184秒。
而現在,只需要1.9秒,速度足足提升97倍!
這背后,便是清華大學TSAIL實驗室和生數科技聯合開源的視頻生成加速新框架——TurboDiffusion。
![]()
新框架一出,網友們也是不淡定了,直呼:
- 我們已經進入到了生成的視頻比看的視頻還多的時代。
![]()
包括Meta研究員和伯克利教授也站臺打call:
![]()
2秒就能生成一個視頻
過去,視頻生成雖然驚艷,但慢,一直是個老大難的痛點問題。
想生成一段幾秒的高質量視頻,模型往往需要在大顯存高端顯卡上吭哧吭哧跑上幾分鐘到幾十分鐘。這種延遲,極大限制了創作者的靈感爆發和實時交互的可能性。
TurboDiffusion的出現,就是為了解決這個問題。
咱們直接看一組數據。
在單張RTX 5090上,針對1.3B大小的文生視頻模型:
- 原始生成:生成一段480P視頻需要約184秒(超過3分鐘)。
- TurboDiffusion:僅需1.9秒。

算下來,相對于原始模型,TurboDiffusion實現了約97倍的加速!
若是模型再大一些,例如14B的圖生視頻模型,清晰度為720P,效果也是立竿見影,僅需38秒就能搞定:

同樣是720P的文生視頻模型,所需要的時間也僅僅24秒:

圖生視頻中14B的480P則需9.9秒:

更重要的是,這種提速是幾乎無損的。
在生數科技自研的Vidu模型上,使用了TurboDiffusion之后,視頻的動態流暢度、光影質感以及指令遵循能力依然保持了極高水準。
在生成1080P分辨率、8秒時長的高質量視頻時,相比沒有任何推理加速優化的視頻生成,TurboDiffusion可以將端到端的生成延遲從900s提速到8s。
![]()
視頻地址:https://mp.weixin.qq.com/s/AQ3c0Jewh1k2FRmLkWF2TQ
不同大小和清晰度,TurboDiffusion加速的效果可以總結如下:
![]()
并且TurboDiffusion操作起來也是非常簡單,它針對目前主流的視頻生成模型提供了開箱即用的優化方案。
在GitHub中,TurboDiffusion項目也給出了具體的操作細節和方式:
![]()
那么問題來了,這種速度到底是如何做到的?
四個步驟極限壓縮時間
視頻生成模型(通常是Diffusion Transformer架構)之所以慢,主要卡在步數多(采樣循環)、算力重(Attention計算)、顯存窄(權重搬運)。
為此,TurboDiffusion團隊整合了四項關鍵技術,每一項都精準打擊擴散模型推理的性能瓶頸。
首先就是SageAttention。
注意力機制可以說是擴散模型中最耗時的部分之一,傳統實現使用 FP16(半精度浮點),計算量大、顯存占用高。
TurboDiffusion引入了團隊自研的SageAttention2++,一種低比特量化注意力方案。
它將權重和激活值壓縮到INT8甚至INT4,同時通過異常值平滑和線程級量化技術,避免精度崩塌。
從結果上來看,注意力計算速度提升3–5倍,顯存占用減半,而圖像質量幾乎不變。
其次是Sparse-Linear Attention(SLA)。
如果說 SageAttention 是在單次計算上提速,那么SLA就是從算法邏輯上減負。
SLA結合了稀疏性(只關注重要的像素點)和線性復雜度(讓計算量不隨分辨率爆炸增長)。
最絕的一點是:稀疏計算與低比特加速是正交的。這意味著 SLA 可以直接疊在 SageAttention 之上使用,強強聯手,在推理過程中又榨出了數倍的額外加速空間。
第三招是rCM步數蒸餾。
傳統的擴散模型需要經過幾十甚至上百步的迭代才能去噪生成圖像。
TurboDiffusion引入了rCM(Score-regularized Continuous-time Consistency Models) 進行步數蒸餾。
rCM是目前最先進的蒸餾方案之一。通過它,原本需要幾十步才能生成的視頻,現在只需要1-4步就能達到幾乎相同的質量。
最后便是W8A8 量化+自定義算子。
除了注意力,模型中的線性層(Linear Layer)也占大量計算。TurboDiffusion對其采用W8A8量化(權重8位,激活8位),并在128×128的塊粒度上分塊處理,充分利用RTX 5090的INT8 Tensor Core。
此外,團隊還用Triton/CUDA重寫了LayerNorm、RMSNorm等基礎算子,消除PyTorch默認實現的overhead。
這四項技術環環相扣:蒸餾減步數,量化減負載,SLA和SageAttention減算力。最終匯聚成了那驚人的200倍加速。
![]()
這4項核心技術均由清華大學TSAIL團隊聯合生數科技自主研發,它的意義遠不止于技術指標的躍升,更在于它打通了視頻生成模型從研究到落地的最后一公里:
- 消費級部署成為可能:在單張RTX 5090上,720P視頻生成時間從幾百秒降至幾十秒,真正實現秒級出片,為個人創作者、中小企業提供可用工具。
- 云端推理成本驟降:推理時延降低100倍,意味著同等算力可服務100倍用戶,大幅降低云廠商與SaaS平臺的運營成本。
- 推動 AIGC 產品創新:實時視頻編輯、交互式視頻生成、AI 短劇自動制作等新場景成為可能,催生全新產品形態。
- 國產芯片友好:低比特、稀疏化、算子定制等特性天然適配國產AI芯片架構,助力中國AI基礎設施自主可控。
其中,SageAttention更是全球首個實現注意力計算量化加速的技術方案,已被工業界大規模部署應用。
例如,SageAttention已成功集成至NVIDIA推理引擎Tensor RT,同時完成在華為昇騰、摩爾線程S6000等主流GPU平臺的部署與落地。
此外,騰訊混元、字節豆包、阿里Tora、生數Vidu、智譜清影、百度飛槳、昆侖萬維、Google Veo3、商湯、vLLM 等國內外頭部科技企業及團隊,均已在核心產品中應用該技術,憑借其卓越性能創造了可觀的經濟效益。
視頻生成,離實時更近了
從1小時到2秒,TurboDiffusion完成的不僅是一次技術突破,更是一次范式轉移。
它證明了高質量 AI 視頻,不必以犧牲效率為代價。當生成速度進入人類反應時間范圍(<5秒),AI 就不再是后期工具,而成為創作伙伴——你說話,它就動;你畫草圖,它就演故事。
這或許就是實時生成時代的真正含義:創作的延遲被抹平,想象力成為唯一的限制。
而現在,我們離那個時代,只有2秒。
項目地址放下面了,感興趣的小伙伴抓緊體驗一下吧~
TurboDiffusion項目地址:
https://github.com/thu-ml/TurboDiffusion?tab=readme-ov-file
論文地址:
https://arxiv.org/pdf/2512.16093
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.