![]()
這項由浙江大學白建宏團隊聯(lián)合快手科技Kling團隊、香港中文大學、大連理工大學、華中科技大學等機構共同完成的研究,于2024年12月發(fā)表在計算機視覺頂級會議上,論文編號為arXiv:2512.20619v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。這項名為SemanticGen的技術創(chuàng)新,徹底改變了傳統(tǒng)視頻生成"又慢又耗資源"的困境,首次實現(xiàn)了在高層語義空間中生成視頻的突破性方法。
目前的AI視頻生成就像用放大鏡逐個像素地畫油畫一樣緩慢。傳統(tǒng)方法需要處理海量的視頻細節(jié)信息,訓練一個模型往往需要數十萬GPU小時,相當于讓幾千臺高性能電腦不停工作幾個月。更讓人頭疼的是,當你想生成稍長一點的視頻時,比如一分鐘的片段,計算量會呈幾何級數爆炸增長,讓很多研究機構望而卻步。
SemanticGen的核心創(chuàng)新就像是先畫草圖再填細節(jié)的藝術創(chuàng)作方式。研究團隊發(fā)現(xiàn),與其直接在像素層面"硬磨",不如先在一個更抽象的語義空間中規(guī)劃整個視頻的大致框架和情節(jié)走向,然后再逐步添加視覺細節(jié)。這種方法不僅顯著提升了訓練速度,還能生成長達一分鐘的高質量視頻,而傳統(tǒng)方法在處理如此長的視頻時往往會出現(xiàn)嚴重的"記憶衰退"問題。
一、革命性的雙階段生成思路
傳統(tǒng)的視頻生成方式就像是一個畫家拿著畫筆直接在巨大的畫布上作畫,每一個細微的筆觸都需要考慮整體效果,這樣的工作方式不僅效率低下,還容易在長篇幅的創(chuàng)作中失去一致性。SemanticGen采用了一種全新的創(chuàng)作策略,將整個過程分為兩個階段,就像電影制作中先寫劇本大綱再拍攝細節(jié)的工作流程。
在第一個階段,系統(tǒng)會在一個高度壓縮的語義空間中生成視頻的"故事梗概"。這個語義空間就像是電影劇本中的場景描述,它包含了視頻中物體的位置關系、動作軌跡、場景變化等關鍵信息,但暫時不涉及具體的顏色、紋理、光影等視覺細節(jié)。研究團隊使用了一個擴散模型來學習和生成這些高層次的語義特征,這些特征定義了視頻的全局布局和基本情節(jié)發(fā)展。
第二個階段則像是給劇本配上詳細的分鏡頭和視覺效果。系統(tǒng)會根據第一階段生成的語義特征,使用另一個擴散模型來生成具體的VAE潛在表示,最終輸出我們看到的視頻畫面。這種分層的生成方式讓每個階段都能專注于自己最擅長的任務,避免了傳統(tǒng)方法中"什么都要管,什么都管不好"的問題。
研究團隊發(fā)現(xiàn),在語義空間中進行生成相比在VAE潛在空間中直接生成,收斂速度快了很多。這就像是在地圖上規(guī)劃路線比在實地摸索要高效得多一樣,先有了整體的方向感,后續(xù)的細節(jié)填充就會變得更加有序和高效。
二、語義編碼器的巧妙選擇
為了實現(xiàn)在語義空間中的有效生成,研究團隊需要找到一個合適的"翻譯官",能夠將原始視頻轉換成富含意義的語義表示。這個任務看似簡單,實則充滿挑戰(zhàn),就像需要找到一個既懂藝術又懂技術的專家來指導創(chuàng)作。
研究團隊確定了語義編碼器需要滿足的三個關鍵要求。首先,這個編碼器必須在大規(guī)模視頻數據集上進行過訓練,這樣它才能理解視頻中的時序信息,比如物體是如何移動的,攝像機是如何轉動的。那些只在靜態(tài)圖像上訓練的編碼器,就像只看過照片的人去指導電影拍攝,無法理解動態(tài)的時間關系。
其次,輸出的語義表示必須在空間和時間維度上都足夠緊湊。這個要求的核心思想是,由于視頻本身存在大量冗余信息,生成過程應該首先在一個緊湊的高級語義空間中進行全局規(guī)劃,然后再添加視覺細節(jié),而不是直接對大量低級視頻標記進行建模。
最后,語義編碼器應該在多種視頻長度和分辨率上進行訓練,這樣才能支持生成各種類型的視頻內容,包括不同長寬比和時長的視頻。
基于這些考慮,研究團隊選擇了Qwen-2.5-VL的視覺塔作為語義編碼器。這個編碼器通過視覺語言對齊的方式在圖像和視頻數據集上進行了訓練。對于視頻輸入,它首先以較低的幀率采樣視頻幀,然后將圖像塊壓縮成單個標記,再沿每個維度進一步壓縮,最終將一個視頻轉換成緊湊的語義表示。
三、語義空間壓縮的精妙設計
研究團隊在實驗中發(fā)現(xiàn)了一個意外的現(xiàn)象:直接讓預訓練的視頻擴散模型去擬合高維度的語義表示,效果并不理想,收斂速度慢,生成質量也不如預期。這個發(fā)現(xiàn)就像是發(fā)現(xiàn)了一個看似完美的計劃在實際執(zhí)行中卻困難重重,需要進一步的優(yōu)化和調整。
經過深入分析,研究團隊認為這個問題有兩個主要原因。首先,高維度的語義特征包含了豐富的信息,這可能需要更長的訓練時間才能完全掌握。其次,原始的語義空間可能不太適合擴散模型進行采樣,就像某些復雜的地形不適合車輛通行,需要修建更適合的道路。
為了解決這個問題,研究團隊設計了一個巧妙的解決方案:使用一個可學習的多層感知機來壓縮語義空間,使其更適合擴散模型的訓練和采樣。這個MLP承擔著雙重任務,既要降低語義表示的維度,又要將壓縮后的特征空間建模為高斯分布。
具體來說,MLP會輸出壓縮語義分布的均值和方差,研究團隊還加入了KL散度作為正則化項,鼓勵學到的壓縮語義空間盡可能接近標準高斯分布。這種設計讓后續(xù)的語義表示生成模型更容易擬合和采樣,就像為復雜的路況修建了一條平坦的高速公路。
采樣得到的語義嵌入會通過上下文條件的方式注入到擴散模型中。在訓練過程中,系統(tǒng)首先將輸入視頻送入語義編碼器和可學習的MLP,得到其緊湊的語義表示,然后將這個表示與加噪的VAE潛在表示拼接作為模型的輸入。為了驗證壓縮語義表示確實捕獲了視頻的高層語義并能有效指導生成,研究團隊還進行了一個有趣的實驗:從參考視頻中提取語義特征,然后注入到VAE潛在生成器中,生成的視頻確實保持了參考視頻的空間布局和運動模式,同時在細節(jié)上有所不同。
四、長視頻生成的創(chuàng)新策略
傳統(tǒng)的基于擴散的視頻生成方法在處理長視頻時面臨著一個根本性的挑戰(zhàn):雙向注意力的計算成本隨著視頻長度的增加呈二次方增長。這就像是在一個越來越大的房間里,每個人都要和房間里的每個人握手,當房間變得足夠大時,這種"全連接"的交流方式就變得不現(xiàn)實了。
SemanticGen提出了一個巧妙的解決方案來應對這個挑戰(zhàn)。其核心思想是在生成長視頻時,只在高度壓縮的語義空間中進行全注意力建模,以保持整個視頻中場景和角色的一致性,而在映射到VAE潛在空間時則使用滑動窗口注意力,確保計算成本不會隨著幀數的增加而爆炸性增長。
這種策略的巧妙之處在于充分利用了語義空間的高壓縮比特性。在研究團隊的實現(xiàn)中,語義空間的標記數量只有VAE標記的十六分之一,這意味著在語義空間中進行全注意力建模只會增加很少的額外計算成本。同時,由于語義表示天然地具有高壓縮比,語義表示生成過程引入的計算開銷可以忽略不計。
在VAE潛在生成階段,研究團隊采用了滑動窗口注意力機制。具體來說,他們將VAE潛在表示和對應的語義表示交錯排列,將長度為Tw的視頻的兩種標記都放入一個注意力窗口中,然后在奇數層中將窗口滑動半個窗口大小Tw/2。這種設計既保證了局部的精細建模,又通過語義信息的全局指導保持了長程一致性。
這種混合注意力策略就像是在管理一個大型企業(yè)時,高層管理者(語義空間)負責全局戰(zhàn)略規(guī)劃和協(xié)調,而具體的執(zhí)行部門(VAE潛在空間)則專注于局部的精細操作。通過這種分工合作,既保證了整體的協(xié)調性,又提高了執(zhí)行效率。
五、實驗驗證與性能評估
研究團隊進行了全面而嚴格的實驗驗證,就像是對一個新發(fā)明進行全方位的測試,確保它在各種條件下都能穩(wěn)定可靠地工作。他們的實驗設計覆蓋了短視頻生成和長視頻生成兩個主要場景,并與當前最先進的方法進行了詳細對比。
在短視頻生成方面,研究團隊使用了標準的VBench基準測試,這是視頻生成領域廣泛認可的評估標準。實驗結果顯示,SemanticGen在主體一致性、背景一致性、時序平滑性等關鍵指標上都表現(xiàn)優(yōu)異,與最先進的基線方法相當甚至更好。特別值得注意的是,SemanticGen在文本遵循準確性方面表現(xiàn)突出,能夠準確地根據文本提示生成相應的視頻內容。
長視頻生成的實驗結果更加令人印象深刻。研究團隊使用了VBench-Long基準測試,并引入了專門用于評估長視頻質量漂移的ΔMdrift指標。這個指標通過比較視頻開始和結束部分的質量差異來衡量生成過程中的累積誤差。實驗結果顯示,SemanticGen在長視頻一致性和時序穩(wěn)定性方面顯著優(yōu)于所有基線方法,ΔMdrift值達到了3.58,遠低于其他方法的5.20到12.39。
為了確保比較的公平性,研究團隊還設計了控制實驗。他們使用相同的基礎模型、訓練數據和訓練步數,只是采用標準的擴散損失而不使用語義建模,來訓練對比基線。這些被稱為Base-CT和Base-Swin-CT的基線模型為評估SemanticGen的真實效果提供了可靠的參照。結果表明,即使在嚴格控制其他變量的情況下,SemanticGen仍然表現(xiàn)出明顯的優(yōu)勢。
六、語義空間壓縮的深度分析
研究團隊對語義空間壓縮策略進行了細致的消融實驗,就像是解剖一個精密機器的每個零件,了解每個組件對整體性能的貢獻。他們使用Qwen2.5-VL3B-Instruct的視覺塔作為語義編碼器,原始語義表示的維度為2048。
實驗設計包括三種不同的設置:不使用MLP壓縮(維持2048維)、使用64維輸出的MLP壓縮、以及使用8維輸出的MLP壓縮。每種設置都訓練了相應的VAE潛在生成器和語義生成模型,然后在相同的測試集上進行評估。
實驗結果揭示了一個有趣的現(xiàn)象:隨著語義表示維度的降低,生成視頻的視覺質量實際上在提升。8維壓縮版本在幾乎所有VBench指標上都表現(xiàn)最佳,包括主體一致性97.49%、背景一致性97.34%、時序平滑性98.27%等。這個結果表明,適度的壓縮不僅沒有損失信息,反而幫助模型更好地捕捉了關鍵的語義結構。
從定性結果來看,未經壓縮的版本往往產生更多的破碎幀和視覺偽影,而壓縮版本的視頻更加連貫和自然。這個現(xiàn)象可以用信息理論來解釋:過于豐富的信息可能包含了大量噪聲,適度的壓縮實際上起到了降噪的作用,讓模型更容易學習到真正重要的語義模式。
七、與其他技術路線的對比分析
為了更深入地理解SemanticGen的優(yōu)勢,研究團隊還與另一種技術路線進行了對比:使用相同的兩階段框架,但學習壓縮的VAE潛在表示而不是語義特征。這個對比實驗就像是在兩種不同的地圖制作方法之間進行選擇,一種基于地理特征,另一種基于行政區(qū)劃。
實驗結果清晰地展示了語義空間的獨特優(yōu)勢。在相同的訓練步數下,基于語義特征的模型已經能夠生成相對合理的視頻內容,而基于壓縮VAE潛在表示的模型仍然只能產生粗糙的色彩塊。這個差異表明,語義空間確實為視頻生成提供了一個更自然、更高效的中間表示。
這種差異的根本原因在于語義表示和VAE潛在表示的本質不同。語義表示更接近人類理解視頻的方式,它關注的是"這里有一個人在走路"而不是"這個像素是紅色的,那個像素是藍色的"。這種高層次的抽象讓模型能夠更快地學習到視頻的基本結構和動態(tài)模式。
研究團隊的收斂速度分析進一步證實了這一點。語義空間中的建模收斂速度明顯快于VAE潛在空間,這不僅節(jié)省了大量的計算資源,也為實際應用提供了更好的可行性。在當前AI訓練成本日益高漲的背景下,這種效率提升具有重要的實用價值。
八、技術局限性與未來展望
如同任何創(chuàng)新技術一樣,SemanticGen也存在一些局限性,研究團隊對此進行了坦誠的討論。這種開放的態(tài)度就像是一個誠實的工匠,既為自己的作品感到自豪,也清楚地知道還有哪些地方需要改進。
在長視頻生成中,SemanticGen在維持紋理一致性方面存在挑戰(zhàn)。由于語義特征無法完全保留細粒度的視覺細節(jié),生成的長視頻有時會在紋理、材質等細節(jié)方面出現(xiàn)不一致的現(xiàn)象。這就像是一個導演能夠很好地控制電影的整體情節(jié)和人物關系,但在服裝道具的細節(jié)上可能會出現(xiàn)前后不一致的小錯誤。
另一個重要的局限性來自于語義編碼器本身的約束。當前使用的編碼器以相對較低的幀率對輸入視頻進行采樣,這導致高頻時間信息的丟失。在處理閃電、爆炸等快速變化的場景時,生成的視頻可能會缺少一些瞬間的視覺效果。這個問題就像是用普通相機拍攝高速運動的物體,總會錯過一些精彩的瞬間。
展望未來,研究團隊認為有幾個方向值得深入探索。首先是開發(fā)更強大的視頻語義編碼器,既能實現(xiàn)高時間壓縮比又能以高采樣率處理原始視頻,從而更好地建模高頻時間信息。其次是系統(tǒng)性地分析不同語義編碼器的效果,探索哪種訓練范式更適合視頻生成任務。
此外,研究團隊還指出,SemanticGen的框架設計具有很強的通用性,不局限于特定的語義編碼器。隨著視頻理解技術的不斷進步,更先進的語義編碼器可以無縫集成到這個框架中,進一步提升生成效果。
九、實際應用前景與社會影響
SemanticGen的技術突破不僅僅是學術研究的成果,它更預示著視頻內容創(chuàng)作領域即將迎來的重大變革。這種變革的影響可能會深入到我們日常生活的方方面面,從娛樂產業(yè)到教育培訓,從新聞傳播到個人表達。
在影視制作領域,SemanticGen可以大大降低概念視頻和預覽版本的制作成本。電影制片人可以快速生成不同版本的場景預覽,在投入大量資源進行實際拍攝之前就確定最佳的視覺方案。這就像是在建造房子之前先做詳細的3D模型,避免了昂貴的返工成本。
對于教育和培訓行業(yè),這項技術開啟了全新的可能性。教師可以根據教學內容快速生成相應的視頻素材,讓抽象的概念變得更加生動直觀。醫(yī)學院的學生可以觀看根據病例描述生成的手術過程視頻,工程專業(yè)的學生可以看到復雜機械結構的運作過程。
在個人創(chuàng)作和社交媒體方面,SemanticGen讓普通用戶也能成為視頻內容的創(chuàng)造者。你只需要用文字描述你想要的場景,系統(tǒng)就能幫你生成相應的視頻內容。這種技術民主化的趨勢讓創(chuàng)意表達不再受限于技術門檻和經濟條件。
當然,這項技術的普及也帶來了新的思考。如何區(qū)分真實視頻和AI生成視頻將成為一個重要議題,相關的標識和監(jiān)管機制需要跟上技術發(fā)展的步伐。同時,內容創(chuàng)作者需要適應新的創(chuàng)作模式,將重心從技術操作轉向創(chuàng)意構思和質量把控。
說到底,SemanticGen代表的不僅是視頻生成技術的進步,更是人工智能在理解和創(chuàng)造視覺內容方面的重要突破。通過在語義空間中進行生成,這項技術讓AI更接近人類的創(chuàng)作思維模式,從整體規(guī)劃到細節(jié)完善,從抽象構思到具體實現(xiàn)。這種符合人類認知習慣的技術設計,可能會成為未來AI系統(tǒng)發(fā)展的重要方向。隨著技術的不斷完善和普及,我們有理由相信,視頻內容的創(chuàng)作和消費方式將迎來前所未有的變革,而SemanticGen正是這場變革的重要推動力。研究團隊的這項工作為整個領域提供了新的思路和可能性,相信會激發(fā)更多創(chuàng)新研究的出現(xiàn)。
Q&A
Q1:SemanticGen和傳統(tǒng)視頻生成方法有什么本質區(qū)別?
A:傳統(tǒng)方法就像直接在畫布上逐個像素地作畫,而SemanticGen采用先畫草圖再填細節(jié)的方式。它首先在語義空間規(guī)劃視頻的整體結構和動作軌跡,然后再生成具體的視覺細節(jié),這樣不僅速度更快,還能更好地保持長視頻的一致性。
Q2:為什么SemanticGen能夠生成更長的視頻?
A:主要因為它采用了混合注意力策略。在語義空間中使用全注意力保持全局一致性,在VAE空間中使用滑動窗口注意力控制計算成本。由于語義空間的壓縮比很高,全注意力的計算開銷很小,而局部注意力則避免了計算量隨視頻長度爆炸性增長的問題。
Q3:普通人什么時候能用上SemanticGen技術?
A:雖然論文沒有明確商業(yè)化時間表,但這項技術已經在快手等公司內部得到驗證。考慮到視頻生成技術的快速發(fā)展趨勢,預計在不久的將來就會有基于類似技術的產品面向普通用戶開放,讓更多人能夠輕松創(chuàng)作高質量的視頻內容。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.