![]()
本研究的共同第一作者是來自于香港科技大學(廣州)EnVision Research 的張鴻飛(研究助理)和陳康豪(博士研究生),兩位研究者均師從陳穎聰教授。
你的生成模型真的「懂幾何」嗎?還是只是在假裝對齊相機軌跡?
當前眾多視頻生成模型雖宣稱具備「相機運動控制」能力,但其控制信號通常僅依賴于相機位姿。雖近期工作通過逐像素射線方向(Ray Condition)編碼了運動信息,但由于模型仍需隱式推斷三維結構,本質上仍缺乏對場景的顯式幾何理解。這一局限性導致了相機運動的不一致——模型受限于外觀與結構兩種表征信息的耦合,無法充分捕捉場景的底層幾何特征。
鑒于上述挑戰,來自香港科技大學、復旦大學等機構的研究團隊提出了一種全新的端到端幾何感知擴散模型框架 DualCamCtrl。該研究針對現有方法在場景理解與幾何感知方面的不足,創新性地設計了一個「雙分支擴散架構」,能夠同步生成與鏡頭運動一致的 RGB 與深度序列。進一步地,為實現 RGB 與深度兩種模態的高效協同,DualCamCtrl 提出了語義引導互對齊機制(Semantic Guided Mutual Alignment),該機制以語義信息為指導,在雙向的交互中實現了更好的模態融合。
這些設計使 DualCamCtrl 能夠更好地解耦外觀與幾何建模,從而生成更嚴格遵循指定相機軌跡的視頻。大量實驗表明,DualCamCtrl 在相機運動一致性方面顯著優于現有方法,相機運動誤差降低超過40%
![]()
- 論文標題:DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation
- 項目主頁:https://soyouthinkyoucantell.github.io/dualcamctrl-page/
- 論文鏈接:https://www.arxiv.org/abs/2511.23127
- Github 倉庫:https://github.com/EnVision-Research/DualCamCtrl
- Huggingface 模型:https://huggingface.co/FayeHongfeiZhang/DualCamCtrl
![]()
雙分支幾何感知擴散模型
![]()
總體而言,DualCamCtrl 巧妙地采用了雙分支視頻擴散框架(Dual Branch Video Diffusion Framework),其中一條分支負責生成 RGB 表示,另一條分支負責生成深度表示,兩種模態通過提出的SIGMA機制進行融合。
該設計使得模型能夠從單張輸入圖像及其對應深度圖中,同步推斷出視頻級別的 RGB 與深度隱空間表征(Latent Representation),不僅最大限度降低了模態間的相互干擾,更使深度信息得以貫穿整個視頻生成過程,實現連貫的幾何引導。
SIGMA 機制以及雙階段訓練
在多模態可控視頻生成任務中,訓練與融合策略是關鍵。DualCamCtrl 的核心設計正是基于這一認識,包含兩部分:一是提出語義引導互對齊(SIGMA)融合機制,促進 RGB 與深度模態在生成過程中的有效協同;二是采用分階段訓練策略——首階段學習解耦的多模態表征,次階段專注跨模態融合建模。
該設計使模型在復雜相機運動下,能同時保持外觀連貫與三維幾何準確,實現幾何感知的可控生成。
語義引導互對齊機制
![]()
圖3. SIGMA融合策略的動機與優勢對比示意圖。
基于雙分支框架,RGB 分支與深度分支分別生成對應的視頻序列和對應深度序列。盡管兩者輸入相同,但它們獨立演化易導致輸出不一致,因此需要有效的融合與對齊策略(圖 3.a)。
然而該團隊發現:單向對齊(One-Way Alignment)易損失語義一致性,幾何引導對齊(Geometry-Guided Alignment)則過度強調幾何表征而破壞了運動的一致性。為此,該團隊提出了語義引導互對齊機制(SIGMA)
SIGMA 采用語義引導的雙向設計:淺層以 RGB 特征錨定語義結構,深層則引入深度反饋優化幾何表達。該方法基于兩個 key insights(圖 3.b、3.c):
- 語義優先的重要性:外觀特征應在早期占主導地位以保持語義的穩定,而深度信號作為后期補充來優化幾何結構。
- 雙向交互的重要性:兩分支相互反饋可避免單向對齊的失衡,實現更穩定的隱空間表征對齊。
分階段訓練策略
為實現 RGB 與深度模態穩健生成與有效協同的目標,DualCamCtrl 采用分階段訓練策略(Two-stage training),為每個階段的學習設置不同側重點:
- 解耦訓練階段(Decoupled Stage):核心目標是使 RGB 與深度分支分別專注學習外觀與幾何表征。為此,模型使用共享預訓練權重初始化,并利用 state-of-the-art (SOTA) 視頻深度估計模型Video Depth Anything生成的深度特征進行監督。此階段禁止模態間交互,確保表征演化的獨立性。
- 融合訓練階段(Fusion Stage):在兩個分支具備基礎能力后,核心目標轉向實現外觀與幾何信息的互補增強。為此,模型引入零初始化的融合模塊,逐步建立跨模態交互,并通過聯合優化 RGB 與深度目標函數,實現多模態表征的對齊與協同。
![]()
圖2:兩階段訓練的效果:單階段模型因無法充分收斂(上圖),導致其相機軌跡對齊效果欠佳(下圖)。這凸顯了先解耦學習外觀與幾何表征的兩階段策略的有效性。
實驗結果
在定量和定性比較中,DualCamCtrl 在各項指標上均顯著優于當前的 SOTA 方法。
定性分析:
![]()
在相同輸入條件下,DualCamCtrl 在相機運動的對齊效果和視頻生成的視覺效果上均顯著優于現有先進方法。圖中“+”標記為視覺對比的定位參考點。
定量分析:
![]()
Image to Video 定量分析結果
![]()
Text to Video 定量分析結果
總結
DualCamCtrl 提出了一種集成深度信息的雙分支視頻擴散模型,實現了更精準的相機控制視頻生成。通過引入語義引導互對齊機制(SIGMA)與兩階段訓練策略,該模型有效同步了 RGB 序列與深度序列的生成和融合,顯著增強了模型的幾何感知能力。實驗表明,該方法在相機一致性誤差上比先前方法降低超過 40%,為相機控制視頻生成提供了新的技術思路,并有望推動其他可控視頻生成任務的發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.