網易首頁 > 網易號 > 正文申請入駐

NVIDIA與伊利諾伊大學：AI視頻生成實現因果邏輯分離式運動控制

2026-04-16 20:35:58　來源: 科技行者

北京舉報

分享至

這項由NVIDIA研究院與美國伊利諾伊大學厄巴納-香檳分校聯合完成的研究，以預印本形式于2026年4月8日發布在arXiv平臺，論文編號為arXiv:2604.07348。對于想深入了解的讀者，可通過該編號直接檢索原文。

當你拿起手機拍視頻，想要既追蹤桌上那只移動的杯子，又慢慢把鏡頭推近看清楚細節，這兩件事同時做起來其實相當自然。然而對于現有的AI視頻生成系統來說，這種"兩件事同時做"卻是一個棘手的難題——鏡頭動了，畫面里所有東西的運動軌跡都跟著變，AI根本分不清哪些是"鏡頭在動"、哪些是"物體本身在動"。更麻煩的是，當一只手推動一個杯子，杯子會滑動，這個"推"和"滑"之間存在因果關系，而現有的AI系統對此幾乎視而不見——它只知道機械地跟隨預設軌跡，根本不理解"手推了，所以杯子滑了"這件事。

正是為了解決這兩個深層問題，NVIDIA的研究團隊提出了一個名為MoRight的新框架。這個名字可以理解為"用正確的方式做運動控制"，而它的核心思路，就像是給AI配了一套"雙眼睛+因果推理大腦"的組合。

一、為什么現有系統總是"手忙腳亂"

要理解MoRight解決了什么問題，不妨先想象這樣一個場景：你是一位舞臺導演，既要指揮演員按照劇本走位，又要控制攝像機從不同角度拍攝。現有的AI視頻系統面對這個任務時，會把"演員走位"和"攝像機移動"混在一起，交給系統一張標注了每個像素運動軌跡的地圖。問題是，當攝像機向右移動時，畫面里所有東西的像素軌跡都會向左偏移——演員的軌跡和攝像機移動的效果完全混在一起，AI根本無法區分哪個位移是演員自己走的，哪個是因為鏡頭動了才產生的視覺偏移。

研究團隊把這種現象稱為"運動糾纏"。就像一團毛線被繞在一起，想要單獨抽出某一根幾乎不可能。現有方法試圖給AI額外提供深度信息、3D軌跡或者前景背景分割等"特權信息"來緩解這個問題，但這些信息在現實應用中往往很難獲取，而且只能在已知完整視頻序列的情況下使用——如果你只有一張參考圖，這些方法就束手無策了。

第二個問題同樣根深蒂固。當AI被告知"讓這只手沿著這條軌跡移動"，它會盡力讓畫面中的手跟隨軌跡，但對于"手推動了什么東西、那個東西會怎么反應"，它完全不在乎。這就好比一個演員只按照腳本走位，卻完全無視臺詞中的邏輯——他走到了桌子旁邊，但桌上的道具是否因此移動，與他無關。在物理世界中，因果關系是無處不在的：推一下積木會倒，提起茶壺水會流，踢一腳球球會飛出去。但對現有AI而言，這些都只是"像素位移"，而非"原因和結果"。

MoRight的出現，正是為了同時拆解這兩個困局。

二、"雙流"設計：給運動和鏡頭各自一條獨立的跑道

MoRight的第一個核心創新，是引入了一種叫做"雙流生成"的架構。用一個直觀的比喻來理解：把整個視頻生成過程想象成一個專業攝影棚的工作流程。棚里有兩套獨立系統同時運行——一套負責"演員在固定舞臺上的走位"，另一套負責"攝像機的移動軌跡"。這兩套系統彼此獨立運作，但又通過內部的信息傳遞機制保持協調，最終呈現出既有演員按設定走位、又有鏡頭靈活移動的連貫畫面。

具體來說，MoRight把運動控制拆成了兩個并行的處理通道。第一個通道叫做"規范視角流"（Canonical Stream），它在一個假設攝像機靜止不動的虛擬環境中處理物體的運動軌跡。用戶在這里畫出物體的運動路徑，比如"讓茶壺從左移到右"，這條路徑是在固定視角下定義的，清晰且無歧義。第二個通道叫做"目標視角流"（Target Stream），它負責處理攝像機的移動——比如"鏡頭向右旋轉30度"或者"鏡頭推近"。這個通道不直接處理物體的運動，而是接收攝像機參數作為輸入。

兩個通道的神經網絡權重是完全共享的，這意味著它們本質上是同一個AI大腦在同時處理兩類不同的任務。兩個通道通過每個Transformer模塊內部的"自注意力層"進行信息交流——在這一層，兩個通道的特征被拼接在一起，讓目標視角通道的像素可以"看到"規范視角通道里的運動信息，從而學會如何把固定視角下的物體運動轉化為攝像機移動后的視角下應該呈現的樣子。研究團隊把這種機制稱為"跨視角運動遷移"，它實現了在不知道未來幀的情況下，僅憑第一幀圖像就能完成運動與鏡頭的解耦。

在技術實現層面，物體運動的編碼方式是構建一張"逐像素軌跡圖"，讓沿同一條軌跡運動的像素共享相同的時間對應關系嵌入，然后通過一個輕量級編碼器壓縮成緊湊的特征。攝像機運動的編碼則借鑒了Gen3C的方法，利用攝像機位姿和深度估計對第一幀圖像進行"扭曲"——相當于模擬攝像機移動后場景應該看起來的樣子，再通過VAE編碼器編碼成攝像機條件特征。這兩種條件特征都在每個Transformer模塊中被注入到視頻特征里，形成"注入后同步"的循環，逐步把運動信息從規范視角傳遞到目標視角。

三、教會AI懂"因果"：主動運動和被動運動的拆分

解決了鏡頭與運動的糾纏問題之后，MoRight還要面對更深層的挑戰：如何讓AI理解"原因導致結果"。

研究團隊的解決方案出奇地優雅。他們把場景中所有物體的運動軌跡拆分成兩類。第一類叫做"主動運動"，指的是由用戶驅動的意圖性動作，比如手的移動、機器人手臂的伸展——這些動作是"原因"。第二類叫做"被動運動"，指的是因主動動作而產生的反應性運動，比如被推動的杯子滑行、被提起茶壺倒出的水流——這些是"結果"。

在訓練過程中，研究團隊引入了一種叫做"運動丟棄"的訓練策略。在每次訓練時，系統會隨機地只給AI展示主動運動軌跡或者只給被動運動軌跡，然后要求它生成包含兩類運動全部效果的完整視頻。這就好比告訴AI一道題的一半條件，讓它自己推斷出另一半。當AI只看到手的運動軌跡時，它必須自己預測杯子會怎么滑動；當AI只看到杯子的滑動軌跡時，它必須反推出是什么樣的手部動作導致了這個結果。

經過大量這樣的訓練，AI就像一個在廚房里觀察了無數次"廚師切菜→食材被切開"過程的學徒，開始內化這些因果規律，而不再只是機械地復制像素軌跡。

這種設計帶來了兩種推理能力，在測試階段可以靈活切換使用。"正向推理"就是用戶給出主動運動（比如畫出手往前推的軌跡），AI自動生成被推物體合理的反應動作。"逆向推理"則反過來，用戶指定想要的被動效果（比如"我希望球朝左飛去"），AI反推出是什么樣的主動動作導致了這個效果，進而生成完整視頻。這兩種能力讓用戶可以以完全不同的交互方式驅動視頻生成，極大地擴展了系統的應用范圍。

四、數據從哪里來：一套巧妙的數據工廠

MoRight的雙流架構需要"同一場景在不同攝像機角度下的成對視頻"作為訓練數據，但現實世界中幾乎不存在這樣的天然配對數據。研究團隊因此設計了一套三階段數據生產流水線，堪稱一座自動化數據工廠。

第一階段是"運動提取與規范化"。研究團隊從大量互聯網視頻中提取深度信息、攝像機位姿和密集像素軌跡，然后通過幾何投影把所有軌跡"還原"到第一幀的靜態視角坐標系下，得到規范化的運動軌跡。具體公式是把2D軌跡點根據深度"反投影"到3D空間，再投影到第一幀的相機平面，從而消除攝像機運動對軌跡的影響。

第二階段是"運動分解"。研究團隊使用Qwen3視覺語言模型對視頻內容進行理解，讓它識別哪些是主動物體（比如人、手、機器人），哪些是被動物體（比如被操作的工具或被推動的物品），然后用SAM2視頻分割模型對這些物體進行幀級別的精確分割，生成主動/被動物體的掩碼，從而把軌跡也分配到對應類別。與此同時，系統還會生成針對每個視頻的文字描述，并在訓練時只提供其中一類運動的文字描述，防止AI靠文字"作弊"來繞過因果推理。

第三階段是"成對多視角數據合成"。研究團隊先篩選出攝像機靜止的視頻（要求旋轉誤差不超過0.5度、平移不超過5毫米），然后用一個攝像機控制的視頻到視頻轉換模型生成對應的移動攝像機版本，從而人工制造出"同一物體運動在不同攝像機下的成對視頻"。為了增加攝像機多樣性，系統還補充了軌道旋轉、平移、推拉等基本攝像機操作，以及從真實視頻中提取的動態攝像機軌跡。

除了合成數據，研究團隊還設計了一套混合訓練策略來引入大量真實視頻。對于攝像機靜止的真實視頻，系統直接把它復制一份當作"目標流"輸出，讓AI學習如何把運動條件從第一個流傳遞到第二個流。對于同時包含攝像機和物體運動的真實視頻，系統只對第二個流施加監督損失，第一個流的損失設為零，這樣AI能接觸到各種真實的攝像機和運動配置，提升泛化能力。研究團隊還額外引入了SyncCamMaster生成的合成圖形數據，進一步豐富攝像機多樣性。

五、訓練細節和推理流程：從粗到細，從簡到難

在具體訓練中，MoRight采用了幾種互補的數據增強策略來提升模型魯棒性。首先是"多粒度運動丟棄"——不僅按主動/被動類型隨機丟棄運動，還隨機在像素級精細軌跡和物體級粗粒度軌跡之間切換，讓AI既能處理精細的像素控制，也能處理粗略的物體級別操作指令。其次是"遮擋和軌跡丟棄"——隨機遮掩部分軌跡點，模擬現實推理時可能遇到的遮擋和追蹤失敗情況，提高系統對不完整輸入的容忍度。此外，訓練時還會隨機截斷軌跡（只提供中間某幀之前的運動信息），模擬部分觀測的場景。

整個系統建立在預訓練的Wan2.1-14B視頻生成模型之上，只對攝像機編碼器、軌跡編碼器和自注意力層進行微調，凍結其余網絡參數。訓練使用了64塊GPU，共進行15000次迭代，批大小為16，學習率設置為每秒3×10^-5。軌跡條件的丟棄概率為0.1，文字條件的丟棄概率為0.2。在推理階段，用戶只需在第一幀圖像上畫幾條稀疏的運動軌跡（簡單的曲線或筆畫），指定運動方向和幅度，再選擇目標攝像機位姿序列，系統就會同時對兩個流進行聯合去噪，最終把第二流（目標視角）的輸出呈現給用戶。在推理時，系統還會利用第一幀深度信息進行遮擋感知處理，確保被遮擋物體的軌跡不會影響前景物體。

研究團隊還開發了一個交互式圖形界面，讓用戶可以在第一幀上直接繪制軌跡，同時獨立設置攝像機運動模式（如軌道環繞、推近推遠等），實時預覽軌跡效果和遮擋關系，進行直觀的場景編輯。

六、實驗結果：和同行相比，表現如何

研究團隊在三個評測數據集上測試了MoRight的性能：DynPose-100K（一個包含高動態攝像機運動的野外視頻數據集，團隊從中選取了50段有明顯視角變化和物體交互的視頻）、WISA（一個大規模物理動力學數據集，覆蓋碰撞、形變、彈性、液體和剛體運動等類別，選取了50段視頻）以及研究團隊自行收集的50段真實烹飪視頻（包含復雜的手-物體交互）。

評測指標涵蓋四個維度：視頻質量用PSNR和SSIM（與參考視頻的相似度）以及FID和FVD（分布級別的相似度）來衡量；攝像機控制精度用旋轉誤差和平移誤差來衡量；物體運動精度用終點誤差（EPE，即預測軌跡終點與真實軌跡終點之間的像素距離）來衡量；運動真實性用VideoPhy提供的"物理常識得分"（PC）和"語義一致性得分"（SA）來衡量，兩者都是0到1之間的歸一化分數。

與之對比的基線方法包括Wan2.1（基礎視頻生成模型，無運動控制能力）、Gen3C（僅支持攝像機控制）、Motion Prompting（MP，接收密集像素軌跡作為運動控制信號）、ATI（任意軌跡指令控制視頻生成）以及WanMove（通過潛在軌跡引導進行運動控制）。重要的是，后三種方法都需要提供包含前景和背景所有像素的完整運動軌跡，相當于擁有"特權信息"，而MoRight只需要在第一幀上定義稀疏的規范視角軌跡，不需要未來幀的軌跡信息。

在攝像機和物體運動聯合控制的評測中，WanMove在DynPose-100K數據集上總體成績最好，MoRight略微落后——主要原因是高動態攝像機運動下，攝像機位姿估計和軌跡重投影的誤差會影響輸入控制信號的質量。盡管如此，MoRight在物體運動精度（EPE）上達到了與需要特權信息的方法相當甚至更好的水平，而在烹飪數據集上，MoRight則在視頻質量和運動控制精度兩個維度上都取得了最佳整體表現。值得一提的是，ATI和WanMove由于把攝像機和物體運動捆綁在同一個追蹤信號里，在高動態場景中往往會偏向主導的運動模式，有時犧牲攝像機精度，有時犧牲物體追蹤精度。

在物理交互生成的評測中，MoRight的表現更為突出。在WISA數據集上，MoRight獲得了最高的物理常識得分（0.76），而MP、ATI和WanMove的得分均為0.75或更低。在烹飪數據集上，MoRight同樣取得了最高的物理常識得分（0.88）和最低的FID（39.94）、FVD（730.46）。語義一致性得分方面，由于MoRight只接收主動運動描述而不提供被動效果的文字描述（為了避免作弊），它的得分略低于那些使用完整描述的方法，但差距極小，仍在可比范圍內。

七、人類主觀評測：真實用戶如何選擇

為了更直觀地驗證效果，研究團隊還進行了一項人類感知評測研究。他們從三個測試數據集中隨機抽取了30個案例，邀請11位參與者對不同方法的生成結果進行盲評，三類視頻以隨機順序展示，避免位置偏差。參與者從"可控性"（物體和攝像機運動與輸入的一致程度）、"運動真實性"（交互的物理合理性）和"照片真實感"（視覺質量）三個維度選出最好的結果，允許多選或選擇"無一滿意"。過濾掉不可靠提交后，共收到330份有效評測。

結果顯示，MoRight在三個維度上均獲得了超過一半的偏好票：可控性53.5%，運動真實性54.6%，照片真實感55.9%。ATI的三項得分分別為18.8%、18.2%和17.4%，WanMove分別為25.0%、25.7%和23.1%。要知道，ATI和WanMove都使用了包含完整前景背景軌跡的特權信息，而MoRight只用了第一幀的主動軌跡。這一對比說明，擁有更多輸入信息并不必然帶來更好的生成效果，系統對運動的理解方式和架構設計才是關鍵。

八、消融研究：每個設計選擇是否真的有用

研究團隊還對MoRight的各個設計決策進行了系統性驗證，通過在烹飪數據集上對比不同變體來確認每個模塊的實際貢獻。

第一個對比是"級聯流水線"——把雙流并行設計換成先生成靜態攝像機視頻、再用Gen3C風格的攝像機控制器移動攝像機的兩階段串聯方案。結果顯示，這種方案引入了兩個階段之間的誤差累積，導致控制精度明顯下降。

第二個對比是"去掉固定視角分支"——只用動態攝像機視頻訓練，并把重投影軌跡和攝像機嵌入聯合編碼，去掉規范視角這個錨點。結果顯示，模型在攝像機精度和物體追蹤精度上都出現了大幅下滑，證明規范視角分支是雙流解耦成功的關鍵。

第三個對比是"去掉因果推理"——在訓練時不進行主動/被動運動分解。結果顯示，FID/FVD上升，物理常識得分下降，交互質量明顯劣化，說明因果推理模塊是改善物理合理性的核心。

第四個對比是"只用成對數據訓練"——不加入單視角真實數據的混合訓練。結果顯示，攝像機控制精度略有下降，原因是成對合成數據集的攝像機多樣性有限。這驗證了混合訓練策略對提升泛化能力的必要性。

在運動輸入配置的魯棒性測試中，研究團隊分別測試了粗粒度物體級軌跡、細粒度像素級軌跡、僅主動運動輸入和僅被動運動輸入四種條件。結果顯示，性能在各種配置下保持穩定，證明MoRight能靈活應對不同粒度和類型的運動輸入，而不是只能在特定輸入格式下工作。

九、局限性：哪些地方還做不好

研究團隊對系統的局限性進行了坦誠的分析。第一，系統可能出現錯誤的因果推理，導致不合理的結果，比如兩根烤串在運動過程中神奇地合并成一根。第二，當輸入軌跡因遮擋而在時間上變得稀疏時，生成的運動可能會不自然，比如手在遮擋后出現異常的運動模式。第三，生成的運動有時會違反物理一致性，比如足球在運動過程中突然消失。第四，在視頻后期幀中可能會出現幻覺內容，比如憑空多出一只手。此外，系統對極端快速或大幅度的攝像機運動（如劇烈的自我運動）的處理能力有限，當攝像機運動過于劇烈時，生成的交互動態質量會明顯下降。

說到底，MoRight做的是一件之前大家都覺得很難的事情：既讓AI的"眼睛"（攝像機視角）和"手"（物體運動）各自獨立受控，又讓AI真正理解"因為手推了，所以杯子才滑動了"這種最基本的物理邏輯。

這件事的意義遠不止于好看的演示視頻。對于做具身智能的研究者來說，能夠預測"我執行這個動作，環境會怎么變化"是機器人理解世界的核心能力之一；對于想要創作沉浸式內容的創作者來說，能夠在一張參考圖上自由指定物體運動方向并切換觀察角度，而不需要專業3D建模知識，是真正降低了創作門檻；對于未來的世界模型研究，這種能夠同時建模"視角"和"交互后果"的系統，提供了一種更接近人類感知方式的視頻生成路徑。

當然，MoRight還有明顯的局限，幻覺內容、物理不一致、極端攝像機運動處理等問題都需要進一步解決。單次視頻生成在A100 GPU上大約需要15分鐘，也還不夠實用。但作為一個研究性框架，它清晰地證明了"把運動拆開來理解"和"教AI懂因果"這兩個方向是有效的。有興趣深入研究的讀者，可以通過arXiv編號2604.07348查閱完整論文和補充材料。

Q&A

Q1：MoRight和普通AI視頻生成系統的最大區別是什么？

A：MoRight最大的區別在于兩點：一是它能把攝像機的移動和畫面里物體的運動分開獨立控制，不會互相干擾；二是它能理解因果關系，比如用戶指定"手往前推"，系統會自動生成被推物體的合理反應，而不需要用戶提前把所有物體的運動都畫出來。普通系統通常只能跟隨預設軌跡，不理解"為什么會這樣動"。

Q2：MoRight的逆向推理功能具體怎么用？

A：逆向推理是指用戶指定想要的"結果"，系統反推出"原因"。比如用戶畫出一個球應該朝左飛的軌跡，MoRight會自動推斷是什么樣的踢球動作導致了這個結果，并生成包含這個踢球動作的完整視頻。用戶不需要知道具體是哪只腳怎么踢，只需要描述想要的最終效果。

Q3：MoRight需要用戶提供哪些輸入才能生成視頻？

A：用戶只需要提供一張參考圖，然后在圖上畫幾條稀疏的運動軌跡（比如畫一條箭頭表示"讓這個物體往這個方向移動多遠"），再選擇攝像機運動模式（如推近、軌道旋轉等），可以選擇性地加一段文字描述。系統不需要未來幀的信息、不需要深度數據、不需要3D坐標，也不需要把所有像素的軌跡都畫出來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.