網易首頁 > 網易號 > 正文申請入駐

KAIST AI團隊革命性突破：無需深度估計也能讓視頻自由變換視角

2025-12-25 22:46:10　來源: 至頂AI實驗室

北京舉報

分享至

這項由韓國科學技術院（KAIST）人工智能實驗室的金敏晶、金正豪、陳昊英、鄭俊河以及朱在乙教授團隊完成的研究，于2025年12月18日發表在計算機視覺頂級會議arXiv上，論文編號為arXiv:2512.17040v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

說起視頻后期制作，相信很多人都有過這樣的遺憾：明明拍攝的內容很精彩，但是攝影角度不夠理想，要是能重新換個視角就好了。比如你用手機記錄了孩子的生日派對，但拍攝角度太低，想要從稍高的位置俯視整個場景，或者你拍了一段風景視頻，卻希望能有電影般的環繞鏡頭效果。傳統情況下，想要實現這樣的效果，要么重新拍攝，要么花費巨額成本請專業團隊制作。

而KAIST AI團隊的這項研究，就像為普通人提供了一臺"魔法相機"。他們開發了一個名為InfCam的系統，能夠接收你現有的視頻，然后按照你想要的攝影路徑，重新生成一個全新角度的視頻。最神奇的是，這整個過程完全不需要復雜的深度信息估計，就像魔法師變戲法一樣，僅僅通過巧妙的數學變換就能實現視角的自由切換。

這個技術的核心創新在于"無窮遠平面單應性變換"這一概念。聽起來很學術，其實可以這樣理解：當攝影師舉著相機進行純粹的旋轉運動時，遠處的景物幾乎不會發生位置變化，變化的主要是近處物體的相對位置。研究團隊巧妙地利用了這一物理規律，將復雜的視角變換問題分解成了兩個部分：一個是可以精確計算的旋轉部分，另一個是需要智能推測的平移部分。

一、傳統方法的困境：為什么現有技術總是不夠理想

在理解這項革新之前，我們先來看看以往的技術為什么總是讓人不夠滿意。

目前的視頻視角變換技術主要分為兩大類。第一類方法就像一個過分依賴GPS的司機，必須先估算出視頻中每個像素點的深度信息，然后根據這些深度數據重新投影到新的視角。這種方法聽起來很合理，但問題在于深度估計本身就是一個極其困難的任務。就像讓你僅僅通過觀看一張照片就準確說出照片中每樣物品距離相機的精確距離一樣，這幾乎是不可能完成的任務。

當深度估計出現錯誤時，整個重投影過程就會產生連鎖反應。比如說，如果系統錯誤地認為背景中的一棵樹距離相機很近，那么在生成新視角時，這棵樹可能會出現在完全錯誤的位置，甚至產生明顯的變形和撕裂效果。更糟糕的是，這種錯誤一旦發生，就無法在后續處理中得到糾正，因為錯誤的深度信息已經固化在了算法的處理流程中。

第二類方法則試圖通過大量的訓練數據來學習視角變換的規律。這就像培養一個學徒，讓他觀看成千上萬個視角變換的例子，希望他能從中總結出規律。然而，這種方法的問題在于訓練數據的局限性。現有的多視角視頻數據集往往存在嚴重的偏見，比如所有的攝影軌跡都從同一個起始點開始，或者只包含特定類型的場景。當模型在這樣帶有偏見的數據上訓練時，它往往會繼承這些偏見，導致在實際應用中表現不佳。

這就好比一個只見過城市風景的畫家突然被要求畫鄉村田野，即使技法再好，也難免會畫出不倫不類的作品。現有方法的這些局限性，正是KAIST團隊著力解決的核心問題。

二、無窮遠平面的智慧：一個簡單而優雅的數學洞察

KAIST團隊的解決方案建立在一個簡單卻深刻的數學洞察之上：當我們觀察遠處的風景時，無論怎樣轉動腦袋，遠山的相對位置幾乎不會發生變化，變化的只是近處物體的位置關系。

這個現象在數學上可以用"無窮遠平面單應性變換"來描述。雖然名字聽起來復雜，但概念其實很直觀。當攝影師手持相機進行純粹的旋轉運動時，比如從左向右轉動，或者上下傾斜，遠處的景物就像是貼在一個無窮遠的平面上，它們之間的相對位置關系保持不變。這種變換可以用一個簡單的數學矩陣精確描述，而且這個矩陣只依賴于相機的旋轉角度和焦距參數，完全不需要估計場景的深度信息。

研究團隊將這一洞察轉化為實用的算法設計。他們的系統首先對輸入視頻進行無窮遠平面變換，這一步就像是先處理畫面中所有遠景的變化。由于這種變換是純數學計算，不涉及任何估計過程，因此完全沒有誤差累積的問題。

處理完旋轉分量后，剩下的就是近景物體由于視角平移產生的位置變化，這部分被稱為"視差"。由于前期的旋轉變換已經大幅簡化了問題的復雜度，神經網絡只需要專注于學習這種相對簡單的視差模式，而不需要同時處理旋轉和平移的復合效應。這就像把一個復雜的烹飪過程分解為兩個簡單步驟：先處理主要的調味（旋轉），再處理細節的裝飾（平移），每一步都變得更加可控和精確。

三、數據增強的巧思：化腐朽為神奇的訓練策略

除了核心的無窮遠平面變換技術，KAIST團隊還在訓練數據的處理上展現了獨特的智慧。他們意識到，現有的多視角視頻數據集雖然包含了豐富的內容，但在攝影軌跡的多樣性上存在嚴重不足。

以MultiCamVideo數據集為例，這個數據集包含了大量的多角度同步視頻，但所有的攝影軌跡都從相同的起始位置開始。這就像所有的司機都從同一個停車位出發，雖然目的地不同，但起始點的單一性限制了路徑的多樣性。當神經網絡在這樣的數據上訓練時，它會錯誤地認為所有的視角變換都應該從特定的角度開始，導致在實際應用中缺乏靈活性。

研究團隊設計了一個巧妙的數據增強策略來解決這個問題。他們的方法就像重新編排電影剪輯一樣：將一個視頻序列倒放，然后與另一個視頻序列連接起來。由于倒放視頻的結尾幀恰好與后續視頻的開頭幀相同，這種連接是完全自然的。通過這種方式，原本從固定起點開始的多個攝影軌跡被重新組合為具有不同起始點的新軌跡，大大增加了訓練數據的多樣性。

除了軌跡增強，團隊還引入了焦距變化的數據增強。傳統的數據集中，同一場景的所有視頻往往使用相同的焦距設置，這限制了模型學習不同視野范圍變換的能力。研究團隊通過智能的圖像縮放和裁剪技術，模擬了不同焦距設置下的視頻效果。這就像給同一個攝影師配備了不同焦段的鏡頭，讓他能夠拍攝從廣角到長焦的各種效果。

這些數據增強技術的結合使用，讓訓練出的模型具備了處理任意起始角度和任意焦距變化的能力，大大提升了系統的實用性和魯棒性。

四、模型架構的精巧設計：讓AI理解視角變換的藝術

InfCam系統的模型架構設計充分體現了研究團隊對視角變換本質的深刻理解。整個系統基于Wan2.1這一成熟的文本到視頻生成模型進行改進，但在關鍵模塊上進行了專門的定制化設計。

系統的核心創新在于"單應性引導的自注意力層"。這個層次就像一個智慧的觀察員，能夠同時關注三種不同的信息源：原始的源視頻幀、目標視角的視頻幀，以及經過無窮遠平面變換處理的變形幀。通過對這三種信息的綜合分析，模型能夠準確理解哪些部分需要進行旋轉變換，哪些部分需要進行平移調整。

變形模塊的設計更是體現了數學與工程的完美結合。該模塊首先根據相機的內參矩陣和旋轉參數計算出精確的無窮遠平面變換矩陣，然后將這個變換應用到輸入視頻的特征表示上。這個過程完全是確定性的數學計算，沒有任何隨機性或估計誤差。變換完成后，模塊還會加入編碼后的相機平移和焦距信息，為后續的視差學習提供必要的指導。

相機編碼器的設計也頗具匠心。它將復雜的相機參數（包括旋轉矩陣、平移向量、焦距和主點坐標）編碼為模型能夠理解的特征表示。這就像為AI提供了一套專門的"相機語言"，讓它能夠準確理解人類想要實現的視角變換意圖。

模型的訓練策略采用了漸進式的方法。系統首先凍結預訓練模型的所有參數，只訓練新增的相機相關模塊。這種策略既保留了預訓練模型強大的視頻生成能力，又確保了新增模塊能夠專注于學習視角變換的特定任務。訓練過程中，模型逐步學會了如何將無窮遠平面變換的結果與視差預測相結合，最終生成符合目標視角的高質量視頻。

五、實驗驗證：理論照進現實的精彩表現

為了驗證InfCam系統的實際效果，研究團隊設計了一套全面的實驗評估方案，涵蓋了從合成數據到真實視頻的多個測試場景。

在合成數據的測試中，團隊使用了他們自己構建的AugMCV數據集。這個數據集包含了168個測試場景，每個場景都提供了真實的多視角視頻作為對照標準。實驗結果顯示，InfCam在所有主要指標上都顯著超越了現有的最先進方法。在圖像質量方面，InfCam生成的視頻在PSNR指標上比次優方法提升了約1.5分貝，在SSIM相似度指標上提升了約0.05，在感知質量LPIPS指標上降低了約0.05（數值越低表示質量越好）。

更重要的是，這種性能提升在不同焦距設置的測試中都保持穩定。傳統方法往往在處理焦距變化時表現不佳，因為它們缺乏對相機內參變化的深入理解。而InfCam由于在設計時就考慮了焦距變化的影響，在這方面展現出了明顯的優勢。

在真實視頻的測試中，團隊從WebVid數據集中選擇了100個代表性視頻進行測試。由于真實視頻沒有對應的多視角參考，評估重點轉向了生成視頻的視角準確性和視覺真實感。實驗使用專門的視覺慣性位姿估計算法來提取生成視頻的實際攝影軌跡，然后與目標軌跡進行對比。結果顯示，InfCam在旋轉誤差和平移誤差方面都大幅超越了對比方法，其中旋轉誤差從最好的對比方法的5.007度降低到了3.162度，平移誤差從0.735米降低到了0.438米。

特別值得注意的是，傳統的基于深度重投影的方法雖然在某些情況下能夠產生視覺上合理的結果，但往往在細節處理上存在明顯的偽影。比如在處理物體邊緣時容易出現撕裂現象，在處理透明或反射表面時會產生不自然的扭曲。InfCam由于避免了深度估計的誤差累積，在這些細節處理上表現出了明顯的優勢。

六、技術突破的深層意義：重新定義視頻編輯的可能性

InfCam的技術突破不僅僅是性能指標上的提升，更重要的是它為整個視頻編輯領域帶來了全新的可能性。

從技術角度來看，這項研究證明了在某些復雜的計算機視覺任務中，巧妙的數學洞察往往比暴力的深度學習更加有效。無窮遠平面變換這一經典的計算機視覺概念，在深度學習時代重新煥發了活力，展示了基礎理論與前沿技術結合的巨大潛力。

從應用前景來看，InfCam技術有望在多個領域產生重要影響。在電影制作領域，導演們可以在后期制作中自由調整攝影角度，無需重新拍攝就能實現理想的視覺效果。在教育培訓領域，可以將單一視角的教學視頻轉換為多角度的沉浸式體驗。在虛擬現實和增強現實應用中，這項技術能夠幫助創建更加豐富和逼真的視覺內容。

更進一步地說，這項技術的成功驗證了一個重要的研究方向：通過深入理解問題的本質結構，可以設計出比端到端深度學習更加高效和可靠的解決方案。這對于當前AI研究中普遍存在的"黑盒"問題提供了一種有價值的替代思路。

當然，InfCam技術目前也存在一些局限性。比如，它主要適用于剛體場景，對于包含大量非剛體運動（如人物行走、水流擺動等）的視頻處理效果可能不夠理想。此外，極端的視角變化（比如從正面視角直接切換到背面視角）仍然是一個挑戰，因為這需要模型具備強大的場景理解和想象能力。

隨著技術的不斷發展和完善，相信InfCam將為普通用戶提供更加便利和強大的視頻編輯工具。未來的某一天，任何人都可以像編輯文檔一樣輕松地編輯視頻的視角和焦距，讓創意表達不再受到技術門檻的限制。這項由KAIST AI團隊帶來的創新，正在悄然改變我們理解和創造視覺內容的方式，為數字媒體的未來發展開啟了新的篇章。

Q&A

Q1：InfCam是什么技術？

A：InfCam是KAIST AI團隊開發的視頻視角變換系統，能夠接收現有視頻并按照指定的攝影路徑重新生成不同角度的視頻。它的核心創新是使用"無窮遠平面單應性變換"技術，無需復雜的深度信息估計就能實現精確的視角切換。

Q2：InfCam相比傳統方法有什么優勢？

A：傳統方法需要先估算視頻中每個像素的深度信息再重新投影，容易出現誤差累積和細節偽影。InfCam將復雜的視角變換分解為可精確計算的旋轉部分和需要智能推測的平移部分，避免了深度估計的錯誤，在質量和準確性上都有顯著提升。

Q3：InfCam技術可以應用在哪些場景？

A：InfCam可以廣泛應用于電影后期制作、教育培訓視頻制作、虛擬現實內容創建等領域。普通用戶可以用它將單一視角的視頻轉換為多角度效果，實現電影般的環繞鏡頭或俯視角度，大大降低了專業視頻制作的技術門檻。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.