網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

南洋理工大學(xué)突破：視頻4D重建實(shí)現(xiàn)一次編碼隨處查詢

2026-02-24 21:00:06　來(lái)源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

近期，南洋理工大學(xué)S-Lab實(shí)驗(yàn)室與牛津大學(xué)VGG實(shí)驗(yàn)室攜手發(fā)表了一項(xiàng)突破性研究成果。這項(xiàng)名為"4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere"的研究發(fā)表于2026年2月的arXiv預(yù)印本平臺(tái)，論文編號(hào)為arXiv:2602.10094v1。對(duì)于想要深入了解技術(shù)細(xì)節(jié)的讀者，可以通過(guò)該編號(hào)在學(xué)術(shù)數(shù)據(jù)庫(kù)中查詢完整論文。

我們生活在一個(gè)充滿動(dòng)態(tài)變化的世界中。當(dāng)你用手機(jī)拍攝孩子們?cè)诠珗@里奔跑玩耍的視頻時(shí)，你是否想過(guò)能夠完美重現(xiàn)那一刻的三維場(chǎng)景，甚至追蹤每一個(gè)孩子的運(yùn)動(dòng)軌跡？傳統(tǒng)的三維重建技術(shù)就像是給靜物拍照片——它們只能捕捉靜止的瞬間，卻無(wú)法理解物體如何在時(shí)間中運(yùn)動(dòng)和變化。

這就是4D重建技術(shù)要解決的核心問(wèn)題。所謂"4D"，就是在傳統(tǒng)的三維空間基礎(chǔ)上加入了時(shí)間維度。如果說(shuō)3D重建像是制作一個(gè)精美的雕塑，那么4D重建就是創(chuàng)造一個(gè)會(huì)動(dòng)的立體電影。然而，現(xiàn)有的技術(shù)就像是由多個(gè)不同工匠分別負(fù)責(zé)不同部分的流水線——一個(gè)負(fù)責(zé)估算攝像機(jī)位置，另一個(gè)負(fù)責(zé)重建幾何形狀，第三個(gè)負(fù)責(zé)追蹤物體運(yùn)動(dòng)。這種分工方式不僅效率低下，而且各個(gè)環(huán)節(jié)之間缺乏協(xié)調(diào)，就像樂(lè)隊(duì)中的樂(lè)手各自演奏不同的曲子。

研究團(tuán)隊(duì)提出的4RC方法就像是一位全能的指揮家，能夠統(tǒng)一協(xié)調(diào)整個(gè)"演出"。該方法的核心創(chuàng)新在于"編碼一次，隨時(shí)隨地查詢"的工作模式。想象你有一個(gè)超級(jí)智能的視頻管家，它看完整段視頻后，就把所有的空間和時(shí)間信息都記在了腦子里。之后，無(wú)論你什么時(shí)候問(wèn)它"第3幀中的那個(gè)球在第8幀時(shí)跑到了哪里"，或者"第10幀的所有物體在第15幀時(shí)的位置"，它都能立即給出精確答案。

傳統(tǒng)方法在處理4D重建時(shí)面臨著嚴(yán)重的限制。有些方法只能處理兩幀之間的運(yùn)動(dòng)關(guān)系，就像近視眼只能看清眼前的東西；有些方法雖然能追蹤長(zhǎng)期運(yùn)動(dòng)，但在幾何重建方面表現(xiàn)糟糕，就像能記住路線但畫(huà)不出準(zhǔn)確地圖的導(dǎo)航系統(tǒng)；還有一些方法雖然功能全面，但運(yùn)算速度極其緩慢，就像一個(gè)什么都懂但反應(yīng)很慢的老教授。

4RC的獨(dú)特之處在于它采用了一種"最小因式分解"的表示方法。研究團(tuán)隊(duì)將每一幀的4D信息分解為兩個(gè)部分：基礎(chǔ)幾何形狀和相對(duì)運(yùn)動(dòng)位移。這就像描述一個(gè)人的變化時(shí)，我們先確定他的基本體型，然后只需要記錄他每個(gè)時(shí)刻相對(duì)于基本姿態(tài)的變化量。這種表示方法不僅節(jié)省了存儲(chǔ)空間，還保證了時(shí)間一致性，特別是在靜止區(qū)域和剛體運(yùn)動(dòng)中表現(xiàn)優(yōu)異。

一、技術(shù)架構(gòu)的精妙設(shè)計(jì)

4RC的整體架構(gòu)就像一個(gè)精密的三層蛋糕。最底層是編碼器，負(fù)責(zé)"品嘗"整個(gè)視頻并提取精華；中間層是4D表示層，負(fù)責(zé)"存儲(chǔ)"所有重要信息；最頂層是條件解碼器，負(fù)責(zé)根據(jù)需求"烹制"出具體的結(jié)果。

編碼器采用了Vision Transformer架構(gòu)，就像一個(gè)擁有多只眼睛的章魚(yú)，能夠同時(shí)觀察視頻的不同部分。它不是簡(jiǎn)單地逐幀處理，而是將整個(gè)視頻序列當(dāng)作一個(gè)整體來(lái)理解。每一幀都被切分成小塊（稱為patches），就像將拼圖分解成單獨(dú)的拼圖片。然后，編碼器為每一幀添加兩個(gè)特殊的"身份標(biāo)簽"——攝像機(jī)標(biāo)識(shí)和時(shí)間標(biāo)識(shí)。攝像機(jī)標(biāo)識(shí)告訴系統(tǒng)這一幀是從什么角度拍攝的，而時(shí)間標(biāo)識(shí)則標(biāo)記了這一幀在整個(gè)視頻中的時(shí)間位置。

這種設(shè)計(jì)的巧妙之處在于，編碼器通過(guò)自注意力機(jī)制讓視頻中的所有部分都能"對(duì)話"。第一幀中的一個(gè)蘋(píng)果可以"告訴"第十幀中的同一個(gè)蘋(píng)果它們之間的關(guān)系，而攝像機(jī)的運(yùn)動(dòng)信息也能在不同幀之間傳遞。這就像一個(gè)超級(jí)記憶宮殿，里面的每個(gè)房間都知道其他房間里發(fā)生了什么。

條件解碼器則是4RC系統(tǒng)的"大廚"，它包含兩個(gè)專業(yè)廚師：幾何廚師和運(yùn)動(dòng)廚師。幾何廚師專門(mén)負(fù)責(zé)重建每一幀的三維幾何形狀，它使用雙重深度預(yù)測(cè)變換器（dual-DPT）設(shè)計(jì)，就像一個(gè)既能看近處又能看遠(yuǎn)處的雙筒望遠(yuǎn)鏡。這個(gè)廚師不僅能預(yù)測(cè)每個(gè)像素的深度信息，還能同時(shí)估算攝像機(jī)的參數(shù)，包括視角、旋轉(zhuǎn)和位置。

運(yùn)動(dòng)廚師則更加靈活多變，它是一個(gè)輕量級(jí)的變換器解碼器，專門(mén)處理運(yùn)動(dòng)查詢。當(dāng)你想知道某個(gè)物體從時(shí)間A到時(shí)間B的運(yùn)動(dòng)軌跡時(shí)，運(yùn)動(dòng)廚師就開(kāi)始工作。它首先通過(guò)自注意力機(jī)制理解查詢幀的內(nèi)容，然后通過(guò)交叉注意力機(jī)制參考目標(biāo)時(shí)間的信息，最后輸出精確的三維運(yùn)動(dòng)位移場(chǎng)。

二、創(chuàng)新的因式分解表示方法

傳統(tǒng)的4D重建方法就像試圖為每個(gè)時(shí)刻都畫(huà)一幅完整的畫(huà)，這不僅工作量巨大，還容易出現(xiàn)不一致的問(wèn)題。4RC采用的因式分解方法就像是先畫(huà)出一個(gè)標(biāo)準(zhǔn)模板，然后只記錄每個(gè)時(shí)刻相對(duì)于模板的變化。

具體來(lái)說(shuō)，對(duì)于視頻中的任意一幀，4RC將其在任意目標(biāo)時(shí)間的三維點(diǎn)云表示為基礎(chǔ)幾何與時(shí)間相關(guān)位移的和。基礎(chǔ)幾何就像是物體的"標(biāo)準(zhǔn)姿態(tài)"，它在透視相機(jī)模型下重建出來(lái)，具有明確的幾何意義。而時(shí)間相關(guān)位移則捕捉了從源時(shí)間到目標(biāo)時(shí)間的所有運(yùn)動(dòng)信息。

這種表示方法的優(yōu)勢(shì)是多方面的。首先，它天然地保持了時(shí)間一致性，特別是在靜止區(qū)域，位移為零，幾何保持不變。其次，它明確地分離了形狀和運(yùn)動(dòng)，使得系統(tǒng)能夠更好地理解場(chǎng)景的結(jié)構(gòu)。最后，它避免了在每個(gè)時(shí)間步都重新預(yù)測(cè)復(fù)雜幾何的需要，大大提高了計(jì)算效率。

更重要的是，這種表示方法使得"任意查詢"成為可能。由于所有的幾何信息都表示在一個(gè)統(tǒng)一的世界坐標(biāo)系中（通常以第一幀的攝像機(jī)為參考），系統(tǒng)可以輕松地處理從任意源幀到任意目標(biāo)時(shí)間的運(yùn)動(dòng)查詢。這就像有一個(gè)萬(wàn)能的GPS系統(tǒng)，無(wú)論你從哪里出發(fā)，要去哪里，它都能給出精確的路線。

三、訓(xùn)練策略的精心設(shè)計(jì)

訓(xùn)練4RC系統(tǒng)就像教一個(gè)學(xué)生同時(shí)掌握多項(xiàng)技能——幾何重建、運(yùn)動(dòng)估計(jì)和攝像機(jī)定位。研究團(tuán)隊(duì)采用了端到端的訓(xùn)練方式，使用包含靜態(tài)和動(dòng)態(tài)場(chǎng)景的大規(guī)模數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)涵蓋了七個(gè)不同的數(shù)據(jù)集，包括合成的Kubric和PointOdyssey，以及真實(shí)世界的Waymo自動(dòng)駕駛數(shù)據(jù)集。

訓(xùn)練過(guò)程中最巧妙的設(shè)計(jì)是引入了梯度約束。對(duì)于幾何學(xué)習(xí)，系統(tǒng)在空間域應(yīng)用梯度約束，確保相鄰像素的深度變化是平滑的，就像確保雕塑表面沒(méi)有不自然的突起。對(duì)于運(yùn)動(dòng)學(xué)習(xí)，系統(tǒng)在時(shí)間域應(yīng)用梯度約束，確保物體的運(yùn)動(dòng)是連續(xù)的，就像確保舞者的動(dòng)作是流暢的。

為了處理動(dòng)態(tài)場(chǎng)景中運(yùn)動(dòng)模式的多樣性，研究團(tuán)隊(duì)還采用了概率采樣策略。在80%的訓(xùn)練迭代中，系統(tǒng)只關(guān)注那些運(yùn)動(dòng)幅度最大的點(diǎn)，這樣可以避免被大量靜止區(qū)域的零運(yùn)動(dòng)信號(hào)所主導(dǎo)。這種策略就像教練在訓(xùn)練時(shí)重點(diǎn)關(guān)注那些最需要改進(jìn)的動(dòng)作一樣。

四、實(shí)驗(yàn)驗(yàn)證的全面性

研究團(tuán)隊(duì)進(jìn)行了大量的實(shí)驗(yàn)來(lái)驗(yàn)證4RC的性能。實(shí)驗(yàn)涵蓋了4D重建的各個(gè)方面，包括密集追蹤、稀疏點(diǎn)追蹤、攝像機(jī)姿態(tài)估計(jì)、多視圖三維重建和深度估計(jì)。

在密集追蹤任務(wù)中，4RC展現(xiàn)出了顯著的優(yōu)勢(shì)。在充滿動(dòng)態(tài)元素的Waymo數(shù)據(jù)集上，4RC相比當(dāng)前最先進(jìn)的V-DPM方法在平均點(diǎn)百分比（APD）指標(biāo)上提升了36%。這個(gè)提升幅度就像從勉強(qiáng)及格突然躍升到優(yōu)秀等級(jí)。更重要的是，4RC使用的是靈活的按幀解碼策略，而V-DPM需要昂貴的全局聚合解碼，這意味著4RC不僅性能更好，效率也更高。

在稀疏點(diǎn)追蹤任務(wù)中，4RC同樣表現(xiàn)出色。雖然這個(gè)任務(wù)通常由專門(mén)的追蹤方法處理，但4RC作為一個(gè)通用的4D重建系統(tǒng)，在四個(gè)數(shù)據(jù)集中的三個(gè)上都超越了專門(mén)設(shè)計(jì)的SpatialTrackerV2方法。這就像一個(gè)全能運(yùn)動(dòng)員在多個(gè)單項(xiàng)比賽中都擊敗了專項(xiàng)選手。

攝像機(jī)姿態(tài)估計(jì)的結(jié)果更是令人印象深刻。在具有挑戰(zhàn)性的TUM-dynamics數(shù)據(jù)集上，4RC在絕對(duì)軌跡誤差（ATE）和相對(duì)平移誤差（RPEt）兩個(gè)關(guān)鍵指標(biāo)上都取得了最佳性能，甚至超過(guò)了那些在更大數(shù)據(jù)集上訓(xùn)練的專門(mén)3D重建方法，如Pi3。

五、消融實(shí)驗(yàn)的深入洞察

為了理解4RC各個(gè)組件的重要性，研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。這些實(shí)驗(yàn)就像拆解一臺(tái)精密機(jī)器，逐一檢查每個(gè)零件的作用。

運(yùn)動(dòng)頭設(shè)計(jì)的消融實(shí)驗(yàn)揭示了每個(gè)組件的必要性。當(dāng)去掉交叉注意力機(jī)制時(shí)，系統(tǒng)在處理復(fù)雜非剛體運(yùn)動(dòng)時(shí)出現(xiàn)困難，產(chǎn)生過(guò)度平滑的軌跡，無(wú)法捕捉細(xì)節(jié)運(yùn)動(dòng)，比如跳躍中的手臂和腿部動(dòng)作。這說(shuō)明直接訪問(wèn)目標(biāo)時(shí)間特征對(duì)于準(zhǔn)確運(yùn)動(dòng)估計(jì)至關(guān)重要。

因式分解表示的消融實(shí)驗(yàn)更是驗(yàn)證了這種設(shè)計(jì)的優(yōu)越性。直接預(yù)測(cè)點(diǎn)云坐標(biāo)的方法表現(xiàn)明顯更差，因?yàn)樗鼘缀魏瓦\(yùn)動(dòng)糾纏在單一輸出空間中，迫使網(wǎng)絡(luò)同時(shí)學(xué)習(xí)形狀和時(shí)間對(duì)應(yīng)關(guān)系，顯著增加了學(xué)習(xí)難度。相比之下，因式分解表示通過(guò)位移場(chǎng)顯式地解耦靜態(tài)幾何和時(shí)間相關(guān)運(yùn)動(dòng)，減少了不必要的幾何重計(jì)算，提高了時(shí)間一致性。

六、流式版本的實(shí)用創(chuàng)新

為了支持在線和實(shí)時(shí)應(yīng)用，研究團(tuán)隊(duì)還開(kāi)發(fā)了4RC的流式版本（S-4RC）。這個(gè)版本建立在STream3R架構(gòu)基礎(chǔ)上，采用單向因果注意力機(jī)制，可以逐幀處理視頻而無(wú)需等待完整序列。

S-4RC就像一個(gè)實(shí)時(shí)翻譯員，能夠在聽(tīng)到一句話的同時(shí)就開(kāi)始翻譯，而不需要等到整篇演講結(jié)束。雖然它無(wú)法獲得全局時(shí)間上下文，但仍然實(shí)現(xiàn)了與完整版4RC相當(dāng)?shù)男阅堋Ｔ邳c(diǎn)追蹤任務(wù)中，S-4RC在大多數(shù)數(shù)據(jù)集上都保持了競(jìng)爭(zhēng)力，這為實(shí)時(shí)4D重建應(yīng)用開(kāi)辟了可能性。

七、技術(shù)局限與未來(lái)展望

盡管4RC取得了顯著進(jìn)展，但研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前的技術(shù)局限。系統(tǒng)在幾何重建本身就很困難的場(chǎng)景中表現(xiàn)不佳，比如極遠(yuǎn)距離的云朵、透明物體或缺乏清晰深度邊界的浮動(dòng)偽影區(qū)域。這些問(wèn)題主要源于基礎(chǔ)幾何重建的限制，研究團(tuán)隊(duì)認(rèn)為隨著深度估計(jì)方法的改進(jìn)，這些問(wèn)題將得到緩解。

另一個(gè)挑戰(zhàn)是處理極端或高度混亂的運(yùn)動(dòng)。系統(tǒng)在這種情況下的性能會(huì)下降，主要原因是現(xiàn)有數(shù)據(jù)集中運(yùn)動(dòng)注釋的多樣性不足，無(wú)法為這種復(fù)雜動(dòng)態(tài)提供充分監(jiān)督。未來(lái)的工作將探索擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模，涵蓋更廣泛的運(yùn)動(dòng)模式和運(yùn)動(dòng)學(xué)多樣性。

展望未來(lái)，4RC這樣的統(tǒng)一模型代表了朝向更通用感知系統(tǒng)的有前景方向。隨著計(jì)算能力的提升和數(shù)據(jù)集規(guī)模的擴(kuò)大，我們有理由期待4D重建技術(shù)在機(jī)器人學(xué)、增強(qiáng)現(xiàn)實(shí)和內(nèi)容創(chuàng)作等領(lǐng)域發(fā)揮更大作用。

說(shuō)到底，4RC的核心貢獻(xiàn)在于它重新定義了4D重建的可能性。它不再是一個(gè)需要多個(gè)專門(mén)工具協(xié)作的復(fù)雜工程，而是變成了一個(gè)統(tǒng)一、高效、靈活的解決方案。就像智能手機(jī)將照相機(jī)、錄音機(jī)、計(jì)算器等多種設(shè)備整合到一個(gè)設(shè)備中一樣，4RC將幾何重建、運(yùn)動(dòng)估計(jì)和攝像機(jī)追蹤整合到了一個(gè)網(wǎng)絡(luò)中。

這項(xiàng)研究的意義遠(yuǎn)不止技術(shù)層面。它為我們理解和重建動(dòng)態(tài)世界提供了新的工具，讓機(jī)器能夠更好地理解物理世界的時(shí)空變化。無(wú)論是自動(dòng)駕駛汽車需要預(yù)測(cè)其他車輛的運(yùn)動(dòng)軌跡，還是虛擬現(xiàn)實(shí)系統(tǒng)需要重建真實(shí)世界的動(dòng)態(tài)場(chǎng)景，4RC都提供了一個(gè)強(qiáng)大而靈活的基礎(chǔ)框架。對(duì)于那些希望深入了解技術(shù)細(xì)節(jié)的讀者，建議查閱原論文arXiv:2602.10094v1獲取完整的實(shí)驗(yàn)數(shù)據(jù)和實(shí)現(xiàn)細(xì)節(jié)。

Q&A

Q1：4RC技術(shù)相比傳統(tǒng)4D重建方法有什么優(yōu)勢(shì)？

A：4RC最大的優(yōu)勢(shì)是實(shí)現(xiàn)了統(tǒng)一的"編碼一次，隨處查詢"模式。傳統(tǒng)方法就像流水線作業(yè)，需要多個(gè)獨(dú)立工具分別處理攝像機(jī)定位、幾何重建和運(yùn)動(dòng)追蹤，效率低且容易出錯(cuò)。而4RC像一個(gè)全能指揮家，用單一網(wǎng)絡(luò)統(tǒng)一處理所有任務(wù)，不僅效率更高，還支持從任意幀到任意時(shí)間的靈活查詢，這在傳統(tǒng)方法中是很難實(shí)現(xiàn)的。

Q2：4RC的因式分解表示方法是什么意思？

A：因式分解表示就是將4D信息分解為基礎(chǔ)幾何和運(yùn)動(dòng)位移兩部分。比如描述一個(gè)人的動(dòng)作變化，傳統(tǒng)方法需要為每個(gè)時(shí)刻畫(huà)完整的人像，而4RC只需先確定基本體型，然后記錄每個(gè)時(shí)刻相對(duì)于基本姿態(tài)的變化量。這樣不僅節(jié)省計(jì)算資源，還保證了時(shí)間一致性，特別適合處理靜止區(qū)域和剛體運(yùn)動(dòng)。

Q3：4RC技術(shù)能應(yīng)用到哪些實(shí)際場(chǎng)景中？

A：4RC的應(yīng)用前景非常廣闊。在自動(dòng)駕駛中，它能幫助車輛理解和預(yù)測(cè)周圍物體的運(yùn)動(dòng)軌跡；在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)中，它能重建真實(shí)世界的動(dòng)態(tài)場(chǎng)景；在機(jī)器人技術(shù)中，它能幫助機(jī)器人更好地理解環(huán)境變化；在影視制作中，它能用于動(dòng)態(tài)場(chǎng)景的三維重建和特效制作。基本上任何需要理解物體在三維空間中如何隨時(shí)間變化的應(yīng)用都能受益。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.