![]()
近期,南洋理工大學(xué)S-Lab實(shí)驗(yàn)室與牛津大學(xué)VGG實(shí)驗(yàn)室攜手發(fā)表了一項(xiàng)突破性研究成果。這項(xiàng)名為"4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere"的研究發(fā)表于2026年2月的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2602.10094v1。對(duì)于想要深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)該編號(hào)在學(xué)術(shù)數(shù)據(jù)庫(kù)中查詢完整論文。
我們生活在一個(gè)充滿動(dòng)態(tài)變化的世界中。當(dāng)你用手機(jī)拍攝孩子們?cè)诠珗@里奔跑玩耍的視頻時(shí),你是否想過(guò)能夠完美重現(xiàn)那一刻的三維場(chǎng)景,甚至追蹤每一個(gè)孩子的運(yùn)動(dòng)軌跡?傳統(tǒng)的三維重建技術(shù)就像是給靜物拍照片——它們只能捕捉靜止的瞬間,卻無(wú)法理解物體如何在時(shí)間中運(yùn)動(dòng)和變化。
這就是4D重建技術(shù)要解決的核心問(wèn)題。所謂"4D",就是在傳統(tǒng)的三維空間基礎(chǔ)上加入了時(shí)間維度。如果說(shuō)3D重建像是制作一個(gè)精美的雕塑,那么4D重建就是創(chuàng)造一個(gè)會(huì)動(dòng)的立體電影。然而,現(xiàn)有的技術(shù)就像是由多個(gè)不同工匠分別負(fù)責(zé)不同部分的流水線——一個(gè)負(fù)責(zé)估算攝像機(jī)位置,另一個(gè)負(fù)責(zé)重建幾何形狀,第三個(gè)負(fù)責(zé)追蹤物體運(yùn)動(dòng)。這種分工方式不僅效率低下,而且各個(gè)環(huán)節(jié)之間缺乏協(xié)調(diào),就像樂(lè)隊(duì)中的樂(lè)手各自演奏不同的曲子。
研究團(tuán)隊(duì)提出的4RC方法就像是一位全能的指揮家,能夠統(tǒng)一協(xié)調(diào)整個(gè)"演出"。該方法的核心創(chuàng)新在于"編碼一次,隨時(shí)隨地查詢"的工作模式。想象你有一個(gè)超級(jí)智能的視頻管家,它看完整段視頻后,就把所有的空間和時(shí)間信息都記在了腦子里。之后,無(wú)論你什么時(shí)候問(wèn)它"第3幀中的那個(gè)球在第8幀時(shí)跑到了哪里",或者"第10幀的所有物體在第15幀時(shí)的位置",它都能立即給出精確答案。
傳統(tǒng)方法在處理4D重建時(shí)面臨著嚴(yán)重的限制。有些方法只能處理兩幀之間的運(yùn)動(dòng)關(guān)系,就像近視眼只能看清眼前的東西;有些方法雖然能追蹤長(zhǎng)期運(yùn)動(dòng),但在幾何重建方面表現(xiàn)糟糕,就像能記住路線但畫(huà)不出準(zhǔn)確地圖的導(dǎo)航系統(tǒng);還有一些方法雖然功能全面,但運(yùn)算速度極其緩慢,就像一個(gè)什么都懂但反應(yīng)很慢的老教授。
4RC的獨(dú)特之處在于它采用了一種"最小因式分解"的表示方法。研究團(tuán)隊(duì)將每一幀的4D信息分解為兩個(gè)部分:基礎(chǔ)幾何形狀和相對(duì)運(yùn)動(dòng)位移。這就像描述一個(gè)人的變化時(shí),我們先確定他的基本體型,然后只需要記錄他每個(gè)時(shí)刻相對(duì)于基本姿態(tài)的變化量。這種表示方法不僅節(jié)省了存儲(chǔ)空間,還保證了時(shí)間一致性,特別是在靜止區(qū)域和剛體運(yùn)動(dòng)中表現(xiàn)優(yōu)異。
一、技術(shù)架構(gòu)的精妙設(shè)計(jì)
4RC的整體架構(gòu)就像一個(gè)精密的三層蛋糕。最底層是編碼器,負(fù)責(zé)"品嘗"整個(gè)視頻并提取精華;中間層是4D表示層,負(fù)責(zé)"存儲(chǔ)"所有重要信息;最頂層是條件解碼器,負(fù)責(zé)根據(jù)需求"烹制"出具體的結(jié)果。
編碼器采用了Vision Transformer架構(gòu),就像一個(gè)擁有多只眼睛的章魚(yú),能夠同時(shí)觀察視頻的不同部分。它不是簡(jiǎn)單地逐幀處理,而是將整個(gè)視頻序列當(dāng)作一個(gè)整體來(lái)理解。每一幀都被切分成小塊(稱為patches),就像將拼圖分解成單獨(dú)的拼圖片。然后,編碼器為每一幀添加兩個(gè)特殊的"身份標(biāo)簽"——攝像機(jī)標(biāo)識(shí)和時(shí)間標(biāo)識(shí)。攝像機(jī)標(biāo)識(shí)告訴系統(tǒng)這一幀是從什么角度拍攝的,而時(shí)間標(biāo)識(shí)則標(biāo)記了這一幀在整個(gè)視頻中的時(shí)間位置。
這種設(shè)計(jì)的巧妙之處在于,編碼器通過(guò)自注意力機(jī)制讓視頻中的所有部分都能"對(duì)話"。第一幀中的一個(gè)蘋(píng)果可以"告訴"第十幀中的同一個(gè)蘋(píng)果它們之間的關(guān)系,而攝像機(jī)的運(yùn)動(dòng)信息也能在不同幀之間傳遞。這就像一個(gè)超級(jí)記憶宮殿,里面的每個(gè)房間都知道其他房間里發(fā)生了什么。
條件解碼器則是4RC系統(tǒng)的"大廚",它包含兩個(gè)專業(yè)廚師:幾何廚師和運(yùn)動(dòng)廚師。幾何廚師專門(mén)負(fù)責(zé)重建每一幀的三維幾何形狀,它使用雙重深度預(yù)測(cè)變換器(dual-DPT)設(shè)計(jì),就像一個(gè)既能看近處又能看遠(yuǎn)處的雙筒望遠(yuǎn)鏡。這個(gè)廚師不僅能預(yù)測(cè)每個(gè)像素的深度信息,還能同時(shí)估算攝像機(jī)的參數(shù),包括視角、旋轉(zhuǎn)和位置。
運(yùn)動(dòng)廚師則更加靈活多變,它是一個(gè)輕量級(jí)的變換器解碼器,專門(mén)處理運(yùn)動(dòng)查詢。當(dāng)你想知道某個(gè)物體從時(shí)間A到時(shí)間B的運(yùn)動(dòng)軌跡時(shí),運(yùn)動(dòng)廚師就開(kāi)始工作。它首先通過(guò)自注意力機(jī)制理解查詢幀的內(nèi)容,然后通過(guò)交叉注意力機(jī)制參考目標(biāo)時(shí)間的信息,最后輸出精確的三維運(yùn)動(dòng)位移場(chǎng)。
二、創(chuàng)新的因式分解表示方法
傳統(tǒng)的4D重建方法就像試圖為每個(gè)時(shí)刻都畫(huà)一幅完整的畫(huà),這不僅工作量巨大,還容易出現(xiàn)不一致的問(wèn)題。4RC采用的因式分解方法就像是先畫(huà)出一個(gè)標(biāo)準(zhǔn)模板,然后只記錄每個(gè)時(shí)刻相對(duì)于模板的變化。
具體來(lái)說(shuō),對(duì)于視頻中的任意一幀,4RC將其在任意目標(biāo)時(shí)間的三維點(diǎn)云表示為基礎(chǔ)幾何與時(shí)間相關(guān)位移的和。基礎(chǔ)幾何就像是物體的"標(biāo)準(zhǔn)姿態(tài)",它在透視相機(jī)模型下重建出來(lái),具有明確的幾何意義。而時(shí)間相關(guān)位移則捕捉了從源時(shí)間到目標(biāo)時(shí)間的所有運(yùn)動(dòng)信息。
這種表示方法的優(yōu)勢(shì)是多方面的。首先,它天然地保持了時(shí)間一致性,特別是在靜止區(qū)域,位移為零,幾何保持不變。其次,它明確地分離了形狀和運(yùn)動(dòng),使得系統(tǒng)能夠更好地理解場(chǎng)景的結(jié)構(gòu)。最后,它避免了在每個(gè)時(shí)間步都重新預(yù)測(cè)復(fù)雜幾何的需要,大大提高了計(jì)算效率。
更重要的是,這種表示方法使得"任意查詢"成為可能。由于所有的幾何信息都表示在一個(gè)統(tǒng)一的世界坐標(biāo)系中(通常以第一幀的攝像機(jī)為參考),系統(tǒng)可以輕松地處理從任意源幀到任意目標(biāo)時(shí)間的運(yùn)動(dòng)查詢。這就像有一個(gè)萬(wàn)能的GPS系統(tǒng),無(wú)論你從哪里出發(fā),要去哪里,它都能給出精確的路線。
三、訓(xùn)練策略的精心設(shè)計(jì)
訓(xùn)練4RC系統(tǒng)就像教一個(gè)學(xué)生同時(shí)掌握多項(xiàng)技能——幾何重建、運(yùn)動(dòng)估計(jì)和攝像機(jī)定位。研究團(tuán)隊(duì)采用了端到端的訓(xùn)練方式,使用包含靜態(tài)和動(dòng)態(tài)場(chǎng)景的大規(guī)模數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)涵蓋了七個(gè)不同的數(shù)據(jù)集,包括合成的Kubric和PointOdyssey,以及真實(shí)世界的Waymo自動(dòng)駕駛數(shù)據(jù)集。
訓(xùn)練過(guò)程中最巧妙的設(shè)計(jì)是引入了梯度約束。對(duì)于幾何學(xué)習(xí),系統(tǒng)在空間域應(yīng)用梯度約束,確保相鄰像素的深度變化是平滑的,就像確保雕塑表面沒(méi)有不自然的突起。對(duì)于運(yùn)動(dòng)學(xué)習(xí),系統(tǒng)在時(shí)間域應(yīng)用梯度約束,確保物體的運(yùn)動(dòng)是連續(xù)的,就像確保舞者的動(dòng)作是流暢的。
為了處理動(dòng)態(tài)場(chǎng)景中運(yùn)動(dòng)模式的多樣性,研究團(tuán)隊(duì)還采用了概率采樣策略。在80%的訓(xùn)練迭代中,系統(tǒng)只關(guān)注那些運(yùn)動(dòng)幅度最大的點(diǎn),這樣可以避免被大量靜止區(qū)域的零運(yùn)動(dòng)信號(hào)所主導(dǎo)。這種策略就像教練在訓(xùn)練時(shí)重點(diǎn)關(guān)注那些最需要改進(jìn)的動(dòng)作一樣。
四、實(shí)驗(yàn)驗(yàn)證的全面性
研究團(tuán)隊(duì)進(jìn)行了大量的實(shí)驗(yàn)來(lái)驗(yàn)證4RC的性能。實(shí)驗(yàn)涵蓋了4D重建的各個(gè)方面,包括密集追蹤、稀疏點(diǎn)追蹤、攝像機(jī)姿態(tài)估計(jì)、多視圖三維重建和深度估計(jì)。
在密集追蹤任務(wù)中,4RC展現(xiàn)出了顯著的優(yōu)勢(shì)。在充滿動(dòng)態(tài)元素的Waymo數(shù)據(jù)集上,4RC相比當(dāng)前最先進(jìn)的V-DPM方法在平均點(diǎn)百分比(APD)指標(biāo)上提升了36%。這個(gè)提升幅度就像從勉強(qiáng)及格突然躍升到優(yōu)秀等級(jí)。更重要的是,4RC使用的是靈活的按幀解碼策略,而V-DPM需要昂貴的全局聚合解碼,這意味著4RC不僅性能更好,效率也更高。
在稀疏點(diǎn)追蹤任務(wù)中,4RC同樣表現(xiàn)出色。雖然這個(gè)任務(wù)通常由專門(mén)的追蹤方法處理,但4RC作為一個(gè)通用的4D重建系統(tǒng),在四個(gè)數(shù)據(jù)集中的三個(gè)上都超越了專門(mén)設(shè)計(jì)的SpatialTrackerV2方法。這就像一個(gè)全能運(yùn)動(dòng)員在多個(gè)單項(xiàng)比賽中都擊敗了專項(xiàng)選手。
攝像機(jī)姿態(tài)估計(jì)的結(jié)果更是令人印象深刻。在具有挑戰(zhàn)性的TUM-dynamics數(shù)據(jù)集上,4RC在絕對(duì)軌跡誤差(ATE)和相對(duì)平移誤差(RPEt)兩個(gè)關(guān)鍵指標(biāo)上都取得了最佳性能,甚至超過(guò)了那些在更大數(shù)據(jù)集上訓(xùn)練的專門(mén)3D重建方法,如Pi3。
五、消融實(shí)驗(yàn)的深入洞察
為了理解4RC各個(gè)組件的重要性,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。這些實(shí)驗(yàn)就像拆解一臺(tái)精密機(jī)器,逐一檢查每個(gè)零件的作用。
運(yùn)動(dòng)頭設(shè)計(jì)的消融實(shí)驗(yàn)揭示了每個(gè)組件的必要性。當(dāng)去掉交叉注意力機(jī)制時(shí),系統(tǒng)在處理復(fù)雜非剛體運(yùn)動(dòng)時(shí)出現(xiàn)困難,產(chǎn)生過(guò)度平滑的軌跡,無(wú)法捕捉細(xì)節(jié)運(yùn)動(dòng),比如跳躍中的手臂和腿部動(dòng)作。這說(shuō)明直接訪問(wèn)目標(biāo)時(shí)間特征對(duì)于準(zhǔn)確運(yùn)動(dòng)估計(jì)至關(guān)重要。
因式分解表示的消融實(shí)驗(yàn)更是驗(yàn)證了這種設(shè)計(jì)的優(yōu)越性。直接預(yù)測(cè)點(diǎn)云坐標(biāo)的方法表現(xiàn)明顯更差,因?yàn)樗鼘缀魏瓦\(yùn)動(dòng)糾纏在單一輸出空間中,迫使網(wǎng)絡(luò)同時(shí)學(xué)習(xí)形狀和時(shí)間對(duì)應(yīng)關(guān)系,顯著增加了學(xué)習(xí)難度。相比之下,因式分解表示通過(guò)位移場(chǎng)顯式地解耦靜態(tài)幾何和時(shí)間相關(guān)運(yùn)動(dòng),減少了不必要的幾何重計(jì)算,提高了時(shí)間一致性。
六、流式版本的實(shí)用創(chuàng)新
為了支持在線和實(shí)時(shí)應(yīng)用,研究團(tuán)隊(duì)還開(kāi)發(fā)了4RC的流式版本(S-4RC)。這個(gè)版本建立在STream3R架構(gòu)基礎(chǔ)上,采用單向因果注意力機(jī)制,可以逐幀處理視頻而無(wú)需等待完整序列。
S-4RC就像一個(gè)實(shí)時(shí)翻譯員,能夠在聽(tīng)到一句話的同時(shí)就開(kāi)始翻譯,而不需要等到整篇演講結(jié)束。雖然它無(wú)法獲得全局時(shí)間上下文,但仍然實(shí)現(xiàn)了與完整版4RC相當(dāng)?shù)男阅堋T邳c(diǎn)追蹤任務(wù)中,S-4RC在大多數(shù)數(shù)據(jù)集上都保持了競(jìng)爭(zhēng)力,這為實(shí)時(shí)4D重建應(yīng)用開(kāi)辟了可能性。
七、技術(shù)局限與未來(lái)展望
盡管4RC取得了顯著進(jìn)展,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前的技術(shù)局限。系統(tǒng)在幾何重建本身就很困難的場(chǎng)景中表現(xiàn)不佳,比如極遠(yuǎn)距離的云朵、透明物體或缺乏清晰深度邊界的浮動(dòng)偽影區(qū)域。這些問(wèn)題主要源于基礎(chǔ)幾何重建的限制,研究團(tuán)隊(duì)認(rèn)為隨著深度估計(jì)方法的改進(jìn),這些問(wèn)題將得到緩解。
另一個(gè)挑戰(zhàn)是處理極端或高度混亂的運(yùn)動(dòng)。系統(tǒng)在這種情況下的性能會(huì)下降,主要原因是現(xiàn)有數(shù)據(jù)集中運(yùn)動(dòng)注釋的多樣性不足,無(wú)法為這種復(fù)雜動(dòng)態(tài)提供充分監(jiān)督。未來(lái)的工作將探索擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模,涵蓋更廣泛的運(yùn)動(dòng)模式和運(yùn)動(dòng)學(xué)多樣性。
展望未來(lái),4RC這樣的統(tǒng)一模型代表了朝向更通用感知系統(tǒng)的有前景方向。隨著計(jì)算能力的提升和數(shù)據(jù)集規(guī)模的擴(kuò)大,我們有理由期待4D重建技術(shù)在機(jī)器人學(xué)、增強(qiáng)現(xiàn)實(shí)和內(nèi)容創(chuàng)作等領(lǐng)域發(fā)揮更大作用。
說(shuō)到底,4RC的核心貢獻(xiàn)在于它重新定義了4D重建的可能性。它不再是一個(gè)需要多個(gè)專門(mén)工具協(xié)作的復(fù)雜工程,而是變成了一個(gè)統(tǒng)一、高效、靈活的解決方案。就像智能手機(jī)將照相機(jī)、錄音機(jī)、計(jì)算器等多種設(shè)備整合到一個(gè)設(shè)備中一樣,4RC將幾何重建、運(yùn)動(dòng)估計(jì)和攝像機(jī)追蹤整合到了一個(gè)網(wǎng)絡(luò)中。
這項(xiàng)研究的意義遠(yuǎn)不止技術(shù)層面。它為我們理解和重建動(dòng)態(tài)世界提供了新的工具,讓機(jī)器能夠更好地理解物理世界的時(shí)空變化。無(wú)論是自動(dòng)駕駛汽車需要預(yù)測(cè)其他車輛的運(yùn)動(dòng)軌跡,還是虛擬現(xiàn)實(shí)系統(tǒng)需要重建真實(shí)世界的動(dòng)態(tài)場(chǎng)景,4RC都提供了一個(gè)強(qiáng)大而靈活的基礎(chǔ)框架。對(duì)于那些希望深入了解技術(shù)細(xì)節(jié)的讀者,建議查閱原論文arXiv:2602.10094v1獲取完整的實(shí)驗(yàn)數(shù)據(jù)和實(shí)現(xiàn)細(xì)節(jié)。
Q&A
Q1:4RC技術(shù)相比傳統(tǒng)4D重建方法有什么優(yōu)勢(shì)?
A:4RC最大的優(yōu)勢(shì)是實(shí)現(xiàn)了統(tǒng)一的"編碼一次,隨處查詢"模式。傳統(tǒng)方法就像流水線作業(yè),需要多個(gè)獨(dú)立工具分別處理攝像機(jī)定位、幾何重建和運(yùn)動(dòng)追蹤,效率低且容易出錯(cuò)。而4RC像一個(gè)全能指揮家,用單一網(wǎng)絡(luò)統(tǒng)一處理所有任務(wù),不僅效率更高,還支持從任意幀到任意時(shí)間的靈活查詢,這在傳統(tǒng)方法中是很難實(shí)現(xiàn)的。
Q2:4RC的因式分解表示方法是什么意思?
A:因式分解表示就是將4D信息分解為基礎(chǔ)幾何和運(yùn)動(dòng)位移兩部分。比如描述一個(gè)人的動(dòng)作變化,傳統(tǒng)方法需要為每個(gè)時(shí)刻畫(huà)完整的人像,而4RC只需先確定基本體型,然后記錄每個(gè)時(shí)刻相對(duì)于基本姿態(tài)的變化量。這樣不僅節(jié)省計(jì)算資源,還保證了時(shí)間一致性,特別適合處理靜止區(qū)域和剛體運(yùn)動(dòng)。
Q3:4RC技術(shù)能應(yīng)用到哪些實(shí)際場(chǎng)景中?
A:4RC的應(yīng)用前景非常廣闊。在自動(dòng)駕駛中,它能幫助車輛理解和預(yù)測(cè)周圍物體的運(yùn)動(dòng)軌跡;在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)中,它能重建真實(shí)世界的動(dòng)態(tài)場(chǎng)景;在機(jī)器人技術(shù)中,它能幫助機(jī)器人更好地理解環(huán)境變化;在影視制作中,它能用于動(dòng)態(tài)場(chǎng)景的三維重建和特效制作。基本上任何需要理解物體在三維空間中如何隨時(shí)間變化的應(yīng)用都能受益。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.