想象一下,給機器展示幾張不同角度拍攝的氣球狗雕塑圖片,它能否像人類一樣,將這些二維圖像在大腦中重構成完整的三維模型?這正是ISCO(迭代超二次曲面物體重構)技術所解決的挑戰(zhàn)。它不需要復雜的三維訓練數(shù)據(jù),僅憑多角度二維圖像,就能逐步構建出物體的三維表示。通過一種"由粗到細"的方法,ISCO首先捕捉物體的主要結構,然后逐漸添加細節(jié),最終將簡單的幾何形狀組合成復雜的三維模型。這項技術讓機器不僅能"看見"物體,還能"理解"物體的組成部分,為虛擬現(xiàn)實和機器人等領域開辟了新的可能性。
![]()
超越平面的視覺
人類看世界很簡單。當我們看到杰夫昆斯的"氣球狗"雕塑時,即使它沒有狗的鼻子或牙齒,我們也能立刻認出這是一條狗。這是因為我們的大腦能夠自動將物體分解成有意義的部分,然后在腦海中重新組合它們。但對計算機來說,這項任務卻異常困難。
傳統(tǒng)的三維重構方法需要大量的三維數(shù)據(jù)作為訓練素材。這些數(shù)據(jù)通常來自激光掃描或深度相機,獲取成本高昂且耗時。更麻煩的是,即使有了這些數(shù)據(jù),計算機也常常只能識別出它已經(jīng)學習過的物體類型,面對新奇的形狀就會束手無策。
超二次曲面作為一種數(shù)學工具,提供了一個優(yōu)雅的解決方案。它是一種可以表示各種形狀的幾何體,從立方體、球體到橢圓體,只需要調(diào)整幾個參數(shù)就能實現(xiàn)形狀的變化。這種表示方式的優(yōu)勢在于它既簡單又富有表現(xiàn)力。
以一個普通的椅子為例,傳統(tǒng)方法可能需要數(shù)千個點或三角形來表示它的三維形狀。而使用超二次曲面,我們只需要幾個簡單的形狀就能捕捉椅子的主要結構:一個扁平的超二次曲面表示座位,一個豎直的超二次曲面表示靠背,四個細長的超二次曲面表示腿部。這種表示不僅節(jié)省了計算資源,更重要的是,它提供了對物體結構的語義理解。
然而,如何從二維圖像直接推斷出這些三維超二次曲面,而不依賴昂貴的三維監(jiān)督數(shù)據(jù),成為了一個關鍵挑戰(zhàn)。現(xiàn)有的方法如EMS和NBP需要點云作為輸入,而獲取精確的點云本身就需要三維數(shù)據(jù)或復雜的重構過程。
最近的神經(jīng)輻射場(NeRF)技術展示了從多視角圖像中學習隱式三維表示的可能性,但它們通常生成的是密集的、難以解釋的表示,而非結構化的簡單幾何體組合。這就是ISCO技術的創(chuàng)新之處——它直接從二維視圖出發(fā),構建基于超二次曲面的顯式三維表示。
拼圖式的立體重構
ISCO的核心理念是將三維物體看作一系列簡單形狀的組合,就像拼圖一樣逐塊構建完整畫面。它不需要預先訓練的神經(jīng)網(wǎng)絡,而是針對每個具體物體實例,通過優(yōu)化超二次曲面參數(shù)來實現(xiàn)重構。
在實際操作中,ISCO首先收集物體的多個視角圖像。這些圖像可以來自圍繞物體移動的相機,或者是靜態(tài)物體在轉臺上旋轉時拍攝的照片。為了簡化問題,ISCO關注的是物體的輪廓而非紋理,因此它使用物體的輪廓掩碼(silhouettes)作為輸入。
![]()
創(chuàng)新的地方在于ISCO的迭代策略。它不是一次性放置所有超二次曲面,而是一個接一個地添加。每次添加新的超二次曲面時,ISCO會計算當前重構結果與真實輪廓之間的差異,并在差異最大的區(qū)域初始化一個新的形狀。
這種方法有點像雕塑家先塑造物體的大體形狀,然后逐漸添加細節(jié)。第一個超二次曲面往往會覆蓋物體的主體部分,比如椅子的座位或飛機的機身。隨后的超二次曲面則會逐漸填補更細微的結構,如椅子的腿或飛機的翅膀。
為了實現(xiàn)這一過程,ISCO利用了可微分渲染技術。簡單來說,它在計算機中模擬光線如何穿過場景并形成圖像,然后比較渲染圖像與真實圖像之間的差異。關鍵的是,這個過程是可微分的,意味著我們可以計算出超二次曲面的參數(shù)應該如何調(diào)整,以減小這種差異。
在數(shù)學上,ISCO定義了一個損失函數(shù),衡量渲染視圖與真實視圖之間的差異。通過反向傳播算法,它計算這個損失函數(shù)相對于每個超二次曲面參數(shù)的梯度,并據(jù)此更新參數(shù)。這個過程反復進行,直到渲染視圖與真實視圖足夠接近,或者達到預定的超二次曲面數(shù)量上限。
比如在重構一個臺燈時,ISCO可能首先放置一個超二次曲面來表示燈座,然后添加另一個形狀來表示燈臂,最后是一個超二次曲面表示燈罩。在每一步中,這些形狀的精確位置、大小和形狀都會通過優(yōu)化過程確定,而非預先設定。
ISCO的另一個關鍵設計是它對重構誤差的不同權重。對于物體內(nèi)部的像素(即真實輪廓內(nèi)的區(qū)域),ISCO賦予較高權重,確保超二次曲面能準確覆蓋物體的真實部分。對于物體外部的像素,權重較低,這樣可以防止超二次曲面過度擴展到物體之外。
在ShapeNet數(shù)據(jù)集上的實驗表明,使用僅僅16個不同視角的圖像,ISCO就能實現(xiàn)平均65.6%的體積交并比(IoU),顯著優(yōu)于使用完整點云的EMS(33.0%)和NBP(58.8%)方法。即使只有4個視角的圖像,ISCO的性能(57.6%)也超過了這些傳統(tǒng)方法。
值得注意的是,隨著超二次曲面數(shù)量的增加,重構精度會逐漸提高,但增益遞減。在實踐中,10個超二次曲面通常就足以捕捉大多數(shù)物體的主要結構,保持了表示的簡潔性和可解釋性。
更令人印象深刻的是,ISCO在沒有任何語義監(jiān)督的情況下,自然而然地學會了將相似的物體部分用類似的超二次曲面表示。這種一致性使ISCO不僅能重構物體形狀,還能識別出物體的語義部分,如椅子的座位、靠背和腿部。
解讀物體的語義密碼
![]()
當我們看到一把椅子時,不假思索就能識別出它的座位、靠背和腿部。這種將物體分解為有意義部分的能力對人類來說是如此自然,但對機器卻是一項復雜任務。ISCO技術在這方面取得了令人矚目的進展,它能夠在不依賴任何語義標注的情況下,自動識別物體的組成部分。
在傳統(tǒng)方法中,計算機要理解物體的語義結構,通常需要標注數(shù)據(jù)集,告訴它"這部分是椅子的腿,那部分是椅子的靠背"。這些標注工作耗時費力,且難以覆蓋所有可能的物體類型和形狀變化。而ISCO采用了完全不同的思路:它不是通過學習標注數(shù)據(jù)來理解語義,而是通過對單個物體實例進行優(yōu)化,自然而然地發(fā)現(xiàn)物體的組成部分。
在ShapeNet-Part數(shù)據(jù)集上的實驗展示了ISCO在語義解析方面的能力。這個數(shù)據(jù)集包含了各種物體的三維模型,以及它們的部件標注,比如飛機被分為機身、機翼、尾翼等部分。盡管ISCO在訓練時完全沒有見過這些標注,但在測試時,它所識別出的超二次曲面與真實部件之間顯示出高度的一致性。
具體來說,對于飛機類別,ISCO在實例級別的優(yōu)化中達到了67.7%的部件識別準確率,與需要大量訓練數(shù)據(jù)的專門語義解析方法RIM(67.8%)相當。對于椅子類別,ISCO達到76.6%的準確率,遠高于使用點云作為輸入的NBP方法(53.4%)和EMS方法(45.6%)。
這種驚人的性能來自ISCO的迭代策略。當它放置第一個超二次曲面時,往往會覆蓋物體的主體部分,比如椅子的座位或飛機的機身。隨后的超二次曲面則自然而然地對應到其他主要部件。這種"先主后次"的方式與人類認知物體的過程相似,我們也是先看到物體的整體,然后才注意到細節(jié)。
更有趣的是,ISCO在不同物體實例間表現(xiàn)出一定程度的語義一致性。當它處理多把椅子時,第一個超二次曲面通常都會對應到座位,第二個對應到靠背,后續(xù)的則對應到各條腿。這種一致性并非人為設計的結果,而是優(yōu)化過程自然涌現(xiàn)的特性。
在一個實驗中,研究者比較了ISCO與需要強語義監(jiān)督的方法(如SQ、BAE和RIM)在保持跨實例語義一致性方面的表現(xiàn)。結果表明,雖然ISCO沒有顯式地訓練語義一致性,但當強制要求超二次曲面按順序?qū)教囟ú考r,它仍然顯示出相當?shù)男阅堋@纾谧雷宇悇e中,ISCO達到70.7%的準確率,雖然低于RIM的91.2%,但考慮到它不需要任何訓練數(shù)據(jù),這個結果已經(jīng)相當令人印象深刻。
![]()
當然,由于ISCO是獨立處理每個物體實例的,它不能保證不同實例間的語義對應完全一致。在某些情況下,同一類物體的不同實例可能會有不同的超二次曲面順序。比如,一架飛機的第二個和第三個超二次曲面可能分別表示左右機翼,而另一架飛機則可能相反。這導致了ISCO在強制語義一致性評估時的性能下降。
然而,這種限制在實際應用中可能并不是大問題。在許多場景中,我們關心的是能否準確識別出單個物體的組成部分,而非跨物體的語義映射。例如,在機器人抓取任務中,重要的是能識別出"這是椅子的扶手",而不是扶手在所有椅子中都對應到第幾個超二次曲面。
ISCO的這種語義理解能力開辟了許多應用可能性。例如,它可以用于增強現(xiàn)實應用,讓虛擬物體的部分與真實物體對齊;也可以用于機器人操作,讓機器人理解物體的功能部件并進行相應交互。
走進現(xiàn)實的三維世界
計算機圖形學的美麗世界經(jīng)常局限在完美的實驗室環(huán)境中,但ISCO技術證明了它可以走出實驗室,直面真實世界的混亂與復雜。通過在Common Objects in 3D (CO3D)數(shù)據(jù)集上的測試,ISCO展示了它在處理現(xiàn)實世界圖像方面的強大能力。
CO3D數(shù)據(jù)集包含了約19,000個來自50個MS-COCO類別的物體,每個物體都有多視角圖像和相應的相機位置。與ShapeNet這樣的合成數(shù)據(jù)集不同,CO3D中的圖像來自真實世界,帶有各種復雜因素:不均勻的光照、背景雜亂、物體遮擋,甚至相機抖動等問題。
在這樣的環(huán)境中,ISCO依然能夠從多個視角準確重構物體的三維形狀。例如,對于一個泰迪熊玩具,ISCO能夠精確地識別出它的頭部、身體和四肢,并用相應的超二次曲面表示它們。對于一臺電視機,ISCO能夠區(qū)分出屏幕和底座,并準確捕捉它們的幾何關系。
這種能力在現(xiàn)實應用中尤為寶貴。想象一下,一個增強現(xiàn)實應用需要在用戶看到的真實物體上疊加虛擬內(nèi)容。如果系統(tǒng)能夠理解物體的組成部分,它就能更自然地將虛擬內(nèi)容與物體的特定部位對齊,比如在桌面上放置虛擬物品,或在墻上掛虛擬畫作。
ISCO的另一個關鍵優(yōu)勢是它不需要預先訓練的模型。這意味著它可以處理各種各樣的物體,即使是訓練數(shù)據(jù)中從未見過的物體類別。例如,在CO3D數(shù)據(jù)集中的滑板、筆記本電腦和玩具卡車等物體上,ISCO都能給出合理的三維重構,盡管這些物體具有復雜的幾何形狀和部件結構。
對比來看,基于點云的方法如EMS和NBP在處理現(xiàn)實世界圖像時面臨更大的挑戰(zhàn)。首先,從多視角圖像重構準確的點云本身就是一個困難的問題,特別是當圖像質(zhì)量不佳或視角有限時。其次,即使有了點云,這些方法也往往難以準確識別物體的語義部分。在CO3D的實驗中,EMS常常會用多個重疊的超二次曲面覆蓋物體的單個部分,而NBP則可能只覆蓋物體的一小部分,導致不完整的重構。
![]()
ISCO的成功在很大程度上歸功于它的實例級優(yōu)化策略。傳統(tǒng)的基于神經(jīng)網(wǎng)絡的方法通常在大量數(shù)據(jù)上訓練一個模型,然后將其應用到新的實例上。這種方法在訓練數(shù)據(jù)分布與測試數(shù)據(jù)分布相似時效果很好,但在面對分布外的數(shù)據(jù)時性能會急劇下降。相比之下,ISCO為每個物體實例單獨優(yōu)化超二次曲面參數(shù),這使它能夠適應各種物體形狀,無論它們是否在訓練數(shù)據(jù)中出現(xiàn)過。
當然,ISCO也有其局限性。當可用的視角太少或分布不均勻時,它可能難以準確重構物體的某些部分。例如,如果只有正面視圖,沒有側面或背面視圖,那么物體的后部形狀就會變得模糊不清。在CO3D數(shù)據(jù)集中的一個玩具飛機例子中,由于缺乏側面視圖,ISCO在重構飛機翅膀時表現(xiàn)不佳。
另一個挑戰(zhàn)是計算成本。對于16個視角的情況,ISCO在一塊2080Ti GPU上完成一次更新步驟需要約22毫秒,完整重構一個物體需要33-55秒。雖然這個時間與NBP相當(每個實例20-100秒),但仍然高于EMS(每個實例不到1秒)。不過,隨著神經(jīng)渲染技術的進步,ISCO的運行時間有望進一步縮短。
![]()
盡管存在這些挑戰(zhàn),ISCO在現(xiàn)實世界應用中的潛力是巨大的。它可以用于增強現(xiàn)實應用,讓虛擬內(nèi)容與真實物體無縫融合;可以用于機器人感知,讓機器人理解物體的結構并進行相應交互;還可以用于計算機輔助設計,幫助設計師從實物快速創(chuàng)建可編輯的三維模型。
參考資料
Alaniz, S., Mancini, M., &; Akata, Z. (2023). Iterative Superquadric Recomposition of 3D Objects from Multiple Views. ICCV 2023.
Mildenhall, B., et al. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis.
Paschalidou, D., et al. (2019). Superquadrics Revisited: Learning 3D Shape Parsing beyond Cuboids.
Reizenstein, J., et al. (2021). Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction.
Chang, A.X., et al. (2015). ShapeNet: An Information-Rich 3D Model Repository.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.