從像素到三維：ISCO如何通過超二次曲面重構物體的多視角表示

2025-05-17 23:52:15　來源: 清風鑒史

廣東舉報

分享至

想象一下，給機器展示幾張不同角度拍攝的氣球狗雕塑圖片，它能否像人類一樣，將這些二維圖像在大腦中重構成完整的三維模型？這正是ISCO（迭代超二次曲面物體重構）技術所解決的挑戰(zhàn)。它不需要復雜的三維訓練數(shù)據(jù)，僅憑多角度二維圖像，就能逐步構建出物體的三維表示。通過一種＂由粗到細＂的方法，ISCO首先捕捉物體的主要結構，然后逐漸添加細節(jié)，最終將簡單的幾何形狀組合成復雜的三維模型。這項技術讓機器不僅能＂看見＂物體，還能＂理解＂物體的組成部分，為虛擬現(xiàn)實和機器人等領域開辟了新的可能性。

超越平面的視覺

人類看世界很簡單。當我們看到杰夫昆斯的＂氣球狗＂雕塑時，即使它沒有狗的鼻子或牙齒，我們也能立刻認出這是一條狗。這是因為我們的大腦能夠自動將物體分解成有意義的部分，然后在腦海中重新組合它們。但對計算機來說，這項任務卻異常困難。

傳統(tǒng)的三維重構方法需要大量的三維數(shù)據(jù)作為訓練素材。這些數(shù)據(jù)通常來自激光掃描或深度相機，獲取成本高昂且耗時。更麻煩的是，即使有了這些數(shù)據(jù)，計算機也常常只能識別出它已經(jīng)學習過的物體類型，面對新奇的形狀就會束手無策。

超二次曲面作為一種數(shù)學工具，提供了一個優(yōu)雅的解決方案。它是一種可以表示各種形狀的幾何體，從立方體、球體到橢圓體，只需要調(diào)整幾個參數(shù)就能實現(xiàn)形狀的變化。這種表示方式的優(yōu)勢在于它既簡單又富有表現(xiàn)力。

以一個普通的椅子為例，傳統(tǒng)方法可能需要數(shù)千個點或三角形來表示它的三維形狀。而使用超二次曲面，我們只需要幾個簡單的形狀就能捕捉椅子的主要結構：一個扁平的超二次曲面表示座位，一個豎直的超二次曲面表示靠背，四個細長的超二次曲面表示腿部。這種表示不僅節(jié)省了計算資源，更重要的是，它提供了對物體結構的語義理解。

然而，如何從二維圖像直接推斷出這些三維超二次曲面，而不依賴昂貴的三維監(jiān)督數(shù)據(jù)，成為了一個關鍵挑戰(zhàn)。現(xiàn)有的方法如EMS和NBP需要點云作為輸入，而獲取精確的點云本身就需要三維數(shù)據(jù)或復雜的重構過程。

最近的神經(jīng)輻射場（NeRF）技術展示了從多視角圖像中學習隱式三維表示的可能性，但它們通常生成的是密集的、難以解釋的表示，而非結構化的簡單幾何體組合。這就是ISCO技術的創(chuàng)新之處——它直接從二維視圖出發(fā)，構建基于超二次曲面的顯式三維表示。

拼圖式的立體重構

ISCO的核心理念是將三維物體看作一系列簡單形狀的組合，就像拼圖一樣逐塊構建完整畫面。它不需要預先訓練的神經(jīng)網(wǎng)絡，而是針對每個具體物體實例，通過優(yōu)化超二次曲面參數(shù)來實現(xiàn)重構。

在實際操作中，ISCO首先收集物體的多個視角圖像。這些圖像可以來自圍繞物體移動的相機，或者是靜態(tài)物體在轉臺上旋轉時拍攝的照片。為了簡化問題，ISCO關注的是物體的輪廓而非紋理，因此它使用物體的輪廓掩碼（silhouettes）作為輸入。

創(chuàng)新的地方在于ISCO的迭代策略。它不是一次性放置所有超二次曲面，而是一個接一個地添加。每次添加新的超二次曲面時，ISCO會計算當前重構結果與真實輪廓之間的差異，并在差異最大的區(qū)域初始化一個新的形狀。

這種方法有點像雕塑家先塑造物體的大體形狀，然后逐漸添加細節(jié)。第一個超二次曲面往往會覆蓋物體的主體部分，比如椅子的座位或飛機的機身。隨后的超二次曲面則會逐漸填補更細微的結構，如椅子的腿或飛機的翅膀。

為了實現(xiàn)這一過程，ISCO利用了可微分渲染技術。簡單來說，它在計算機中模擬光線如何穿過場景并形成圖像，然后比較渲染圖像與真實圖像之間的差異。關鍵的是，這個過程是可微分的，意味著我們可以計算出超二次曲面的參數(shù)應該如何調(diào)整，以減小這種差異。

在數(shù)學上，ISCO定義了一個損失函數(shù)，衡量渲染視圖與真實視圖之間的差異。通過反向傳播算法，它計算這個損失函數(shù)相對于每個超二次曲面參數(shù)的梯度，并據(jù)此更新參數(shù)。這個過程反復進行，直到渲染視圖與真實視圖足夠接近，或者達到預定的超二次曲面數(shù)量上限。

比如在重構一個臺燈時，ISCO可能首先放置一個超二次曲面來表示燈座，然后添加另一個形狀來表示燈臂，最后是一個超二次曲面表示燈罩。在每一步中，這些形狀的精確位置、大小和形狀都會通過優(yōu)化過程確定，而非預先設定。

ISCO的另一個關鍵設計是它對重構誤差的不同權重。對于物體內(nèi)部的像素（即真實輪廓內(nèi)的區(qū)域），ISCO賦予較高權重，確保超二次曲面能準確覆蓋物體的真實部分。對于物體外部的像素，權重較低，這樣可以防止超二次曲面過度擴展到物體之外。

在ShapeNet數(shù)據(jù)集上的實驗表明，使用僅僅16個不同視角的圖像，ISCO就能實現(xiàn)平均65.6%的體積交并比（IoU），顯著優(yōu)于使用完整點云的EMS（33.0%）和NBP（58.8%）方法。即使只有4個視角的圖像，ISCO的性能（57.6%）也超過了這些傳統(tǒng)方法。

值得注意的是，隨著超二次曲面數(shù)量的增加，重構精度會逐漸提高，但增益遞減。在實踐中，10個超二次曲面通常就足以捕捉大多數(shù)物體的主要結構，保持了表示的簡潔性和可解釋性。

更令人印象深刻的是，ISCO在沒有任何語義監(jiān)督的情況下，自然而然地學會了將相似的物體部分用類似的超二次曲面表示。這種一致性使ISCO不僅能重構物體形狀，還能識別出物體的語義部分，如椅子的座位、靠背和腿部。

解讀物體的語義密碼

當我們看到一把椅子時，不假思索就能識別出它的座位、靠背和腿部。這種將物體分解為有意義部分的能力對人類來說是如此自然，但對機器卻是一項復雜任務。ISCO技術在這方面取得了令人矚目的進展，它能夠在不依賴任何語義標注的情況下，自動識別物體的組成部分。

在傳統(tǒng)方法中，計算機要理解物體的語義結構，通常需要標注數(shù)據(jù)集，告訴它＂這部分是椅子的腿，那部分是椅子的靠背＂。這些標注工作耗時費力，且難以覆蓋所有可能的物體類型和形狀變化。而ISCO采用了完全不同的思路：它不是通過學習標注數(shù)據(jù)來理解語義，而是通過對單個物體實例進行優(yōu)化，自然而然地發(fā)現(xiàn)物體的組成部分。

在ShapeNet-Part數(shù)據(jù)集上的實驗展示了ISCO在語義解析方面的能力。這個數(shù)據(jù)集包含了各種物體的三維模型，以及它們的部件標注，比如飛機被分為機身、機翼、尾翼等部分。盡管ISCO在訓練時完全沒有見過這些標注，但在測試時，它所識別出的超二次曲面與真實部件之間顯示出高度的一致性。

具體來說，對于飛機類別，ISCO在實例級別的優(yōu)化中達到了67.7%的部件識別準確率，與需要大量訓練數(shù)據(jù)的專門語義解析方法RIM（67.8%）相當。對于椅子類別，ISCO達到76.6%的準確率，遠高于使用點云作為輸入的NBP方法（53.4%）和EMS方法（45.6%）。

這種驚人的性能來自ISCO的迭代策略。當它放置第一個超二次曲面時，往往會覆蓋物體的主體部分，比如椅子的座位或飛機的機身。隨后的超二次曲面則自然而然地對應到其他主要部件。這種＂先主后次＂的方式與人類認知物體的過程相似，我們也是先看到物體的整體，然后才注意到細節(jié)。

更有趣的是，ISCO在不同物體實例間表現(xiàn)出一定程度的語義一致性。當它處理多把椅子時，第一個超二次曲面通常都會對應到座位，第二個對應到靠背，后續(xù)的則對應到各條腿。這種一致性并非人為設計的結果，而是優(yōu)化過程自然涌現(xiàn)的特性。

在一個實驗中，研究者比較了ISCO與需要強語義監(jiān)督的方法（如SQ、BAE和RIM）在保持跨實例語義一致性方面的表現(xiàn)。結果表明，雖然ISCO沒有顯式地訓練語義一致性，但當強制要求超二次曲面按順序?qū)教囟ú考r，它仍然顯示出相當?shù)男阅堋＠纾谧雷宇悇e中，ISCO達到70.7%的準確率，雖然低于RIM的91.2%，但考慮到它不需要任何訓練數(shù)據(jù)，這個結果已經(jīng)相當令人印象深刻。

當然，由于ISCO是獨立處理每個物體實例的，它不能保證不同實例間的語義對應完全一致。在某些情況下，同一類物體的不同實例可能會有不同的超二次曲面順序。比如，一架飛機的第二個和第三個超二次曲面可能分別表示左右機翼，而另一架飛機則可能相反。這導致了ISCO在強制語義一致性評估時的性能下降。

然而，這種限制在實際應用中可能并不是大問題。在許多場景中，我們關心的是能否準確識別出單個物體的組成部分，而非跨物體的語義映射。例如，在機器人抓取任務中，重要的是能識別出＂這是椅子的扶手＂，而不是扶手在所有椅子中都對應到第幾個超二次曲面。

ISCO的這種語義理解能力開辟了許多應用可能性。例如，它可以用于增強現(xiàn)實應用，讓虛擬物體的部分與真實物體對齊；也可以用于機器人操作，讓機器人理解物體的功能部件并進行相應交互。

走進現(xiàn)實的三維世界

計算機圖形學的美麗世界經(jīng)常局限在完美的實驗室環(huán)境中，但ISCO技術證明了它可以走出實驗室，直面真實世界的混亂與復雜。通過在Common Objects in 3D （CO3D）數(shù)據(jù)集上的測試，ISCO展示了它在處理現(xiàn)實世界圖像方面的強大能力。

CO3D數(shù)據(jù)集包含了約19，000個來自50個MS-COCO類別的物體，每個物體都有多視角圖像和相應的相機位置。與ShapeNet這樣的合成數(shù)據(jù)集不同，CO3D中的圖像來自真實世界，帶有各種復雜因素：不均勻的光照、背景雜亂、物體遮擋，甚至相機抖動等問題。

在這樣的環(huán)境中，ISCO依然能夠從多個視角準確重構物體的三維形狀。例如，對于一個泰迪熊玩具，ISCO能夠精確地識別出它的頭部、身體和四肢，并用相應的超二次曲面表示它們。對于一臺電視機，ISCO能夠區(qū)分出屏幕和底座，并準確捕捉它們的幾何關系。

這種能力在現(xiàn)實應用中尤為寶貴。想象一下，一個增強現(xiàn)實應用需要在用戶看到的真實物體上疊加虛擬內(nèi)容。如果系統(tǒng)能夠理解物體的組成部分，它就能更自然地將虛擬內(nèi)容與物體的特定部位對齊，比如在桌面上放置虛擬物品，或在墻上掛虛擬畫作。

ISCO的另一個關鍵優(yōu)勢是它不需要預先訓練的模型。這意味著它可以處理各種各樣的物體，即使是訓練數(shù)據(jù)中從未見過的物體類別。例如，在CO3D數(shù)據(jù)集中的滑板、筆記本電腦和玩具卡車等物體上，ISCO都能給出合理的三維重構，盡管這些物體具有復雜的幾何形狀和部件結構。

對比來看，基于點云的方法如EMS和NBP在處理現(xiàn)實世界圖像時面臨更大的挑戰(zhàn)。首先，從多視角圖像重構準確的點云本身就是一個困難的問題，特別是當圖像質(zhì)量不佳或視角有限時。其次，即使有了點云，這些方法也往往難以準確識別物體的語義部分。在CO3D的實驗中，EMS常常會用多個重疊的超二次曲面覆蓋物體的單個部分，而NBP則可能只覆蓋物體的一小部分，導致不完整的重構。

ISCO的成功在很大程度上歸功于它的實例級優(yōu)化策略。傳統(tǒng)的基于神經(jīng)網(wǎng)絡的方法通常在大量數(shù)據(jù)上訓練一個模型，然后將其應用到新的實例上。這種方法在訓練數(shù)據(jù)分布與測試數(shù)據(jù)分布相似時效果很好，但在面對分布外的數(shù)據(jù)時性能會急劇下降。相比之下，ISCO為每個物體實例單獨優(yōu)化超二次曲面參數(shù)，這使它能夠適應各種物體形狀，無論它們是否在訓練數(shù)據(jù)中出現(xiàn)過。

當然，ISCO也有其局限性。當可用的視角太少或分布不均勻時，它可能難以準確重構物體的某些部分。例如，如果只有正面視圖，沒有側面或背面視圖，那么物體的后部形狀就會變得模糊不清。在CO3D數(shù)據(jù)集中的一個玩具飛機例子中，由于缺乏側面視圖，ISCO在重構飛機翅膀時表現(xiàn)不佳。

另一個挑戰(zhàn)是計算成本。對于16個視角的情況，ISCO在一塊2080Ti GPU上完成一次更新步驟需要約22毫秒，完整重構一個物體需要33-55秒。雖然這個時間與NBP相當（每個實例20-100秒），但仍然高于EMS（每個實例不到1秒）。不過，隨著神經(jīng)渲染技術的進步，ISCO的運行時間有望進一步縮短。

盡管存在這些挑戰(zhàn)，ISCO在現(xiàn)實世界應用中的潛力是巨大的。它可以用于增強現(xiàn)實應用，讓虛擬內(nèi)容與真實物體無縫融合；可以用于機器人感知，讓機器人理解物體的結構并進行相應交互；還可以用于計算機輔助設計，幫助設計師從實物快速創(chuàng)建可編輯的三維模型。

參考資料

Alaniz， S.， Mancini， M.， &； Akata， Z. （2023）. Iterative Superquadric Recomposition of 3D Objects from Multiple Views. ICCV 2023.
Mildenhall， B.， et al. （2020）. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis.
Paschalidou， D.， et al. （2019）. Superquadrics Revisited: Learning 3D Shape Parsing beyond Cuboids.
Reizenstein， J.， et al. （2021）. Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction.
Chang， A.X.， et al. （2015）. ShapeNet: An Information-Rich 3D Model Repository.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.