如何讓一張照片重建完整3D世界？

2025-12-29 17:44:07　來源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

從一張普通照片中重建出完整的3D物體,這聽起來像是科幻電影里的情節(jié)。然而Meta的研究團(tuán)隊(duì)真的做到了。他們開發(fā)的SAM 3D模型能夠從單張圖像中預(yù)測物體的形狀、紋理和空間位置,即使物體被遮擋或處于雜亂場景中也能準(zhǔn)確重建。更令人驚訝的是,這個(gè)模型不僅能重建看得見的部分,還能推測出被遮擋的背面結(jié)構(gòu),就像人類大腦能從局部信息推斷整體一樣。

這項(xiàng)研究的突破性在于解決了3D領(lǐng)域長期存在的"數(shù)據(jù)壁壘"問題。傳統(tǒng)的3D重建模型主要依賴多視角幾何信息,但人類其實(shí)能從單張照片推斷深度和形狀,這種能力來自于識別和上下文理解。

早在1963年,計(jì)算機(jī)視覺先驅(qū)勞倫斯·羅伯茨就提出,當(dāng)識別出圖像中的物體后,就能恢復(fù)其3D形狀和姿態(tài)。SAM 3D正是繼承了這一思想,并通過現(xiàn)代深度學(xué)習(xí)技術(shù)將其發(fā)揚(yáng)光大。研究團(tuán)隊(duì)創(chuàng)造性地設(shè)計(jì)了一套"人機(jī)協(xié)作"的數(shù)據(jù)標(biāo)注流程,以前所未有的規(guī)模生成了包含形狀、紋理和姿態(tài)信息的3D數(shù)據(jù)集,使模型能夠在真實(shí)世界場景中表現(xiàn)出色。

核心技術(shù):從合成到真實(shí)的多階段訓(xùn)練

SAM 3D的訓(xùn)練過程可以類比為培養(yǎng)一位3D藝術(shù)家的成長歷程。就像藝術(shù)家需要經(jīng)歷基礎(chǔ)訓(xùn)練、實(shí)踐磨練和風(fēng)格培養(yǎng)三個(gè)階段,SAM 3D也采用了預(yù)訓(xùn)練、中期訓(xùn)練和后期訓(xùn)練的多階段策略。

在預(yù)訓(xùn)練階段,模型從270萬個(gè)合成3D物體中學(xué)習(xí)基礎(chǔ)的形狀和紋理知識。這些物體來自O(shè)bjaverse-XL等數(shù)據(jù)庫,被渲染成24個(gè)不同視角的高分辨率圖像。此時(shí)的模型就像初學(xué)者臨摹石膏像,雖然能畫出規(guī)整的形狀,但缺乏應(yīng)對真實(shí)世界復(fù)雜情況的能力。這個(gè)階段消耗了2.5萬億個(gè)訓(xùn)練樣本,為后續(xù)學(xué)習(xí)打下堅(jiān)實(shí)基礎(chǔ)。

中期訓(xùn)練階段引入了"半合成"數(shù)據(jù),即將3D物體渲染后粘貼到真實(shí)照片中。研究團(tuán)隊(duì)開發(fā)了名為RP-3DO的數(shù)據(jù)集,包含6100萬個(gè)樣本。這個(gè)階段教會模型三個(gè)關(guān)鍵技能:遵循物體遮罩、處理遮擋情況、估計(jì)物體在場景中的位置和尺度。就像藝術(shù)家開始寫生,需要學(xué)會在復(fù)雜環(huán)境中抓住物體的本質(zhì)特征。特別值得一提的是"飛行遮擋物"技術(shù),通過在圖像中隨機(jī)添加遮擋物體,強(qiáng)制模型學(xué)習(xí)形狀補(bǔ)全能力。另一種"物體交換"技術(shù)則確保渲染的物體與真實(shí)場景在深度和尺度上保持一致,提供更真實(shí)的視覺線索。

后期訓(xùn)練是整個(gè)流程的精髓所在。傳統(tǒng)方法面臨的困境是:普通人無法直接創(chuàng)建3D模型,而專業(yè)3D藝術(shù)家成本高昂且效率低下。研究團(tuán)隊(duì)巧妙地將問題轉(zhuǎn)化為"選擇題"——讓標(biāo)注者從多個(gè)候選3D模型中選擇最匹配的一個(gè),而不是從零開始創(chuàng)建。這種"模型在環(huán)"的標(biāo)注流程包含三個(gè)關(guān)鍵步驟。

第一步是選擇目標(biāo)物體。團(tuán)隊(duì)從多個(gè)真實(shí)世界數(shù)據(jù)集中采樣圖像,包括大規(guī)模網(wǎng)絡(luò)圖片、日常環(huán)境視頻、以自我中心視角拍攝的數(shù)據(jù)集等,確保覆蓋廣泛的物體類別和場景類型。他們構(gòu)建了一個(gè)面向3D的物體分類體系,例如將不同品種的狗歸為一類,因?yàn)樗鼈兙哂邢嗨频?D結(jié)構(gòu)。通過這種方式,團(tuán)隊(duì)標(biāo)注了近100萬張圖像中的約314萬個(gè)物體。

第二步是3D模型的排序與選擇。由于普通標(biāo)注者無法生成3D形狀,研究團(tuán)隊(duì)部署了一套"模型套件",包括檢索方法、文本生成3D方法和圖像生成3D方法。對于每個(gè)物體,標(biāo)注者會看到6到10個(gè)候選模型,通過一系列成對比較選出最佳匹配。這個(gè)過程采用"8選1"的最優(yōu)搜索策略,顯著提高了找到高質(zhì)量標(biāo)注的概率。標(biāo)注者隨后對選中的模型進(jìn)行質(zhì)量評分,達(dá)標(biāo)的樣本進(jìn)入下一階段,不達(dá)標(biāo)的作為偏好學(xué)習(xí)的負(fù)樣本。當(dāng)所有模型都無法滿足要求時(shí),這些困難樣本會被轉(zhuǎn)交給專業(yè)3D藝術(shù)家進(jìn)行人工建模。

第三步是將3D模型對齊到2.5D場景。標(biāo)注者使用專門開發(fā)的工具,將選定的3D模型在點(diǎn)云中進(jìn)行旋轉(zhuǎn)、平移和縮放,使其與圖像中的物體精確對齊。點(diǎn)云由深度估計(jì)模型生成,提供了足夠的空間結(jié)構(gòu)信息,使標(biāo)注者能夠一致地放置和定向物體。整個(gè)標(biāo)注流程中,選擇物體平均需要10秒,選擇3D模型需要80秒,對齊模型需要150秒。

這套數(shù)據(jù)引擎的巧妙之處在于形成了一個(gè)良性循環(huán)。隨著模型性能提升,它在候選生成中的占比從最初的少數(shù)逐漸增加到約80%,數(shù)據(jù)質(zhì)量也隨之提高。研究團(tuán)隊(duì)可以動態(tài)調(diào)整質(zhì)量閾值,只保留達(dá)到更高標(biāo)準(zhǔn)的樣本用于訓(xùn)練。最終,這個(gè)數(shù)據(jù)引擎產(chǎn)出了314萬個(gè)可訓(xùn)練的形狀、123萬個(gè)布局?jǐn)?shù)據(jù)、10萬個(gè)紋理樣本,以及超過700萬對偏好數(shù)據(jù),規(guī)模前所未有。

在模型改進(jìn)階段,團(tuán)隊(duì)采用監(jiān)督微調(diào)和直接偏好優(yōu)化相結(jié)合的策略。監(jiān)督微調(diào)使用所有達(dá)到質(zhì)量標(biāo)準(zhǔn)的標(biāo)注數(shù)據(jù),而直接偏好優(yōu)化則利用選擇過程中產(chǎn)生的偏好對——被選中的"更好"樣本和被拒絕的"較差"樣本。這種方法借鑒了大語言模型訓(xùn)練中的成功經(jīng)驗(yàn),能夠讓模型學(xué)習(xí)人類的審美偏好,抑制常見失敗模式,比如懸浮碎片、缺少底部的網(wǎng)格、缺失對稱性等問題。整個(gè)后期訓(xùn)練最終迭代使用了5000億個(gè)訓(xùn)練樣本。

為了實(shí)現(xiàn)亞秒級的形狀和布局推理,研究團(tuán)隊(duì)還進(jìn)行了模型蒸餾,將推理所需的函數(shù)評估次數(shù)從25次減少到4次,實(shí)現(xiàn)了10倍的速度提升,同時(shí)幾乎不損失性能。

模型架構(gòu):雙階段設(shè)計(jì)與混合變換器

SAM 3D的核心架構(gòu)采用兩階段設(shè)計(jì),分別處理幾何和紋理。這種分工類似于雕塑家先塑造形體,再進(jìn)行表面處理。

第一階段的幾何模型負(fù)責(zé)聯(lián)合預(yù)測物體的粗略形狀和空間布局。輸入編碼采用DINOv2作為視覺特征提取器,處理四組條件信息:裁剪后的物體圖像及其遮罩,提供高分辨率的局部視圖;完整圖像及其遮罩,提供全局場景上下文和識別線索。模型還可以選擇性地接受粗略的場景點(diǎn)云作為額外輸入,這些點(diǎn)云可以來自硬件傳感器或單目深度估計(jì)。

幾何模型的核心是一個(gè)包含12億參數(shù)的流變換器,采用"混合變換器"架構(gòu)。這種設(shè)計(jì)的精妙之處在于使用結(jié)構(gòu)化的注意力掩碼,允許不同模態(tài)之間共享信息,同時(shí)保持獨(dú)立的處理流。具體而言,模型包含兩個(gè)變換器流:一個(gè)專門處理形狀特征,另一個(gè)的參數(shù)在旋轉(zhuǎn)、平移和縮放之間共享。這種設(shè)計(jì)帶來兩個(gè)關(guān)鍵優(yōu)勢:能夠獨(dú)立訓(xùn)練或微調(diào)某些模態(tài),同時(shí)通過多模態(tài)自注意力層實(shí)現(xiàn)跨模態(tài)信息共享,確保預(yù)測的自洽性。

形狀的表示采用643分辨率的粗體素,旋轉(zhuǎn)使用6維連續(xù)表示法以避免不連續(xù)性,平移和縮放則直接在參數(shù)空間中去噪。所有模態(tài)映射到1024維的共享特征空間,形狀產(chǎn)生4096個(gè)token,而旋轉(zhuǎn)、平移、縮放各產(chǎn)生1個(gè)token。

第二階段的紋理與細(xì)化模型以幾何模型預(yù)測的粗體素為輸入,生成高分辨率的幾何細(xì)節(jié)和物體紋理。模型首先提取活躍體素,然后使用包含6億參數(shù)的稀疏潛在流變換器進(jìn)行細(xì)化。最終的潛在表示可以通過兩個(gè)獨(dú)立訓(xùn)練的VAE解碼器轉(zhuǎn)換為網(wǎng)格或3D高斯點(diǎn)云,兩者共享相同的結(jié)構(gòu)化潛在空間。

研究團(tuán)隊(duì)對紋理VAE進(jìn)行了重要改進(jìn)。原始設(shè)計(jì)將特征反投影到所有體素,包括不可見的遮擋部分,導(dǎo)致重建圖像清晰度下降。改進(jìn)后的"深度感知VAE"只將特征反投影到從當(dāng)前視圖可見的體素,利用深度信息進(jìn)行遮擋處理,顯著提升了重建質(zhì)量。訓(xùn)練時(shí),KL正則化項(xiàng)按活躍體素?cái)?shù)量歸一化,防止大物體主導(dǎo)訓(xùn)練損失。

整個(gè)系統(tǒng)的訓(xùn)練采用整流條件流匹配目標(biāo)函數(shù)。對于幾何模型,目標(biāo)是學(xué)習(xí)從噪聲分布到目標(biāo)分布的速度場,聯(lián)合生成形狀、旋轉(zhuǎn)、平移和縮放。每個(gè)模態(tài)都有獨(dú)立的權(quán)重系數(shù),用于平衡不同輸出的重要性。紋理模型采用類似的流匹配策略,在潛在空間中細(xì)化形狀并合成紋理。

訓(xùn)練超參數(shù)方面,預(yù)訓(xùn)練階段在512個(gè)A100 GPU上進(jìn)行200輪,中期訓(xùn)練先在320個(gè)GPU上運(yùn)行50輪,再在128個(gè)GPU上額外訓(xùn)練50輪,物體交換數(shù)據(jù)在256個(gè)GPU上訓(xùn)練12輪。監(jiān)督微調(diào)在128個(gè)H200 GPU上進(jìn)行100輪,隨著數(shù)據(jù)引擎產(chǎn)生更高質(zhì)量的數(shù)據(jù),質(zhì)量閾值逐步提高,最終保留50萬個(gè)樣本。偏好優(yōu)化在128個(gè)A100上運(yùn)行1輪。紋理模型的訓(xùn)練規(guī)模相當(dāng),預(yù)訓(xùn)練在256個(gè)A100上進(jìn)行245輪,中期訓(xùn)練80輪,監(jiān)督微調(diào)89輪,偏好優(yōu)化2輪。

值得注意的是,研究團(tuán)隊(duì)在紋理訓(xùn)練中引入了光照增強(qiáng)技術(shù)。對于合成數(shù)據(jù),他們在渲染輸入圖像時(shí)使用隨機(jī)光照,而在渲染目標(biāo)潛在表示的視圖時(shí)使用環(huán)境光照。這種設(shè)計(jì)鼓勵(lì)模型學(xué)習(xí)預(yù)測"去光照"的紋理,避免將強(qiáng)方向性陰影或高光烘焙到紋理中,使生成的3D資產(chǎn)更加通用。

評估體系:藝術(shù)家級別的基準(zhǔn)測試

為了全面評估SAM 3D在真實(shí)世界場景中的能力,研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為SA-3DAO的新基準(zhǔn)測試集。這個(gè)數(shù)據(jù)集包含1000個(gè)由專業(yè)3D藝術(shù)家從自然圖像創(chuàng)建的高保真3D物體。與現(xiàn)有基準(zhǔn)相比,SA-3DAO的獨(dú)特之處在于其視覺多樣性和真實(shí)世界復(fù)雜性。

數(shù)據(jù)集覆蓋的場景包括公園、滑雪場、跳蚤市場、游行等室內(nèi)外環(huán)境,物體范圍從大型結(jié)構(gòu)如滑雪纜車和自動扶梯,到日常用品如衣物,再到罕見的文化特定物體如部落面具。藝術(shù)家的任務(wù)是從單張圖像中恢復(fù)物體的完整3D形狀,必須處理局部信息缺失、自然遮擋、物體尺寸較小等挑戰(zhàn)。為了填補(bǔ)這些信息空白,藝術(shù)家依靠識別和上下文,使用常識先驗(yàn)、物理合理性假設(shè)和對稱性原則來完成網(wǎng)格。

制作這些高質(zhì)量基準(zhǔn)數(shù)據(jù)的成本相當(dāng)高昂。對于簡單幾何形狀的明顯物體,藝術(shù)家可能只需5分鐘,但對于復(fù)雜案例可能需要超過5小時(shí)。數(shù)據(jù)集中網(wǎng)格的中位數(shù)包含4751個(gè)頂點(diǎn),許多圖像提供了多個(gè)物體,每張圖像的物體數(shù)量遵循大致的冪律分布,最多可達(dá)11個(gè)物體。

研究團(tuán)隊(duì)還設(shè)計(jì)了針對不同場景的人類偏好測試集,包括四個(gè)領(lǐng)域:從SA-1B均勻采樣1000個(gè)圖像和物體遮罩對,覆蓋多樣的物體類別;從MetaCLIP選擇1000個(gè)中度或嚴(yán)重遮擋的樣本;從LVIS密集采樣1000張包含10到30個(gè)物體的場景圖像;從Aria數(shù)字孿生數(shù)據(jù)集采樣40個(gè)視頻幀,每個(gè)場景約30個(gè)物體。這些測試集分別評估模型在長尾類別、遮擋情況、密集場景和高精度點(diǎn)云場景中的表現(xiàn)。

評估指標(biāo)涵蓋形狀、紋理和布局三個(gè)方面。對于形狀質(zhì)量,研究團(tuán)隊(duì)使用四個(gè)互補(bǔ)指標(biāo):F1分?jǐn)?shù)(閾值0.01)測量0.01閾值下重建點(diǎn)和真實(shí)點(diǎn)之間的對應(yīng)精度;體素IoU提供粗略的體積一致性評分;倒角距離測量雙向最近鄰距離,突出細(xì)粒度幾何偏差;推土機(jī)距離量化將一個(gè)點(diǎn)分布轉(zhuǎn)換為另一個(gè)點(diǎn)分布所需的最小成本,更加嚴(yán)格地捕捉全局結(jié)構(gòu)差異。這些指標(biāo)從局部精度到全局形狀一致性提供了全面的重建保真度視圖。

對于紋理評估,由于SA-3DAO的藝術(shù)家創(chuàng)建的網(wǎng)格是無紋理的,研究團(tuán)隊(duì)采用感知相似度指標(biāo)。在ISO3D數(shù)據(jù)集上,他們使用ULIP和Uni3D計(jì)算點(diǎn)云特征和圖像特征之間的跨模態(tài)相似度,每個(gè)生成的網(wǎng)格均勻采樣8192個(gè)表面點(diǎn)形成點(diǎn)云表示。

布局評估采用標(biāo)準(zhǔn)的6D姿態(tài)估計(jì)指標(biāo):3D IoU測量預(yù)測和真實(shí)3D軸對齊邊界框的重疊;ICP旋轉(zhuǎn)誤差是ICP對齊后的殘差旋轉(zhuǎn)誤差(以度為單位);ADD-S(對稱平均距離)是預(yù)測和真實(shí)姿態(tài)物體之間的對稱化平均最小點(diǎn)對點(diǎn)距離,按物體直徑歸一化;ADD-S@0.1表示ADD-S距離是否小于物體直徑的10%。這些指標(biāo)全面衡量了模型預(yù)測物體空間位置和方向的準(zhǔn)確性。

實(shí)驗(yàn)結(jié)果:壓倒性優(yōu)勢

在SA-3DAO基準(zhǔn)測試上,SAM 3D展現(xiàn)出顯著優(yōu)于現(xiàn)有最先進(jìn)方法的性能。與最近的Trellis、Hunyuan3D-2.1、Direct3D-S2、TripoSG和Hi3DGen等模型相比,SAM 3D在所有形狀質(zhì)量指標(biāo)上都取得了大幅領(lǐng)先。具體而言,F1分?jǐn)?shù)達(dá)到0.2344,相比第二名提升約44%;體素IoU為0.2311,提升約51%;倒角距離降至0.0400,改善超過50%;推土機(jī)距離為0.1211,也有顯著提升。

在人類偏好測試中,結(jié)果更加令人印象深刻。對于真實(shí)圖像的單物體重建,SAM 3D獲得了5:1的壓倒性勝率。在場景級重建方面,用戶以6:1的比例更偏好SAM 3D的結(jié)果。這些偏好測試在三個(gè)評估集上進(jìn)行,涵蓋了場景偏好集、LVIS和Aria數(shù)字孿生數(shù)據(jù)集,結(jié)果一致顯示SAM 3D的顯著優(yōu)勢。

特別值得關(guān)注的是模型在處理遮擋和雜亂場景時(shí)的表現(xiàn)。定性示例清楚地展示了SAM 3D在嚴(yán)重遮擋情況下的強(qiáng)大泛化能力。當(dāng)物體被部分遮擋或處于復(fù)雜場景中時(shí),競爭方法往往產(chǎn)生不完整或扭曲的重建,而SAM 3D能夠利用上下文線索和識別能力,推斷出合理的完整形狀。

對于3D場景重建,SAM 3D在實(shí)際數(shù)據(jù)如SA-3DAO和Aria數(shù)字孿生數(shù)據(jù)集上的改進(jìn)尤為顯著。模型引入了聯(lián)合生成形狀和布局的新能力,將ADD-S@0.1指標(biāo)從2%提升到77%。即使與使用SAM 3D網(wǎng)格的流水線方法相比,性能提升依然持續(xù)存在。研究團(tuán)隊(duì)還展示了"采樣后優(yōu)化"方法可以進(jìn)一步改善性能,類似于渲染比較方法,在554個(gè)接受優(yōu)化的樣本中,3D布局指標(biāo)和2D遮罩IoU都有顯著提升。

紋理質(zhì)量方面,SAM 3D同樣表現(xiàn)出色。在使用相同SAM 3D幾何形狀的紋理生成對比中,標(biāo)注者顯著偏好SAM 3D的紋理結(jié)果。在ISO3D數(shù)據(jù)集上,SAM 3D相對于Trellis的勝率達(dá)到81.1%,相對于Hunyuan3D-2.1為63.8%,相對于Unitex為83.3%。偏好集和SA-3DAO上的結(jié)果同樣一邊倒,勝率普遍在84%以上。這主要?dú)w功于SAM 3D在處理遮擋和雜亂環(huán)境時(shí)的優(yōu)勢,而這正是先前工作的薄弱環(huán)節(jié)。

研究團(tuán)隊(duì)通過一系列消融實(shí)驗(yàn)驗(yàn)證了設(shè)計(jì)選擇的有效性。多階段訓(xùn)練的級聯(lián)改進(jìn)實(shí)驗(yàn)顯示,每添加一個(gè)訓(xùn)練階段,形狀質(zhì)量指標(biāo)都呈現(xiàn)近乎單調(diào)的提升。從僅預(yù)訓(xùn)練到添加中期訓(xùn)練,F1分?jǐn)?shù)從0.1349提升到0.1705;繼續(xù)添加MITL-3DO監(jiān)督微調(diào)后達(dá)到0.2027;DPO進(jìn)一步提升到0.2156;加入藝術(shù)家數(shù)據(jù)的監(jiān)督微調(diào)達(dá)到0.2331;最終的藝術(shù)家數(shù)據(jù)DPO將性能推至0.2344。

對于中間訓(xùn)練階段的剔除實(shí)驗(yàn)表明,任何一個(gè)真實(shí)世界數(shù)據(jù)階段的缺失都會導(dǎo)致明顯的性能下降。移除MITL-3DO訓(xùn)練使F1分?jǐn)?shù)下降到0.2211,移除藝術(shù)家數(shù)據(jù)降至0.2027,不使用MITL-3DO的DPO則為0.2156。這驗(yàn)證了整個(gè)訓(xùn)練流程中每個(gè)組件的必要性。

紋理模型的消融實(shí)驗(yàn)揭示了幾個(gè)關(guān)鍵設(shè)計(jì)選擇的重要性。光照增強(qiáng)是最關(guān)鍵的因素,帶來顯著的偏好提升。遮罩和模糊增強(qiáng)主要針對特定挑戰(zhàn)場景,在整體評估中效果被稀釋但仍然重要。RP-3DO數(shù)據(jù)對于適應(yīng)真實(shí)世界至關(guān)重要。后期訓(xùn)練數(shù)據(jù)帶來顯著增益,數(shù)據(jù)引擎的有效性得到證明,DPO進(jìn)一步放大了增益。此外,獲取特定類型的高美學(xué)數(shù)據(jù)和擴(kuò)展數(shù)據(jù)規(guī)模都顯示出顯著改進(jìn)。

旋轉(zhuǎn)表示的消融實(shí)驗(yàn)證實(shí),從四元數(shù)切換到6D連續(xù)旋轉(zhuǎn)參數(shù)化顯著降低了定向旋轉(zhuǎn)誤差。進(jìn)一步對6D旋轉(zhuǎn)向量進(jìn)行歸一化又帶來額外改進(jìn)。點(diǎn)云條件對形狀性能的影響最小,在LVIS上的頭對頭偏好測試中,有點(diǎn)云和無點(diǎn)云的版本各被選擇約48%的時(shí)間。

數(shù)據(jù)引擎中獎(jiǎng)勵(lì)模型輔助的最優(yōu)N選搜索實(shí)驗(yàn)顯示,使用獎(jiǎng)勵(lì)模型從50個(gè)候選中篩選能夠?qū)⒗щy樣本的成功標(biāo)注率從0%提升到86.8%。在難度測試集、Epic Kitchens和SA-3DAO上,使用恢復(fù)數(shù)據(jù)進(jìn)行微調(diào)都改善了模型在挑戰(zhàn)性輸入上的性能。這表明進(jìn)一步放大專家策略可以提高數(shù)據(jù)引擎的收斂速度。

技術(shù)創(chuàng)新與未來展望

SAM 3D的成功建立在幾個(gè)關(guān)鍵創(chuàng)新之上。核心突破在于將大語言模型訓(xùn)練范式成功移植到3D領(lǐng)域。傳統(tǒng)3D重建受限于數(shù)據(jù)稀缺,而SAM 3D通過合成預(yù)訓(xùn)練建立豐富的形狀和紋理詞匯,通過半合成中期訓(xùn)練學(xué)習(xí)處理遮擋和場景布局的能力,最后通過真實(shí)世界后期訓(xùn)練對齊人類偏好。這種從合成到真實(shí)的漸進(jìn)式學(xué)習(xí)策略,有效彌補(bǔ)了3D領(lǐng)域與文本、圖像、視頻等領(lǐng)域數(shù)量級的數(shù)據(jù)差距。

模型在環(huán)的數(shù)據(jù)標(biāo)注流程是另一個(gè)關(guān)鍵創(chuàng)新。研究團(tuán)隊(duì)將無法直接完成的3D建模任務(wù)轉(zhuǎn)化為人類擅長的選擇和驗(yàn)證任務(wù)。通過部署包含檢索、文本生成3D、圖像生成3D等多種方法的模型套件,并讓標(biāo)注者從8個(gè)候選中選擇最佳匹配,這種"最優(yōu)N選"搜索顯著提高了找到高質(zhì)量標(biāo)注的概率。更重要的是,這個(gè)過程形成了良性循環(huán):改進(jìn)的模型產(chǎn)生更好的候選,更好的候選帶來更高質(zhì)量的標(biāo)注,更高質(zhì)量的標(biāo)注又進(jìn)一步改進(jìn)模型。歷史Elo評分顯示,隨著數(shù)據(jù)引擎迭代運(yùn)行,模型性能穩(wěn)步提升,呈現(xiàn)近似線性的擴(kuò)展規(guī)律。

混合變換器架構(gòu)巧妙地平衡了模態(tài)獨(dú)立性和信息共享。通過結(jié)構(gòu)化注意力掩碼,模型能夠獨(dú)立訓(xùn)練或微調(diào)某些模態(tài),同時(shí)通過多模態(tài)自注意力層實(shí)現(xiàn)跨模態(tài)交互。這種設(shè)計(jì)使得模型可以在只有部分模態(tài)標(biāo)注的數(shù)據(jù)上訓(xùn)練,也可以凍結(jié)某些能力只微調(diào)其他部分,大大提高了訓(xùn)練的靈活性。

深度感知的VAE改進(jìn)看似簡單,卻帶來了紋理質(zhì)量的顯著提升。通過只將特征反投影到可見體素,模型避免了不可見區(qū)域的特征污染,使重建圖像更加清晰。結(jié)合光照增強(qiáng)技術(shù),模型學(xué)會預(yù)測不受光照影響的"去光照"紋理,使生成的3D資產(chǎn)具有更好的通用性。

模型蒸餾技術(shù)借鑒了擴(kuò)散模型的"捷徑模型"方法,通過結(jié)合流匹配目標(biāo)和自一致性目標(biāo),成功將推理步數(shù)從25步減少到4步,實(shí)現(xiàn)10倍速度提升,同時(shí)幾乎不損失性能。這對于需要在線3D感知能力的應(yīng)用(如機(jī)器人)至關(guān)重要。

當(dāng)然,SAM 3D也存在一些局限性。由于架構(gòu)超參數(shù)的限制,模型的分辨率存在上限。幾何模型使用643的粗體素分辨率,每個(gè)占用體素最多32個(gè)高斯點(diǎn)。這對許多物體足夠,但對于復(fù)雜形狀或人類視覺系統(tǒng)特別敏感的特征,可能導(dǎo)致可察覺的失真或細(xì)節(jié)丟失。當(dāng)重建整個(gè)人體時(shí),分配給手部或面部的體素/高斯點(diǎn)數(shù)量受限于整體身體的尺度,可能產(chǎn)生可察覺的偽影。相比之下,當(dāng)只關(guān)注單只手或頭部時(shí),可用的相對分辨率更高,SAM 3D能夠重建得顯著更好。

物體布局是另一個(gè)需要改進(jìn)的領(lǐng)域。SAM 3D逐個(gè)預(yù)測物體,沒有被訓(xùn)練來推理物理交互,如接觸、物理穩(wěn)定性、相互穿透或共同對齊。多物體聯(lián)合預(yù)測結(jié)合適當(dāng)?shù)膿p失函數(shù),將允許對場景中多個(gè)物體進(jìn)行聯(lián)合推理。此外,SAM 3D的紋理預(yù)測不知道預(yù)測物體的姿態(tài),對于具有旋轉(zhuǎn)對稱性的物體,偶爾會預(yù)測出實(shí)際上將物體旋轉(zhuǎn)到錯(cuò)誤方向的紋理。

SAM 3D為3D重建和下游應(yīng)用開啟了新的可能性。在機(jī)器人領(lǐng)域,能夠從單張圖像快速重建場景中物體的完整3D形狀和位置,將極大增強(qiáng)機(jī)器人的環(huán)境理解和操作能力。在增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)中,SAM 3D可以實(shí)時(shí)將真實(shí)世界物體轉(zhuǎn)換為虛擬資產(chǎn),實(shí)現(xiàn)更自然的混合現(xiàn)實(shí)體驗(yàn)。在游戲和電影制作中,創(chuàng)作者可以快速從參考圖像生成高質(zhì)量3D資產(chǎn),大幅縮短制作周期。在電子商務(wù)領(lǐng)域,商品照片可以自動轉(zhuǎn)換為可旋轉(zhuǎn)查看的3D模型,提升用戶體驗(yàn)。

本文來自至頂AI實(shí)驗(yàn)室，一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。致力于推動生成式AI在各個(gè)領(lǐng)域的創(chuàng)新與突破，挖掘其潛在的應(yīng)用場景，為企業(yè)和個(gè)人提供切實(shí)可行的解決方案。

Q&A

Q1:SAM 3D相比傳統(tǒng)3D重建方法有什么優(yōu)勢?

A:SAM 3D的核心優(yōu)勢在于能夠從單張自然圖像重建完整的3D物體,即使在遮擋和雜亂場景中也表現(xiàn)出色。傳統(tǒng)方法主要依賴多視角幾何信息或需要在隔離環(huán)境中拍攝的物體照片。SAM 3D通過結(jié)合識別和上下文理解,能夠像人類一樣從局部信息推斷整體結(jié)構(gòu)。在人類偏好測試中,SAM 3D相對于現(xiàn)有最先進(jìn)方法獲得了至少5:1的勝率,在真實(shí)世界場景的表現(xiàn)遠(yuǎn)超競爭對手。

Q2:模型在環(huán)的數(shù)據(jù)標(biāo)注流程是如何工作的?

A:這個(gè)流程巧妙地將困難的3D建模任務(wù)轉(zhuǎn)化為選擇和驗(yàn)證任務(wù)。系統(tǒng)首先使用多種方法(檢索、文本生成3D、圖像生成3D)生成6到10個(gè)候選3D模型,標(biāo)注者通過成對比較選出最匹配的一個(gè),然后對其質(zhì)量評分。達(dá)標(biāo)樣本進(jìn)入下一階段對齊,不達(dá)標(biāo)樣本作為偏好學(xué)習(xí)的負(fù)樣本。特別困難的案例會轉(zhuǎn)交專業(yè)3D藝術(shù)家處理。隨著模型改進(jìn),它在候選生成中的占比從少數(shù)增加到約80%,形成良性循環(huán)。整個(gè)數(shù)據(jù)引擎最終產(chǎn)出了314萬個(gè)形狀、123萬個(gè)布局?jǐn)?shù)據(jù)和10萬個(gè)紋理樣本。

Q3:SAM 3D模型在實(shí)際應(yīng)用中的推理速度如何?

A:研究團(tuán)隊(duì)通過模型蒸餾技術(shù)實(shí)現(xiàn)了顯著的速度提升。通過采用"捷徑模型"方法,將推理所需的函數(shù)評估次數(shù)從25次減少到4次,實(shí)現(xiàn)了10倍的速度提升,同時(shí)幾乎不損失性能。對于幾何模型,使用1步和4步方法分別實(shí)現(xiàn)了38倍和10倍的推理速度改進(jìn)。這使得SAM 3D能夠?qū)崿F(xiàn)亞秒級的形狀和布局預(yù)測,滿足需要在線3D感知能力的應(yīng)用需求,如機(jī)器人操作、增強(qiáng)現(xiàn)實(shí)等場景。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.