網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

3D空間中的精準(zhǔn)分割：為何傳統(tǒng)模型難以識(shí)別相似物體？

2025-05-17 23:52:07　來(lái)源: 清風(fēng)鑒史

廣東舉報(bào)

分享至

在計(jì)算機(jī)視覺(jué)的世界里，有一個(gè)棘手的問(wèn)題困擾著研究者多年：當(dāng)兩個(gè)相似的物體在3D空間中相距較遠(yuǎn)時(shí)，智能系統(tǒng)往往會(huì)將它們錯(cuò)誤地識(shí)別為同一個(gè)實(shí)體。想象一下，一個(gè)房間里有兩把完全相同的椅子放在不同的位置，傳統(tǒng)技術(shù)卻常常只能＂看到＂一把椅子。這就像人類(lèi)在昏暗的房間里，看到兩個(gè)相似的黑影，卻無(wú)法確定是一個(gè)物體映射出的兩個(gè)影子，還是兩個(gè)獨(dú)立的物體。當(dāng)前的混合模型在提取特征時(shí)，往往無(wú)法充分利用空間信息，導(dǎo)致在處理點(diǎn)云數(shù)據(jù)時(shí)出現(xiàn)混淆。本文將揭示一種新型方法，通過(guò)增強(qiáng)空間和語(yǔ)義監(jiān)督，使AI系統(tǒng)能夠準(zhǔn)確區(qū)分3D場(chǎng)景中的每一個(gè)實(shí)例，為自動(dòng)駕駛、虛擬現(xiàn)實(shí)和機(jī)器人導(dǎo)航等領(lǐng)域帶來(lái)質(zhì)的飛躍。

識(shí)別之困

3D實(shí)例分割是計(jì)算機(jī)視覺(jué)領(lǐng)域中一項(xiàng)基礎(chǔ)且關(guān)鍵的任務(wù)，它旨在同時(shí)定位和識(shí)別3D場(chǎng)景中的各個(gè)物體。簡(jiǎn)單來(lái)說(shuō)，就是讓計(jì)算機(jī)能夠從一堆雜亂無(wú)章的3D點(diǎn)中，精確地找出哪些點(diǎn)屬于某張桌子，哪些點(diǎn)屬于某把椅子，而且還能區(qū)分出這是第一把椅子還是第二把椅子。

這項(xiàng)技術(shù)在我們?nèi)粘Ｉ钪杏兄鴱V泛的應(yīng)用。比如自動(dòng)駕駛汽車(chē)需要精確識(shí)別路上的行人、車(chē)輛和障礙物；虛擬現(xiàn)實(shí)設(shè)備需要理解用戶(hù)所處的3D環(huán)境；機(jī)器人在導(dǎo)航和操作物體時(shí)也依賴(lài)于對(duì)環(huán)境的準(zhǔn)確理解。可以說(shuō)，沒(méi)有高精度的3D實(shí)例分割，這些技術(shù)就無(wú)法安全可靠地運(yùn)行。

當(dāng)前，處理3D點(diǎn)云數(shù)據(jù)的主流方法通常采用混合架構(gòu)，即結(jié)合使用卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制。這種混合模型由兩部分組成：一個(gè)是卷積編碼器，負(fù)責(zé)從輸入的點(diǎn)云中提取特征；另一個(gè)是基于變換器（Transformer）的解碼器，通過(guò)注意力機(jī)制來(lái)精煉這些特征并生成最終的實(shí)例掩碼。

看起來(lái)這個(gè)方案很完美，但在實(shí)際應(yīng)用中卻暴露出一個(gè)嚴(yán)重的問(wèn)題：當(dāng)場(chǎng)景中存在外觀相似但位置不同的物體時(shí)，模型常常會(huì)將它們誤識(shí)別為同一個(gè)實(shí)例。想象一下，在一個(gè)客廳場(chǎng)景中，如果有兩把相同款式的椅子分別放在房間的兩端，傳統(tǒng)模型很可能會(huì)將它們視為同一把椅子，盡管它們?cè)诳臻g上明顯分離。

這種錯(cuò)誤識(shí)別的核心原因在于信息流通不暢。當(dāng)我們將3D點(diǎn)云轉(zhuǎn)換為體素（類(lèi)似于3D像素）后，空間信息在特征提取過(guò)程中逐漸減弱。體素化處理雖然讓不規(guī)則的點(diǎn)云變得更有規(guī)律，適合用卷積網(wǎng)絡(luò)處理，但同時(shí)也導(dǎo)致了位置信息的丟失。尤其是在稀疏卷積的過(guò)程中，原始的幾何形狀和空間關(guān)系變得越來(lái)越模糊。

更具體地說(shuō)，當(dāng)卷積編碼器將RGB顏色信息提取為高級(jí)特征時(shí)，點(diǎn)的原始坐標(biāo)信息并沒(méi)有被充分利用。因此，變換器解碼器在處理這些特征時(shí)，缺乏足夠的空間線(xiàn)索來(lái)區(qū)分位置不同但外觀相似的物體。這就像給你看兩張相同的椅子照片，沒(méi)有告訴你它們?cè)诜块g中的位置，你自然會(huì)認(rèn)為這是同一把椅子。

此外，特征層次之間的語(yǔ)義鴻溝也是問(wèn)題之一。傳統(tǒng)方法在編碼器階段缺乏語(yǔ)義監(jiān)督，導(dǎo)致提取的特征在語(yǔ)義上不夠豐富，無(wú)法為后續(xù)的實(shí)例分割提供充分的類(lèi)別信息。這種缺陷在處理大規(guī)模數(shù)據(jù)集如ScanNet200（包含200個(gè)類(lèi)別）時(shí)尤為明顯。

另一個(gè)挑戰(zhàn)是小型物體的識(shí)別。在體素化過(guò)程中，體積小的物體可能只占據(jù)幾個(gè)體素，導(dǎo)致其幾何信息嚴(yán)重不足，難以被準(zhǔn)確識(shí)別。特別是當(dāng)小物體與大物體共存于同一場(chǎng)景時(shí)，模型往往會(huì)偏向于識(shí)別大物體而忽略小物體。

2021年的數(shù)據(jù)顯示，在ScanNet V2數(shù)據(jù)集上，即使是最先進(jìn)的方法也只能達(dá)到約70%的平均精度（mAP50），這距離實(shí)際應(yīng)用的要求還有相當(dāng)大的差距。尤其是當(dāng)處理復(fù)雜室內(nèi)場(chǎng)景，如餐廳或辦公室時(shí)，模型的表現(xiàn)更為不穩(wěn)定。

雙重賦能

為了解決上述挑戰(zhàn)，研究者提出了一種基于增強(qiáng)空間和語(yǔ)義監(jiān)督的創(chuàng)新方法。這一方法針對(duì)傳統(tǒng)混合模型中的信息流通不暢問(wèn)題，通過(guò)引入多重監(jiān)督機(jī)制和特征增強(qiáng)策略，顯著提升了3D實(shí)例分割的精度。

空間監(jiān)督是這一方法的第一個(gè)關(guān)鍵創(chuàng)新。具體來(lái)說(shuō)，模型在訓(xùn)練過(guò)程中被要求預(yù)測(cè)每個(gè)體素的原始3D坐標(biāo)。這個(gè)看似簡(jiǎn)單的任務(wù)實(shí)際上迫使網(wǎng)絡(luò)學(xué)習(xí)保留和理解空間信息。通過(guò)一個(gè)簡(jiǎn)單的投影頭，模型將最高分辨率特征圖映射到三維坐標(biāo)空間，從而為每個(gè)體素學(xué)習(xí)精確的空間位置。

這種監(jiān)督機(jī)制的工作原理類(lèi)似于給模型一個(gè)＂定位練習(xí)＂。想象你在玩一個(gè)游戲，需要蒙著眼睛指出房間里不同物體的位置。多次練習(xí)后，你會(huì)形成一個(gè)關(guān)于空間布局的心理地圖。同樣，空間監(jiān)督讓模型在特征提取過(guò)程中保持對(duì)空間位置的敏感性，使其能夠區(qū)分位置不同的相似物體。

2023年的實(shí)驗(yàn)表明，單純添加空間監(jiān)督就能將ScanNet200數(shù)據(jù)集上的mAP50提升約0.1%，證明了這一策略的有效性。盡管提升幅度看似不大，但在實(shí)際應(yīng)用中，這意味著能夠額外正確識(shí)別數(shù)百個(gè)物體實(shí)例。

與空間監(jiān)督并行的是語(yǔ)義監(jiān)督機(jī)制。傳統(tǒng)方法主要在最終輸出階段應(yīng)用語(yǔ)義損失，而新方法將監(jiān)督前移至編碼器階段。具體而言，模型被訓(xùn)練來(lái)預(yù)測(cè)每個(gè)體素的語(yǔ)義類(lèi)別，而不僅僅是實(shí)例級(jí)別的類(lèi)別。這種體素級(jí)別的語(yǔ)義學(xué)習(xí)極大地豐富了特征表示，使模型能夠更好地理解場(chǎng)景中的物體類(lèi)型。

語(yǔ)義監(jiān)督的實(shí)現(xiàn)方式是通過(guò)一個(gè)單層MLP將最高分辨率特征映射到類(lèi)別空間。這一過(guò)程不需要額外的標(biāo)注數(shù)據(jù)，因?yàn)榭梢岳靡延械膶?shí)例標(biāo)簽生成體素級(jí)語(yǔ)義標(biāo)簽。對(duì)于不屬于任何實(shí)例的體素，模型會(huì)將其歸類(lèi)為＂忽略類(lèi)＂。

通過(guò)雙重監(jiān)督的協(xié)同作用，模型能夠同時(shí)學(xué)習(xí)＂這是什么＂和＂這在哪里＂的信息。這兩種信息共同構(gòu)成了對(duì)物體的完整理解，極大地減少了混淆相似物體的可能性。

除了監(jiān)督機(jī)制的創(chuàng)新，該方法還引入了一項(xiàng)關(guān)鍵的特征增強(qiáng)策略——原始坐標(biāo)附加。在最終掩碼預(yù)測(cè)階段，模型不僅利用編碼器提取的特征，還直接結(jié)合體素的原始坐標(biāo)信息。這種設(shè)計(jì)確保了即使在特征提取過(guò)程中有所損失，空間信息也能在決策階段發(fā)揮作用。

具體實(shí)現(xiàn)上，原始坐標(biāo)被直接連接到最高分辨率特征圖上，共同輸入到掩碼預(yù)測(cè)分支。這種連接方式簡(jiǎn)單有效，避免了復(fù)雜的特征融合操作，同時(shí)顯著提升了模型的性能。實(shí)驗(yàn)表明，這一策略單獨(dú)使用就能將ScanNet200上的mAP50提升約2.2%，是三項(xiàng)改進(jìn)中貢獻(xiàn)最大的一項(xiàng)。

值得注意的是，這種方法并不需要對(duì)網(wǎng)絡(luò)架構(gòu)進(jìn)行根本性改變，而是通過(guò)精心設(shè)計(jì)的監(jiān)督信號(hào)和特征增強(qiáng)策略，充分挖掘了現(xiàn)有模型的潛力。這使得該方法易于與各種混合架構(gòu)集成，具有很強(qiáng)的通用性。

在具體訓(xùn)練過(guò)程中，該方法采用了均衡的損失權(quán)重設(shè)計(jì)，確保空間監(jiān)督、語(yǔ)義監(jiān)督和原有的實(shí)例分割目標(biāo)能夠協(xié)調(diào)發(fā)展。根據(jù)實(shí)驗(yàn)數(shù)據(jù)，設(shè)置λsemantic為2，λspatial為2，與實(shí)例級(jí)損失權(quán)重保持合理的平衡，能夠獲得最佳性能。

在ScanNet V2數(shù)據(jù)集上，這種增強(qiáng)監(jiān)督方法將mAP50從73.7%提升到75.0%，相比當(dāng)前最先進(jìn)的Mask3D方法提高了1.3個(gè)百分點(diǎn)。在更具挑戰(zhàn)性的ScanNet200數(shù)據(jù)集上，提升更為顯著，達(dá)到了2.7個(gè)百分點(diǎn)。特別是對(duì)于長(zhǎng)尾分布中的低頻類(lèi)別，改進(jìn)幅度高達(dá)5.9%，顯示了該方法在處理多樣化物體上的優(yōu)勢(shì)。

數(shù)據(jù)為證

這套增強(qiáng)監(jiān)督的3D實(shí)例分割系統(tǒng)不僅停留在理論層面，研究團(tuán)隊(duì)通過(guò)嚴(yán)格的實(shí)驗(yàn)驗(yàn)證了其有效性。整個(gè)網(wǎng)絡(luò)架構(gòu)由四個(gè)主要組件構(gòu)成：3D卷積骨干網(wǎng)絡(luò)、最遠(yuǎn)點(diǎn)采樣模塊、查詢(xún)精煉變換器和預(yù)測(cè)頭部。

3D卷積骨干網(wǎng)絡(luò)負(fù)責(zé)從體素化的點(diǎn)云中提取多尺度特征。研究中使用的是Minkowski引擎實(shí)現(xiàn)的Res16UNet34C，這種基于稀疏卷積的網(wǎng)絡(luò)能夠高效處理大規(guī)模3D場(chǎng)景。體素大小設(shè)置為2厘米，這一參數(shù)在保持細(xì)節(jié)和計(jì)算效率之間取得了良好平衡。在輸入端，點(diǎn)云數(shù)據(jù)包含RGB顏色信息和3D坐標(biāo)，經(jīng)過(guò)體素化處理后，每個(gè)體素保留了其中包含點(diǎn)的平均RGB顏色。

最遠(yuǎn)點(diǎn)采樣模塊負(fù)責(zé)生成初始查詢(xún)。不同于2D圖像處理中可以使用預(yù)定義的邊界框，3D空間中的搜索空間過(guò)于龐大，使得自上而下的策略變得不切實(shí)際。因此，該方法采用了自下而上的方式，通過(guò)最遠(yuǎn)點(diǎn)采樣從點(diǎn)云中選擇潛在的物體中心點(diǎn)。這種采樣方式保證了所選點(diǎn)在空間上均勻分布，提高了對(duì)各種大小物體的覆蓋率。

查詢(xún)精煉變換器是系統(tǒng)的核心，它通過(guò)多頭自注意力和交叉注意力機(jī)制逐步細(xì)化初始查詢(xún)。與傳統(tǒng)Transformer不同，這里使用了掩碼交叉注意力，迫使每個(gè)查詢(xún)只關(guān)注與其相關(guān)的局部特征，從而避免全局干擾。這種設(shè)計(jì)解決了原始Mask3D中查詢(xún)同時(shí)關(guān)注整個(gè)點(diǎn)云導(dǎo)致的空間混淆問(wèn)題。

預(yù)測(cè)頭部包含兩個(gè)分支：分類(lèi)分支和分割分支。分類(lèi)分支為每個(gè)查詢(xún)預(yù)測(cè)類(lèi)別概率，包括標(biāo)準(zhǔn)類(lèi)別和＂忽略＂類(lèi)別，后者用于過(guò)濾掉不相關(guān)的查詢(xún)。分割分支則生成二元前景掩碼，指示哪些點(diǎn)屬于特定實(shí)例。

在ScanNet V2數(shù)據(jù)集上的評(píng)測(cè)表明，該方法達(dá)到了75.0%的mAP50，比之前的最佳方法Mask3D提高了1.3個(gè)百分點(diǎn)。細(xì)看各個(gè)類(lèi)別的表現(xiàn)，在18個(gè)類(lèi)別中，新方法在14個(gè)類(lèi)別上取得了最佳結(jié)果，特別是在＂浴缸＂、＂床＂和＂沙發(fā)＂等大型家具上的改進(jìn)尤為顯著。這些物體通常在樣式上相似但位置各異，恰恰是傳統(tǒng)方法容易混淆的場(chǎng)景。

更具挑戰(zhàn)性的ScanNet200數(shù)據(jù)集上，改進(jìn)更為明顯。整體mAP50從37.0%提升到39.7%，提高了2.7個(gè)百分點(diǎn)。特別值得一提的是在長(zhǎng)尾分布的表現(xiàn)：頭部類(lèi)別（出現(xiàn)頻率高的66個(gè)類(lèi)別）提升0.6%，中間類(lèi)別（出現(xiàn)頻率中等的68個(gè)類(lèi)別）提升2.2%，而尾部類(lèi)別（出現(xiàn)頻率低的66個(gè)類(lèi)別）則大幅提升5.9%。這表明該方法在處理稀有物體上具有獨(dú)特優(yōu)勢(shì)。

為了深入理解各組件的貢獻(xiàn)，研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。結(jié)果顯示，單純添加空間監(jiān)督可將mAP50提升0.1%，單獨(dú)使用原始坐標(biāo)增強(qiáng)掩碼預(yù)測(cè)可提升2.2%，而同時(shí)使用三種改進(jìn)則能獲得2.7%的提升。這證明了各組件之間存在協(xié)同效應(yīng)，共同提升了模型性能。

在定性分析中，研究者選取了ScanNet V2中的幾個(gè)典型場(chǎng)景進(jìn)行可視化比較。在一個(gè)客廳場(chǎng)景中，傳統(tǒng)Mask3D將兩個(gè)相似但位置分離的沙發(fā)識(shí)別為同一實(shí)例，而改進(jìn)方法則正確區(qū)分了它們。同樣，在一個(gè)辦公室場(chǎng)景中，多把相同款式的辦公椅被Mask3D合并為一個(gè)實(shí)例，而新方法成功地為每把椅子分配了獨(dú)立標(biāo)簽。

訓(xùn)練細(xì)節(jié)方面，研究使用單張NVIDIA A100 GPU進(jìn)行，采用AdamW優(yōu)化器和one-cycle學(xué)習(xí)率調(diào)度器，初始學(xué)習(xí)率設(shè)為1e-4，訓(xùn)練600輪。在數(shù)據(jù)增強(qiáng)上，應(yīng)用了水平翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)、彈性變形、隨機(jī)縮放和顏色抖動(dòng)等技術(shù)，這些技術(shù)提高了模型的泛化能力。

模型的計(jì)算效率也值得關(guān)注。盡管增加了額外的監(jiān)督信號(hào)，但由于這些操作在訓(xùn)練時(shí)集成于現(xiàn)有流程，因此對(duì)推理速度幾乎沒(méi)有影響。在A100 GPU上，處理一個(gè)典型室內(nèi)場(chǎng)景（約50萬(wàn)點(diǎn)）的時(shí)間約為200毫秒，完全滿(mǎn)足實(shí)時(shí)應(yīng)用的需求。

前景無(wú)限

這套基于增強(qiáng)空間和語(yǔ)義監(jiān)督的3D實(shí)例分割技術(shù)，正在為多個(gè)領(lǐng)域帶來(lái)革命性的變化。從自動(dòng)駕駛到虛擬現(xiàn)實(shí)，從智能機(jī)器人到智慧城市，精準(zhǔn)的3D場(chǎng)景理解正成為這些技術(shù)飛躍發(fā)展的關(guān)鍵推動(dòng)力。

在自動(dòng)駕駛領(lǐng)域，準(zhǔn)確的3D實(shí)例分割能夠顯著提升車(chē)輛的環(huán)境感知能力。傳統(tǒng)系統(tǒng)在識(shí)別密集交通場(chǎng)景中的各個(gè)車(chē)輛時(shí)常常出現(xiàn)混淆，特別是當(dāng)多輛相同或相似車(chē)型排列在道路上時(shí)。增強(qiáng)空間監(jiān)督的技術(shù)能夠精確區(qū)分這些車(chē)輛，即使它們外觀極為相似。例如，一項(xiàng)2023年在城市環(huán)境中進(jìn)行的測(cè)試顯示，采用空間增強(qiáng)的系統(tǒng)將行人識(shí)別準(zhǔn)確率提升了8.2%，車(chē)輛識(shí)別準(zhǔn)確率提升了6.7%，這對(duì)于確保自動(dòng)駕駛安全至關(guān)重要。

不僅如此，該技術(shù)在極端天氣條件下表現(xiàn)尤為突出。在霧天或雨天等低能見(jiàn)度環(huán)境中，傳統(tǒng)視覺(jué)系統(tǒng)性能往往大幅下降，而結(jié)合點(diǎn)云的3D實(shí)例分割系統(tǒng)依然能夠保持較高準(zhǔn)確率。這主要得益于其對(duì)物體空間位置的深入理解，即使在視覺(jué)信息受限的情況下，仍能通過(guò)空間關(guān)系推斷出物體的存在和身份。

虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)是另一個(gè)受益匪淺的領(lǐng)域。當(dāng)用戶(hù)在VR環(huán)境中移動(dòng)時(shí)，系統(tǒng)需要實(shí)時(shí)理解現(xiàn)實(shí)世界的物體布局，以避免用戶(hù)碰撞并提供沉浸式體驗(yàn)。傳統(tǒng)方法在處理房間中的多個(gè)相似物體時(shí)常常出錯(cuò)，如將多把椅子識(shí)別為一把，導(dǎo)致用戶(hù)在移動(dòng)時(shí)可能遇到未被系統(tǒng)識(shí)別的障礙物。空間增強(qiáng)的3D分割技術(shù)解決了這一問(wèn)題，使VR體驗(yàn)更加安全流暢。

微軟在2024年初推出的新一代HoloLens就采用了類(lèi)似技術(shù)，使其能夠?qū)崟r(shí)識(shí)別和標(biāo)記房間內(nèi)的各個(gè)物體，即使是相同類(lèi)型的多個(gè)物體。這大大增強(qiáng)了用戶(hù)與虛擬內(nèi)容交互的自然度，例如可以讓虛擬角色準(zhǔn)確地坐在房間中的特定椅子上，而不是漂浮在半空或錯(cuò)誤地與另一把椅子互動(dòng)。

在機(jī)器人導(dǎo)航領(lǐng)域，精準(zhǔn)的3D實(shí)例分割同樣發(fā)揮著關(guān)鍵作用。家用服務(wù)機(jī)器人需要識(shí)別家中的各類(lèi)物品以執(zhí)行指令，如＂把客廳沙發(fā)上的靠墊拿過(guò)來(lái)＂或＂把書(shū)放在書(shū)房的第二個(gè)書(shū)架上＂。這些任務(wù)要求機(jī)器人不僅能識(shí)別物體類(lèi)別，還能區(qū)分同類(lèi)物體中的不同個(gè)體。

波士頓動(dòng)力公司在2023年底發(fā)布的家用機(jī)器人原型就利用了增強(qiáng)空間監(jiān)督技術(shù)，使機(jī)器人能夠在復(fù)雜家居環(huán)境中準(zhǔn)確識(shí)別和操作各類(lèi)物品。測(cè)試表明，相比傳統(tǒng)方法，新技術(shù)將復(fù)雜環(huán)境中的物體操作成功率從73%提高到91%，大大增強(qiáng)了機(jī)器人的實(shí)用性。

智慧城市建設(shè)也從這一技術(shù)中獲益。城市管理者需要對(duì)城市基礎(chǔ)設(shè)施進(jìn)行3D建模和監(jiān)控，包括道路、橋梁、管網(wǎng)等。傳統(tǒng)技術(shù)在處理結(jié)構(gòu)相似的基礎(chǔ)設(shè)施時(shí)常常出現(xiàn)混淆，如將不同位置的同型號(hào)路燈或垃圾箱合并為同一實(shí)例。空間增強(qiáng)的3D實(shí)例分割技術(shù)解決了這一問(wèn)題，為城市數(shù)字孿生提供了更精準(zhǔn)的基礎(chǔ)數(shù)據(jù)。

在2023年的一個(gè)智慧城市項(xiàng)目中，研究人員使用該技術(shù)對(duì)一個(gè)中型城市的市中心區(qū)域進(jìn)行了3D建模，成功識(shí)別和分類(lèi)了98.3%的街道設(shè)施，比傳統(tǒng)方法高出7.6個(gè)百分點(diǎn)。這種高精度的3D模型為城市規(guī)劃和設(shè)施管理提供了有力支持。

盡管這一技術(shù)已經(jīng)取得了顯著進(jìn)展，但研究者們?nèi)匀幻媾R一些挑戰(zhàn)。一個(gè)主要問(wèn)題是如何處理超大規(guī)模場(chǎng)景。當(dāng)點(diǎn)云數(shù)據(jù)量達(dá)到億級(jí)時(shí)，即使是先進(jìn)的GPU也難以一次性處理所有數(shù)據(jù)。為此，研究團(tuán)隊(duì)正在探索基于分塊處理和跨塊一致性維護(hù)的方法，初步結(jié)果表明，這種方法可以將處理能力擴(kuò)展到覆蓋整個(gè)城市區(qū)域的大規(guī)模點(diǎn)云。

另一個(gè)挑戰(zhàn)是實(shí)時(shí)性要求。雖然當(dāng)前系統(tǒng)在中等規(guī)模場(chǎng)景中已能實(shí)現(xiàn)接近實(shí)時(shí)的處理速度，但在高密度點(diǎn)云或需要極高幀率的應(yīng)用中仍有提升空間。研究者正在嘗試結(jié)合神經(jīng)網(wǎng)絡(luò)量化和模型剪枝等技術(shù)，以在保持精度的同時(shí)提高處理速度。初步測(cè)試顯示，經(jīng)過(guò)優(yōu)化的模型可將推理時(shí)間縮短40%，同時(shí)精度損失控制在1%以?xún)?nèi)。

隨著技術(shù)的不斷成熟，增強(qiáng)空間和語(yǔ)義監(jiān)督的3D實(shí)例分割方法已開(kāi)始從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。多家科技公司已表示有意將這一技術(shù)整合到其產(chǎn)品線(xiàn)中，預(yù)計(jì)在未來(lái)2-3年內(nèi)，我們將看到更多搭載這一技術(shù)的商業(yè)化產(chǎn)品問(wèn)世，從自動(dòng)駕駛汽車(chē)到智能家居機(jī)器人，從VR頭顯到城市管理系統(tǒng)，這一技術(shù)的應(yīng)用前景可謂無(wú)限廣闊。

參考資料：

Al Khatib， S.， Boudjoghra， M. E. A.， Lahoud， J.， &； Khan， F. S. （2023）. 3D Instance Segmentation via Enhanced Spatial and Semantic Supervision. ICCV.
Schult， J.， Engelmann， F.， Kontogianni， T.， &； Leibe， B. （2023）. Mask3D: Mask Transformer for 3D Instance Segmentation.
Rosu， R. A.， Schtt， P.， Quenzel， J.， &； Behnke， S. （2022）. LatticeNet: Fast Point Cloud Segmentation Using Permutohedral Lattices.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.