在計(jì)算機(jī)視覺(jué)的世界里,有一個(gè)棘手的問(wèn)題困擾著研究者多年:當(dāng)兩個(gè)相似的物體在3D空間中相距較遠(yuǎn)時(shí),智能系統(tǒng)往往會(huì)將它們錯(cuò)誤地識(shí)別為同一個(gè)實(shí)體。想象一下,一個(gè)房間里有兩把完全相同的椅子放在不同的位置,傳統(tǒng)技術(shù)卻常常只能"看到"一把椅子。這就像人類(lèi)在昏暗的房間里,看到兩個(gè)相似的黑影,卻無(wú)法確定是一個(gè)物體映射出的兩個(gè)影子,還是兩個(gè)獨(dú)立的物體。當(dāng)前的混合模型在提取特征時(shí),往往無(wú)法充分利用空間信息,導(dǎo)致在處理點(diǎn)云數(shù)據(jù)時(shí)出現(xiàn)混淆。本文將揭示一種新型方法,通過(guò)增強(qiáng)空間和語(yǔ)義監(jiān)督,使AI系統(tǒng)能夠準(zhǔn)確區(qū)分3D場(chǎng)景中的每一個(gè)實(shí)例,為自動(dòng)駕駛、虛擬現(xiàn)實(shí)和機(jī)器人導(dǎo)航等領(lǐng)域帶來(lái)質(zhì)的飛躍。
識(shí)別之困
![]()
3D實(shí)例分割是計(jì)算機(jī)視覺(jué)領(lǐng)域中一項(xiàng)基礎(chǔ)且關(guān)鍵的任務(wù),它旨在同時(shí)定位和識(shí)別3D場(chǎng)景中的各個(gè)物體。簡(jiǎn)單來(lái)說(shuō),就是讓計(jì)算機(jī)能夠從一堆雜亂無(wú)章的3D點(diǎn)中,精確地找出哪些點(diǎn)屬于某張桌子,哪些點(diǎn)屬于某把椅子,而且還能區(qū)分出這是第一把椅子還是第二把椅子。
這項(xiàng)技術(shù)在我們?nèi)粘I钪杏兄鴱V泛的應(yīng)用。比如自動(dòng)駕駛汽車(chē)需要精確識(shí)別路上的行人、車(chē)輛和障礙物;虛擬現(xiàn)實(shí)設(shè)備需要理解用戶(hù)所處的3D環(huán)境;機(jī)器人在導(dǎo)航和操作物體時(shí)也依賴(lài)于對(duì)環(huán)境的準(zhǔn)確理解。可以說(shuō),沒(méi)有高精度的3D實(shí)例分割,這些技術(shù)就無(wú)法安全可靠地運(yùn)行。
當(dāng)前,處理3D點(diǎn)云數(shù)據(jù)的主流方法通常采用混合架構(gòu),即結(jié)合使用卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制。這種混合模型由兩部分組成:一個(gè)是卷積編碼器,負(fù)責(zé)從輸入的點(diǎn)云中提取特征;另一個(gè)是基于變換器(Transformer)的解碼器,通過(guò)注意力機(jī)制來(lái)精煉這些特征并生成最終的實(shí)例掩碼。
看起來(lái)這個(gè)方案很完美,但在實(shí)際應(yīng)用中卻暴露出一個(gè)嚴(yán)重的問(wèn)題:當(dāng)場(chǎng)景中存在外觀相似但位置不同的物體時(shí),模型常常會(huì)將它們誤識(shí)別為同一個(gè)實(shí)例。想象一下,在一個(gè)客廳場(chǎng)景中,如果有兩把相同款式的椅子分別放在房間的兩端,傳統(tǒng)模型很可能會(huì)將它們視為同一把椅子,盡管它們?cè)诳臻g上明顯分離。
這種錯(cuò)誤識(shí)別的核心原因在于信息流通不暢。當(dāng)我們將3D點(diǎn)云轉(zhuǎn)換為體素(類(lèi)似于3D像素)后,空間信息在特征提取過(guò)程中逐漸減弱。體素化處理雖然讓不規(guī)則的點(diǎn)云變得更有規(guī)律,適合用卷積網(wǎng)絡(luò)處理,但同時(shí)也導(dǎo)致了位置信息的丟失。尤其是在稀疏卷積的過(guò)程中,原始的幾何形狀和空間關(guān)系變得越來(lái)越模糊。
更具體地說(shuō),當(dāng)卷積編碼器將RGB顏色信息提取為高級(jí)特征時(shí),點(diǎn)的原始坐標(biāo)信息并沒(méi)有被充分利用。因此,變換器解碼器在處理這些特征時(shí),缺乏足夠的空間線(xiàn)索來(lái)區(qū)分位置不同但外觀相似的物體。這就像給你看兩張相同的椅子照片,沒(méi)有告訴你它們?cè)诜块g中的位置,你自然會(huì)認(rèn)為這是同一把椅子。
此外,特征層次之間的語(yǔ)義鴻溝也是問(wèn)題之一。傳統(tǒng)方法在編碼器階段缺乏語(yǔ)義監(jiān)督,導(dǎo)致提取的特征在語(yǔ)義上不夠豐富,無(wú)法為后續(xù)的實(shí)例分割提供充分的類(lèi)別信息。這種缺陷在處理大規(guī)模數(shù)據(jù)集如ScanNet200(包含200個(gè)類(lèi)別)時(shí)尤為明顯。
另一個(gè)挑戰(zhàn)是小型物體的識(shí)別。在體素化過(guò)程中,體積小的物體可能只占據(jù)幾個(gè)體素,導(dǎo)致其幾何信息嚴(yán)重不足,難以被準(zhǔn)確識(shí)別。特別是當(dāng)小物體與大物體共存于同一場(chǎng)景時(shí),模型往往會(huì)偏向于識(shí)別大物體而忽略小物體。
2021年的數(shù)據(jù)顯示,在ScanNet V2數(shù)據(jù)集上,即使是最先進(jìn)的方法也只能達(dá)到約70%的平均精度(mAP50),這距離實(shí)際應(yīng)用的要求還有相當(dāng)大的差距。尤其是當(dāng)處理復(fù)雜室內(nèi)場(chǎng)景,如餐廳或辦公室時(shí),模型的表現(xiàn)更為不穩(wěn)定。
雙重賦能
![]()
為了解決上述挑戰(zhàn),研究者提出了一種基于增強(qiáng)空間和語(yǔ)義監(jiān)督的創(chuàng)新方法。這一方法針對(duì)傳統(tǒng)混合模型中的信息流通不暢問(wèn)題,通過(guò)引入多重監(jiān)督機(jī)制和特征增強(qiáng)策略,顯著提升了3D實(shí)例分割的精度。
空間監(jiān)督是這一方法的第一個(gè)關(guān)鍵創(chuàng)新。具體來(lái)說(shuō),模型在訓(xùn)練過(guò)程中被要求預(yù)測(cè)每個(gè)體素的原始3D坐標(biāo)。這個(gè)看似簡(jiǎn)單的任務(wù)實(shí)際上迫使網(wǎng)絡(luò)學(xué)習(xí)保留和理解空間信息。通過(guò)一個(gè)簡(jiǎn)單的投影頭,模型將最高分辨率特征圖映射到三維坐標(biāo)空間,從而為每個(gè)體素學(xué)習(xí)精確的空間位置。
這種監(jiān)督機(jī)制的工作原理類(lèi)似于給模型一個(gè)"定位練習(xí)"。想象你在玩一個(gè)游戲,需要蒙著眼睛指出房間里不同物體的位置。多次練習(xí)后,你會(huì)形成一個(gè)關(guān)于空間布局的心理地圖。同樣,空間監(jiān)督讓模型在特征提取過(guò)程中保持對(duì)空間位置的敏感性,使其能夠區(qū)分位置不同的相似物體。
2023年的實(shí)驗(yàn)表明,單純添加空間監(jiān)督就能將ScanNet200數(shù)據(jù)集上的mAP50提升約0.1%,證明了這一策略的有效性。盡管提升幅度看似不大,但在實(shí)際應(yīng)用中,這意味著能夠額外正確識(shí)別數(shù)百個(gè)物體實(shí)例。
與空間監(jiān)督并行的是語(yǔ)義監(jiān)督機(jī)制。傳統(tǒng)方法主要在最終輸出階段應(yīng)用語(yǔ)義損失,而新方法將監(jiān)督前移至編碼器階段。具體而言,模型被訓(xùn)練來(lái)預(yù)測(cè)每個(gè)體素的語(yǔ)義類(lèi)別,而不僅僅是實(shí)例級(jí)別的類(lèi)別。這種體素級(jí)別的語(yǔ)義學(xué)習(xí)極大地豐富了特征表示,使模型能夠更好地理解場(chǎng)景中的物體類(lèi)型。
語(yǔ)義監(jiān)督的實(shí)現(xiàn)方式是通過(guò)一個(gè)單層MLP將最高分辨率特征映射到類(lèi)別空間。這一過(guò)程不需要額外的標(biāo)注數(shù)據(jù),因?yàn)榭梢岳靡延械膶?shí)例標(biāo)簽生成體素級(jí)語(yǔ)義標(biāo)簽。對(duì)于不屬于任何實(shí)例的體素,模型會(huì)將其歸類(lèi)為"忽略類(lèi)"。
通過(guò)雙重監(jiān)督的協(xié)同作用,模型能夠同時(shí)學(xué)習(xí)"這是什么"和"這在哪里"的信息。這兩種信息共同構(gòu)成了對(duì)物體的完整理解,極大地減少了混淆相似物體的可能性。
除了監(jiān)督機(jī)制的創(chuàng)新,該方法還引入了一項(xiàng)關(guān)鍵的特征增強(qiáng)策略——原始坐標(biāo)附加。在最終掩碼預(yù)測(cè)階段,模型不僅利用編碼器提取的特征,還直接結(jié)合體素的原始坐標(biāo)信息。這種設(shè)計(jì)確保了即使在特征提取過(guò)程中有所損失,空間信息也能在決策階段發(fā)揮作用。
具體實(shí)現(xiàn)上,原始坐標(biāo)被直接連接到最高分辨率特征圖上,共同輸入到掩碼預(yù)測(cè)分支。這種連接方式簡(jiǎn)單有效,避免了復(fù)雜的特征融合操作,同時(shí)顯著提升了模型的性能。實(shí)驗(yàn)表明,這一策略單獨(dú)使用就能將ScanNet200上的mAP50提升約2.2%,是三項(xiàng)改進(jìn)中貢獻(xiàn)最大的一項(xiàng)。
值得注意的是,這種方法并不需要對(duì)網(wǎng)絡(luò)架構(gòu)進(jìn)行根本性改變,而是通過(guò)精心設(shè)計(jì)的監(jiān)督信號(hào)和特征增強(qiáng)策略,充分挖掘了現(xiàn)有模型的潛力。這使得該方法易于與各種混合架構(gòu)集成,具有很強(qiáng)的通用性。
![]()
在具體訓(xùn)練過(guò)程中,該方法采用了均衡的損失權(quán)重設(shè)計(jì),確保空間監(jiān)督、語(yǔ)義監(jiān)督和原有的實(shí)例分割目標(biāo)能夠協(xié)調(diào)發(fā)展。根據(jù)實(shí)驗(yàn)數(shù)據(jù),設(shè)置λsemantic為2,λspatial為2,與實(shí)例級(jí)損失權(quán)重保持合理的平衡,能夠獲得最佳性能。
在ScanNet V2數(shù)據(jù)集上,這種增強(qiáng)監(jiān)督方法將mAP50從73.7%提升到75.0%,相比當(dāng)前最先進(jìn)的Mask3D方法提高了1.3個(gè)百分點(diǎn)。在更具挑戰(zhàn)性的ScanNet200數(shù)據(jù)集上,提升更為顯著,達(dá)到了2.7個(gè)百分點(diǎn)。特別是對(duì)于長(zhǎng)尾分布中的低頻類(lèi)別,改進(jìn)幅度高達(dá)5.9%,顯示了該方法在處理多樣化物體上的優(yōu)勢(shì)。
數(shù)據(jù)為證
這套增強(qiáng)監(jiān)督的3D實(shí)例分割系統(tǒng)不僅停留在理論層面,研究團(tuán)隊(duì)通過(guò)嚴(yán)格的實(shí)驗(yàn)驗(yàn)證了其有效性。整個(gè)網(wǎng)絡(luò)架構(gòu)由四個(gè)主要組件構(gòu)成:3D卷積骨干網(wǎng)絡(luò)、最遠(yuǎn)點(diǎn)采樣模塊、查詢(xún)精煉變換器和預(yù)測(cè)頭部。
3D卷積骨干網(wǎng)絡(luò)負(fù)責(zé)從體素化的點(diǎn)云中提取多尺度特征。研究中使用的是Minkowski引擎實(shí)現(xiàn)的Res16UNet34C,這種基于稀疏卷積的網(wǎng)絡(luò)能夠高效處理大規(guī)模3D場(chǎng)景。體素大小設(shè)置為2厘米,這一參數(shù)在保持細(xì)節(jié)和計(jì)算效率之間取得了良好平衡。在輸入端,點(diǎn)云數(shù)據(jù)包含RGB顏色信息和3D坐標(biāo),經(jīng)過(guò)體素化處理后,每個(gè)體素保留了其中包含點(diǎn)的平均RGB顏色。
最遠(yuǎn)點(diǎn)采樣模塊負(fù)責(zé)生成初始查詢(xún)。不同于2D圖像處理中可以使用預(yù)定義的邊界框,3D空間中的搜索空間過(guò)于龐大,使得自上而下的策略變得不切實(shí)際。因此,該方法采用了自下而上的方式,通過(guò)最遠(yuǎn)點(diǎn)采樣從點(diǎn)云中選擇潛在的物體中心點(diǎn)。這種采樣方式保證了所選點(diǎn)在空間上均勻分布,提高了對(duì)各種大小物體的覆蓋率。
查詢(xún)精煉變換器是系統(tǒng)的核心,它通過(guò)多頭自注意力和交叉注意力機(jī)制逐步細(xì)化初始查詢(xún)。與傳統(tǒng)Transformer不同,這里使用了掩碼交叉注意力,迫使每個(gè)查詢(xún)只關(guān)注與其相關(guān)的局部特征,從而避免全局干擾。這種設(shè)計(jì)解決了原始Mask3D中查詢(xún)同時(shí)關(guān)注整個(gè)點(diǎn)云導(dǎo)致的空間混淆問(wèn)題。
預(yù)測(cè)頭部包含兩個(gè)分支:分類(lèi)分支和分割分支。分類(lèi)分支為每個(gè)查詢(xún)預(yù)測(cè)類(lèi)別概率,包括標(biāo)準(zhǔn)類(lèi)別和"忽略"類(lèi)別,后者用于過(guò)濾掉不相關(guān)的查詢(xún)。分割分支則生成二元前景掩碼,指示哪些點(diǎn)屬于特定實(shí)例。
![]()
在ScanNet V2數(shù)據(jù)集上的評(píng)測(cè)表明,該方法達(dá)到了75.0%的mAP50,比之前的最佳方法Mask3D提高了1.3個(gè)百分點(diǎn)。細(xì)看各個(gè)類(lèi)別的表現(xiàn),在18個(gè)類(lèi)別中,新方法在14個(gè)類(lèi)別上取得了最佳結(jié)果,特別是在"浴缸"、"床"和"沙發(fā)"等大型家具上的改進(jìn)尤為顯著。這些物體通常在樣式上相似但位置各異,恰恰是傳統(tǒng)方法容易混淆的場(chǎng)景。
更具挑戰(zhàn)性的ScanNet200數(shù)據(jù)集上,改進(jìn)更為明顯。整體mAP50從37.0%提升到39.7%,提高了2.7個(gè)百分點(diǎn)。特別值得一提的是在長(zhǎng)尾分布的表現(xiàn):頭部類(lèi)別(出現(xiàn)頻率高的66個(gè)類(lèi)別)提升0.6%,中間類(lèi)別(出現(xiàn)頻率中等的68個(gè)類(lèi)別)提升2.2%,而尾部類(lèi)別(出現(xiàn)頻率低的66個(gè)類(lèi)別)則大幅提升5.9%。這表明該方法在處理稀有物體上具有獨(dú)特優(yōu)勢(shì)。
為了深入理解各組件的貢獻(xiàn),研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。結(jié)果顯示,單純添加空間監(jiān)督可將mAP50提升0.1%,單獨(dú)使用原始坐標(biāo)增強(qiáng)掩碼預(yù)測(cè)可提升2.2%,而同時(shí)使用三種改進(jìn)則能獲得2.7%的提升。這證明了各組件之間存在協(xié)同效應(yīng),共同提升了模型性能。
在定性分析中,研究者選取了ScanNet V2中的幾個(gè)典型場(chǎng)景進(jìn)行可視化比較。在一個(gè)客廳場(chǎng)景中,傳統(tǒng)Mask3D將兩個(gè)相似但位置分離的沙發(fā)識(shí)別為同一實(shí)例,而改進(jìn)方法則正確區(qū)分了它們。同樣,在一個(gè)辦公室場(chǎng)景中,多把相同款式的辦公椅被Mask3D合并為一個(gè)實(shí)例,而新方法成功地為每把椅子分配了獨(dú)立標(biāo)簽。
訓(xùn)練細(xì)節(jié)方面,研究使用單張NVIDIA A100 GPU進(jìn)行,采用AdamW優(yōu)化器和one-cycle學(xué)習(xí)率調(diào)度器,初始學(xué)習(xí)率設(shè)為1e-4,訓(xùn)練600輪。在數(shù)據(jù)增強(qiáng)上,應(yīng)用了水平翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)、彈性變形、隨機(jī)縮放和顏色抖動(dòng)等技術(shù),這些技術(shù)提高了模型的泛化能力。
模型的計(jì)算效率也值得關(guān)注。盡管增加了額外的監(jiān)督信號(hào),但由于這些操作在訓(xùn)練時(shí)集成于現(xiàn)有流程,因此對(duì)推理速度幾乎沒(méi)有影響。在A100 GPU上,處理一個(gè)典型室內(nèi)場(chǎng)景(約50萬(wàn)點(diǎn))的時(shí)間約為200毫秒,完全滿(mǎn)足實(shí)時(shí)應(yīng)用的需求。
前景無(wú)限
這套基于增強(qiáng)空間和語(yǔ)義監(jiān)督的3D實(shí)例分割技術(shù),正在為多個(gè)領(lǐng)域帶來(lái)革命性的變化。從自動(dòng)駕駛到虛擬現(xiàn)實(shí),從智能機(jī)器人到智慧城市,精準(zhǔn)的3D場(chǎng)景理解正成為這些技術(shù)飛躍發(fā)展的關(guān)鍵推動(dòng)力。
在自動(dòng)駕駛領(lǐng)域,準(zhǔn)確的3D實(shí)例分割能夠顯著提升車(chē)輛的環(huán)境感知能力。傳統(tǒng)系統(tǒng)在識(shí)別密集交通場(chǎng)景中的各個(gè)車(chē)輛時(shí)常常出現(xiàn)混淆,特別是當(dāng)多輛相同或相似車(chē)型排列在道路上時(shí)。增強(qiáng)空間監(jiān)督的技術(shù)能夠精確區(qū)分這些車(chē)輛,即使它們外觀極為相似。例如,一項(xiàng)2023年在城市環(huán)境中進(jìn)行的測(cè)試顯示,采用空間增強(qiáng)的系統(tǒng)將行人識(shí)別準(zhǔn)確率提升了8.2%,車(chē)輛識(shí)別準(zhǔn)確率提升了6.7%,這對(duì)于確保自動(dòng)駕駛安全至關(guān)重要。
![]()
不僅如此,該技術(shù)在極端天氣條件下表現(xiàn)尤為突出。在霧天或雨天等低能見(jiàn)度環(huán)境中,傳統(tǒng)視覺(jué)系統(tǒng)性能往往大幅下降,而結(jié)合點(diǎn)云的3D實(shí)例分割系統(tǒng)依然能夠保持較高準(zhǔn)確率。這主要得益于其對(duì)物體空間位置的深入理解,即使在視覺(jué)信息受限的情況下,仍能通過(guò)空間關(guān)系推斷出物體的存在和身份。
虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)是另一個(gè)受益匪淺的領(lǐng)域。當(dāng)用戶(hù)在VR環(huán)境中移動(dòng)時(shí),系統(tǒng)需要實(shí)時(shí)理解現(xiàn)實(shí)世界的物體布局,以避免用戶(hù)碰撞并提供沉浸式體驗(yàn)。傳統(tǒng)方法在處理房間中的多個(gè)相似物體時(shí)常常出錯(cuò),如將多把椅子識(shí)別為一把,導(dǎo)致用戶(hù)在移動(dòng)時(shí)可能遇到未被系統(tǒng)識(shí)別的障礙物。空間增強(qiáng)的3D分割技術(shù)解決了這一問(wèn)題,使VR體驗(yàn)更加安全流暢。
微軟在2024年初推出的新一代HoloLens就采用了類(lèi)似技術(shù),使其能夠?qū)崟r(shí)識(shí)別和標(biāo)記房間內(nèi)的各個(gè)物體,即使是相同類(lèi)型的多個(gè)物體。這大大增強(qiáng)了用戶(hù)與虛擬內(nèi)容交互的自然度,例如可以讓虛擬角色準(zhǔn)確地坐在房間中的特定椅子上,而不是漂浮在半空或錯(cuò)誤地與另一把椅子互動(dòng)。
在機(jī)器人導(dǎo)航領(lǐng)域,精準(zhǔn)的3D實(shí)例分割同樣發(fā)揮著關(guān)鍵作用。家用服務(wù)機(jī)器人需要識(shí)別家中的各類(lèi)物品以執(zhí)行指令,如"把客廳沙發(fā)上的靠墊拿過(guò)來(lái)"或"把書(shū)放在書(shū)房的第二個(gè)書(shū)架上"。這些任務(wù)要求機(jī)器人不僅能識(shí)別物體類(lèi)別,還能區(qū)分同類(lèi)物體中的不同個(gè)體。
波士頓動(dòng)力公司在2023年底發(fā)布的家用機(jī)器人原型就利用了增強(qiáng)空間監(jiān)督技術(shù),使機(jī)器人能夠在復(fù)雜家居環(huán)境中準(zhǔn)確識(shí)別和操作各類(lèi)物品。測(cè)試表明,相比傳統(tǒng)方法,新技術(shù)將復(fù)雜環(huán)境中的物體操作成功率從73%提高到91%,大大增強(qiáng)了機(jī)器人的實(shí)用性。
![]()
智慧城市建設(shè)也從這一技術(shù)中獲益。城市管理者需要對(duì)城市基礎(chǔ)設(shè)施進(jìn)行3D建模和監(jiān)控,包括道路、橋梁、管網(wǎng)等。傳統(tǒng)技術(shù)在處理結(jié)構(gòu)相似的基礎(chǔ)設(shè)施時(shí)常常出現(xiàn)混淆,如將不同位置的同型號(hào)路燈或垃圾箱合并為同一實(shí)例。空間增強(qiáng)的3D實(shí)例分割技術(shù)解決了這一問(wèn)題,為城市數(shù)字孿生提供了更精準(zhǔn)的基礎(chǔ)數(shù)據(jù)。
在2023年的一個(gè)智慧城市項(xiàng)目中,研究人員使用該技術(shù)對(duì)一個(gè)中型城市的市中心區(qū)域進(jìn)行了3D建模,成功識(shí)別和分類(lèi)了98.3%的街道設(shè)施,比傳統(tǒng)方法高出7.6個(gè)百分點(diǎn)。這種高精度的3D模型為城市規(guī)劃和設(shè)施管理提供了有力支持。
盡管這一技術(shù)已經(jīng)取得了顯著進(jìn)展,但研究者們?nèi)匀幻媾R一些挑戰(zhàn)。一個(gè)主要問(wèn)題是如何處理超大規(guī)模場(chǎng)景。當(dāng)點(diǎn)云數(shù)據(jù)量達(dá)到億級(jí)時(shí),即使是先進(jìn)的GPU也難以一次性處理所有數(shù)據(jù)。為此,研究團(tuán)隊(duì)正在探索基于分塊處理和跨塊一致性維護(hù)的方法,初步結(jié)果表明,這種方法可以將處理能力擴(kuò)展到覆蓋整個(gè)城市區(qū)域的大規(guī)模點(diǎn)云。
![]()
另一個(gè)挑戰(zhàn)是實(shí)時(shí)性要求。雖然當(dāng)前系統(tǒng)在中等規(guī)模場(chǎng)景中已能實(shí)現(xiàn)接近實(shí)時(shí)的處理速度,但在高密度點(diǎn)云或需要極高幀率的應(yīng)用中仍有提升空間。研究者正在嘗試結(jié)合神經(jīng)網(wǎng)絡(luò)量化和模型剪枝等技術(shù),以在保持精度的同時(shí)提高處理速度。初步測(cè)試顯示,經(jīng)過(guò)優(yōu)化的模型可將推理時(shí)間縮短40%,同時(shí)精度損失控制在1%以?xún)?nèi)。
隨著技術(shù)的不斷成熟,增強(qiáng)空間和語(yǔ)義監(jiān)督的3D實(shí)例分割方法已開(kāi)始從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。多家科技公司已表示有意將這一技術(shù)整合到其產(chǎn)品線(xiàn)中,預(yù)計(jì)在未來(lái)2-3年內(nèi),我們將看到更多搭載這一技術(shù)的商業(yè)化產(chǎn)品問(wèn)世,從自動(dòng)駕駛汽車(chē)到智能家居機(jī)器人,從VR頭顯到城市管理系統(tǒng),這一技術(shù)的應(yīng)用前景可謂無(wú)限廣闊。
參考資料:
Al Khatib, S., Boudjoghra, M. E. A., Lahoud, J., &; Khan, F. S. (2023). 3D Instance Segmentation via Enhanced Spatial and Semantic Supervision. ICCV.
Schult, J., Engelmann, F., Kontogianni, T., &; Leibe, B. (2023). Mask3D: Mask Transformer for 3D Instance Segmentation.
Rosu, R. A., Schtt, P., Quenzel, J., &; Behnke, S. (2022). LatticeNet: Fast Point Cloud Segmentation Using Permutohedral Lattices.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.