![]()
這項(xiàng)由約翰霍普金斯大學(xué)的索瑪瓦·保羅、普拉卡爾·考希克、安基特·外迪亞、阿南德·巴塔德和艾倫·尤爾教授團(tuán)隊(duì)共同完成的開創(chuàng)性研究,于2024年12月發(fā)表在計(jì)算機(jī)視覺領(lǐng)域頂級(jí)學(xué)術(shù)期刊上,論文編號(hào)為arXiv:2512.18003v1。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。這項(xiàng)研究首次實(shí)現(xiàn)了讓計(jì)算機(jī)像人類一樣,不僅能夠識(shí)別三維物體的各個(gè)組成部分,還能準(zhǔn)確為每個(gè)部分起名字。
想象一下,當(dāng)你看到一把椅子時(shí),你的大腦會(huì)自動(dòng)識(shí)別出椅背、座墊、扶手、椅腿等不同部分,并且知道它們各自的功能。對(duì)人類來說這是輕而易舉的事情,但對(duì)計(jì)算機(jī)而言卻是一個(gè)極其復(fù)雜的挑戰(zhàn)。這就好比教一個(gè)從未見過家具的外星人,不僅要讓它區(qū)分椅子的各個(gè)部分,還要告訴它每個(gè)部分叫什么名字,有什么用途。
研究團(tuán)隊(duì)面臨的核心問題是:如何讓機(jī)器在看到任何三維物體時(shí),既能準(zhǔn)確地將其分割成有意義的組成部分,又能為每個(gè)部分賦予恰當(dāng)?shù)拿Q。這個(gè)問題之所以困難,是因?yàn)椴煌瑪?shù)據(jù)集對(duì)同一個(gè)物體部件的定義和命名往往不一致,就像不同地區(qū)的人對(duì)同一道菜可能有不同的叫法。
為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一個(gè)名為"ALIGN-Parts"的創(chuàng)新方法。這個(gè)方法的核心思想可以用"智能配對(duì)游戲"來理解:系統(tǒng)首先識(shí)別物體的各個(gè)部分,然后將這些部分與預(yù)先準(zhǔn)備的名稱描述進(jìn)行最優(yōu)匹配,就像玩拼圖游戲一樣,為每個(gè)形狀找到最合適的標(biāo)簽。
這項(xiàng)研究的突破性意義在于,它不僅解決了三維物體分割的技術(shù)難題,更重要的是實(shí)現(xiàn)了語義層面的理解。換句話說,機(jī)器不再只是機(jī)械地切分物體,而是真正"懂得"每個(gè)部分的含義和功能。這為機(jī)器人操作、虛擬現(xiàn)實(shí)內(nèi)容創(chuàng)作、智能制造等眾多領(lǐng)域開辟了新的可能性。
一、破解三維世界的"語義密碼"
在我們的日常生活中,當(dāng)你需要描述一輛汽車的某個(gè)部分出了問題時(shí),你會(huì)很自然地說"車門壞了"或"輪胎漏氣了",而不會(huì)說"那個(gè)可以開關(guān)的矩形金屬板有問題"。這種對(duì)物體部件的準(zhǔn)確命名能力,正是人類智能的重要體現(xiàn),也是這項(xiàng)研究要賦予機(jī)器的核心能力。
傳統(tǒng)的計(jì)算機(jī)視覺系統(tǒng)在處理三維物體時(shí),往往只能做到"分而不識(shí)"——能夠?qū)⒁粋€(gè)復(fù)雜物體切分成不同的區(qū)域,但無法理解這些區(qū)域分別代表什么。這就像一個(gè)不會(huì)說話的人,雖然能夠用手勢(shì)指出椅子的不同部分,卻無法用語言表達(dá)每個(gè)部分的名稱和功能。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有技術(shù)面臨的最大困難來自于"標(biāo)注不一致"問題。不同的數(shù)據(jù)集對(duì)同一類物體的部件劃分和命名標(biāo)準(zhǔn)各不相同,這導(dǎo)致訓(xùn)練出來的AI模型經(jīng)常出現(xiàn)"張冠李戴"的錯(cuò)誤。比如,一個(gè)數(shù)據(jù)集可能將沙發(fā)的靠背部分稱為"back_cushion",而另一個(gè)數(shù)據(jù)集可能叫它"backrest",還有的可能直接叫"back"。這種混亂就像讓學(xué)生同時(shí)學(xué)習(xí)多種方言中對(duì)同一事物的不同稱呼,必然會(huì)造成理解上的困惑。
為了徹底解決這個(gè)問題,研究團(tuán)隊(duì)采用了一種全新的思路:將部件命名任務(wù)轉(zhuǎn)化為"集合對(duì)齊"問題。這個(gè)概念可以這樣理解:系統(tǒng)不是逐個(gè)點(diǎn)地判斷每個(gè)像素屬于哪個(gè)部件,而是先識(shí)別出一系列"候選部件塊"(研究團(tuán)隊(duì)稱之為"Partlets"),然后通過最優(yōu)化算法找到這些部件塊與預(yù)定義名稱之間的最佳配對(duì)關(guān)系。
這種方法的巧妙之處在于,它模擬了人類認(rèn)知物體的方式。當(dāng)我們看到一把椅子時(shí),大腦首先會(huì)將其整體分解為幾個(gè)有意義的區(qū)域,然后為每個(gè)區(qū)域匹配相應(yīng)的概念標(biāo)簽。這個(gè)過程是整體性的,而不是逐個(gè)像素進(jìn)行的,這也是為什么人類能夠如此高效地理解復(fù)雜物體的原因。
研究團(tuán)隊(duì)的另一個(gè)重要?jiǎng)?chuàng)新是引入了"功能性描述"的概念。傳統(tǒng)方法往往只使用簡(jiǎn)單的名詞標(biāo)簽,如"handle"或"leg",但這些標(biāo)簽在不同物體上下文中可能具有不同的含義。比如,"handle"可以是門把手、杯子把手或手推車把手,它們的形狀、位置和功能都有所不同。
為了解決這個(gè)歧義問題,研究團(tuán)隊(duì)利用大型語言模型生成了詳細(xì)的功能性描述。對(duì)于椅子的"leg",系統(tǒng)會(huì)生成類似"支撐椅子并使其離開地面的垂直結(jié)構(gòu)部件"這樣的描述;對(duì)于門的"handle",則會(huì)生成"用于抓握以開關(guān)門的部件"。這些豐富的描述信息幫助系統(tǒng)更準(zhǔn)確地理解每個(gè)部件在特定物體中的角色和意義。
這種方法還有一個(gè)顯著優(yōu)勢(shì):它支持"開放詞匯"識(shí)別。這意味著系統(tǒng)不僅能識(shí)別訓(xùn)練時(shí)見過的部件類型,還能處理全新的部件名稱,只要用戶提供相應(yīng)的描述即可。這種靈活性對(duì)于實(shí)際應(yīng)用來說極其重要,因?yàn)楝F(xiàn)實(shí)世界中物體的復(fù)雜性遠(yuǎn)超任何預(yù)定義的類別體系。
二、"三位一體"的智能融合架構(gòu)
要實(shí)現(xiàn)讓機(jī)器準(zhǔn)確理解三維物體部件的目標(biāo),需要融合多種不同類型的信息,就像做一道復(fù)雜的菜需要巧妙搭配不同食材一樣。研究團(tuán)隊(duì)設(shè)計(jì)的ALIGN-Parts系統(tǒng)采用了"三位一體"的信息融合策略,將幾何形狀、視覺外觀和語義知識(shí)有機(jī)結(jié)合在一起。
首先是幾何信息的提取。當(dāng)系統(tǒng)"看到"一個(gè)三維物體時(shí),它需要理解物體的空間結(jié)構(gòu)和形狀特征。這就像一個(gè)雕刻師在創(chuàng)作前仔細(xì)觀察原材料的紋理和形狀。系統(tǒng)使用一種名為"PartField"的先進(jìn)技術(shù)來提取這些幾何特征,這種技術(shù)能夠?yàn)槲矬w表面的每個(gè)點(diǎn)生成一個(gè)高維的"特征指紋",記錄該點(diǎn)的局部形狀、曲率變化等幾何屬性。
但僅有幾何信息是不夠的,就像僅憑形狀很難區(qū)分一個(gè)紅蘋果和一個(gè)紅色的塑料球。因此,系統(tǒng)還需要獲取視覺外觀信息。研究團(tuán)隊(duì)采用了一種巧妙的方法:將三維物體從多個(gè)角度渲染成二維圖像,然后使用先進(jìn)的圖像特征提取器DINOv2來分析這些圖像的視覺特征,包括顏色、紋理、光照效果等。這些二維特征隨后被"投射"回三維空間,為每個(gè)三維點(diǎn)賦予豐富的視覺描述。
第三個(gè)關(guān)鍵要素是語義知識(shí),也就是對(duì)部件功能和意義的理解。這是最具挑戰(zhàn)性的部分,因?yàn)樗枰獙⑷祟惖某WR(shí)和經(jīng)驗(yàn)編碼到機(jī)器可理解的形式中。研究團(tuán)隊(duì)使用了大型語言模型Gemini來生成詳細(xì)的部件功能描述,然后用專門的語言理解模型MPNet將這些文本描述轉(zhuǎn)換為數(shù)學(xué)向量表示。
這三種信息的融合過程采用了一種名為"BiCo融合"的創(chuàng)新技術(shù)。這個(gè)名字聽起來很神秘,但其實(shí)原理相對(duì)簡(jiǎn)單:系統(tǒng)讓幾何特征和視覺特征進(jìn)行"雙向?qū)υ?,幾何特征告訴視覺特征"我看到的形狀是這樣的",視覺特征回應(yīng)"那么對(duì)應(yīng)的視覺外觀應(yīng)該是這樣的"。通過這種交互,系統(tǒng)能夠建立起形狀與外觀之間的對(duì)應(yīng)關(guān)系,生成更加準(zhǔn)確和豐富的物體描述。
融合后的信息會(huì)被送入"Partlets生成器",這是整個(gè)系統(tǒng)的核心組件。Partlets可以理解為"智能部件候選者",每個(gè)Partlet都包含三個(gè)關(guān)鍵要素:一個(gè)軟分割掩碼(告訴我們哪些點(diǎn)屬于這個(gè)部件),一個(gè)部件嵌入向量(記錄這個(gè)部件的整體特征),以及一個(gè)置信度分?jǐn)?shù)(表明這個(gè)Partlet是否真的對(duì)應(yīng)一個(gè)有意義的部件)。
系統(tǒng)預(yù)設(shè)了32個(gè)Partlet槽位,這個(gè)數(shù)字是經(jīng)過仔細(xì)考慮的。研究團(tuán)隊(duì)分析了大量真實(shí)物體后發(fā)現(xiàn),大多數(shù)日常物體的有意義部件數(shù)量都在28個(gè)以內(nèi),因此32個(gè)槽位既能覆蓋絕大多數(shù)情況,又不會(huì)造成計(jì)算資源的浪費(fèi)。對(duì)于部件較少的簡(jiǎn)單物體,部分Partlet會(huì)被標(biāo)記為"無效";而對(duì)于極其復(fù)雜的物體,系統(tǒng)會(huì)選擇最重要的32個(gè)部件進(jìn)行識(shí)別。
每個(gè)Partlet的生成過程就像一個(gè)"特征聚合器"的工作過程。系統(tǒng)會(huì)分析輸入的融合特征,識(shí)別出在空間上連續(xù)、在語義上一致的點(diǎn)群,然后為這些點(diǎn)群生成相應(yīng)的Partlet表示。這個(gè)過程通過多層神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),網(wǎng)絡(luò)會(huì)逐漸學(xué)會(huì)識(shí)別不同類型物體的典型部件模式。
三、"智能紅娘"式的最優(yōu)匹配策略
當(dāng)系統(tǒng)生成了一系列Partlet候選部件后,下一個(gè)關(guān)鍵步驟就是為這些部件找到合適的名稱。這個(gè)過程就像一個(gè)"智能紅娘",需要在眾多的部件候選者和名稱候選者之間找到最佳的配對(duì)關(guān)系。
傳統(tǒng)的方法往往采用"貪心策略",也就是為每個(gè)部件簡(jiǎn)單地選擇相似度最高的名稱。但這種方法容易出現(xiàn)問題,比如兩個(gè)相似的部件可能都被分配了同一個(gè)名稱,而某些重要的名稱卻沒有對(duì)應(yīng)的部件。這就像在婚介所里,如果每個(gè)人都只考慮自己的偏好而不考慮整體匹配,可能會(huì)出現(xiàn)多個(gè)人同時(shí)選擇同一個(gè)對(duì)象,而其他人卻無人問津的尷尬局面。
ALIGN-Parts系統(tǒng)采用了一種更加智能的"全局最優(yōu)匹配"策略,這種策略基于"最優(yōu)傳輸理論"(Optimal Transport)。簡(jiǎn)單來說,系統(tǒng)會(huì)同時(shí)考慮所有可能的配對(duì)組合,然后選擇使得整體匹配質(zhì)量最高的組合。這就像一個(gè)經(jīng)驗(yàn)豐富的婚介專家,不僅考慮每對(duì)的匹配度,還要確保整體的匹配效果最優(yōu)。
匹配過程中使用的"成本函數(shù)"包含兩個(gè)重要組成部分。第一部分是幾何相似度,通過比較Partlet的分割掩碼與真實(shí)部件的重疊程度來計(jì)算。這就像比較兩個(gè)拼圖塊的形狀是否吻合。第二部分是語義相似度,通過比較Partlet的特征向量與部件名稱描述的文本向量之間的余弦相似度來計(jì)算。這就像比較兩個(gè)人的性格和興趣是否相投。
為了實(shí)現(xiàn)這種全局最優(yōu)匹配,系統(tǒng)使用了一種名為"Sinkhorn-Knopp迭代"的數(shù)學(xué)算法。這個(gè)算法的工作原理可以用"水流平衡"來比喻:想象有一系列蓄水池(Partlets)和一系列排水口(部件名稱),算法的目標(biāo)是找到一種水流分配方案,使得每個(gè)蓄水池的水都能順暢流向合適的排水口,同時(shí)整體的"輸送成本"最低。
匹配完成后,系統(tǒng)還需要處理一個(gè)重要問題:并非所有的Partlet都對(duì)應(yīng)真實(shí)的物體部件。有些Partlet可能是"假陽性",也就是系統(tǒng)錯(cuò)誤地認(rèn)為某個(gè)區(qū)域是一個(gè)有意義的部件。為了解決這個(gè)問題,系統(tǒng)引入了"空標(biāo)簽"(null class)的概念,允許將不確定或低質(zhì)量的Partlet分配給"無效"類別。
這個(gè)決策過程依賴于每個(gè)Partlet的"部件置信度分?jǐn)?shù)"。這個(gè)分?jǐn)?shù)可以理解為系統(tǒng)對(duì)"這真的是一個(gè)有意義的部件嗎?"這個(gè)問題的回答。只有置信度超過預(yù)設(shè)閾值的Partlet才會(huì)參與最終的部件命名,其他的會(huì)被自動(dòng)過濾掉。這種機(jī)制確保了系統(tǒng)輸出的部件都是高質(zhì)量和有意義的。
整個(gè)匹配過程的另一個(gè)重要特點(diǎn)是"排列不變性"。這意味著無論P(yáng)artlet的生成順序如何,最終的匹配結(jié)果都應(yīng)該是一致的。這種特性對(duì)于系統(tǒng)的穩(wěn)定性和可靠性至關(guān)重要,確保了相同的輸入總是產(chǎn)生相同的輸出。
四、從零開始的學(xué)習(xí):多重?fù)p失函數(shù)的精妙設(shè)計(jì)
要訓(xùn)練一個(gè)能夠準(zhǔn)確進(jìn)行三維部件分割和命名的AI系統(tǒng),就像培養(yǎng)一個(gè)全面發(fā)展的學(xué)生,需要在多個(gè)方面同時(shí)進(jìn)行指導(dǎo)和評(píng)估。研究團(tuán)隊(duì)設(shè)計(jì)了一套精妙的"多重?fù)p失函數(shù)"體系,從不同角度指導(dǎo)系統(tǒng)的學(xué)習(xí)過程。
核心的學(xué)習(xí)目標(biāo)是"文本對(duì)齊損失",這是實(shí)現(xiàn)開放詞匯能力的關(guān)鍵。系統(tǒng)需要學(xué)會(huì)將Partlet的特征表示與對(duì)應(yīng)的文本描述緊密聯(lián)系起來,就像學(xué)習(xí)一門外語時(shí)需要將詞匯與其含義建立穩(wěn)固的聯(lián)系。這個(gè)過程使用了一種名為InfoNCE的對(duì)比學(xué)習(xí)方法,其工作原理可以這樣理解:對(duì)于每個(gè)正確匹配的Partlet-文本對(duì),系統(tǒng)會(huì)增強(qiáng)它們之間的相似性;同時(shí),對(duì)于不匹配的組合,系統(tǒng)會(huì)降低它們的相似性。這就像在學(xué)習(xí)過程中強(qiáng)化正確答案,同時(shí)避免錯(cuò)誤關(guān)聯(lián)。
除了語義對(duì)齊,系統(tǒng)還需要學(xué)會(huì)準(zhǔn)確的幾何分割。"掩碼損失函數(shù)"負(fù)責(zé)這個(gè)任務(wù),它包含兩個(gè)子組件:二元交叉熵?fù)p失和Dice損失。二元交叉熵?fù)p失關(guān)注每個(gè)點(diǎn)的分類準(zhǔn)確性,就像檢查每道題的對(duì)錯(cuò);而Dice損失關(guān)注整體分割區(qū)域的重疊程度,就像評(píng)估整篇作文的完整性。這兩種損失函數(shù)的結(jié)合確保了系統(tǒng)既能準(zhǔn)確分類每個(gè)點(diǎn),又能產(chǎn)生連貫完整的部件區(qū)域。
"部件性損失"是另一個(gè)重要組成部分,它教會(huì)系統(tǒng)判斷哪些Partlet對(duì)應(yīng)真實(shí)的物體部件,哪些應(yīng)該被丟棄。這就像訓(xùn)練一個(gè)質(zhì)檢員,需要能夠識(shí)別出產(chǎn)品中的有效部分和次品。系統(tǒng)會(huì)為每個(gè)Partlet預(yù)測(cè)一個(gè)二進(jìn)制的"有效性"標(biāo)簽,訓(xùn)練過程中會(huì)根據(jù)真實(shí)的部件存在情況給出監(jiān)督信號(hào)。
為了防止系統(tǒng)產(chǎn)生不合理的分割結(jié)果,研究團(tuán)隊(duì)還加入了兩個(gè)正則化損失函數(shù)。"覆蓋損失"確保預(yù)測(cè)的部件大小與真實(shí)情況相匹配,防止系統(tǒng)產(chǎn)生過大或過小的分割區(qū)域。這就像確保裁縫制作的衣服尺寸合適,不能太大也不能太小。"重疊損失"則防止不同部件之間出現(xiàn)過多的重疊,確保每個(gè)點(diǎn)主要屬于一個(gè)部件,這類似于確保地圖上的不同區(qū)域有清晰的邊界劃分。
最后,"全局對(duì)齊損失"幫助系統(tǒng)學(xué)習(xí)物體級(jí)別的語義理解。這個(gè)損失函數(shù)將整個(gè)物體的全局特征與對(duì)象類別的文本描述進(jìn)行對(duì)齊,就像讓系統(tǒng)不僅要認(rèn)識(shí)書本的各個(gè)部分(封面、書頁、書脊),還要理解這整體是一本"書"。這種全局理解為部件級(jí)別的識(shí)別提供了重要的上下文信息。
所有這些損失函數(shù)通過加權(quán)求和組合成最終的訓(xùn)練目標(biāo)。研究團(tuán)隊(duì)經(jīng)過大量實(shí)驗(yàn)確定了各個(gè)損失函數(shù)的權(quán)重:掩碼損失權(quán)重為1.0,文本對(duì)齊損失權(quán)重為1.0,部件性損失權(quán)重為0.5,覆蓋損失權(quán)重為0.5,重疊損失權(quán)重為0.1,全局對(duì)齊損失權(quán)重為1.0。這些權(quán)重的選擇反映了不同學(xué)習(xí)目標(biāo)的相對(duì)重要性,確保了系統(tǒng)能夠均衡發(fā)展各項(xiàng)能力。
訓(xùn)練過程采用了AdamW優(yōu)化器,學(xué)習(xí)率設(shè)置為3×10^-4,并使用余弦退火策略逐漸降低到5×10^-6。整個(gè)訓(xùn)練過程在三塊NVIDIA A6000 GPU上進(jìn)行,批次大小為16,訓(xùn)練時(shí)長(zhǎng)約為2天。這種相對(duì)較小的計(jì)算需求使得該方法在學(xué)術(shù)環(huán)境中具有良好的可行性。
五、三種靈活的推理模式
訓(xùn)練完成的ALIGN-Parts系統(tǒng)就像一個(gè)多才多藝的專家,能夠根據(jù)不同的應(yīng)用場(chǎng)景采用三種不同的工作模式,為用戶提供最適合的服務(wù)。
第一種是"閉域詞匯模式",這是最實(shí)用也是最可靠的工作方式。在這種模式下,系統(tǒng)會(huì)首先識(shí)別輸入物體的類別,比如判斷這是一把椅子、一輛汽車還是一架飛機(jī),然后從預(yù)先建立的該類別物體的部件詞匯表中選擇最合適的標(biāo)簽。這就像一個(gè)專業(yè)的汽車修理工,當(dāng)看到一輛汽車時(shí),他會(huì)自動(dòng)調(diào)用關(guān)于汽車部件的專業(yè)知識(shí),而不會(huì)考慮那些明顯不相關(guān)的概念(比如"花瓣"或"頁碼")。
這種模式的優(yōu)勢(shì)在于準(zhǔn)確性和效率。由于候選標(biāo)簽的范圍被限制在合理的范圍內(nèi),系統(tǒng)避免了許多不合理的匹配,從而顯著提高了識(shí)別準(zhǔn)確率。同時(shí),系統(tǒng)還會(huì)為每個(gè)預(yù)測(cè)結(jié)果計(jì)算置信度分?jǐn)?shù),這個(gè)分?jǐn)?shù)結(jié)合了兩種不同的統(tǒng)計(jì)方法:一種是基于預(yù)測(cè)概率的"軟最大置信度",另一種是基于馬哈拉諾比斯距離的"分布置信度"。后者特別有意思,它通過比較當(dāng)前預(yù)測(cè)與訓(xùn)練數(shù)據(jù)中相似案例的分布來判斷預(yù)測(cè)的可靠性,就像一個(gè)有經(jīng)驗(yàn)的醫(yī)生會(huì)根據(jù)以往的病例經(jīng)驗(yàn)來判斷當(dāng)前診斷的可信度。
當(dāng)置信度分?jǐn)?shù)超過預(yù)設(shè)閾值(通常設(shè)為0.8)時(shí),系統(tǒng)會(huì)自動(dòng)接受這個(gè)預(yù)測(cè)結(jié)果;對(duì)于置信度較低的情況,系統(tǒng)會(huì)將其標(biāo)記為"需要人工審核",這種機(jī)制在大規(guī)模數(shù)據(jù)標(biāo)注應(yīng)用中特別有價(jià)值,可以顯著減少人工工作量。
第二種是"開放詞匯模式",這展現(xiàn)了系統(tǒng)最令人興奮的能力:處理全新的、訓(xùn)練時(shí)從未見過的物體類別。在這種模式下,用戶可以提供任意的部件描述列表,系統(tǒng)會(huì)嘗試在輸入物體中找到與這些描述最匹配的部分。這就像一個(gè)聰明的翻譯官,即使面對(duì)一種全新的語言,也能通過上下文和已有知識(shí)進(jìn)行合理的推測(cè)。
比如,如果用戶想要分析一個(gè)外星飛船模型(訓(xùn)練數(shù)據(jù)中顯然沒有這類物體),用戶可以提供諸如"推進(jìn)器"、"駕駛艙"、"武器系統(tǒng)"、"護(hù)盾發(fā)生器"等描述,系統(tǒng)會(huì)基于這些部件的功能描述和幾何特征,在飛船模型中尋找最可能對(duì)應(yīng)這些功能的部分。這種能力的實(shí)現(xiàn)依賴于系統(tǒng)學(xué)到的通用幾何-語義對(duì)應(yīng)關(guān)系,而不是特定物體類別的記憶。
第三種是"文本條件檢索模式",這是為了與現(xiàn)有研究(特別是Find3D系統(tǒng))進(jìn)行公平比較而設(shè)計(jì)的。在這種模式下,用戶提供一個(gè)特定的部件查詢(比如"找到這架飛機(jī)的機(jī)翼"),系統(tǒng)會(huì)返回最相關(guān)的單個(gè)部件區(qū)域。這就像使用搜索引擎查找特定信息,輸入關(guān)鍵詞后得到最相關(guān)的結(jié)果。
雖然這種模式在功能上相對(duì)簡(jiǎn)單,但它展示了系統(tǒng)的檢索能力,特別是在處理復(fù)雜查詢時(shí)的表現(xiàn)。與傳統(tǒng)的基于點(diǎn)特征的檢索方法相比,ALIGN-Parts的Partlet-based方法能夠產(chǎn)生更加連貫和語義一致的檢索結(jié)果。
在實(shí)際應(yīng)用中,這三種模式可以靈活組合使用。比如,在一個(gè)大規(guī)模的三維模型數(shù)據(jù)庫中,可以首先使用閉域模式對(duì)常見物體進(jìn)行快速自動(dòng)標(biāo)注,然后對(duì)特殊或罕見的物體使用開放詞匯模式進(jìn)行處理,最后利用檢索模式來響應(yīng)用戶的特定查詢需求。這種靈活性使得ALIGN-Parts系統(tǒng)能夠適應(yīng)各種不同的應(yīng)用場(chǎng)景和用戶需求。
六、統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn):解決"巴別塔"問題
在人工智能研究中,數(shù)據(jù)就像建筑材料,質(zhì)量參差不齊的材料很難建造出穩(wěn)固的大廈。三維部件分割領(lǐng)域長(zhǎng)期面臨一個(gè)類似"巴別塔"的問題:不同的數(shù)據(jù)集使用完全不同的部件命名和分類標(biāo)準(zhǔn),就像不同的建筑隊(duì)使用不同的術(shù)語稱呼同一種材料,導(dǎo)致整個(gè)建筑項(xiàng)目混亂不堪。
研究團(tuán)隊(duì)面臨的具體挑戰(zhàn)是:PartNet數(shù)據(jù)集可能將椅子的坐墊稱為"seat",3DCoMPaT++數(shù)據(jù)集稱之為"seat_surface",而Find3D數(shù)據(jù)集又叫它"sitting_area"。這些名稱雖然指向同一個(gè)物理部件,但對(duì)計(jì)算機(jī)來說卻是完全不同的概念,導(dǎo)致訓(xùn)練出的模型經(jīng)常出現(xiàn)"雞同鴨講"的問題。
為了解決這個(gè)根本性問題,研究團(tuán)隊(duì)開發(fā)了一套"智能標(biāo)注對(duì)齊"系統(tǒng)。這個(gè)系統(tǒng)的工作原理可以比作一個(gè)精通多種語言的翻譯專家,能夠識(shí)別出不同"方言"中表達(dá)同一概念的詞匯,并將它們統(tǒng)一起來。
整個(gè)對(duì)齊過程分為兩個(gè)階段。第一階段是"候選生成",系統(tǒng)使用MPNet語言模型計(jì)算不同部件名稱之間的語義相似度。當(dāng)兩個(gè)名稱的相似度超過一定閾值時(shí),它們就會(huì)被標(biāo)記為"可能指向同一概念的候選對(duì)"。比如,"microwave_oven"和"microwave"的語義相似度高達(dá)0.902,系統(tǒng)會(huì)將它們識(shí)別為候選對(duì)。
第二階段是"專家驗(yàn)證",這里的"專家"是大型語言模型Gemini。系統(tǒng)會(huì)將候選對(duì)及其詳細(xì)描述提交給Gemini,讓它基于常識(shí)知識(shí)判斷這兩個(gè)名稱是否真的指向同一概念。Gemini的判斷非常細(xì)致,比如對(duì)于"microwave_oven"和"microwave",它會(huì)回答:"這兩個(gè)名稱描述的是同一種廚房電器,一個(gè)是完整術(shù)語,一個(gè)是簡(jiǎn)化表達(dá),應(yīng)該合并。"
但系統(tǒng)也會(huì)拒絕看似相似但實(shí)際不同的概念。比如,"car_front_bumper"和"car_rear_bumper"雖然語義相似度很高(0.879),但Gemini會(huì)指出:"雖然都是保險(xiǎn)杠,但位置不同(前vs后),應(yīng)該保持分離,因?yàn)樗鼈冊(cè)谌S汽車模型中是不同的語義部件。"
經(jīng)過這套對(duì)齊流程,研究團(tuán)隊(duì)成功創(chuàng)建了一個(gè)統(tǒng)一的部件本體庫,包含1794個(gè)獨(dú)特的三維部件概念。這個(gè)本體庫不僅解決了命名不一致問題,還保留了每個(gè)原始名稱到標(biāo)準(zhǔn)名稱的映射關(guān)系,確保向后兼容性。
除了解決現(xiàn)有數(shù)據(jù)集的問題,研究團(tuán)隊(duì)還展示了如何使用ALIGN-Parts系統(tǒng)創(chuàng)建新的高質(zhì)量數(shù)據(jù)集。他們選擇了TexVerse數(shù)據(jù)集作為原始素材,這個(gè)數(shù)據(jù)集包含超過85萬個(gè)高質(zhì)量的三維模型,但沒有部件標(biāo)注。
使用ALIGN-Parts進(jìn)行數(shù)據(jù)標(biāo)注的過程就像一條高效的生產(chǎn)線。系統(tǒng)首先使用Gemini語言模型根據(jù)縮略圖和元數(shù)據(jù)信息篩選出高質(zhì)量的模型,過濾掉損壞或不適合的對(duì)象。然后,ALIGN-Parts模型對(duì)每個(gè)選中的模型進(jìn)行自動(dòng)分割和命名,同時(shí)計(jì)算置信度分?jǐn)?shù)。
最關(guān)鍵的創(chuàng)新是"智能分流"機(jī)制:置信度高的預(yù)測(cè)結(jié)果(通常占總數(shù)的60-70%)會(huì)被自動(dòng)接受,無需人工審核;置信度中等的結(jié)果會(huì)被標(biāo)記為"需要驗(yàn)證",人工標(biāo)注員只需要進(jìn)行簡(jiǎn)單的確認(rèn)或微調(diào);只有置信度很低的結(jié)果才需要完全重新標(biāo)注。
這種方法將人工標(biāo)注時(shí)間從傳統(tǒng)的每個(gè)模型15-25分鐘縮短到3-5分鐘,效率提升了5-8倍。更重要的是,標(biāo)注質(zhì)量反而有所提升,因?yàn)橄到y(tǒng)的預(yù)測(cè)為標(biāo)注員提供了很好的起點(diǎn),避免了從零開始可能出現(xiàn)的遺漏或錯(cuò)誤。
通過這種高效的標(biāo)注流程,研究團(tuán)隊(duì)創(chuàng)建了TexParts數(shù)據(jù)集,目前已包含約8450個(gè)物體,涵蓋約14000個(gè)部件類別。這個(gè)數(shù)據(jù)集不僅規(guī)模龐大,而且質(zhì)量統(tǒng)一,為三維部件理解研究提供了寶貴的資源。研究團(tuán)隊(duì)承諾將在論文發(fā)表后公開發(fā)布這個(gè)數(shù)據(jù)集,為整個(gè)學(xué)術(shù)社區(qū)做出貢獻(xiàn)。
七、全面的性能驗(yàn)證:從數(shù)字到實(shí)際應(yīng)用
要評(píng)估一個(gè)AI系統(tǒng)的真實(shí)能力,就像評(píng)估一個(gè)廚師的水平,不能只看他能做多少道菜,還要看每道菜的味道如何。對(duì)于ALIGN-Parts這樣復(fù)雜的系統(tǒng),研究團(tuán)隊(duì)設(shè)計(jì)了一套全面的評(píng)估體系,從多個(gè)角度驗(yàn)證其性能。
傳統(tǒng)的三維分割評(píng)估主要使用"類別無關(guān)的mIoU"指標(biāo),這個(gè)指標(biāo)只關(guān)心分割的幾何準(zhǔn)確性,就像只看廚師能否把食材切成合適的塊狀,而不管他是否知道每塊食材的名稱和用途。雖然這個(gè)指標(biāo)有其價(jià)值,但對(duì)于語義分割來說顯然不夠充分。
為了更好地評(píng)估命名準(zhǔn)確性,研究團(tuán)隊(duì)引入了兩個(gè)新的評(píng)估指標(biāo)。第一個(gè)是"嚴(yán)格標(biāo)簽感知mIoU",這個(gè)指標(biāo)要求分割出的部件不僅在幾何上準(zhǔn)確,名稱也必須完全正確。這就像要求廚師不僅要把魚肉切得合適,還必須能準(zhǔn)確說出這是"鱸魚肉"而不是"鯽魚肉"。
第二個(gè)是"寬松標(biāo)簽感知mIoU",這個(gè)指標(biāo)承認(rèn)了語義相近的錯(cuò)誤應(yīng)該比完全無關(guān)的錯(cuò)誤受到更輕的懲罰。比如,如果系統(tǒng)將"顯示屏"錯(cuò)誤識(shí)別為"屏幕",雖然名稱不完全匹配,但語義上非常接近,應(yīng)該獲得部分分?jǐn)?shù)。這種評(píng)估方式更符合實(shí)際應(yīng)用中的需求,畢竟在真實(shí)場(chǎng)景中,語義相近的錯(cuò)誤往往是可以接受的。
在三個(gè)主要數(shù)據(jù)集上的測(cè)試結(jié)果顯示,ALIGN-Parts在所有指標(biāo)上都顯著超越了現(xiàn)有方法。在幾何分割方面,系統(tǒng)相比當(dāng)前最先進(jìn)的PartField方法平均提升了15.8%。在語義命名方面,相比強(qiáng)化后的PartField+MPNet基線方法,嚴(yán)格和寬松標(biāo)簽感知mIoU分別提升了58.8%和43.8%。
更令人印象深刻的是系統(tǒng)的運(yùn)行效率。傳統(tǒng)方法通常需要4秒左右完成一個(gè)物體的處理,其中大部分時(shí)間消耗在K-means聚類算法上。而ALIGN-Parts作為一個(gè)端到端的前饋網(wǎng)絡(luò),只需要約0.05秒就能完成同樣的任務(wù),速度提升了約100倍。這種效率優(yōu)勢(shì)使得該方法在大規(guī)模應(yīng)用中具有顯著的實(shí)用價(jià)值。
在精細(xì)部件識(shí)別能力方面,ALIGN-Parts展現(xiàn)了令人驚訝的表現(xiàn)。盡管訓(xùn)練時(shí)只使用了10000個(gè)采樣點(diǎn)(相比PartField的100000個(gè)點(diǎn)),系統(tǒng)依然能夠準(zhǔn)確識(shí)別出非常小的部件,比如剪刀上的螺絲釘。這說明基于語義的部件級(jí)表示比密集的點(diǎn)級(jí)表示更加高效,能夠用更少的數(shù)據(jù)實(shí)現(xiàn)更好的效果。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),逐個(gè)驗(yàn)證了系統(tǒng)各個(gè)組件的貢獻(xiàn)。實(shí)驗(yàn)顯示,幾何特征提供了基礎(chǔ)的分割能力,視覺外觀特征帶來了適度的提升,而最關(guān)鍵的突破來自于文本對(duì)齊損失函數(shù)的引入。沒有文本對(duì)齊損失的系統(tǒng)雖然能夠進(jìn)行幾何分割,但無法產(chǎn)生有意義的語義標(biāo)簽。
輔助的正則化損失函數(shù)(覆蓋損失和重疊損失)雖然帶來的數(shù)值提升相對(duì)較小,但對(duì)輸出質(zhì)量有重要影響。沒有這些約束的系統(tǒng)容易產(chǎn)生大小不合理或重疊過多的分割結(jié)果,影響實(shí)際使用體驗(yàn)。
在開放詞匯能力測(cè)試中,系統(tǒng)展現(xiàn)了良好的泛化性能。對(duì)于訓(xùn)練時(shí)未見過的物體類別,只要用戶提供合適的部件描述,系統(tǒng)通常能夠產(chǎn)生合理的分割和命名結(jié)果。雖然在完全新穎的類別上性能會(huì)有所下降,但依然保持在可用的水平。
最后,研究團(tuán)隊(duì)還驗(yàn)證了系統(tǒng)的共分割能力,也就是對(duì)同類物體進(jìn)行一致性分割的能力。與傳統(tǒng)的基于幾何聚類的共分割方法相比,ALIGN-Parts的語義驅(qū)動(dòng)方法產(chǎn)生了更加一致和有意義的結(jié)果,特別是在處理形狀差異較大的同類物體時(shí)表現(xiàn)出明顯優(yōu)勢(shì)。
八、現(xiàn)實(shí)應(yīng)用的巨大潛力
ALIGN-Parts系統(tǒng)的價(jià)值不僅僅體現(xiàn)在學(xué)術(shù)指標(biāo)上,更在于它為現(xiàn)實(shí)世界的眾多應(yīng)用打開了新的可能性。這些應(yīng)用就像一把萬能鑰匙解鎖了之前無法觸及的領(lǐng)域。
在機(jī)器人技術(shù)領(lǐng)域,這項(xiàng)技術(shù)的應(yīng)用前景特別廣闊。過去,機(jī)器人很難理解人類的部件級(jí)指令,比如"抓住杯子的把手"或"打開門上的把手"。現(xiàn)在,配備了ALIGN-Parts系統(tǒng)的機(jī)器人不僅能夠準(zhǔn)確識(shí)別這些部件,還能理解它們的功能意義,從而執(zhí)行更加精確的操作。這就像給機(jī)器人裝上了一雙"語義眼睛",讓它們能夠像人類一樣理解物體的結(jié)構(gòu)和功能。
在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用中,精確的部件理解能夠?qū)崿F(xiàn)更加自然的交互體驗(yàn)。用戶可以通過語音命令"高亮顯示汽車的發(fā)動(dòng)機(jī)"或"隱藏椅子的扶手"來操控三維場(chǎng)景,系統(tǒng)能夠準(zhǔn)確理解并執(zhí)行這些指令。這種能力對(duì)于工業(yè)設(shè)計(jì)、建筑可視化、教育培訓(xùn)等領(lǐng)域具有重要價(jià)值。
制造業(yè)是另一個(gè)受益巨大的領(lǐng)域。在質(zhì)量檢測(cè)環(huán)節(jié),系統(tǒng)可以自動(dòng)識(shí)別產(chǎn)品的各個(gè)部件,檢查是否存在缺失或損壞的組件。在裝配指導(dǎo)中,系統(tǒng)可以為工人提供精確的部件標(biāo)識(shí)和操作指導(dǎo),減少人為錯(cuò)誤。在設(shè)計(jì)驗(yàn)證階段,工程師可以快速檢查復(fù)雜產(chǎn)品的部件組成是否符合設(shè)計(jì)要求。
對(duì)于電子商務(wù)平臺(tái)來說,這項(xiàng)技術(shù)能夠?qū)崿F(xiàn)更加智能的產(chǎn)品搜索和推薦。用戶可以搜索"有軟墊扶手的椅子"或"帶有天窗的汽車",系統(tǒng)能夠理解這些具體的部件要求,提供更加精準(zhǔn)的搜索結(jié)果。這種細(xì)粒度的產(chǎn)品理解能力有助于提升用戶體驗(yàn)和購買轉(zhuǎn)化率。
在文物保護(hù)和博物館數(shù)字化方面,ALIGN-Parts可以自動(dòng)為歷史文物建立詳細(xì)的部件檔案,包括每個(gè)部分的名稱、功能描述和保存狀態(tài)。這不僅有助于文物的數(shù)字化保護(hù),還能為觀眾提供更加豐富的展示信息。
醫(yī)療設(shè)備管理是一個(gè)特別有前景的應(yīng)用領(lǐng)域。醫(yī)院中的復(fù)雜醫(yī)療設(shè)備往往包含數(shù)百個(gè)部件,傳統(tǒng)的手工清單管理既耗時(shí)又容易出錯(cuò)。ALIGN-Parts可以自動(dòng)識(shí)別設(shè)備的各個(gè)組成部分,生成詳細(xì)的部件清單,協(xié)助設(shè)備的維護(hù)、檢修和更換工作。
在建筑信息建模(BIM)中,系統(tǒng)可以自動(dòng)為建筑構(gòu)件提供詳細(xì)的語義標(biāo)注,包括梁柱、門窗、管道系統(tǒng)等各種建筑元素。這種自動(dòng)化的語義識(shí)別能力可以顯著提高BIM模型的構(gòu)建效率和準(zhǔn)確性。
游戲開發(fā)和數(shù)字娛樂產(chǎn)業(yè)也能從中獲益。游戲設(shè)計(jì)師可以使用這項(xiàng)技術(shù)自動(dòng)為游戲中的道具和環(huán)境對(duì)象生成詳細(xì)的部件描述,豐富游戲的交互性。同時(shí),這也為程序化內(nèi)容生成提供了新的思路,系統(tǒng)可以理解現(xiàn)有游戲資產(chǎn)的部件組成,然后生成具有類似結(jié)構(gòu)的新資產(chǎn)。
教育培訓(xùn)領(lǐng)域的應(yīng)用也值得關(guān)注。在工程教育中,學(xué)生可以通過與三維模型的交互來學(xué)習(xí)復(fù)雜機(jī)械的部件組成和功能。系統(tǒng)可以實(shí)時(shí)回答學(xué)生關(guān)于特定部件的問題,提供個(gè)性化的學(xué)習(xí)體驗(yàn)。這種互動(dòng)式學(xué)習(xí)方式比傳統(tǒng)的書本教學(xué)更加生動(dòng)有效。
研究團(tuán)隊(duì)已經(jīng)展示了使用ALIGN-Parts構(gòu)建大規(guī)模標(biāo)注數(shù)據(jù)集的能力,這本身就是一個(gè)重要的應(yīng)用。高質(zhì)量的三維部件數(shù)據(jù)集對(duì)于推動(dòng)整個(gè)計(jì)算機(jī)視覺領(lǐng)域的發(fā)展具有重要意義,而傳統(tǒng)的人工標(biāo)注方法成本高昂且難以規(guī)模化。ALIGN-Parts提供的半自動(dòng)標(biāo)注能力可以顯著降低數(shù)據(jù)集構(gòu)建的成本和時(shí)間,為研究社區(qū)提供更多高質(zhì)量的訓(xùn)練數(shù)據(jù)。
說到底,ALIGN-Parts系統(tǒng)代表了人工智能從"看得見"向"理解得懂"的重要進(jìn)步。它不僅能夠識(shí)別物體的視覺外觀,更能理解物體的結(jié)構(gòu)組成和功能意義,這種深層理解能力是實(shí)現(xiàn)真正智能系統(tǒng)的關(guān)鍵一步。
當(dāng)然,任何技術(shù)都有其局限性。ALIGN-Parts目前主要適用于相對(duì)規(guī)整的人造物體,對(duì)于自然物體(如植物、動(dòng)物)的處理能力仍有限。系統(tǒng)的性能也依賴于訓(xùn)練數(shù)據(jù)的質(zhì)量和覆蓋范圍,對(duì)于訓(xùn)練時(shí)完全未見過的物體類別,泛化能力仍有提升空間。此外,現(xiàn)實(shí)世界中的噪聲、遮擋、變形等因素可能影響系統(tǒng)的識(shí)別準(zhǔn)確性。
盡管存在這些限制,ALIGN-Parts系統(tǒng)已經(jīng)展現(xiàn)了巨大的應(yīng)用潛力和技術(shù)價(jià)值。隨著更多高質(zhì)量數(shù)據(jù)的積累和算法的進(jìn)一步改進(jìn),我們有理由相信這項(xiàng)技術(shù)將在不久的將來進(jìn)入實(shí)際應(yīng)用,為我們的生活和工作帶來實(shí)實(shí)在在的便利。這項(xiàng)來自約翰霍普金斯大學(xué)的研究成果,不僅推動(dòng)了學(xué)術(shù)界的發(fā)展,更為構(gòu)建更加智能的數(shù)字世界奠定了重要基礎(chǔ)。對(duì)于那些希望深入了解技術(shù)細(xì)節(jié)的讀者,可以通過論文編號(hào)arXiv:2512.18003v1查閱完整的研究報(bào)告。
Q&A
Q1:ALIGN-Parts系統(tǒng)是什么?
A:ALIGN-Parts是由約翰霍普金斯大學(xué)開發(fā)的AI系統(tǒng),能夠像人類一樣自動(dòng)識(shí)別三維物體的各個(gè)部分并為它們起名字。比如看到椅子時(shí),不僅能分割出椅背、座墊、扶手等部分,還能準(zhǔn)確說出每個(gè)部分的名稱和功能。
Q2:這個(gè)系統(tǒng)比現(xiàn)有技術(shù)強(qiáng)在哪里?
A:主要有三個(gè)突破:一是速度快100倍,其他方法需要4秒處理一個(gè)物體,它只需0.05秒;二是能同時(shí)完成分割和命名,而以前的方法只能做其中一項(xiàng);三是支持開放詞匯,可以處理訓(xùn)練時(shí)從未見過的新物體類型。
Q3:ALIGN-Parts系統(tǒng)有什么實(shí)際用途?
A:應(yīng)用前景很廣,包括讓機(jī)器人更好地理解"抓住杯子把手"這類指令、幫助電商平臺(tái)實(shí)現(xiàn)"找有軟墊扶手的椅子"這種精確搜索、協(xié)助醫(yī)院自動(dòng)管理復(fù)雜醫(yī)療設(shè)備的部件清單,以及為游戲開發(fā)和虛擬現(xiàn)實(shí)提供更智能的三維內(nèi)容理解。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.