近期,西南交通大學(xué)李天瑞教授、李崇壽副教授團(tuán)隊提出了一種新的層次化深度學(xué)習(xí)(DHL,Deep Hierarchical Learning)框架,創(chuàng)新性地從數(shù)學(xué)方面明確了“層次”的本質(zhì),并證明層內(nèi)預(yù)測與層間一致性在理論的相通性。
該框架用于 3D 點云語義分割,通過模擬人類認(rèn)知的層次結(jié)構(gòu),顯著提高了 3D 數(shù)據(jù)的解析能力。該論文第一作者李崇壽對 DeepTech 表示:“我們想讓機(jī)器像人類一樣看世界,DHL 框架的本質(zhì)是給機(jī)器裝一套分層看世界的邏輯,并填補(bǔ)了 3D 層級學(xué)習(xí)的數(shù)學(xué)空白。”
該技術(shù)在自動駕駛、城市規(guī)劃、機(jī)器人導(dǎo)航、數(shù)字孿生和具身智能等領(lǐng)域具有潛在的應(yīng)用前景,并為未來三維視覺技術(shù)的實現(xiàn)提供了可能性。
自動駕駛的激光雷達(dá)需要快速地看得遠(yuǎn)且看得細(xì),從層次的角度來看,需要在遠(yuǎn)距離和細(xì)膩度方面都看得準(zhǔn)。將影響自動駕駛安全的場景和層次結(jié)構(gòu)結(jié)合,有助于提高識別的細(xì)膩度和效率,進(jìn)而驗證自動駕駛的安全性。
盡管在數(shù)字孿生和三維重建領(lǐng)域已有層次和界面定義,但可基于該框架進(jìn)一步推動其更高效地發(fā)展。未來,該技術(shù)有望通過無人機(jī)采集數(shù)據(jù),結(jié)合地面測量技術(shù),實現(xiàn)從自動識別對象到自動化輸出多層次語義信息的完整流程。
此外,該框架還有望用于具身智能場景,比如在家庭環(huán)境中,存在幾何相似但語義差異性大的物品,使用層次結(jié)構(gòu)有助于提高識別的準(zhǔn)確性,實現(xiàn)“先認(rèn)大類,再找細(xì)類”的交互。
![]()
圖丨李崇壽(來源:李崇壽)
人類能看到很遠(yuǎn)的地方,也能細(xì)致觀察近處的物品,原因在于人類語言層次結(jié)構(gòu)強(qiáng)。然而,在 AI 領(lǐng)域由于層次化認(rèn)知沒有被充分研究,其面臨忽略天然關(guān)聯(lián)、無法應(yīng)對多粒度需求以及無法區(qū)分“幾何相似但語義不同”歧義等問題。
研究團(tuán)隊旨在構(gòu)建一種新的學(xué)習(xí)框架。他們首次從概率角度定義了“層級一致性”,例如模型預(yù)測“某個點是汽車”(概率 90%),那它屬于其父類(如交通工具)的概率則一定大于等于 90%。
另一方面,研究人員還開發(fā)了聚合矩陣用于分類索引自動校準(zhǔn)層級關(guān)系,在不需要人工調(diào)參前提下,能夠自動地融合層次間的一致性,明確子類所屬于的大類。需要了解的是,這并不是簡單地構(gòu)建標(biāo)準(zhǔn)尺度,還突破了傳統(tǒng)只能定性分析的局限性。
李崇壽進(jìn)一步指出,這種一致性包含兩方面:一是“屬于子集則必屬于父集”,二是“不屬于父集則必不屬于子集”。通過聚合矩陣的方法,將這兩方面自動融合到模型中。
![]()
(來源:IJCV)
為解決精度和效率難題,研究團(tuán)隊設(shè)計了兩個模塊:在層次嵌入融合模塊(HEFM)中,分別“自上而下融合”和“自下而上融合”地建立了信息通道,并且該模塊可嵌入到任何 3D 分割模型中;在自動生成類別層級的模塊中,先用視覺語言模型讀懂類別含義,再把這些類別歸好類,從而讓模型實現(xiàn)自動編目錄。
研究人員在多個具有層次注釋的三維場景數(shù)據(jù)集上驗證了 DHL 框架的有效性。實驗結(jié)果顯示,相比于傳統(tǒng)的單層分類器方法,DHL 在所有層次上的平均交并比(mIoU)和總體準(zhǔn)確率上均獲得了提升。
例如,在 Campus3D 數(shù)據(jù)集的校園地面細(xì)分案例中,傳統(tǒng)方法會將校園里的房屋屋頂標(biāo)成“地面”,DHL 能精準(zhǔn)標(biāo)成屋頂,還能關(guān)聯(lián)到建筑物大類;在 ScanNet200 數(shù)據(jù)集,DHL 利用層級關(guān)聯(lián)把細(xì)類分準(zhǔn),椅子、桌子的分割精度比傳統(tǒng)方法高 8%-12%;在 PartNet 的家電零件細(xì)分中,DHL 將冰箱的分割 mIoU 提升到 52.7%。
![]()
圖丨 Campus3D 中的類層級示例(來源:IJCV)
“我們第一次明確回答了層次的定義。與傳統(tǒng)僅追求預(yù)測更高精度的方法不同的是,我們通過理論保障了模型在層次結(jié)構(gòu)上的內(nèi)在一致性,使其既能高效構(gòu)建層次,又能在不同模型中泛化使用。”李崇壽表示。
相關(guān)論文以《面向三維語義分割的深度層次學(xué)習(xí)》(Deep Hierarchical Learning for 3D Semantic Segmentation)為題發(fā)表在計算機(jī)視覺領(lǐng)域頂刊 International Journal of Computer Vision(IJCV)[1]。西南交通大學(xué)李崇壽副教授是第一作者,香港城市大學(xué)研究助理教授李欣科是通訊作者。
![]()
圖丨相關(guān)論文(來源:IJCV)
未來,研究團(tuán)隊將繼續(xù)在幾何和空間領(lǐng)域細(xì)化層次學(xué)習(xí)的理論。此外,他們還打算進(jìn)一步拓展到時間維度(4D 維度),有望在動態(tài)情況下,既跟蹤物理位置變化,也保持層次結(jié)構(gòu)的一致性。
參考資料:
1.https://doi.org/10.1007/s11263-025-02387-6
運營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.