<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      基于3DGS場景理解和視覺語言預(yù)訓(xùn)練,讓3D高斯「聽懂人話」的一躍

      0
      分享至



      開放詞匯識別與分類對于全面理解現(xiàn)實世界的 3D 場景至關(guān)重要。目前,所有現(xiàn)有方法在訓(xùn)練或推理過程中都依賴于 2D 或文本模態(tài)。這凸顯出缺乏能夠單獨處理 3D 數(shù)據(jù)以進行端到端語義學(xué)習的模型,以及訓(xùn)練此類模型所需的數(shù)據(jù)。與此同時,3DGS 已成為各種視覺任務(wù)中 3D 場景表達的重要標準之一。

      然而,有效地將語義理解以可泛化的方式集成到 3DGS 中仍然是一個難題。為了突破這些瓶頸,我們引入了 SceneSplat,第一個在 3DGS 上原生運行的端到端大規(guī)模 3D 室內(nèi)場景理解方法。此外,我們提出了一種自監(jiān)督學(xué)習方案,可以從未標記場景中解鎖豐富的 3D 特征學(xué)習。為了支持所提出的方法,我們采集了首個針對室內(nèi)場景的大規(guī)模 3DGS 數(shù)據(jù)集 SceneSplat-7K,包含 7916 個場景,這些場景源自七個現(xiàn)有數(shù)據(jù)集,例如 ScanNet 和 Matterport3D。生成 SceneSplat-7K 所需的計算資源相當于在 L4 GPU 上運行 150 天。我們在 SceneSplat-7K 上進行了開放詞匯和語義分割的測試,均達到了 state-of-the-art 的效果。



      • 文章鏈接:https://arxiv.org/abs/2503.18052
      • 項目主頁:https://unique1i.github.io/SceneSplat_webpage/
      • 數(shù)據(jù)集:https://huggingface.co/datasets/GaussianWorld/scene_splat_7k



      圖 1: SceneSplat-7K 從 7 個不同的公開數(shù)據(jù)集采集了了 7916 個完整 3DGS 場景,并且做了語義標注;基于這一高質(zhì)量數(shù)據(jù)集,我們大規(guī)模訓(xùn)練了 SceneSplat 模型,這是首個能夠在單次前向傳播中預(yù)測數(shù)百萬個 3D 高斯分布的開放詞匯語言特征的模型。

      視頻:SceneSplat

      SceneSplat 數(shù)據(jù)集

      大規(guī)模 3DGS 重建

      為支撐在 3D 高斯點(3DGS)上的原生語義學(xué)習,我們構(gòu)建并發(fā)布 SceneSplat-7K。數(shù)據(jù)來源覆蓋 7 個權(quán)威室內(nèi)數(shù)據(jù)集:ARKitScenes、Replica、ScanNet、ScanNet++(含 v2)、Hypersim、3RScan、Matterport3D,統(tǒng)一轉(zhuǎn)化為 3DGS 表示,形成跨真實與合成場景的多樣化數(shù)據(jù)集。

      SceneSplat-7K 包含7,916 個處理后的 3DGS 場景、總計 112.7 億個高斯點,單場景均值約 142 萬;對應(yīng) 472 萬張 RGB 訓(xùn)練幀。整體重建質(zhì)量達到 PSNR 29.64 dB、平均 Depth-L1 0.035 m,在保持高保真外觀的同時兼顧幾何準確性。該數(shù)據(jù)集的構(gòu)建開銷等效 NVIDIA L4 150 個 GPU-days。具體信息如下表所示。



      表 1:數(shù)據(jù)集數(shù)據(jù)。

      開放詞匯語義標注

      我們使用了一套穩(wěn)定、快速的系統(tǒng)來標注 3DGS 的語義信息。首先用 SAMv2 做物體級分割、SigLIP2提取視覺 - 語言特征,再借助 Occam’s LGS 將多視角 2D 特征高效 “抬升” 到 3DGS 上,得到穩(wěn)定的高斯 - 語言特征對,為后續(xù)預(yù)訓(xùn)練提供監(jiān)督;預(yù)訓(xùn)練的編碼器僅依賴 3DGS 參數(shù)與鄰域信息,即可學(xué)習到豐富的語義表示,無需在推理時再做 2D 融合。



      SceneSplat 預(yù)訓(xùn)練

      在得到大規(guī)模帶標注的 3DGS 數(shù)據(jù)集后,我們希望訓(xùn)練一個高參數(shù)量的 Transformer 編碼器來預(yù)訓(xùn)練 3DGS 數(shù)據(jù)。根據(jù)數(shù)據(jù)的不同特征,我們提供了兩個不同的訓(xùn)練路線。在有語義標注的情況下,我們進行了視覺 - 語言預(yù)訓(xùn)練,使得網(wǎng)絡(luò)可以直接輸出與 CLIP/SigLip 對齊的特征,便于進行開放詞匯測試;對于沒有語義標注的數(shù)據(jù),我們直接根據(jù)原有 3DGS 參數(shù)進行自監(jiān)督訓(xùn)練,釋放無標注場景的學(xué)習潛力。



      圖 2. SceneSplat 同時支持視覺 - 語言預(yù)訓(xùn)練與自監(jiān)督預(yù)訓(xùn)練。

      視覺 - 語言預(yù)訓(xùn)練

      我們采用分層 Transformer 編解碼器:以高斯為 token,結(jié)合 kNN 半徑構(gòu)圖形成鄰域注意力;解碼回歸維度為 d 的語義向量。訓(xùn)練目標由兩部分損失函數(shù)組成:

      • 損失函數(shù):對每個高斯的預(yù)測嵌入 z_i 與監(jiān)督嵌入 z ?_i 同時施加余弦損失與 L2 損失,穩(wěn)定對齊方向與尺度;

      • 對比學(xué)習(后期啟用):在訓(xùn)練后段加入 InfoNCE,并對同類高斯進行類內(nèi)聚合(prototype pooling)后再對比,強化類間可分性。在訓(xùn)練后期加入可以顯著避免早起損失函數(shù)震蕩過高的問題。

      • 推理與后處理。給定文本查詢 t 的向量 y_t,與每個高斯嵌入做余弦相似度匹配即可得到正確的 query;考慮測試點集與高斯中心不完全重合,使用 kNN 投票(默認 k 為幾十)在空間上聚合,得到正確的推理。

      GaussianSSL:自監(jiān)督訓(xùn)練

      實際上,絕大多數(shù) 3D 重建的場景沒有語義標注,借用 2D foundation model 來進行標注也十分昂貴。我們提出另一種自監(jiān)督訓(xùn)練方法來得到可泛化的 3DGS 表征。

      1. Masked Gaussian Modeling(MGM)

      對 3DGS 隨機高比例掩碼,僅向模型提供可見子集與拓撲鄰域信息;解碼器重建被掩的核心參數(shù)(如中心、尺度、旋轉(zhuǎn)、顏色、不透明度等)。不同量綱采用分量歸一化與多任務(wù)加權(quán)(L1/L2 結(jié)合),鼓勵網(wǎng)絡(luò)同時理解幾何與外觀,并學(xué)習到對噪聲與稀疏采樣魯棒的局部結(jié)構(gòu)先驗。

      2. Self-Distillation Learning(自蒸餾)

      采用教師 - 學(xué)生框架與多種 3D 數(shù)據(jù)增廣(旋轉(zhuǎn)、尺度抖動、點擾動、隨機子采樣)。在全局表征與局部 token 兩級施加一致性損失(余弦 / 分布對齊),并配合輕量正則化(如避免坍塌的熵 / 編碼率約束),獲得對增廣不變的判別性特征。教師以動量更新,穩(wěn)定訓(xùn)練并提升大規(guī)模數(shù)據(jù)上的收斂性。

      3. Language–Gaussian Alignment(可選)

      當場景具備 VL 標簽時,引入輕量語言對齊作為輔助頭:先將高維 VLM 嵌入通過自編碼器 / 線性頭降維,再僅對 Mask 區(qū)域施加低維對齊損失,使 MGM 的結(jié)構(gòu)重建與語義對齊協(xié)同而非相互干擾。該分支可按數(shù)據(jù)可得性按需啟用,確保無標注與弱標注數(shù)據(jù)都能納入統(tǒng)一訓(xùn)練。

      實驗結(jié)果

      定量實驗

      如表 2 所示,我們的方法在 ScanNet200、ScanNetpp 和 Matterport3D 的零樣本語義分割上面都達到了 SOTA 的效果。



      表 2:零樣本 3D 語義分割

      在無監(jiān)督預(yù)訓(xùn)練后,我們測試了 GaussianSSL 的語義分割效果,結(jié)果如表 3 所示,在 ScanNet 和 ScanNetpp 數(shù)據(jù)集中均達到了 SOTA 的效果。



      表 3: 語義分割結(jié)果

      定性實驗

      在做可視化的時候,我們發(fā)現(xiàn)了很多很有趣的結(jié)果,如圖 3 所示,本身的 3D 語義標注會將相同的桌子打上不同的標簽,但是經(jīng)過訓(xùn)練后,我們的模型可以很干凈的分割出來完整的桌子。



      圖 3. 在 ScanNetpp 上的零樣本預(yù)測可視化。

      在圖 4 中,我們展示了模型零樣本 Query 的能力,一些類別,比如 Robot Arm 是在原數(shù)據(jù)集中不存在的,但是經(jīng)過 SceneSplat 預(yù)訓(xùn)練后,我們可以很好的識別 Out of Distribution 的物體。圖 5 中我們測試了物體屬性 query,證明了我們的模型也能很好的 model attribute。更多的實驗結(jié)果請參考我們原文。



      圖 4. 文本 query 結(jié)果。



      圖 5(左):“Vacation” --> “Travel Guide”,(右):“Art”-->“Painting”。

      后期工作

      我們繼續(xù)將 SceneSplat-7K 數(shù)據(jù)集拓展成了 SceneSplat-49K,并且在多個 dataset 上進行了系統(tǒng)的 3DGS 和語義結(jié)合的工作的 benchmarking,歡迎大家繼續(xù)關(guān)注 SceneSplat++ :https://arxiv.org/abs/2506.08710。

      主要作者簡介:

      李躍,阿姆斯特丹大學(xué)博士二年級學(xué)生,分別于蘇黎世聯(lián)邦理工學(xué)院和上海交通大學(xué)獲得碩士和學(xué)士學(xué)位,主要研究方向為在線稠密重建和 3D 場景理解。

      馬麒,蘇黎世聯(lián)邦理工INSAIT共同培養(yǎng)博士二年級學(xué)生,本科畢業(yè)于上海交通大學(xué)和碩士畢業(yè)于蘇黎世聯(lián)邦理工,主要研究方向是 3D 重建和理解方向,目前在 ICCV, CVPR, Neurips 等國際會議發(fā)表多篇論文。

      楊潤一,INSAIT 博士生,導(dǎo)師為 Dr. Danda Paudel 和 Prof. Luc Van Gool,碩士畢業(yè)于帝國理工學(xué)院 MRes AIML,本科畢業(yè)于北京理工大學(xué)自動化專業(yè)。曾在索尼 Pixomondo Innovation Lab 擔任研究員。主要研究方向為三維重建、場景理解和生成。CICAI 2023 獲得 Best Paper Runner-up 獎項。

      馬夢姣,INSAIT 計算機科學(xué)與人工智能研究所博士生,學(xué)士畢業(yè)于南京航空航天大學(xué),主要研究興趣為三維場景理解。

      任斌,比薩大學(xué)和特倫托大學(xué)聯(lián)合培養(yǎng) “意大利國家 AI 博士” 項目博士生,INSAIT 和蘇黎世聯(lián)邦理工訪問學(xué)者,此前分別于北京大學(xué)和中南大學(xué)獲得碩士和學(xué)士學(xué)位。主要研究方向為表征學(xué)習,場景理解,以及多模態(tài)推理。

      Luc Van Gool 教授是計算機視覺與人工智能領(lǐng)域的國際頂尖學(xué)者,現(xiàn)任 INSAIT 全職教授,曾任蘇黎世聯(lián)邦理工學(xué)院(ETH Zurich)和比利時魯汶大學(xué)(KU Leuven)教授,同時領(lǐng)導(dǎo)多個跨學(xué)科研究團隊。他的研究涵蓋三維視覺、物體與場景識別、生成建模以及智能系統(tǒng)等方向,發(fā)表了數(shù)百篇在 CVPR、ICCV、ECCV、NeurIPS 等頂級會議和期刊上的論文,共計 25 萬 + 引用,H-index 207。

      INSAIT 簡介:

      INSAIT(Institute for Computer Science, Artificial Intelligence and Technology)成立于 2022 年、坐落保加利亞索菲亞,面向計算機科學(xué)與人工智能的前沿基礎(chǔ)與系統(tǒng)研究,方向覆蓋計算機視覺、機器人、自然語言處理、安全與可信 AI、量子計算、算法與理論及信息安全;與ETH Zürich、EPFL 建立戰(zhàn)略合作,師資與博士后來自 ETH、EPFL、CMU、MIT 等頂尖院校。研究院與 Google、華為、AWS、Toyota、vivo 等開展產(chǎn)學(xué)協(xié)同,并參與歐盟 “AI 工廠” 計劃(總額 €90M)。近年學(xué)術(shù)產(chǎn)出亮眼:ICCV’25 接收 13 篇、CVPR’25 接收 7 篇、CVPR’24 接收 16 篇,獲 FOCS’24 最佳論文。INSAIT 長期招募 Faculty、PostDoc、PhD 與 RA(可 host 碩士畢設(shè)),提供具競爭力的資助與支持,并提供往返機票與住宿,科研環(huán)境開放、高效、國際化。歡迎私信了解更多情況~

      近期招生信息:

      博士研究生招生信息 | INSAIT & Google 聯(lián)合項目

      我們正在招收多名博士研究生,研究方向為:基于多模態(tài)模型的 Egocentric(第一人稱)視頻理解。

      本項目由 INSAIT 與 Google 聯(lián)合支持,為有志于在人工智能與計算機視覺前沿領(lǐng)域深造的同學(xué)提供優(yōu)越的研究環(huán)境與資源支持。

      申請方式

      請通過 INSAIT PhD 招生頁面 https://insait.ai/phd/ 提交申請,并注明 【INSAIT-Google-Egocentric】;

      如有相關(guān)問題,可郵件聯(lián)系 yuqian.fu@insait.ai。

      我們熱忱歡迎對 Egocentric 視頻理解與多模態(tài) AI 充滿興趣的同學(xué)加入!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      一男童大年初五在虎跳峽墜崖不幸遇難,當?shù)兀菏呛桶职帜棠桃黄饋碛瓮娴模掳l(fā)地系未開放區(qū)域,不在景區(qū)內(nèi)

      一男童大年初五在虎跳峽墜崖不幸遇難,當?shù)兀菏呛桶职帜棠桃黄饋碛瓮娴模掳l(fā)地系未開放區(qū)域,不在景區(qū)內(nèi)

      極目新聞
      2026-02-22 14:31:00
      華為確實是出現(xiàn)了嚴重的問題,只是至今官方還沒有公開承認

      華為確實是出現(xiàn)了嚴重的問題,只是至今官方還沒有公開承認

      雪中風車
      2026-02-22 20:18:26
      看完破防了!真是“滿載而歸”,在G4京港澳高速粵L本田登上熱搜

      看完破防了!真是“滿載而歸”,在G4京港澳高速粵L本田登上熱搜

      火山詩話
      2026-02-22 08:29:48
      冬奧會收官日,中國第5金誕生!谷愛凌大翻盤:失誤后從第8升第1

      冬奧會收官日,中國第5金誕生!谷愛凌大翻盤:失誤后從第8升第1

      侃球熊弟
      2026-02-22 19:16:16
      10-7世界第5!趙心童18天連奪2冠 6進決賽全奪冠 帶走140萬獎金

      10-7世界第5!趙心童18天連奪2冠 6進決賽全奪冠 帶走140萬獎金

      念洲
      2026-02-23 06:53:57
      短短15天連奪2冠!28歲趙心童10-7擊潰50歲神燈 6進決賽全奪冠

      短短15天連奪2冠!28歲趙心童10-7擊潰50歲神燈 6進決賽全奪冠

      風過鄉(xiāng)
      2026-02-23 06:55:28
      寧愿在國外種地,也不愿意回國,培養(yǎng)出92個世界冠軍的李永波圖啥

      寧愿在國外種地,也不愿意回國,培養(yǎng)出92個世界冠軍的李永波圖啥

      閱微札記
      2026-02-22 19:15:15
      殘陣勇士3人20+爆冷擊潰掘金 約基奇35+20+12第185次三雙

      殘陣勇士3人20+爆冷擊潰掘金 約基奇35+20+12第185次三雙

      醉臥浮生
      2026-02-23 07:10:24
      游客目擊男童虎跳峽墜崖遇難:事發(fā)1米多寬的野外路段,當時風很大,3人來玩沒跟團

      游客目擊男童虎跳峽墜崖遇難:事發(fā)1米多寬的野外路段,當時風很大,3人來玩沒跟團

      極目新聞
      2026-02-22 15:56:46
      冬奧會結(jié)束后,中國隊3大歸化將告別國家隊,原因曝光

      冬奧會結(jié)束后,中國隊3大歸化將告別國家隊,原因曝光

      何老師呀
      2026-02-23 06:42:23
      趙心童奪2026斯諾克球員錦標賽冠軍

      趙心童奪2026斯諾克球員錦標賽冠軍

      環(huán)球網(wǎng)資訊
      2026-02-23 07:16:15
      從感冒到離世僅5天!唐山“釣帝”安大爺去世,兒子:太快了沒來得及留遺言,父親本打算開春去釣魚

      從感冒到離世僅5天!唐山“釣帝”安大爺去世,兒子:太快了沒來得及留遺言,父親本打算開春去釣魚

      芒果都市
      2026-02-22 12:31:26
      女演員長相對選角有多重要,看看《鏢人》陳麗君與李云霄就知道了

      女演員長相對選角有多重要,看看《鏢人》陳麗君與李云霄就知道了

      露珠聊影視
      2026-02-22 23:03:30
      哈登20+9吞加盟首敗!騎士負殘陣雷霆無緣8連勝 喬22分5斷

      哈登20+9吞加盟首敗!騎士負殘陣雷霆無緣8連勝 喬22分5斷

      羅說NBA
      2026-02-23 04:46:37
      AGI時代,養(yǎng)老金將變得毫無意義?大白話告訴你AGI到底是什么?

      AGI時代,養(yǎng)老金將變得毫無意義?大白話告訴你AGI到底是什么?

      我不叫阿哏
      2026-02-22 13:14:03
      暴漲!有相機價格翻10倍,根本搶不到,杭州姑娘傻眼,馬上翻出家里老古董

      暴漲!有相機價格翻10倍,根本搶不到,杭州姑娘傻眼,馬上翻出家里老古董

      環(huán)球網(wǎng)資訊
      2026-02-22 16:48:12
      3-0!亞馬爾助攻,1.4億真核歸來,巴薩主場大勝,皇馬讓出榜首

      3-0!亞馬爾助攻,1.4億真核歸來,巴薩主場大勝,皇馬讓出榜首

      我的護球最獨特
      2026-02-23 01:16:34
      錢再多有什么用?從主持人到“精神病”,48歲李維嘉現(xiàn)狀令人唏噓

      錢再多有什么用?從主持人到“精神病”,48歲李維嘉現(xiàn)狀令人唏噓

      秋姐居
      2026-02-22 09:21:19
      浙江一家三口春節(jié)自駕11天游7城,行程2942公里,總花費僅七八千元,小城市住酒店,熱門城市睡車上

      浙江一家三口春節(jié)自駕11天游7城,行程2942公里,總花費僅七八千元,小城市住酒店,熱門城市睡車上

      臺州交通廣播
      2026-02-22 18:10:06
      香港身份爛尾潮已來!12萬內(nèi)地中產(chǎn),正在被精準收割

      香港身份爛尾潮已來!12萬內(nèi)地中產(chǎn),正在被精準收割

      社會日日鮮
      2026-02-22 04:38:12
      2026-02-23 07:59:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12326文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發(fā)射超過10000顆衛(wèi)星

      頭條要聞

      特朗普徹底炸毛 大罵反對關(guān)稅六名大法官是"國家恥辱"

      頭條要聞

      特朗普徹底炸毛 大罵反對關(guān)稅六名大法官是"國家恥辱"

      體育要聞

      谷愛凌:6次參賽6次奪牌 我對自己非常自豪

      娛樂要聞

      谷愛凌:真正的強大 敢接納生命的節(jié)奏

      財經(jīng)要聞

      特朗普新加征關(guān)稅稅率從10%提升至15%

      汽車要聞

      續(xù)航1810km!smart精靈#6 EHD超級電混2026年上市

      態(tài)度原創(chuàng)

      數(shù)碼
      游戲
      健康
      家居
      公開課

      數(shù)碼要聞

      古爾曼:蘋果3月2 - 4日發(fā)布“至少五款產(chǎn)品”

      國產(chǎn)超"大"美少女后宮游戲Steam過審!2月25日見

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      家居要聞

      本真棲居 愛暖伴流年

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版