<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      浙江大學研究員彭思達:底層空間感知技術對訓練機器人有何作用?

      0
      分享至





      “可將人類視作一種特殊形態的機器人,獲取其行為數據可用于訓練人形機器人。”

      作者丨張進

      編輯丨林覺民

      在GAIR 2025“世界模型”分論壇上,浙江大學研究員彭思達帶來了《面向具身智能的通用空間感知技術》的主題演講,介紹了其團隊近期在賦予機器人通用感知能力方面的多項工作。彭思達是浙江大學軟件學院“百人計劃”研究員、博士生導師,研究方向為三維計算機視覺和計算機圖形學。

      團隊主要聚焦于賦予機器人三項基礎能力:一是相機定位(Camera Pose Estimation),即讓機器人知道自己在空間中的位置;二是深度估計(Depth Estimation),使機器人了解場景中各物體與自身的距離;三是物體運動估計(Object Motion Estimation),讓機器人感知世界的運動狀態。

      這些底層空間感知技術有何作用?首先,它們能為機器人提供關鍵的決策信息。例如,無人機在空間中需要先知道自身位置、與場景目標的距離,才能實現基礎避障;進而還需了解目標物體的運動情況,才能進行追蹤。基于從場景中獲取的三維空間信息,機器人的行為規劃便能得到有力支持。

      其次,這些技術可用于生成訓練數據。當前具身智能領域的一大難題是數據匱乏。以往有人嘗試仿真或遙操獲取數據,但遙操數據雖好卻難以規模化擴展,而仿真技術目前仍與真實世界存在較大差距。

      彭思達提出,其實可將人類視作一種特殊形態的機器人——具備完整的身體結構與行為模式。若能發明一種數據采集設備,將人類日常行為完整記錄下來,就相當于獲取了機器人所需的行為數據,從而可用于訓練人形機器人。這其中便涉及相機定位、深度估計與物體運動估計等技術。

      01

      相機定位

      相機定位方面,最傳統經典的方法是Colmap。該方法從圖像中提取特征并進行兩兩匹配,再通過增量式運動恢復結構(SfM)得到相機位置。最終每張圖像對應一個相機位置,并共同生成三維點云,形成經典的三維重建流程。



      然而,該流程目前面臨的挑戰在于圖像匹配。團隊發現,傳統匹配方法在惡劣環境或視角差異較大的情況下效果不佳,會影響后續相機位姿估計的準確性。



      針對這一問題,彭思達所在實驗室于2021年提出一種新方法:不再依賴傳統匹配方式,而是直接使用Transformer大模型進行圖像匹配。具體而言,將兩張圖像輸入LoFTR模型以提取稠密特征,這些特征之間即使在弱紋理區域也能實現良好的匹配。

      但這個方法的問題是,多模態匹配很難,例如現實環境往往是黑夜白天交替、熱傳感跟可見光同時出現,這種情況下兩兩無法匹配。所以我們要解決跨模態的問題,

      去年團隊針對此問題提出了新的工作叫 MatchAnything,核心思路是用大量來源的數據,和多模態預訓練框架去訓練 LoFTR 模型,成功實現了實現了紅外和可見光、事件和可見光、CT 和 MR 的匹配。這其中其實是工程數據問題,彭思達團隊整合了多種數據來源,一種是常見的多視角圖像,一種是大量的單目視頻。單目視頻要如何匹配?團隊使用了成熟的光流算法,將其一個個拼接起來,得到一個長時序的匹配關系。第三種數據來源是通過圖像變換,例如將單張圖片用傳統的圖像變換給 warp,就形成了一個稠密匹配。

      前三種都是在同一個模態下,進一步增光匹配的數據訓練來源,還有一種是做跨模態數據生成。團隊通過對現有兩兩匹配中的一張圖片做跨域生成,比如將其變成熱傳感圖像、黑夜圖像、深度圖像,發現只做少量的三種模態就能實現任意跨模態能力。如此便可以實現即便衛星圖像是夏天的,無人機在冬天工作也能匹配,以前是匹配不上的。

      此外,跨模態數據生成還包括可見光跟雷達圖像,可見光跟矢量地圖,紅外跟可見光,匹配的情況增多,逐漸形成一個匹配的模型后,特別是應用于遙感領域的無人機性能大大增強,同時應用于自動駕駛領域也出現了不錯的效果。



      據下圖所示:相比之前的方法,MatchAnything 匹配的成功概率有很大的躍升。



      但 MatchAnything 面臨一個問題,即沒法融入已有的 SfM 算法,因為 MatchAnything 或者 LoFTR 模型的輸出匹配因圖片對不同而不同,導致無法建立多視圖匹配,因此沒法直接用在 SfM 算法中。

      彭思達表示這是一個大問題,導致 MatchAnything 無法直接用于相機定位,為此他們又提出一個新的解決思路 Detector-free Sf,即先基于 MatchAnything 重建一種粗糙的模型,再做模型優化。

      具體做法是給兩張圖片做無特征檢測的圖像匹配,因為無法很好地形成多視角匹配,首先要做量化匹配把多張圖片的匹配關系連接起來,再去跑傳統的 SFM 算法。但圖片匹配關系被量化后,準確率降低,所以SFM 跑出來的結果不準。因此需要迭代式去優化。

      迭代式優化的具體流程是先優化多視角匹配,再優化三維模型,根據下圖所示,優化后就能看到最右邊的三維模型有一個更精密的點云以及更精細的三維位姿。



      以下展示了上述方法跟之前最好的方法相比的效果,出現稠密點云和相機位置后,就可以做表面幾何重建。



      同時,Detector-free SfM 面臨的問題跟所有傳統方法一樣,重建速度太慢了,一個模型迭代式優化可能需要幾十個小時甚至一天,以至于對于那些對時間比較敏感的重建任務不太好用。

      為了解決速度的問題,彭思達團隊進而進行了一項端到端的重建工作。已有的方法像 VGGT,這是今年 CVPR 的最佳論文,最大的突破是直接使用一個大型的大模型去回歸圖片的相機位置和深度,因為是網絡直出所以速度很快,比如一個場景傳統的相機位置估計方法可能需要十幾個小時,VGGT 只需要一兩秒,這是非常大的提升。



      但 VGGT 最大的問題是沒法處理大規模場景,因為它是個大的網絡,圖片越多網絡很容易就會爆顯存。處理上百張圖片勉強可以,但是 1000張肯定就不行了。

      一個直觀的解決辦法將大場景進行分段預測。如果沒辦法一次性處理太多圖片,可以把大場景進行分段預測,分成很多 chunk,然后對每個 chunk 去估計相機位置。但這種情況下,由于每個 chunk 預測不夠精準,導致 chunk 之間難以拼接,兩兩連接效果并不好,最后會形成一個累積誤差,整個網絡會壞掉。

      對此,彭思達團隊提出了一個新方法 Scal3R。該方法受人類的全局視野啟發——人有全局視野的情況下,對局部場景的幾何預測也有更一致的預測,所以 Scal3R 致力于賦予 VGGT 對目標場景的全局視野。

      構建全局視野的具體方法是使用網絡權重記錄每個 chunk 的內容。具體實現的流程是先輸入 chunk 的一組圖片,直接更新到一個網絡權重里就能記錄這組 chunk 圖片內容。在推理中如何實現呢?一個網絡模塊直接預測 KB,再拿這個 KB 去更新一個網絡權重,該網絡權重就記錄了該 chunk 的圖片內容。

      在線更新網絡權重作為場景的記憶,整個網絡就記錄了整個場景的記憶,有了記憶可以預測出每個 chunk 的顯性位置的點云,該點云也更具有全局一致性,因此拼接起來效果更好。



      實驗結果如下:



      跟其他方法相比的效果:





      02

      深度估計

      深度估計是通用空間感知的關鍵組成部分。去年,彭思達團隊在提升深度估計能力方面取得了三項進展,其中之一是“Pixel-Perfect-Depth”思路。

      具身智能需要深度估計,是因為準確的深度信息能提升機器人的決策性能。但現有方法普遍在物體邊緣存在“飛點”問題:判別式模型(如Depth Anything)傾向于預測“折中值”以最小化損失,從而導致飛點;生成式模型(如Marigold)雖能從理論上建模多峰深度分布,但因使用VAE進行壓縮,同樣會產生飛點。

      團隊從生成式模型出發,提出了 Pixel-Perfect-Depth 的解決思路:首先移除VAE,直接在像素空間進行優化,以避免VAE帶來的信息損失,使得像素空間擴散避免了邊緣飛點。然而,沒有VAE后模型需要更全局的視野,因此他們將語言特征整合到DiT模型中,發現這能顯著增強模型深度估計能力。

      根據下圖實驗結果顯示,Pixel-Perfect-Depth 方法能使模型達到很高的精細度估計,比如圖片中的葉子遠處的線都能有很好的估計效果。



      還能較好地解決了飛點問題:



      Pixel-Perfect-Depth 方法還能拓展提升視頻深度估計能力。相對于單張圖片輸入,常見的是視頻輸入,要對視頻深度估計,只需要在 Pixel-Perfect-Depth 上做兩個簡單的改進,首先是提取視頻的語義特征,得到特征以后注入到多視角的估計模型里;第二,視頻深度估計重要的是保持時序的連續性,通過 target tokens疊加reference tokens,提升時序一致性。

      Pixel-Perfect-Depth 雖然能做好單張圖片和視頻深度估計,但做不好帶尺度的深度估計。而很多場景是帶尺度的,因為沒有尺度機器人就不好用。為了解決該問題,彭思達團隊從語言模型的 prompt 技術匯總獲得靈感,試圖探索為深度基礎模型設計提示詞機制,以提升其輸出絕對深度的準確性。

      他們將雷達做誒深度感知的prompt喂給深度估計基礎模型,讓其產生絕對深度。





      該算法 Prompt Depth Anything 不僅可以提升通用機器人抓取能力,抓取成功率超越Image及LiDAR作為輸入;還能應用于自動駕駛重建;做三維掃描、前饋式三維高斯等等。

      但 Prompt Depth Anything 仍然存在問題,要得到三維場景的深度估計一般通過反投影,但透視投影在相鄰視角看著還不錯,如果俯視、反投影得到的點云在遠處會產生裂痕。

      對此彭思達團隊提出了一個叫 InfiniDepth 的解決思路,即不只是給每個像素估計深度值,還給每個次像素估計。具體做法是將已有DPT Head改為Implicit Decoder,就能得到一個完整的幾何,達到大范圍的視角渲染。這樣能提高模型精細度,例如能更好服務于機器人去抓取線纜的能力。



      03

      物體運動估計

      將人類行為數據轉化為有效訓練數據,是當前具身智能發展的關鍵。這需要獲取深度信息、相機運動以及人類行為語義軌跡,而語義軌跡的獲取又依賴于跟蹤。彭思達團隊去年的一個工作就跟三維跟蹤有關。

      此前已有方法使用時序匹配進行跟蹤,例如Google的CoTracker:先初始化一組二維像素點,再利用Transformer迭代優化這些點的軌跡。但該方法僅在二維層面進行跟蹤,容易因相鄰區域的干擾而丟失目標,效果受限。

      彭思達團隊的思路是將二維圖像反投影至三維空間,做 3D tracking。具體做法是:輸入圖像并反投影至三維,獲得三維特征后,在三維空間中初始化一條三維軌跡,再利用Transformer對該軌跡進行優化,從而實現更魯棒的跟蹤效果。該方法被命名為SpatialTracker。



      其實驗結果顯示,模型有了更強的跟蹤能力:圖(1)中運動員踢球的速度很快,SpatialTracker 也能跟蹤地很好;圖(2)蝴蝶拍動翅膀時是有很強的空間遮擋,SpatialTracker 也能跟蹤地不錯。





      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      俄羅斯免簽旅游全是坑?帶你體驗一個制裁中的國家

      俄羅斯免簽旅游全是坑?帶你體驗一個制裁中的國家

      觀察者網
      2025-12-17 13:31:34
      河南鄉村“麻將推餅騙局”盛行,有人輸上百萬,有人輸到喝藥自殺

      河南鄉村“麻將推餅騙局”盛行,有人輸上百萬,有人輸到喝藥自殺

      追月數星
      2025-12-16 17:35:16
      公安部發布取保候審新規,2025年12月12日起施行

      公安部發布取保候審新規,2025年12月12日起施行

      法律內參
      2025-12-16 23:54:43
      京東京造智能生態魚缸PRO預售,首發價259.9元

      京東京造智能生態魚缸PRO預售,首發價259.9元

      IT之家
      2025-12-16 16:09:11
      濟南供暖管道爆裂,熱水噴出十多米高,3萬余平方米采暖受到影響

      濟南供暖管道爆裂,熱水噴出十多米高,3萬余平方米采暖受到影響

      都市快報橙柿互動
      2025-12-17 18:01:58
      老燕子跟五阿哥同居了

      老燕子跟五阿哥同居了

      毒舌扒姨太
      2025-12-15 22:34:45
      楊冪大學期間在北京電影學院上形體課的照片,還真是第一次看到

      楊冪大學期間在北京電影學院上形體課的照片,還真是第一次看到

      動物奇奇怪怪
      2025-12-17 01:21:21
      人能活多久看頭發就能知道?醫生:壽命長的人,頭發會有這些特征

      人能活多久看頭發就能知道?醫生:壽命長的人,頭發會有這些特征

      健康之光
      2025-12-17 09:20:16
      大瓜!360周鴻祎遭前高管實名舉報財務造假:“至少幾十億”

      大瓜!360周鴻祎遭前高管實名舉報財務造假:“至少幾十億”

      小蘿卜絲
      2025-12-16 12:05:56
      尷尬!佛山一家長稱孩子都畢業了,初三伙食費要補9百多,涉700人

      尷尬!佛山一家長稱孩子都畢業了,初三伙食費要補9百多,涉700人

      火山詩話
      2025-12-15 18:48:49
      被兄弟"做局"奪走300億公司,坐牢10年的賭徒CEO出來了

      被兄弟"做局"奪走300億公司,坐牢10年的賭徒CEO出來了

      帥真商業
      2025-12-16 21:08:37
      馮提莫被封

      馮提莫被封

      最江陰
      2025-12-16 19:09:04
      國乒女隊主力排序變動!孫穎莎王曼昱地位穩固,蒯曼還需過硬成績

      國乒女隊主力排序變動!孫穎莎王曼昱地位穩固,蒯曼還需過硬成績

      叮咚體壇
      2025-12-17 17:26:14
      1953年,林彪支持高崗篡權,毛主席派陳云警告他:不要上高崗的當

      1953年,林彪支持高崗篡權,毛主席派陳云警告他:不要上高崗的當

      帝哥說史
      2025-12-16 15:31:05
      新來的縣委書記是我大學時的男友,會議結束,他把我叫到了辦公室

      新來的縣委書記是我大學時的男友,會議結束,他把我叫到了辦公室

      五元講堂
      2025-12-14 08:50:03
      高市早苗天塌了,中國發布第18號令,特朗普在臺海問題上已經站隊

      高市早苗天塌了,中國發布第18號令,特朗普在臺海問題上已經站隊

      科普100克克
      2025-12-17 16:41:49
      美媒終于回過味:中國這哪是買石油,分明是在給俄進行“大換血”

      美媒終于回過味:中國這哪是買石油,分明是在給俄進行“大換血”

      通文知史
      2025-12-17 13:25:06
      刺激夜:巴塞羅那2-0晉級,切爾西3-1晉級,埃因霍溫3-0晉級,埃及2-1

      刺激夜:巴塞羅那2-0晉級,切爾西3-1晉級,埃因霍溫3-0晉級,埃及2-1

      側身凌空斬
      2025-12-17 06:32:05
      泰軍爭議高地繳獲大國造GAM-102LR反坦克導彈,柬軍棄械潰逃

      泰軍爭議高地繳獲大國造GAM-102LR反坦克導彈,柬軍棄械潰逃

      老馬拉車莫少裝
      2025-12-14 23:29:14
      聶鳳智俘虜敵軍長,向陳毅邀功,陳:你知道他是誰嗎?

      聶鳳智俘虜敵軍長,向陳毅邀功,陳:你知道他是誰嗎?

      思雨憶史錄
      2025-12-09 09:30:44
      2025-12-17 18:23:01
      雷峰網 incentive-icons
      雷峰網
      關注智能與未來!
      68092文章數 656012關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      男子花十幾萬"賭石"付款前說是頂級貨 切開全是邊角料

      頭條要聞

      男子花十幾萬"賭石"付款前說是頂級貨 切開全是邊角料

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      鞠婧祎收入曝光,絲芭稱已支付1.3億

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      健康
      家居
      數碼
      游戲
      教育

      這些新療法,讓化療不再那么痛苦

      家居要聞

      溫馨獨棟 駝色與淺色碰撞

      數碼要聞

      AMD推出Radeon RX 9060 XT LP顯卡,9060 XT 16GB降頻版

      《FF7重制版》制作人透露 自己平時最愛玩《健身環》

      教育要聞

      近日,教育部發布加強中小學日常考試管理20條舉措。其中要求:義務教育學校日常考試實行等級評價,考試結...

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 尹人香蕉久久99天天拍| 亚洲3p无码一区二区三区| 亚洲色大成网站www久久九| 中文字幕一区二区三区精彩视频| 亚洲精品日本久久一区二区三区| 亚洲精品久久久无码aⅴ片恋情| 日屄屄| 99久久精品国产一区二区蜜芽| 成人免费无码大片a毛片抽搐| 欧美国产精品不卡在线观看| www.色色色.com| 7777精品伊人久久久大香线蕉全新功能| 亚洲国产天堂一区二区三区| 亚洲国产精品久久青草无码| 中年国产丰满熟女乱子正在播放 | 国产精品老年自拍视频| 欧美BB| 精品孕妇孕交无码专区| 国产伦精品一区二区三区| 被黑人伦流澡到高潮HNP动漫| jizzjizz亚洲| 亚洲国产资源| 可以直接看的无码av| 久久96热在精品国产高清| 99热视屏| 伊人五月久久1区| 久久先锋男人av资源网站| 亚洲国产成人久久77| 91超碰在线播放| 99久久亚洲精品无码毛片| av网站的免费观看| 人妻丝袜| 潜山县| 亚洲日韩成人av无码网站| 无码av不卡免费播放| 成人3p在线观看| AV资源吧| 国产精品久久..4399| 亚洲伊人久久综合成人| 亚洲色性| www国产无套内射com|