<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      突破模型瓶頸:QDepth-VLA讓機器人擁有更精準的3D空間感知

      0
      分享至



      視覺-語言-動作模型(VLA)在機器人操控領域展現出巨大潛力。通過賦予預訓練視覺-語言模型(VLM)動作生成能力,機器人能夠理解自然語言指令并在多樣化場景中展現出強大的泛化能力。然而,這類模型在應對長時序或精細操作任務時,仍然存在性能下降的現象。

      這種現象的根源在于,模型雖具備語義理解能力,卻缺乏對三維空間的幾何感知與推理能力,導致其難以準確捕捉如機械臂夾爪與物體之間相對位置關系等關鍵三維信息。

      為此,由中國科學院自動化研究所與靈寶 CASBOT 共同提出了QDepth-VLA—— 一種結合量化深度預測(Quantized Depth Prediction) 的 3D 信息增強型 VLA 模型。它通過獨立的Depth Expert模塊來學習離散化的深度表示。這種設計在保持原有語義對齊能力的同時,顯著提升了機器人在復雜操作場景下的空間推理與操控精度。



      • 論文標題:QDepth-VLA: Quantized Depth Prediction as Auxiliary Supervision for Vision–Language–Action Models
      • 論文鏈接:https://arxiv.org/pdf/2510.14836

      研究背景

      如何讓模型具備真實三維空間理解能力,一直是視覺 - 語言 - 動作領域面臨的關鍵挑戰。盡管 VLA 模型在語義理解與指令跟隨方面取得了顯著進展,但其空間感知能力仍然有限。當任務涉及精細化或長時程多步驟操作時,模型往往難以建立穩定的三維幾何關聯,導致定位誤差和操作失敗。

      為填補二維視覺語義理解與 3D 空間感知之間的鴻溝,研究者近年開始探索將三維信息融入 VLA 模型的多種路徑。主流方向可分為三類:

      1. 直接注入 3D 特征。這類方法通常將點云或深度圖編碼為三維特征,再與 VLM 主干網絡或動作專家模塊融合,從而顯式引入幾何信息。盡管能夠提供更豐富的空間線索,但這種方式顯著增加了模型復雜度,并可能破壞大規模 VLM 預訓練中形成的二維視覺先驗。

      2.3D 特征投影方法。另一類方法將三維特征投影為多視角二維圖像,再輸入原有視覺 - 語言結構。該策略在最大程度上保持了 VLM 的視覺語言能力,但投影過程不可避免地造成信息損失,難以保留細粒度的空間幾何特征。

      3. 輔助 3D 視覺預測任務。相比直接融合 3D 特征,最新的趨勢是通過引入輔助任務(如深度估計或未來場景預測)來隱式強化模型的三維空間理解。這種方式無需額外傳感器輸入,具有更好的兼容性與可擴展性,是一條更具潛力的研究路線。

      然而,已有工作表明,這類基于深度預測的輔助監督并非總能帶來性能提升。例如,DreamVLA 等研究發現,直接以像素級深度圖作為輔助任務可能引入噪聲監督或冗余信號,反而削弱模型的策略學習穩定性。因此,如何設計更高效、語義一致的深度監督機制,使 VLA 在保持二維視覺語義理解的同時獲得穩健的三維感知能力,仍然是當前研究的核心難題。

      方法設計

      為解決深度預測輔助任務存在的監督噪聲和信號冗余問題,中國科學院自動化研究所與靈寶 CASBOT 共同提出了QDepth-VLA,通過引入量化深度預測機制與混合注意力結構,使模型在保持語義一致性的同時,獲得穩健的三維空間感知與動作決策能力。整體方法包括三部分 (如圖):



      1.深度圖標注

      首先采用 Video-Depth-Anything 對視頻幀進行高精度深度標注,顯著提升了時空一致性,從源頭上減少了噪聲和漂移。

      2.深度量化與 Depth Expert

      為了避免直接預測像素級深度圖的噪聲干擾,首先分別利用標注好的數據集分別訓練對應的 VQ-VAE,之后使用 VQ-VAE 對深度圖進行離散化編碼,將其轉化為結構化的深度 token。模型優化目標如下:





      設計了獨立的 Depth Expert 模塊,其結構與 Action Expert 相似,均基于 Transformer 架構,用于預測深度 token,從而在不干擾視覺 - 語言主干的前提下提供穩定的幾何感知信號。

      3.混合注意力機制

      為實現跨模態融合,減小深度模態可能存在的噪聲干擾,團隊還設計了Hybrid Attention Mask,在不同模態間調控信息流:

      • 文本與圖像 token 僅在各自模態內自注意,保持語義一致性;
      • 深度 token 同時關注圖像與文本,獲得語義上下文;
      • 動作 token 則融合前述所有模態,實現視覺 — 深度 — 動作一體化建模。

      這種塊狀注意力設計有效防止深度噪聲干擾動作生成,同時保持不同模態之間的對齊能力。

      4.聯合優化目標

      整體訓練目標整合動作與深度兩類監督信號:





      通過上述設計,QDepth-VLA 實現了視覺語義、空間幾何與動作策略的協同學習,在多任務、多場景中展現出更強的泛化與穩定性。

      實驗驗證

      為全面評估 QDepth-VLA 的性能,團隊在兩個主流機器人仿真環境 (SimplerLIBERO) 與真實環境下進行了測試,涵蓋多種物體抓取、空間定位與多步操作任務。結果顯示,QDepth-VLA 在不同測試平臺上均取得了顯著提升。

      這些結果驗證了該方法能夠有效提升模型在長時程、多場景操作任務中的任務完成能力。

      1. Simpler 仿真結果

      在 Simpler 任務中,分別基于 Bridge V2 與 Fractal 數據集從頭訓練了 QDepth-VLA。實驗結果表明,在 Simpler 仿真器 的 WidowX250 與 Google Robot 任務上,相比基礎模型 Open π0,平均成功率分別提升了8.5% 與 3.7%





      2. LIBERO 仿真結果

      而在 LIBERO 任務中,QDepth-VLA 則在 Fractal 數據集小規模預訓練得到的權重基礎上,進一步在對應的 LIBERO 數據集上進行微調。如下圖所示,在 LIBERO 仿真器上,相較于基于深度圖輸入的 3D-CAVLA,QDepth-VLA 依然保持領先,平均提升約 2.8%。



      3. 真機實驗結果



      • Task1 : pick the banana into the yellow basket
      • Task2 : put the chili into the bowl
      • Task3 : put the green block into the bowl
      • Task4 : stack the green block ontop of the yellow block



      4. 消融實驗

      為了驗證 QDepth-VLA 各組件的實際貢獻,團隊還在 Simpler 任務上進行了系統的消融實驗。

      當團隊將深度損失權重設為 0,僅保留模型結構時,平均成功率由 68.5% 降至 65.6%,尤其在 Carrot(-9.6%)和 Eggplant(-12.5%)任務上下降明顯,表明深度監督確實提供了有意義的空間幾何先驗。相反,移除 Depth Expert 后,性能下降最為顯著(-8.5%),在需要精準三維對齊的 Stack Block 任務中跌幅高達 - 23.8%,驗證了顯式深度分支對立體空間感知的關鍵作用。

      此外,將潛在深度預測替換為像素級回歸導致平均性能下降至 64.6%,說明量化深度表征更能捕捉抽象幾何信息。而移除混合注意力機制(Hybrid Attention)后,模型在 Carrot 任務中的表現顯著下降(-15.8%),表明該機制能有效協調深度感知與動作生成。

      總體來看,深度監督與混合注意力的協同作用是 QDepth-VLA 取得高性能的關鍵,它們共同強化了模型的空間理解與動作一致性,為復雜操控任務提供了穩定的三維感知基礎。



      總結與展望

      QDepth-VLA 作為一種將量化深度預測引入視覺 - 語言 - 動作建模的機制,旨在增強機器人在三維空間中的感知與推理能力?;?Simpler、LIBERO 以及真實環境的系統實驗結果顯示,引入量化深度監督能夠在長程與精細操作任務中帶來顯著的成功率提升,說明三維幾何先驗在機器人穩定操控中具有重要價值。

      未來的研究方向可主要圍繞以下兩點展開:

      • 面向未來的深度預測:在當前深度推斷基礎上擴展至未來時刻的空間結構預測,以支持更長時程的策略規劃;
      • 更高效的深度表征學習:通過改進 VAE 編碼與表征壓縮方式,進一步提升深度信息的精確度、可泛化性與推理穩定性。

      總體來看,QDepth-VLA 為增強 VLA 模型的空間理解能力提供了一條兼具語義一致性與工程可落地性的路徑。從具身智能的發展趨勢來看,具備真實三維空間理解能力的策略模型,是機器人從 “可演示” 邁向 “可長期實際工作” 的關鍵基礎。QDepth-VLA 強化的三維幾何感知與動作一致性能力,將作為核心能力模塊逐步融入靈寶 CASBOT 的多產品序列中:

      • CASBOT 02:用于支持桌面級與生活化任務中的穩定抓取、遞交、精細放置;
      • CASBOT W1:用于工業與商服場景下的多步驟、多對象柔性操作;
      • Handle-L1 靈巧手:用于更高精度、多接觸點的結構化操控與協作。

      在此路徑中,深度量化表征、跨模態一致性建模與在線自適應學習將持續協同演進,支撐靈寶 CASBOT 構建從模型 — 本體 — 場景 — 部署的長期閉環能力,推動具身智能走向可規?;?、可復制、可持續的真實應用階段。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      霍英東體育基金會晚宴,多位奧運冠軍現身,霍家更知郭晶晶的份量

      霍英東體育基金會晚宴,多位奧運冠軍現身,霍家更知郭晶晶的份量

      舍長阿爺談事
      2025-12-16 21:29:07
      什么情況!遼籃連吃三技犯 楊鳴被罰出場 球迷怒噴8打5

      什么情況!遼籃連吃三技犯 楊鳴被罰出場 球迷怒噴8打5

      胖子噴球
      2025-12-17 21:33:04
      那不勒斯 對戰 AC米蘭 比賽分析與預測

      那不勒斯 對戰 AC米蘭 比賽分析與預測

      星塵前沿
      2025-12-18 00:05:11
      拔出蘿卜帶出泥!釋永信全家的老底被扒,原來他才只是冰山一角!

      拔出蘿卜帶出泥!釋永信全家的老底被扒,原來他才只是冰山一角!

      小莜讀史
      2025-12-17 18:38:21
      21歲女孩在泰國潛水時失蹤,4年后出現在寺廟別墅,和僧人舉止親密

      21歲女孩在泰國潛水時失蹤,4年后出現在寺廟別墅,和僧人舉止親密

      流螢敘情
      2025-09-11 18:03:10
      2010年,林彪飛機黑匣子的錄音被曝光,上面記錄了林立果的兩段話

      2010年,林彪飛機黑匣子的錄音被曝光,上面記錄了林立果的兩段話

      第四思維
      2025-03-01 18:41:51
      蜜雪冰城暴打美國人,28塊錢一杯,還能雙倍糖,給肥胖之國上強度

      蜜雪冰城暴打美國人,28塊錢一杯,還能雙倍糖,給肥胖之國上強度

      攬星河的筆記
      2025-12-16 19:17:02
      不打了?乒超很可能不續約松島輝空,總決賽3:1把王楚欽逼入絕境

      不打了?乒超很可能不續約松島輝空,總決賽3:1把王楚欽逼入絕境

      林子說事
      2025-12-17 14:58:43
      又受傷了!CBA昔日頂級前鋒成玻璃人,拿到四年大合同

      又受傷了!CBA昔日頂級前鋒成玻璃人,拿到四年大合同

      籃球大陸
      2025-12-12 10:03:51
      廣東VS廣州!徐昕欲打臉杜鋒,打爆宏遠內線,胡明軒盼找回狀態

      廣東VS廣州!徐昕欲打臉杜鋒,打爆宏遠內線,胡明軒盼找回狀態

      多特體育說
      2025-12-17 22:33:34
      73年,孔從洲親自上書中央,毛主席嚴肅指示:讓蘭州軍區來匯報

      73年,孔從洲親自上書中央,毛主席嚴肅指示:讓蘭州軍區來匯報

      春秋硯
      2025-12-17 23:50:03
      烏情報局斬獲情報:俄羅斯向中國讓渡領土主權,有史以來第一次

      烏情報局斬獲情報:俄羅斯向中國讓渡領土主權,有史以來第一次

      王裕慶
      2025-12-14 17:41:17
      接受敗訴?巴黎官宣執行6100萬賠償+公示1個月!祝姆巴佩未來順利

      接受敗訴?巴黎官宣執行6100萬賠償+公示1個月!祝姆巴佩未來順利

      我愛英超
      2025-12-16 22:21:29
      克洛普直言:這四位才是足壇歷史傳奇主帥,安切洛蒂被無視!

      克洛普直言:這四位才是足壇歷史傳奇主帥,安切洛蒂被無視!

      瀾歸序
      2025-12-18 01:38:00
      61歲何晴最后時光:生活拮據將房子過戶給兒子,遺憾一件事未辦成

      61歲何晴最后時光:生活拮據將房子過戶給兒子,遺憾一件事未辦成

      李健政觀察
      2025-12-17 09:45:11
      驚!向太曝馬伊琍再婚,文章心理難跨坎,沒上熱搜原因成謎?

      驚!向太曝馬伊琍再婚,文章心理難跨坎,沒上熱搜原因成謎?

      手把手帶你開新挖機
      2025-12-18 00:39:45
      封殺四年,49歲趙薇突傳消息,因胃癌去世傳聞5個月前就真相大白

      封殺四年,49歲趙薇突傳消息,因胃癌去世傳聞5個月前就真相大白

      一娛三分地
      2025-11-07 15:09:53
      何晴有多美?01年生完孩子上節目,穿著隨意胖過李湘,卻柔情萬分

      何晴有多美?01年生完孩子上節目,穿著隨意胖過李湘,卻柔情萬分

      真的八卦小學弟
      2025-12-17 20:40:07
      媒體人:國安曾希望讓邵佳一接手,新主帥大概率還是歐洲外教

      媒體人:國安曾希望讓邵佳一接手,新主帥大概率還是歐洲外教

      懂球帝
      2025-12-17 20:40:07
      高圓圓從家帶的盒飯炒的蒼蠅頭,蒼蠅頭是啥東西,你們吃過嗎

      高圓圓從家帶的盒飯炒的蒼蠅頭,蒼蠅頭是啥東西,你們吃過嗎

      西樓知趣雜談
      2025-12-15 20:33:36
      2025-12-18 03:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11943文章數 142512關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      萬斯公開與特朗普唱反調 承認美國人生活成本高漲

      頭條要聞

      萬斯公開與特朗普唱反調 承認美國人生活成本高漲

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      數碼
      親子
      本地
      時尚
      公開課

      數碼要聞

      RGB-Mini LED迎來“跨年夜”,“光色同控”從電視走向桌面

      親子要聞

      撒潑打滾的娃媽媽只有一早就制服了

      本地新聞

      云游安徽|踏過戰壕與石板,讀一部活的淮北史

      你算老幾?我算老己!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中国老熟妇自拍hd发布| 中文字幕久久精品波多野结| 亚洲中文在线播放| 久久福利导航| 九一九色国产| 熟妇好大好深好满好爽| 日本人妻伦在线中文字幕| 男人天堂亚洲天堂女人天堂| 亚洲第一成人网站| 亚洲人妻中出| 欧美激情a∨在线视频播放| 野外做受又硬又粗又大视频| 日本高清在线播放一区二区三区| 亚洲精品影院| 97亚洲狠狠色| 香蕉影院在线观看| 国产真实乱对白精彩久久老熟妇女| av大香蕉| 三河市| 99久久伊人精品综合观看| 两女女百合互慰av赤裸无遮挡| 午夜AAAAA级岛国福利在线| 亚洲成人经典| 色一情一乱一伦一视频免费看| 久久香蕉超碰97国产精品| 欧美成人精品三级网站| 屁屁影院国产第一页| 一区二区三区乱码在线 | 欧洲| 女人被做到高潮视频| 中文成人无字幕乱码精品区| AV无码一区二区三区| 在线欧美精品一区二区三区| 久久婷婷久久一区二区三区| 狠狠躁夜夜躁无码中文字幕| 五月婷婷开心| 日本无遮挡吸乳呻吟视频| 久久先锋男人av资源网站| 色猫咪av在线观看| 91高清在线观看| 亚洲风情亚aⅴ在线发布| 无码精品a∨在线观看中文|