<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      ReconVLA:具身智能研究首次獲得AI頂級(jí)會(huì)議最佳論文獎(jiǎng)

      0
      分享至



      在長(zhǎng)期以來(lái)的 AI 研究版圖中,具身智能雖然在機(jī)器人操作、自動(dòng)化系統(tǒng)與現(xiàn)實(shí)應(yīng)用中至關(guān)重要,卻常被視為「系統(tǒng)工程驅(qū)動(dòng)」的研究方向,鮮少被認(rèn)為能夠在 AI 核心建模范式上產(chǎn)生決定性影響。

      而 ReconVLA 獲得 AAAIOutstandingPaper Awards,釋放了一個(gè)清晰而重要的信號(hào):讓智能體在真實(shí)世界中「看、想、做」的能力,已經(jīng)成為人工智能研究的核心問(wèn)題之一。

      這是具身智能(Embodied Intelligence / Vision-Language-Action)方向歷史上,首次獲得 AI 頂級(jí)會(huì)議 Best Paper 的研究工作。這是一次真正意義上的 community-level 認(rèn)可:不僅是對(duì)某一個(gè)模型、某一項(xiàng)指標(biāo)的認(rèn)可,更是對(duì)具身智能作為通用智能核心范式之一的肯定。



      • 論文標(biāo)題:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver
      • 論文地址:https://arxiv.org/abs/2508.10333
      • 論文代碼:https://github.com/Chowzy069/Reconvla

      VLA 模型關(guān)鍵瓶頸:機(jī)器人真「看準(zhǔn)」了嗎?



      近年來(lái),Vision-Language-Action(VLA)模型在多任務(wù)學(xué)習(xí)與長(zhǎng)時(shí)序操作中取得了顯著進(jìn)展。然而,我們?cè)诖罅繉?shí)驗(yàn)中發(fā)現(xiàn),一個(gè)基礎(chǔ)但被長(zhǎng)期忽視的問(wèn)題嚴(yán)重制約了其性能上限:視覺(jué)注意力難以穩(wěn)定、精準(zhǔn)地聚焦于任務(wù)相關(guān)目標(biāo)。

      以指令「將藍(lán)色積木放到粉色積木上」為例,模型需要在復(fù)雜背景中持續(xù)鎖定「藍(lán)色積木」和「粉色積木」。但現(xiàn)實(shí)中,許多 VLA 模型的視覺(jué)注意力呈現(xiàn)為近似均勻分布,不同于人類行為專注于目標(biāo)物體,VLA 模型容易被無(wú)關(guān)物體或背景干擾,從而導(dǎo)致抓取或放置失敗。

      已有工作主要通過(guò)以下方式嘗試緩解這一問(wèn)題:

      • 顯式裁剪或檢測(cè)目標(biāo)區(qū)域(Explicit Grounding)
      • 預(yù)測(cè)目標(biāo)邊界框作為中間輸出(COT Grounding)

      然而,這些方法并未從根本上改變模型自身的視覺(jué)表征與注意力分配機(jī)制,提升效果有限。

      ReconVLA:重建式隱式視覺(jué)定位的新范式


      為解決上述瓶頸,我們提出ReconVLA,一種重建式(Reconstructive)Vision-Language-Action 模型。其核心思想是:

      不要求模型顯式輸出「看哪里」,而是通過(guò)「能否重建目標(biāo)區(qū)域」,來(lái)約束模型必須學(xué)會(huì)精準(zhǔn)關(guān)注關(guān)鍵物體。

      在 ReconVLA 中,動(dòng)作預(yù)測(cè)不再是唯一目標(biāo)。在生成動(dòng)作表征的同時(shí),模型還需要完成一項(xiàng)輔助任務(wù):

      重建當(dāng)前時(shí)刻所「凝視」的目標(biāo)區(qū)域 ----- 我們稱之為 Gaze Region。

      這一重建過(guò)程由輕量級(jí)擴(kuò)散變換器(Diffusion Transformer)完成,并在潛在空間中進(jìn)行高保真復(fù)原。由于要最小化重建誤差,模型被迫在其內(nèi)部視覺(jué)表示中編碼關(guān)于目標(biāo)物體的精細(xì)語(yǔ)義與結(jié)構(gòu)信息,從而在注意力層面實(shí)現(xiàn)隱式而穩(wěn)定的對(duì)齊。

      這一機(jī)制更接近人類的視覺(jué)凝視行為,而非依賴外部檢測(cè)器或符號(hào)化坐標(biāo)監(jiān)督。



      方法概覽


      ReconVLA 的整體框架由兩個(gè)協(xié)同分支組成:

      1. 動(dòng)作預(yù)測(cè)分支: 模型以多視角圖像、自然語(yǔ)言指令與機(jī)器人本體狀態(tài)為輸入,生成動(dòng)作 token,直接驅(qū)動(dòng)機(jī)器人執(zhí)行操作。

      2. 視覺(jué)重建分支: 利用凍結(jié)的視覺(jué) tokenizer,將指令關(guān)注的目標(biāo)區(qū)域(Gaze region)編碼為高保真潛在 token。主干網(wǎng)絡(luò)額外輸出同維度的重建 token,并以此作為條件,引導(dǎo)擴(kuò)散去噪過(guò)程逐步復(fù)原目標(biāo)區(qū)域的視覺(jué)表示。

      重建損失在像素與潛在空間層面為模型提供了隱式監(jiān)督,使視覺(jué)表征與動(dòng)作決策在訓(xùn)練過(guò)程中緊密耦合。



      大規(guī)模重建預(yù)訓(xùn)練


      為賦予 ReconVLA 穩(wěn)定的視覺(jué)重建與泛化能力,我們構(gòu)建了一個(gè)大規(guī)模機(jī)器人預(yù)訓(xùn)練數(shù)據(jù)集:

      • 數(shù)據(jù)規(guī)模:超過(guò) 10 萬(wàn)條交互軌跡,約 200 萬(wàn)張圖像。
      • 數(shù)據(jù)來(lái)源:BridgeData V2、LIBERO、CALVIN 等開(kāi)源機(jī)器人數(shù)據(jù)集。
      • 自動(dòng)化標(biāo)注:利用微調(diào)后的 Grounding DINO 或 Yolo 等方式,從原始圖像中自動(dòng)生成指令對(duì)應(yīng)的目標(biāo)物體區(qū)域(Gaze region),用于重建監(jiān)督。

      該預(yù)訓(xùn)練過(guò)程不依賴動(dòng)作標(biāo)簽,卻顯著提升了模型在視覺(jué)重建、隱式 Grounding 以及跨場(chǎng)景泛化方面的能力,并為未來(lái)擴(kuò)展至互聯(lián)網(wǎng)級(jí)視頻數(shù)據(jù)奠定了一定基礎(chǔ)。

      實(shí)驗(yàn)結(jié)果



      在 CALVIN 仿真基準(zhǔn)上,ReconVLA 在長(zhǎng)時(shí)序任務(wù)中顯著優(yōu)于現(xiàn)有方法:

      • ABC→D 泛化任務(wù):平均完成長(zhǎng)度達(dá)到3.95,全面領(lǐng)先同期所有對(duì)比方法。
      • ABCD→D 長(zhǎng)程任務(wù):平均完成長(zhǎng)度為4.23,完整任務(wù)成功率達(dá)70.5%。

      值得一提的是,在 CALVIN 極具挑戰(zhàn)的長(zhǎng)程任務(wù)「stack block」上我們的方法成功率達(dá)到 79.5%,遠(yuǎn)高于 Baseline 的 59.3%,這說(shuō)明我們的局部重建作為隱式監(jiān)督的方法可以在復(fù)雜長(zhǎng)程任務(wù)中實(shí)現(xiàn)更靈活的運(yùn)動(dòng)規(guī)劃。



      在真實(shí)機(jī)器人實(shí)驗(yàn)中,我們基于 AgileX PiPer 六自由度機(jī)械臂,測(cè)試了疊碗、放水果、翻杯與清理餐桌等任務(wù)。ReconVLA 在所有任務(wù)上均顯著優(yōu)于 OpenVLA 與 PD-VLA,并在未見(jiàn)物體條件下仍保持 40% 以上的成功率,展現(xiàn)出強(qiáng)大的視覺(jué)泛化能力。



      對(duì)比于 Explicit Grounding 和 COT Grounding,ReconVLA 在 CALVIN 上獲得了遠(yuǎn)高于前兩者的成功率,由此可分析出:

      僅用精細(xì)化的目標(biāo)區(qū)域作為模型隱式監(jiān)督可以實(shí)現(xiàn)更加精確的注意力,更高的任務(wù)成功率以及更簡(jiǎn)單的模型夾構(gòu)。



      而消融實(shí)驗(yàn)表明:

      1. 全圖重建仍然由于僅有動(dòng)作監(jiān)督的基線,因?yàn)槿珗D重建提升了模型的全局感知和理解能力。但由于視覺(jué)冗余使得在未知環(huán)境下難以展現(xiàn)更好的效果。

      2. 重建目標(biāo)區(qū)域(Gaze region)具有顯著效果,這個(gè)機(jī)制使得模型專注于目標(biāo)物體,避免被無(wú)關(guān)背景干擾。

      3. 大規(guī)模預(yù)訓(xùn)練顯著提升了模型在視覺(jué)重建,隱式 Grounding 及跨場(chǎng)景泛化的能力。

      總結(jié)


      ReconVLA 的核心貢獻(xiàn)并非引入更復(fù)雜的結(jié)構(gòu),而是重新審視了一個(gè)基礎(chǔ)問(wèn)題:機(jī)器人是否真正理解了它正在注視的世界。

      通過(guò)重建式隱式監(jiān)督,我們?yōu)?VLA 模型提供了一種更自然、更高效的視覺(jué)對(duì)齊機(jī)制,使機(jī)器人在復(fù)雜環(huán)境中做到「看得準(zhǔn)、動(dòng)得穩(wěn)」。

      我們期待這一工作能夠推動(dòng)具身智能從經(jīng)驗(yàn)驅(qū)動(dòng)的系統(tǒng)設(shè)計(jì),邁向更加扎實(shí)、可擴(kuò)展的通用智能研究范式。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      全國(guó)第一個(gè)房?jī)r(jià)大漲的城市,出現(xiàn)了!

      全國(guó)第一個(gè)房?jī)r(jià)大漲的城市,出現(xiàn)了!

      財(cái)經(jīng)要參
      2026-02-22 17:07:33
      “壞膽固醇”下降10%!Nature子刊:僅連續(xù)吃2天燕麥,就能顯著降低膽固醇,且效果至少持續(xù)6周

      “壞膽固醇”下降10%!Nature子刊:僅連續(xù)吃2天燕麥,就能顯著降低膽固醇,且效果至少持續(xù)6周

      梅斯醫(yī)學(xué)
      2026-02-20 07:53:33
      女生主動(dòng)起來(lái)有多黏人?網(wǎng)友:這些女的太開(kāi)放了

      女生主動(dòng)起來(lái)有多黏人?網(wǎng)友:這些女的太開(kāi)放了

      帶你感受人間冷暖
      2026-01-27 00:20:06
      比福建艦還大!4艘萬(wàn)噸巨船同時(shí)出塢,美這才明白,輸給中國(guó)了

      比福建艦還大!4艘萬(wàn)噸巨船同時(shí)出塢,美這才明白,輸給中國(guó)了

      溫讀史
      2026-01-09 23:42:22
      四川一男子搭載妻女高速匝道逆行!駕駛?cè)耍骸皼](méi)想到這么嚴(yán)重!”

      四川一男子搭載妻女高速匝道逆行!駕駛?cè)耍骸皼](méi)想到這么嚴(yán)重!”

      封面新聞
      2026-02-21 21:09:07
      35歲媽媽除夕提新車,大年初二猝然離世,真相讓無(wú)數(shù)人破防

      35歲媽媽除夕提新車,大年初二猝然離世,真相讓無(wú)數(shù)人破防

      寶哥精彩賽事
      2026-02-23 03:56:50
      為什么說(shuō)中國(guó)以后都不會(huì)再申辦奧運(yùn)會(huì)了?原因其實(shí)并不復(fù)雜。

      為什么說(shuō)中國(guó)以后都不會(huì)再申辦奧運(yùn)會(huì)了?原因其實(shí)并不復(fù)雜。

      百態(tài)人間
      2026-02-12 15:30:16
      中方禁止入境后,不到24小時(shí),石平2句話回復(fù),他的下場(chǎng)已注定

      中方禁止入境后,不到24小時(shí),石平2句話回復(fù),他的下場(chǎng)已注定

      尋途
      2026-02-20 04:37:12
      你最爽的經(jīng)歷是什么?網(wǎng)友:約過(guò)一個(gè)比我大好幾歲的姐姐

      你最爽的經(jīng)歷是什么?網(wǎng)友:約過(guò)一個(gè)比我大好幾歲的姐姐

      帶你感受人間冷暖
      2026-02-16 01:10:39
      熱刺1-4阿森納,賽后評(píng)分:不是埃澤第一,阿森納14號(hào)排第一

      熱刺1-4阿森納,賽后評(píng)分:不是埃澤第一,阿森納14號(hào)排第一

      側(cè)身凌空斬
      2026-02-23 02:43:01
      李鴻章十句話,最好背下來(lái)!

      李鴻章十句話,最好背下來(lái)!

      心情勵(lì)志美文
      2026-01-24 21:48:02
      直降10萬(wàn)元!廣汽本田推出雅閣e:PHEV老客戶復(fù)購(gòu)價(jià) 限量1000臺(tái)

      直降10萬(wàn)元!廣汽本田推出雅閣e:PHEV老客戶復(fù)購(gòu)價(jià) 限量1000臺(tái)

      快科技
      2026-02-22 21:54:23
      日媒頭條報(bào)道谷愛(ài)凌奪冠,日網(wǎng)友:中國(guó)隊(duì)金牌數(shù)咋跟我們一樣了

      日媒頭條報(bào)道谷愛(ài)凌奪冠,日網(wǎng)友:中國(guó)隊(duì)金牌數(shù)咋跟我們一樣了

      大中國(guó)
      2026-02-22 21:34:55
      谷愛(ài)凌太耀眼!金色發(fā)帶閃耀領(lǐng)獎(jiǎng)臺(tái),解說(shuō)員:中國(guó)女人天生就很強(qiáng)

      谷愛(ài)凌太耀眼!金色發(fā)帶閃耀領(lǐng)獎(jiǎng)臺(tái),解說(shuō)員:中國(guó)女人天生就很強(qiáng)

      奧拜爾
      2026-02-22 19:33:26
      一位工作多年的街道干部感到費(fèi)解,資金這么

      一位工作多年的街道干部感到費(fèi)解,資金這么

      碧翰烽
      2026-02-02 07:31:02
      塔帥:如果你不想要挑戰(zhàn)那就去做別的事,這里不適合你

      塔帥:如果你不想要挑戰(zhàn)那就去做別的事,這里不適合你

      懂球帝
      2026-02-23 04:31:58
      幸虧還沒(méi)結(jié)婚!一女生哭訴第一次去男友家過(guò)年,被他“冷落拋棄”

      幸虧還沒(méi)結(jié)婚!一女生哭訴第一次去男友家過(guò)年,被他“冷落拋棄”

      火山詩(shī)話
      2026-02-20 08:39:05
      飛機(jī)懵了,高鐵呆了,萬(wàn)萬(wàn)沒(méi)想到,今年春運(yùn)出風(fēng)頭的是綠皮火車

      飛機(jī)懵了,高鐵呆了,萬(wàn)萬(wàn)沒(méi)想到,今年春運(yùn)出風(fēng)頭的是綠皮火車

      深度報(bào)
      2026-02-15 23:00:51
      歐洲小偷,都傳瘋了,達(dá)成了一個(gè)行業(yè)共識(shí),中國(guó)人的錢包,隨便拿

      歐洲小偷,都傳瘋了,達(dá)成了一個(gè)行業(yè)共識(shí),中國(guó)人的錢包,隨便拿

      西樓知趣雜談
      2026-02-14 18:35:51
      吳石夫人王碧奎晚年自述,寧在臺(tái)流浪不返大陸,居美國(guó)訴心底真意

      吳石夫人王碧奎晚年自述,寧在臺(tái)流浪不返大陸,居美國(guó)訴心底真意

      嘮叨說(shuō)歷史
      2026-02-02 18:45:08
      2026-02-23 07:16:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12326文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發(fā)射超過(guò)10000顆衛(wèi)星

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細(xì)節(jié)披露

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細(xì)節(jié)披露

      體育要聞

      谷愛(ài)凌:6次參賽6次奪牌 我對(duì)自己非常自豪

      娛樂(lè)要聞

      谷愛(ài)凌:真正的強(qiáng)大 敢接納生命的節(jié)奏

      財(cái)經(jīng)要聞

      特朗普新加征關(guān)稅稅率從10%提升至15%

      汽車要聞

      續(xù)航1810km!smart精靈#6 EHD超級(jí)電混2026年上市

      態(tài)度原創(chuàng)

      教育
      游戲
      手機(jī)
      藝術(shù)
      公開(kāi)課

      教育要聞

      計(jì)算機(jī)專業(yè)競(jìng)爭(zhēng)激烈?桂電計(jì)算機(jī)學(xué)院超高就業(yè)率!

      國(guó)產(chǎn)超"大"美少女后宮游戲Steam過(guò)審!2月25日見(jiàn)

      手機(jī)要聞

      華為Pura 90 Ultra迎壞消息:2月還沒(méi)定型,6月趕進(jìn)度!

      藝術(shù)要聞

      十大名家畫春,送給春天的你!

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版