<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      首獲AAAI杰出論文獎,這個具身團隊讓機器人學會像人一樣凝視目標

      0
      分享至

      想象這樣一個場景:一個機器人面前的桌上擺著一堆物體,其中包含紅色積木和藍色積木,此時,如果給出讓它“把紅色積木疊到藍色積木上”的指令,它是否能順利執(zhí)行?


      (來源:Nano Banana Pro)

      對人類來說,這個任務聽起來十分簡單。因為你需要做的只是眼睛盯著紅色積木,伸手拿起,然后鎖定藍色積木,放到上面就大功告成。但對當前大多數(shù)機器人而言,事情并非如此。在很多時候,機器人的任務成功率并不穩(wěn)定,它有可能徑直去操縱其他物體,而非目標物體。

      為什么如此簡單的任務,對于機器人來說卻無法穩(wěn)定完成呢?

      這是由于當前主流的 VLA 模型(Vision-Language-Action Model,視覺-語言-動作模型)在執(zhí)行抓取任務時,視覺注意力往往呈彌散分布。也就是說,模型雖能輸出動作序列,但其內(nèi)部注意力并未真正聚焦于指令所指的目標物體(如紅色積木),而是分散在圖像多個區(qū)域。

      這種注意力錯位直接導致機器人的操作失誤,例如容易抓取錯誤物體,或在多物體環(huán)境中定位不準。

      為了解決這一問題,來自香港科技大學(廣州)與西湖大學等高校的一支聯(lián)合研究團隊,在對主流 VLA 模型進行系統(tǒng)分析后,提出了 ReconVLA(重建式視覺-語言-動作模型)。

      在這個模型中,他們創(chuàng)新性地引入了一種名為"隱式定位"(Implicit Grounding)的訓練范式。不在推理階段額外加模塊,不輸出邊界框,而是在訓練過程中,通過讓模型重建目標操作區(qū)域的圖像,迫使它在視覺編碼階段就把注意力集中到正確的地方。


      圖 | 團隊論文(來源:arXiv)

      據(jù)悉,該工作于上月榮獲 AAAI 國際先進人工智能協(xié)會 2026 的杰出論文獎(Outstanding Paper Award)。

      論文第一作者宋文軒告訴 DeepTech,當前 VLA 模型的主流架構(gòu),通常以一個預訓練好的 VLM 為主干,再接上一個動作生成頭(action head),用來輸出機器人的控制信號。這個架構(gòu)里,VLM 負責“看”和“理解”,動作頭負責“做”。


      圖 | 宋文軒 (來源:被訪者)

      問題在于,VLM 最初是為圖像理解和對話任務設計的,它學到的視覺表征(visual representation)側(cè)重語義層面。比如識別一張圖里有什么東西、它們之間的關(guān)系。但對機器人操控來說,真正重要的不只是“圖里有什么”,而是“我該去操作哪里”,這涉及到操作可供性(affordance)的感知,是一種 VLM 原生訓練目標中并不包含的能力。

      另一位團隊核心成員之一丁鵬翔補充,通用視覺模型和具身控制任務之間存在顯著的領(lǐng)域差異(domain gap)。即便 VLM 在圖像理解上極為強大,它也未必能自然遷移到機器人場景。這種能力缺失直接表現(xiàn)為視覺注意力的高度彌散。


      圖 | 丁鵬翔 (來源:受訪者)

      在簡單場景下,注意力分散或許影響不大。如果桌上只有一個物體,就算注意力散一點,模型也大概率能抓對。但一旦場景變得雜亂,比如桌面上擺了五六樣東西,麻煩就來了。

      團隊實驗表明,此時,“模型往往看到物體就抓”。只要腕部相機視野中出現(xiàn)可抓取目標,模型就傾向于執(zhí)行抓取動作,至于抓的是不是人類期望的那個,它并不總是關(guān)心。抓取動作的成功率可能很高,但抓取的正確率則是另一回事。這說明模型完成了動作層面的任務,卻沒有與人類意圖對齊(intent alignment)。

      另一個更隱蔽問題出現(xiàn)在長程任務(long-horizon task)中。所謂長程任務,就是需要多個步驟依次完成的操作鏈。因為即使每一步哪怕只有微小偏差,誤差會逐步累積,到后面幾步時,系統(tǒng)狀態(tài)可能已經(jīng)偏離了訓練數(shù)據(jù)的分布。丁鵬翔舉了一個直觀的數(shù)字:即便單步成功率高達 99%,連續(xù)執(zhí)行 100 步后的整體成功率也只剩約 36.6%。

      那么,“隱式定位”到底是什么意思?具體又該如何實現(xiàn)?丁鵬翔給了 DeepTech 類比:人類在執(zhí)行精細操作時,雖然看到的是整個場景,但真正聚焦的只有一小片區(qū)域。如果指令是“拿杯子”,哪怕桌上放了十樣東西,人類的視覺焦點會自動鎖定在杯子上,周圍的一切都變得模糊。這種行為在視覺科學中叫做“凝視”(gaze)。

      ReconVLA 借鑒了這一機制。在訓練階段,除了常規(guī)的動作預測損失之外,模型還需要完成一個輔助任務:重建當前圖像中與操作目標對應的區(qū)域,即所謂的“凝視區(qū)域”(gaze region)。


      (來源:論文)

      具體來說,模型的視覺輸出 token(稱為"重建 token",reconstructive token)會被輸入到一個輕量級的擴散變壓器(diffusion transformer)中,該擴散模塊的目標是從噪聲中恢復出凝視區(qū)域的視覺特征。如果模型在編碼階段沒有把注意力放在目標區(qū)域上,它輸出的重建 token 就不會包含足夠的細粒度信息,擴散模塊就無法完成重建,損失函數(shù)就會懲罰它。

      這形成了一個流暢的反饋回路:想要完成重建 → 必須關(guān)注目標 → 關(guān)注目標后視覺表征更精確 → 動作預測更準。整個過程中,沒有任何顯式的邊界框輸出,也沒有外部檢測模型參與推理。重建模塊只在訓練時存在,推理時被完全移除。這意味著 ReconVLA 在部署階段的推理速度與常規(guī) VLA 模型完全一致,不引入任何額外延遲。

      這和此前的視覺定位方法有什么不同?

      此前,視覺定位主要依賴于兩種范式。一種是"顯式定位"(Explicit Grounding),比如 RoboGround 和 VIP 等工作,它們使用外部檢測模型(如 YOLO 或 LISA)先把目標物體裁剪出來,再把裁剪圖像和原圖一起輸入 VLA。這種方法確實提供了更聚焦的視覺信息,但它依賴外部模型的精度,且兩張圖像的簡單拼接引入了信息冗余。

      另一種是"思維鏈定位"(CoT Grounding),如 ECoT 和 GraspVLA,讓模型先輸出目標的邊界框坐標,再輸出動作。這種方式在理論上很漂亮,但實驗結(jié)果顯示它甚至不如基線。在 CALVIN 基準測試中,CoT 方式的 5 步連續(xù)任務成功率幾乎為零。原因可能在于,坐標形式的定位信息對 VLA 模型來說并不是一種高效的引導信號,同時要輸出精確坐標和精確動作值,給訓練帶來了額外負擔。


      圖 | 不同范式之間的概念比較(來源:論文)

      相比之下,ReconVLA 的隱式定位在同一基準上取得了最高成績。

      在 CALVIN ABC→D 測試(要求模型在未見過的環(huán)境 D 中執(zhí)行 5 步連續(xù)任務)中,ReconVLA 在第 5 個子任務上達到了 64.1% 的成功率,而基線模型為 49.0%,顯式定位方法為 50.2%,提升約 15 個百分點。在更具挑戰(zhàn)性的精細操作任務"積木堆疊"(stack block)中,基線成功率僅 59.3%,ReconVLA 達到 79.5%,提升超過 20 個百分點。


      圖 | 不同范式之間的測試分數(shù)對比(來源:論文)

      為了讓重建能力具備泛化性,團隊還構(gòu)建了一個大規(guī)模預訓練數(shù)據(jù)集,包含超過 10 萬條機器人操作軌跡和 200 萬個數(shù)據(jù)樣本。數(shù)據(jù)來源包括開源的 BridgeData V2 以及 LIBERO、CALVIN 兩個仿真環(huán)境數(shù)據(jù)集。

      凝視區(qū)域的標注借助了 Grounding DINO 這一開放詞匯檢測模型(open-vocabulary detector),大部分數(shù)據(jù)可以通過零樣本(zero-shot)方式直接標注,對于機器人場景中一些較為罕見或復雜的物體,團隊則進行了定制化微調(diào)。消融實驗證實,預訓練階段對泛化能力的提升是顯著的。移除預訓練后,5 步連續(xù)任務的最終成功率從 64.1% 下降至 58.2%。

      真實世界的實驗進一步驗證了這一方法的可行性。

      團隊使用一臺 6 自由度的 AgileX PiPer 機械臂,配合兩個深度相機(分別作為基座視角和手部視角),在四個代表性任務上進行了測試:將水果放入碗中、疊碗、翻杯子、整理桌面。在每個任務中,ReconVLA 都取得了最高成功率。

      特別值得注意的是在“未見物體”(unseen objects)的測試中,當目標物體不在訓練數(shù)據(jù)中時,對比方法 OpenVLA 和 PD-VLA 的成功率接近零,而 ReconVLA 仍能成功定位目標并完成操作,展現(xiàn)出其視覺泛化能力。


      圖 | 四個代表性任務的真實世界設置(來源:論文)

      當然,任何方法都不是完美的。宋文軒向 DeepTech 坦言,ReconVLA 的主要額外成本在訓練階段——引入重建目標意味著更多的計算開銷,盡管團隊已經(jīng)對擴散模塊做了輕量化設計來控制這部分消耗。丁鵬翔指出了另一層局限:當前建模仍然主要基于二維視覺空間,在需要深度信息和三維幾何約束的高精度任務中,即便二維定位更加精確,空間操作精度仍然可能受限。

      團隊透露,他們已在后續(xù)工作中開始探索三維感知建模(3D-aware modeling),相關(guān)成果已提交至近期的學術(shù)會議。此外,力覺感知和力控信號等多模態(tài)信息目前也尚未納入框架,但從方法結(jié)構(gòu)上看,這些模態(tài)完全可以通過同樣的隱式建模機制整合進來。

      談到具身智能的落地前景,丁鵬翔的看法頗為務實。他認為 VLA 不必急于落地到某一個具體的垂直場景才算有價值。類比早期的 ChatGPT,GPT-3 發(fā)布時并沒有立即嵌入某個特定行業(yè)流程,但它顯著改變了寫作和內(nèi)容創(chuàng)作的效率。

      VLA 的價值可能也會經(jīng)歷類似的“兩步走”。第一步是降低部署成本。過去每個工廠任務都需要獨立建模,如果有一個足夠強的基礎模型,企業(yè)只需少量微調(diào)就能完成適配;第二步才是結(jié)合 Agent 系統(tǒng)構(gòu)建具體場景的閉環(huán)工作流。

      他還補充說,他們曾將經(jīng)過通用訓練的模型部署到實際工業(yè)環(huán)境中測試擰螺絲、插接零部件等任務,結(jié)果顯示只要基座模型足夠穩(wěn)定,下游任務性能就會顯著提升。他認為短中期更具潛力的場景包括半結(jié)構(gòu)化工業(yè)裝配、輕工業(yè)精細操作以及商業(yè)服務機器人(如飲品制作)。這些場景的共同特點是操作鏈條明確、精度要求高、對重復性穩(wěn)定性有剛需。

      除研究外,這支團隊還共同創(chuàng)建了一個名為 OpenHelix 的開源社區(qū),目前已持續(xù)開源十余個項目,累計獲得約 3,600 個 GitHub 星標。在資源有限的條件下,他們選擇了一條"高效與聚焦"的路線。不追求數(shù)百張 GPU 的大規(guī)模訓練和高度工程化的演示,而是專注于具有方法論洞見的研究方向。

      他們相信,只有通過開放共享,研究成果才能真正落地到更多從業(yè)者手中。除了 ReconVLA 的后續(xù)迭代,團隊還在推進觸覺與力反饋、雙臂協(xié)作等方向的研究,目標是拓寬 VLA 的能力邊界,而不僅僅停留在單一展示型應用上。

      https://arxiv.org/html/2508.10333v1

      運營/排版:何晨龍

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      中俄朝3國都明白了,打美軍航母不重要了:必須先打日本導彈基地

      中俄朝3國都明白了,打美軍航母不重要了:必須先打日本導彈基地

      人生就是要簡單
      2026-01-30 08:22:46
      海南離島難如登天!機票破萬輪渡售罄,回家路竟成“錢包劫”

      海南離島難如登天!機票破萬輪渡售罄,回家路竟成“錢包劫”

      阿芒娛樂說
      2026-02-22 13:27:34
      第一次去男友家過年被扔在家,評論區(qū)扎心了

      第一次去男友家過年被扔在家,評論區(qū)扎心了

      新時代的兩性情感
      2026-02-22 12:36:49
      春晚四款人形機器人,用的誰家零部件?

      春晚四款人形機器人,用的誰家零部件?

      半導體產(chǎn)業(yè)縱橫
      2026-02-22 09:40:43
      不顧家人反對,執(zhí)意要嫁撒貝寧的富二代李白,如今才知道她有多賺

      不顧家人反對,執(zhí)意要嫁撒貝寧的富二代李白,如今才知道她有多賺

      素衣讀史
      2025-12-30 15:45:13
      葉帥讓胡耀邦送自己去機場,卻一把將他拉上飛機,當即下令:起飛

      葉帥讓胡耀邦送自己去機場,卻一把將他拉上飛機,當即下令:起飛

      潯陽咸魚
      2026-01-08 06:35:06
      民政局離婚人數(shù)暴漲!核心原因只有一個:婚姻不再將就

      民政局離婚人數(shù)暴漲!核心原因只有一個:婚姻不再將就

      好賢觀史記
      2025-12-29 23:45:05
      夫妻當街毆打15歲女孩,官方通報

      夫妻當街毆打15歲女孩,官方通報

      觀察者網(wǎng)
      2026-02-21 15:30:09
      NBA官宣罰單!戈貝爾累計7個惡犯積分 禁賽1場損失20萬美元薪水

      NBA官宣罰單!戈貝爾累計7個惡犯積分 禁賽1場損失20萬美元薪水

      羅說NBA
      2026-02-22 05:29:57
      15年前,那個當著全世界喝下核污染水的日本官員,如今還活著嗎?

      15年前,那個當著全世界喝下核污染水的日本官員,如今還活著嗎?

      墨蘭史書
      2026-02-09 23:08:35
      35歲媽媽除夕提新車,大年初二猝然離世,真相讓無數(shù)人破防

      35歲媽媽除夕提新車,大年初二猝然離世,真相讓無數(shù)人破防

      社會日日鮮
      2026-02-22 04:46:11
      買股票前為什么堅決要看OBV指標?遠比MACD實用,簡單卻很賺錢!

      買股票前為什么堅決要看OBV指標?遠比MACD實用,簡單卻很賺錢!

      股經(jīng)縱橫談
      2026-02-21 19:16:01
      CCTV直播!林詩棟戰(zhàn)日本 王曼昱VS曾尖 王楚欽壓軸 新加坡大滿貫22日賽程出爐

      CCTV直播!林詩棟戰(zhàn)日本 王曼昱VS曾尖 王楚欽壓軸 新加坡大滿貫22日賽程出爐

      好乒乓
      2026-02-22 10:30:10
      人老珠黃不值錢!54歲洪欣在小區(qū)商演走穴,寒風中穿吊帶真心酸

      人老珠黃不值錢!54歲洪欣在小區(qū)商演走穴,寒風中穿吊帶真心酸

      瘋說時尚
      2026-02-22 12:58:34
      天通苑:從 2650 元 /㎡到 4 萬,700 棟樓寫盡中國剛需 20 年

      天通苑:從 2650 元 /㎡到 4 萬,700 棟樓寫盡中國剛需 20 年

      科學發(fā)掘
      2026-02-21 13:46:42
      剛剛收到的消息,大事已定,這兩個大人物危險了

      剛剛收到的消息,大事已定,這兩個大人物危險了

      殘夢重生來
      2026-02-22 10:24:43
      男子拿錯快遞,把白糖當?shù)咨车惯M魚缸!網(wǎng)友:魚要崩潰了……

      男子拿錯快遞,把白糖當?shù)咨车惯M魚缸!網(wǎng)友:魚要崩潰了……

      環(huán)球網(wǎng)資訊
      2026-02-21 16:00:42
      廣西局長一家被滅門,竟是小姨子作案,行刑前:這輩子值了

      廣西局長一家被滅門,竟是小姨子作案,行刑前:這輩子值了

      懸案解密檔案
      2025-03-28 10:58:32
      正在逆襲!《鏢人》票房連續(xù)逆跌,預測提升,吳京這一次又賭贏了

      正在逆襲!《鏢人》票房連續(xù)逆跌,預測提升,吳京這一次又賭贏了

      得得電影
      2026-02-19 19:34:29
      被稱為“中國最大忽悠”的賈躍亭,似乎要翻身了。

      被稱為“中國最大忽悠”的賈躍亭,似乎要翻身了。

      流蘇晚晴
      2026-02-19 16:19:47
      2026-02-22 14:36:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16298文章數(shù) 514634關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發(fā)射超過10000顆衛(wèi)星

      頭條要聞

      monies巴黎旗艦店員工:王菲同款水滴耳環(huán)庫存已空

      頭條要聞

      monies巴黎旗艦店員工:王菲同款水滴耳環(huán)庫存已空

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個吉祥物

      娛樂要聞

      裴世矩養(yǎng)侄為刃 看懂兩次放行裴行儼!

      財經(jīng)要聞

      特朗普新加征關(guān)稅稅率從10%提升至15%

      汽車要聞

      續(xù)航1810km!smart精靈#6 EHD超級電混2026年上市

      態(tài)度原創(chuàng)

      時尚
      教育
      藝術(shù)
      數(shù)碼
      公開課

      50歲女性過冬穿搭:有大衣和羽絨服就夠了,簡約從容才是優(yōu)雅

      教育要聞

      “這種女兒,生出來當排毒了!”女孩對父親滿口臟話,他卻不吭聲

      藝術(shù)要聞

      這本書法,80%的人無法讀懂!網(wǎng)友直言:看到第二字就傻眼!

      數(shù)碼要聞

      Intel、AMD新一代桌面CPU發(fā)布時間曝光!Nova Lake、Zen 6雙雙推遲到2027年

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版