<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      機(jī)器人慢半拍難題:南洋理工解決VLA致命短板,動態(tài)世界斷層領(lǐng)先

      0
      分享至



      當(dāng)物體在滾動、滑動、被撞飛,機(jī)器人還在執(zhí)行幾百毫秒前的動作預(yù)測。
      對動態(tài)世界而言,這種延遲,往往意味著失敗。

      在過去幾年中,Vision-Language-Action(VLA)模型迅速成為機(jī)器人領(lǐng)域的焦點(diǎn):機(jī)器人可以 “看懂” 畫面、“理解” 語言指令,并直接輸出連續(xù)動作,在靜態(tài)抓取、擺放、桌面操作等任務(wù)中取得了顯著進(jìn)展。

      但一個(gè)長期被忽視的問題是 ——真實(shí)世界幾乎從來不是靜態(tài)的。當(dāng)物體開始移動、加速、碰撞、改變軌跡,當(dāng)前主流 VLA 模型往往會出現(xiàn)反應(yīng)遲緩、動作失配、甚至完全失敗的情況。

      問題不在于模型不聰明,而在于:它們跟不上時(shí)間。

      近日,來自 NTU S-Lab 的研究團(tuán)隊(duì)提出 DynamicVLA,首次系統(tǒng)性地從模型架構(gòu)、推理機(jī)制和數(shù)據(jù)體系三個(gè)層面,重新審視并解決動態(tài)物體操控(Dynamic Object Manipulation)這一長期空缺的問題。

      想深入了解 DynamicVLA 的技術(shù)細(xì)節(jié)?我們已經(jīng)為你準(zhǔn)備好了完整的論文、項(xiàng)目主頁和代碼倉庫!



      • 論文鏈接:https://arxiv.org/abs/2601.22153
      • 項(xiàng)目鏈接:https://haozhexie.com/project/dynamic-vla/
      • GitHub 鏈接:https://github.com/hzxie/DynamicVLA

      為什么 “動態(tài)操控” 對 VLA 來說如此困難?



      在靜態(tài)場景中,VLA 模型通常遵循如下流程:

      感知 → 推理 → 生成一段動作 → 執(zhí)行完 → 再次推理

      當(dāng)環(huán)境基本不發(fā)生變化時(shí),這種方式可以正常工作;但一旦物體開始運(yùn)動,這一流程便迅速失效。

      問題并不在于模型能力不足,而在于時(shí)間結(jié)構(gòu)本身不適用于動態(tài)世界,主要體現(xiàn)在兩個(gè)方面:

      1. 感知 — 執(zhí)行時(shí)間錯(cuò)位(Perception–Execution Gap):由于推理存在不可避免的延遲,當(dāng)模型完成決策時(shí),物體狀態(tài)早已發(fā)生變化,動作天然 “滯后于現(xiàn)實(shí)”。
      2. 動作分塊等待(Inter-chunk Waiting):多數(shù) VLA 必須等上一段動作完全執(zhí)行后才能啟動下一次推理,使機(jī)器人在動態(tài)環(huán)境中始終處于被動追趕狀態(tài)。

      這兩個(gè)問題疊加,使得即便在靜態(tài)任務(wù)中表現(xiàn)良好的 VLA,也難以應(yīng)對真實(shí)世界中的動態(tài)操控。

      DynamicVLA 的核心思路:讓機(jī)器人 “邊想邊做”



      DynamicVLA 并沒有選擇通過增大模型來 “預(yù)測更遠(yuǎn)的未來”,而是圍繞一個(gè)更根本的問題重新設(shè)計(jì)系統(tǒng):

      在推理延遲無法消除的情況下,如何保證機(jī)器人執(zhí)行的動作仍然與當(dāng)前世界狀態(tài)時(shí)間對齊?

      為此,DynamicVLA 從推理機(jī)制、執(zhí)行策略和模型結(jié)構(gòu)三個(gè)層面提出了對應(yīng)設(shè)計(jì)。

      1. Continuous Inference:讓推理與執(zhí)行不再相互等待

      在傳統(tǒng) VLA 中,推理與執(zhí)行嚴(yán)格串行;

      而 Continuous Inference(連續(xù)推理)允許模型在上一段動作尚未執(zhí)行完時(shí),就啟動下一輪推理,從而解決的是 Inter-chunk Waiting 帶來的反應(yīng)遲滯問題:

      • 推理與執(zhí)行形成流水線
      • 不再存在 “動作執(zhí)行完才能繼續(xù)思考” 的空窗期
      • 機(jī)器人始終保持一個(gè)持續(xù)更新的動作預(yù)測流

      2. Latent-aware Action Streaming:修復(fù)推理延遲造成的時(shí)間錯(cuò)位

      即使采用連續(xù)推理,推理延遲本身仍然存在。這意味著:模型生成動作時(shí)所依據(jù)的觀察,往往已經(jīng)落后于真實(shí)世界。Latent-aware Action Streaming(LAAS)正是針對這一Perception–Execution Gap設(shè)計(jì)的執(zhí)行機(jī)制:

      • 顯式丟棄因推理延遲而 “過時(shí)” 的動作
      • 只執(zhí)行在時(shí)間上仍與當(dāng)前環(huán)境狀態(tài)對齊的預(yù)測
      • 當(dāng)新預(yù)測到來時(shí),優(yōu)先采用更新、更接近當(dāng)前狀態(tài)的動作

      3. 為動態(tài)而生的輕量化 VLA 架構(gòu)

      上述機(jī)制能否成立,還依賴于足夠低的推理延遲。因此 DynamicVLA 采用了專為動態(tài)操控設(shè)計(jì)的輕量化架構(gòu):

      • 卷積式視覺編碼器,避免多幀輸入下 token 爆炸
      • 截?cái)嗾Z言模型層數(shù),在速度與理解能力之間取得平衡
      • 整體模型規(guī)模控制在 0.4B 參數(shù)量級

      動態(tài)操控?cái)?shù)據(jù)的核心缺口:從仿真到真實(shí)世界



      當(dāng)前,無論是仿真還是真實(shí)機(jī)器人,主流 VLA 數(shù)據(jù)集幾乎都聚焦于靜態(tài)操作,而對動態(tài)物體交互的系統(tǒng)性覆蓋仍然缺失。這一數(shù)據(jù)結(jié)構(gòu)性偏差,直接限制了 VLA 在真實(shí)動態(tài)環(huán)境中的泛化能力。

      在仿真?zhèn)龋珼ynamicVLA 基于 Isaac Sim 構(gòu)建了大規(guī)模動態(tài)操控?cái)?shù)據(jù):覆蓋 2800+ 場景、206 種物體,通過多樣化的物體運(yùn)動與交互模式,生成豐富且可控的動態(tài)仿真數(shù)據(jù),為模型提供了系統(tǒng)性的動態(tài)訓(xùn)練基礎(chǔ)。

      相比之下,真實(shí)世界的動態(tài)數(shù)據(jù)采集處于 “幾乎不可行” 的狀態(tài):動態(tài)物體運(yùn)動速度快,人類遙操作反應(yīng)時(shí)間不足,且難以實(shí)時(shí)獲取高質(zhì)量的 6D 位姿與速度標(biāo)注,使得規(guī)模化、可復(fù)現(xiàn)的真實(shí)動態(tài)操控?cái)?shù)據(jù)一直缺位。

      DynamicVLA 的做法并不是強(qiáng)行遙操作,而是把真實(shí)世界 “做成仿真接口”(Real-world Simulator):

      • 多視角 RGB 感知,實(shí)時(shí)追蹤物體運(yùn)動
      • 在線估計(jì)物體 6D 位姿 + 速度
      • 將真實(shí)環(huán)境抽象為與仿真一致的狀態(tài)輸入
      • 直接復(fù)用同一套狀態(tài)機(jī)與控制邏輯

      首個(gè)動態(tài)操控基準(zhǔn):DOM Benchmark



      在上述自動化數(shù)據(jù)體系之上,團(tuán)隊(duì)進(jìn)一步構(gòu)建了 Dynamic Object Manipulation(DOM)Benchmark,這是首個(gè)專為動態(tài)物體操控設(shè)計(jì)的系統(tǒng)性評測基準(zhǔn)。

      與以往側(cè)重 “是否完成任務(wù)” 的靜態(tài)評測不同,DOM 從動態(tài)操控的本質(zhì)出發(fā),將能力拆解為 3 個(gè)核心維度、9 個(gè)子維度:

      1. 交互能力(Interaction)評估機(jī)器人在物體持續(xù)運(yùn)動下的實(shí)時(shí)控制與決策能力,包括:

      • Closed-loop Reactivity:對不同運(yùn)動速度的即時(shí)響應(yīng)能力
      • Dynamic Adaptation:在碰撞、變向等突發(fā)事件后的快速調(diào)整能力
      • Long-horizon Sequencing:在長時(shí)間動態(tài)交互中保持策略一致性的能力

      2. 感知與理解(Perception)評估模型在動態(tài)場景中的多模態(tài)理解能力,包括:

      • Visual Understanding:區(qū)分外觀相似物體的能力
      • Spatial Reasoning:理解空間關(guān)系與相對位置的能力
      • Motion Perception:感知與判斷物體運(yùn)動狀態(tài)(速度、方向)的能力

      3. 泛化與魯棒性(Generalization)評估模型在分布外動態(tài)條件下的穩(wěn)定性,包括:

      • Visual Generalization:面對未見物體與新場景的適應(yīng)能力
      • Motion Generalization:應(yīng)對新速度范圍與運(yùn)動模式的能力
      • Disturbance Robustness:在外部擾動下維持穩(wěn)定控制的能力

      DOM Benchmark 顯示,DynamicVLA 在動態(tài)交互相關(guān)能力上顯著領(lǐng)先,但在感知理解與擾動魯棒性上仍存在明顯不足。這一限制并非偶然,而是源于為保證實(shí)時(shí)性而選擇的小模型架構(gòu)。如何在響應(yīng)速度與推理能力之間取得更優(yōu)平衡,將是動態(tài)操控 VLA 的重要方向。

      實(shí)驗(yàn)結(jié)果:動態(tài)世界中的斷層領(lǐng)先

      在仿真與真實(shí)機(jī)器人實(shí)驗(yàn)中,DynamicVLA 在多個(gè)維度上顯著領(lǐng)先現(xiàn)有方法。

      DynamicVLA 的意義:機(jī)器人開始真正 “活在時(shí)間里”

      DynamicVLA 傳遞了一個(gè)清晰信號:

      下一代機(jī)器人智能的核心,不只是 “看懂世界”,而是在世界變化的過程中持續(xù)做出正確反應(yīng)。

      從 Continuous Inference,到 Latent-aware Action Streaming,再到 Real-world simulator,DynamicVLA 為動態(tài)操控提供了一套可復(fù)現(xiàn)、可擴(kuò)展、可落地的系統(tǒng)范式。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      同為華裔奧運(yùn)冠軍,我為何偏愛劉美賢?

      同為華裔奧運(yùn)冠軍,我為何偏愛劉美賢?

      濤哥銳評
      2026-02-22 11:11:49
      中國游客貝加爾湖遇難最新消息:7人身份全部確認(rèn),均未通過正規(guī)旅行社報(bào)名;事故后當(dāng)?shù)赜职l(fā)生多起陷車事故

      中國游客貝加爾湖遇難最新消息:7人身份全部確認(rèn),均未通過正規(guī)旅行社報(bào)名;事故后當(dāng)?shù)赜职l(fā)生多起陷車事故

      大風(fēng)新聞
      2026-02-21 23:13:45
      從左權(quán)之妻到改嫁左權(quán)秘書,再到山西奪權(quán),劉志蘭究竟經(jīng)歷了什么

      從左權(quán)之妻到改嫁左權(quán)秘書,再到山西奪權(quán),劉志蘭究竟經(jīng)歷了什么

      舊書卷里的長安
      2026-02-22 00:08:58
      香港身份爛尾潮已來!12萬內(nèi)地中產(chǎn),正在被精準(zhǔn)收割

      香港身份爛尾潮已來!12萬內(nèi)地中產(chǎn),正在被精準(zhǔn)收割

      社會日日鮮
      2026-02-22 04:38:12
      連任后抓緊訪華,令特朗普眼熱

      連任后抓緊訪華,令特朗普眼熱

      新民周刊
      2026-02-22 09:11:28
      前烏軍總司令扎盧日內(nèi)爆出猛料,俄烏開戰(zhàn)前夕,澤連斯基多次誤判

      前烏軍總司令扎盧日內(nèi)爆出猛料,俄烏開戰(zhàn)前夕,澤連斯基多次誤判

      碳基生物關(guān)懷組織
      2026-02-21 22:57:12
      破5.71億,謝霆鋒接住了吳京的戲,越劇小花一出場令全場驚艷

      破5.71億,謝霆鋒接住了吳京的戲,越劇小花一出場令全場驚艷

      電影爛番茄
      2026-02-22 00:46:46
      梅艷芳102歲媽媽現(xiàn)身拜年,穿紅衣戴翡翠精神好,月領(lǐng)25萬生活費(fèi)

      梅艷芳102歲媽媽現(xiàn)身拜年,穿紅衣戴翡翠精神好,月領(lǐng)25萬生活費(fèi)

      開開森森
      2026-02-22 10:37:49
      火箭遭尼克斯18分逆轉(zhuǎn):杜蘭特30+6丟壓哨絕殺 布倫森20+6反超球

      火箭遭尼克斯18分逆轉(zhuǎn):杜蘭特30+6丟壓哨絕殺 布倫森20+6反超球

      醉臥浮生
      2026-02-22 12:11:50
      撞臉吳京!杭州地鐵這位趙Sir火了,春節(jié)假期被問幾百遍去西湖怎么走

      撞臉吳京!杭州地鐵這位趙Sir火了,春節(jié)假期被問幾百遍去西湖怎么走

      環(huán)球網(wǎng)資訊
      2026-02-21 15:49:47
      3連敗崩盤!憤怒刷屏,張本智和為何徹底翻車?

      3連敗崩盤!憤怒刷屏,張本智和為何徹底翻車?

      卿子書
      2026-02-22 09:28:07
      昆明海埂大壩“游客比海鷗還多”,管理方:建議乘坐公共交通前往

      昆明海埂大壩“游客比海鷗還多”,管理方:建議乘坐公共交通前往

      上游新聞
      2026-02-21 13:43:15
      75673人見證!邁阿密0-3開門黑:梅西獨(dú)木難支 孫興慜助攻

      75673人見證!邁阿密0-3開門黑:梅西獨(dú)木難支 孫興慜助攻

      葉青足球世界
      2026-02-22 12:43:01
      為啥我們五次申請CPTPP都失敗?原因在于第四條

      為啥我們五次申請CPTPP都失敗?原因在于第四條

      老籣說體育
      2026-02-21 12:00:33
      五臺山突發(fā)大火:持續(xù)8小時(shí),瘆人畫面流出,官方回應(yīng)傷亡情況

      五臺山突發(fā)大火:持續(xù)8小時(shí),瘆人畫面流出,官方回應(yīng)傷亡情況

      博士觀察
      2026-02-22 13:00:18
      4倍賠償!2018年,江蘇男子徒手抓3200多只,被罰買12800只放生

      4倍賠償!2018年,江蘇男子徒手抓3200多只,被罰買12800只放生

      萬象硬核本尊
      2026-02-21 21:39:49
      “真沒招了”!第一批返深大軍已堵哭,最堵的時(shí)間在……

      “真沒招了”!第一批返深大軍已堵哭,最堵的時(shí)間在……

      深圳晚報(bào)
      2026-02-22 09:11:24
      英超爭冠懸念重啟!奧賴?yán)烽_二度,曼城2-1力克紐卡施壓阿森納

      英超爭冠懸念重啟!奧賴?yán)烽_二度,曼城2-1力克紐卡施壓阿森納

      釘釘陌上花開
      2026-02-22 05:56:17
      馬刺8連勝送國王隊(duì)史最長16連敗 文班28+15+6+4帽成隊(duì)史第5人

      馬刺8連勝送國王隊(duì)史最長16連敗 文班28+15+6+4帽成隊(duì)史第5人

      醉臥浮生
      2026-02-22 11:26:11
      總領(lǐng)館:貝加爾湖事故幸存者身體狀況良好!當(dāng)?shù)靥崆盎嘏瑴囟绕瓢倌昙o(jì)錄;目擊者:幸存男子坐在后排,在車輛入水瞬間沖出

      總領(lǐng)館:貝加爾湖事故幸存者身體狀況良好!當(dāng)?shù)靥崆盎嘏瑴囟绕瓢倌昙o(jì)錄;目擊者:幸存男子坐在后排,在車輛入水瞬間沖出

      每日經(jīng)濟(jì)新聞
      2026-02-21 20:45:08
      2026-02-22 15:35:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12325文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發(fā)射超過10000顆衛(wèi)星

      頭條要聞

      媒體:美對華貿(mào)易戰(zhàn)主力工具是301條款 此次裁決未觸及

      頭條要聞

      媒體:美對華貿(mào)易戰(zhàn)主力工具是301條款 此次裁決未觸及

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個(gè)吉祥物

      娛樂要聞

      裴世矩養(yǎng)侄為刃 看懂兩次放行裴行儼!

      財(cái)經(jīng)要聞

      特朗普新加征關(guān)稅稅率從10%提升至15%

      汽車要聞

      續(xù)航1810km!smart精靈#6 EHD超級電混2026年上市

      態(tài)度原創(chuàng)

      藝術(shù)
      旅游
      數(shù)碼
      公開課
      軍事航空

      藝術(shù)要聞

      這本書法,80%的人無法讀懂!網(wǎng)友直言:看到第二字就傻眼!

      旅游要聞

      傳統(tǒng)混搭科技!青島山海間不夜城新春人氣旺 日均接待游客8萬人次

      數(shù)碼要聞

      聯(lián)想預(yù)警:趕快下單 電腦馬上大漲價(jià)!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      約旦基地美軍戰(zhàn)機(jī)驟增 包括F-35隱形戰(zhàn)斗機(jī)

      無障礙瀏覽 進(jìn)入關(guān)懷版