<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      「不僅會想,還能準確去做」VLA-R1把「推理+行動」帶進真實世界

      0
      分享至





      在機器人與智能體領域,一個老大難問題是:當你讓機器人 “把黃碗放進白色空籃子” 或 “從微波爐里把牛奶取出來放到餐桌上” 時,它不僅要看懂環境,更要解釋指令、規劃路徑 / 可操作區域,并把這些推理落實為準確的動作。目前,很多 VLA(Vision-Language-Action)模型仍傾向直接輸出動作,缺乏對可供性(affordance)與軌跡(trajectory)幾何關系的顯式推理,一旦遇到顏色相近、目標重復或容器多選等場景,就容易出錯。VLA-R1 的目標,不僅把 “會想” 這步補上,而且通過強化學習進一步加強執行動作的準確性,讓機器人解釋清楚再去準確執行

      VLA-R1 出場:它是什么?



      • 論文標題:VLA-R1: Enhancing Reasoning in Vision-Language-Action Models
      • 文章鏈接:https://arxiv.org/abs/2510.01623
      • 項目主頁:https://gigaai-research.github.io/VLA-R1/

      一句話概括:VLA-R1 是一個 “先推理、后執行” 的 VLA(視覺 - 語言 - 行動)基礎模型。它把鏈式思維(CoT)監督可驗證獎勵的強化學習(RLVR,基于 GRPO)結合起來,同時優化 “推理質量” 和 “執行正確性”。簡單說,就是讓模型既能把思考過程講明白,還能把動作做準。

      關鍵創新點

      1)兩階段訓練:SFT + RL(基于 GRPO)



      先用顯式 CoT 監督做有教師的指令微調(SFT),再用可驗證獎勵做后訓練強化(GRPO)。后者通過組內歸一化優勢與 KL 約束,穩定地把 “會想” 轉化為 “會做”。推理輸出采用固定結構: + …,從而保證可讀、可查錯。

      2)三類 “可驗證獎勵”(RLVR)直擊 “看準 + 走對 + 格式對”

      • 空間對齊獎勵(GIoU):即使預測框與真值不相交也能得到有效梯度,也能提供有效梯度,顯著加速區域對齊與學習穩定性;
      • 軌跡一致性獎勵(引入角度及段長比值的 Fréchet 距離(ALHF)):綜合位置、切向角度與段長尺度,懲罰 “軌跡形狀不對,彎曲不合理,段長突變” 的情況;
      • 輸出格式獎勵:強制推理段與動作段結構化輸出,減少 “答非所問”。



      3)VLA-CoT 數據引擎與 VLA-CoT-13K 數據集

      為讓模型 “學會按步驟思考”,作者用Qwen2.5-VL-72B自動生成可供性與軌跡兩類任務的結構化 CoT,并在提示中固定四步范式,最終得到13K條與視覺 / 動作嚴格對齊的 CoT 標注,用作 SFT 的高質量監督信號。





      實驗速覽

      VLA-R1 在四個層級進行了系統評測:域內(In-Domain)測試、域外(Out-of-Domain)測試、仿真平臺、真實機器人實驗。此外還做了有無 CoT,RL 的消融實驗以證明方法的有效性。



      基準集(In-Domain)

      VLA-R1 的基準集來自團隊自建的VLA-CoT-13K數據引擎,共含約 1.3 萬條視覺 - 語言 - 行動樣本,任務涵蓋 “可供性識別(Affordance Detection)” 與 “軌跡規劃(Trajectory Generation)” 兩大類。場景以桌面和實驗室為主,光照均勻、背景簡潔,包含碗、杯、勺、筆、盒子、籃子等常見物體,每條數據都配有精確的區域標注、軌跡點坐標和配套的鏈式思維推理。

      實驗結果

      • 可供性 IoU,比強基線 ManipLVM-R1提升 17.78%
      • 軌跡平均誤差(Avg),相對基線降 17.25%

      域外集(Out-of-Domain)

      為了檢驗模型的泛化與語義遷移能力,研究團隊引入兩個全新測試集:UMD DatasetVAIT Dataset。UMD 提供豐富的家庭物體及其功能標簽(如 graspable、containable 等),而 VAIT 著重考察視覺場景與自然語言指令的對應關系。與基準集相比,域外數據在物體類別、背景風格、光照條件及語言結構上均存在顯著差異,幾乎不存在訓練重疊。

      實驗結果

      • 可供性 IoU,在 UMD 數據集上仍然保持領先。
      • 軌跡平均誤差(Avg),在 VAIT 子集上展現穩健泛化

      真實機器人(4 個餐桌場景)

      在 VLA-R1 的真實機器人實驗中,作者共設計了四個桌面場景(S1–S4),每個場景都針對不同的環境復雜度與視覺干擾進行布置,用以驗證模型在真實視覺條件下的穩健性與泛化性。S1 為彩色碗拾取與放置場景,主要測試模型在多種顏色相近物體下的目標區分與空間定位能力;S2 為水果拾取場景,物體外觀相似且數量較多,用于考察模型在同類物體識別與實例辨析下的可供性推理;S3 為廚房復雜遮擋場景,實驗臺上布置微波爐等大型遮擋物,考查模型在部分可見與非均勻光照環境下的穩健推理;S4 為混合雜亂場景,包含多類別、不同屬性的日常物體,模擬多目標混放與多容器選擇的真實桌面環境。四個場景均采用相同的機械臂與相機系統,在隨機物體排列與任務順序下獨立進行十次實驗,以評估模型在真實干擾條件中的整體穩定性與任務一致性。





      • 可供性感知 SR:62.5%;軌跡執行 SR:75%。
      • 顏色相近、遮擋、目標擾動等干擾下,VLA-R1 仍能給出空間一致、接近目標的預測。

      仿真(Piper / UR5,測試跨機器人平臺通用性)

      為測試跨平臺通用性,VLA-R1 被部署到兩種機械臂仿真環境:輕量級的 Piper 與工業級的 UR5。仿真任務涵蓋多種隨機物體與動作指令。





      • 可供性 SR:60% / 50%;軌跡 SR:80% / 60%,
      • 跨機器人維持較好成功率,顯示出跨平臺泛化潛力。

      消融實驗

      為了測試 CoT,RL 的有效性,論文分別進行了直接輸出軌跡,只用 CoT,以及 CoT+RL 后訓練三種實驗的對比



      • 只用 CoT(無 RL):IoU 從 23.74 → 28.37,軌跡誤差也小幅下降;
      • CoT + RL:進一步把 IoU 拉到 36.51,軌跡各項顯著改進,說明 “先學會想,再用獎勵把想法煉成動作” 是有效路徑。

      Demo 展示

      思考過程展示



      真機平臺





      仿真平臺



      應用前景

      家居拾放 / 收納等日常操控:面向客廳 / 廚房 / 書桌等開放環境,VLA-R1 可在多物體、光照不均、紋理干擾與部分遮擋下穩定完成 “找 — 拿 — 放” 的閉環。它先用顯式推理消解 “相似目標 / 相近顏色 / 多個容器可選” 等歧義,再輸出可供性區域與可執行軌跡,最終由低層控制棧完成抓取與放置。典型場景包括:將勺子→碗、筆→白盒、香蕉→籃子的收納,或在反光桌面、雜物堆疊的桌面上進行安全、可解釋的物品整理。

      倉揀 / 輕工裝配:在料箱揀選、工位配盤、工裝上料等流程中,VLA-R1 把 “部件 — 工具 — 容器 / 工位” 的三元關系明確寫在推理里(如 “為何選擇該容器 / 該姿態 / 該路徑”),再生成滿足安全距離與路徑順滑度的軌跡,減少誤抓與誤放。它對重復件、套件、易混部件尤其有效:可在同批次零件中依據形狀 / 位置 / 容器容量做出解釋性選擇;同時結構化輸出便于與 MES/PLC/ 視覺檢測系統對接,形成可追溯的產線閉環。

      教學 / 評測平臺:VLA-R1 的 < think>…+… 格式天然適合教學演示與自動化評分:教師 / 研究者能直接檢查 “任務解析、場景理解、可供性定位、可行性校驗、軌跡邏輯” 等中間步驟是否合理。配合標準化的 IoU/Fréchet / 成功率等指標,可將其用作課程與競賽的基線模型,學生只需替換數據或模塊,即可對比 “僅 SFT”“SFT+RL”“不同獎勵 / 不同數據引擎” 的差異,快速定位問題與量化改進效果。

      作者介紹

      葉安根是中國科學院自動化研究所模式識別與智能系統方向的在讀博士,研究方向聚焦于強化學習、機器人操作、具身智能。曾參與多項科研項目,致力于通過強化學習構建少樣本、多任務的通用機器人系統。

      張澤宇是 Richard Hartley 教授和 Ian Reid 教授指導的本科研究員。他的研究興趣扎根于計算機視覺領域,專注于探索幾何生成建模與前沿基礎模型之間的潛在聯系。張澤宇在多個研究領域擁有豐富的經驗,積極探索人工智能基礎和應用領域的前沿進展。

      通訊作者朱政,極佳科技聯合創始人、首席科學家,2019 年博士畢業于中國科學院自動化研究所;2019 年至 2021 年在清華大學自動化系從事博士后研究。在 TPAMI、 CVPR、ICCV、 ECCV、NeurIPS 等頂級期刊和會議上發表論文 70 余篇,文章總引用 16000 余次 (Google Citations),連續 4 年入選全球前 2% 頂尖科學家榜單。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      三亞警方通報一起涉黃案:一私人影院經營者被刑拘,三名員工被行政處罰

      三亞警方通報一起涉黃案:一私人影院經營者被刑拘,三名員工被行政處罰

      界面新聞
      2025-12-21 11:29:02
      女星孟子義登臺領獎時意外摔倒,本人回應:挺疼的,檢查后無大礙,就是覺得太丟人了

      女星孟子義登臺領獎時意外摔倒,本人回應:挺疼的,檢查后無大礙,就是覺得太丟人了

      極目新聞
      2025-12-22 09:53:26
      紀委酒后吐真言:比被查更可怕的,是你已經“死”在晚上的飯局里

      紀委酒后吐真言:比被查更可怕的,是你已經“死”在晚上的飯局里

      一口娛樂
      2025-12-12 08:56:25
      反制不過夜!日本剛和中亞五小國開完會,普京就讓五小國赴俄覲見

      反制不過夜!日本剛和中亞五小國開完會,普京就讓五小國赴俄覲見

      我心縱橫天地間
      2025-12-21 18:49:11
      60歲楊利偉現狀:被授予少將軍銜,退休后不休息,享受的待遇如何

      60歲楊利偉現狀:被授予少將軍銜,退休后不休息,享受的待遇如何

      娛說瑜悅
      2025-12-22 14:07:14
      中國農歷有多厲害?王蒙:世界上沒有任何歷法同時知道太陽和月亮

      中國農歷有多厲害?王蒙:世界上沒有任何歷法同時知道太陽和月亮

      芳芳歷史燴
      2025-12-08 19:17:49
      女警被3名歹徒侵犯活埋,臨終前還苦苦哀求歹徒

      女警被3名歹徒侵犯活埋,臨終前還苦苦哀求歹徒

      史記趣聞
      2025-12-19 20:40:05
      反對戰爭,臺智庫發布和平新書,倡議新統一模式替代“一國兩制”

      反對戰爭,臺智庫發布和平新書,倡議新統一模式替代“一國兩制”

      朗威游戲說
      2025-12-22 12:52:56
      輪到中國卡脖子了!該技術被列入禁止出口清單,美國3次求購遭拒

      輪到中國卡脖子了!該技術被列入禁止出口清單,美國3次求購遭拒

      近史閣
      2025-12-22 11:37:03
      繼京滬高速之后,江蘇又將迎來一條南北向的雙向八車道高速大通道

      繼京滬高速之后,江蘇又將迎來一條南北向的雙向八車道高速大通道

      易昂楊
      2025-12-22 10:11:35
      王志文兒子好帥氣!倆人同框不像父子像爺孫,五官簡直一模一樣

      王志文兒子好帥氣!倆人同框不像父子像爺孫,五官簡直一模一樣

      陳意小可愛
      2025-12-22 13:29:32
      維拉創造111年紀錄,球迷為什么不能做個冠軍夢?

      維拉創造111年紀錄,球迷為什么不能做個冠軍夢?

      澎湃新聞
      2025-12-22 12:10:27
      美國智庫:俄軍2028年之前拿不下頓巴斯剩余地區

      美國智庫:俄軍2028年之前拿不下頓巴斯剩余地區

      史政先鋒
      2025-12-19 12:47:29
      隨著加拉塔薩雷3-0,土超最新積分榜出爐:穆帥前東家從榜首滑落

      隨著加拉塔薩雷3-0,土超最新積分榜出爐:穆帥前東家從榜首滑落

      凌空倒鉤
      2025-12-22 07:09:18
      73歲老人死而復生,描述3日冥界親歷見聞,帶你還原陰間真實面目

      73歲老人死而復生,描述3日冥界親歷見聞,帶你還原陰間真實面目

      詭譎怪談
      2025-04-08 17:53:58
      賀子珍回國后想再婚,詢問女兒意見,李敏喊出2個字,她大哭放棄

      賀子珍回國后想再婚,詢問女兒意見,李敏喊出2個字,她大哭放棄

      阿器談史
      2025-12-18 10:41:18
      放假通知!2026北京大中小學寒假時間確定,家長:早點來吧

      放假通知!2026北京大中小學寒假時間確定,家長:早點來吧

      天哥侃社會
      2025-12-22 11:31:25
      布倫森轟47+8仍無緣今日最佳!對不起,你碰到暴走的施羅德了

      布倫森轟47+8仍無緣今日最佳!對不起,你碰到暴走的施羅德了

      世界體育圈
      2025-12-22 14:06:56
      郭德綱首度公開回應:都是誤會,問心無愧

      郭德綱首度公開回應:都是誤會,問心無愧

      都市快報橙柿互動
      2025-12-21 19:11:41
      神秘“華人”爆料,某島上錢色交易不值一提,深層次的秘密才可怕

      神秘“華人”爆料,某島上錢色交易不值一提,深層次的秘密才可怕

      林林故事揭秘
      2024-12-25 12:24:41
      2025-12-22 14:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11966文章數 142516關注度
      往期回顧 全部

      科技要聞

      商湯聯創親自下場 痛批主流機器人技術大錯

      頭條要聞

      上海女子"喊冤"汽車壓上石頭爆胎無人賠償 網友吵翻了

      頭條要聞

      上海女子"喊冤"汽車壓上石頭爆胎無人賠償 網友吵翻了

      體育要聞

      戴琳,中國足球的反向代言人

      娛樂要聞

      星光大賞看點全在臺下

      財經要聞

      人民幣快漲到7了!

      汽車要聞

      可享88元抵2000元等多重權益 昊鉑A800開啟盲訂

      態度原創

      家居
      旅游
      數碼
      教育
      公開課

      家居要聞

      現代手法 詮釋東方文化

      旅游要聞

      新酒店 | 太倉金茂隱逸玫瑰莊園酒店亮相,隱于田園的理想生活場

      數碼要聞

      OPPO Pad Air5預熱:12.1寸2.8K超清柔光屏,12月25日發布

      教育要聞

      江西小升初真題,不愧是數學大省

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲乱色伦图片区小说| av无码免费| 她也色tayese在线视频| 免费无遮挡无码永久在线观看视频| 影音先锋女人站| 精品无码av一区二区三区不卡 | 蜜桃AV无码| 亚洲精品成人7777在线观看| 中文字幕乱码人妻无码偷偷| 日韩中文字幕v亚洲中文字幕| 性中国videossexo另类| 色综合久久中文| 久久熟妇| 成人AV天堂| 日日噜噜夜夜狠狠视频| 亚洲综合无码AV| 国产在线乱子伦一区二区| 国产精品久久..4399| 麻豆精品一区二正一三区| 一区二区三区网址| 福利小导航| 日本黄页网站免费观看| 无套内射极品少妇chinese| 好色综合| 国产av无码专区亚洲aⅴ| 97久久精品无码一区二区天美| 日韩无码2020| 成全高清在线播放电视剧| 亚洲熟妇丰满xxxxx| 亚洲免费网站观看视频| 2022最新国产在线不卡a| 成 人片 黄 色 大 片| 国产成人精品三级麻豆| 国产色AV| 亚洲成人av在线| 人人妻人人澡人人爽人人欧美一区 | 伊人久久大香线蕉网av| 人成午夜免费视频在线观看| 亚洲老熟女@TubeumTv| 97精品人妻系列无码人妻| 狼色精品人妻在线视频|