<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      北大發布 ManualVLA:首個長程「生成–理解–動作」一體化模型

      0
      分享至



      視覺–語言–動作(VLA)模型在機器人場景理解與操作上展現出較強的通用性,但在需要明確目標終態的長時序任務(如樂高搭建、物體重排)中,仍難以兼顧高層規劃與精細操控。

      針對這一問題,北京大學、香港中文大學與至簡動力團隊提出了全新的「生成–理解–動作」一體化模型 ManualVLA。



      • 論文題目:ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation
      • 論文鏈接:https://arxiv.org/abs/2512.02013
      • 項目主頁:https://sites.google.com/view/maunalvla


      https://mp.weixin.qq.com/s/5d8G8SHTagcJO8pKRZpI6A

      不同于 π0 等端到端模型在處理復雜長程任務時仍面臨的推理與執行割裂問題,ManualVLA 摒棄了將「高層次規劃」與「動作生成」拆分的傳統分層級聯方案,構建了全新通用基礎模型 Mixture-of-Transformers (MoT) 架構,在同一模型中統一多專家模塊,實現多模態生成與動作執行的緊密協同。

      首先由「規劃專家」生成由圖像、空間位置提示和文字說明組成的多模態操作說明書,再通過顯式與隱式相結合的「思維鏈」(ManualCoT)推理,將信息反饋給「動作專家」,為每一步操作提供清晰的顯式控制條件的同時,通過潛在表征為動作生成提供持續的隱式引導,實現理解與生成的高度統一。

      實驗結果表明,ManualVLA 在現實場景任務中表現出顯著優勢,其平均成功率相較于分層結構的最新基線方法提升約 32%,充分驗證了「生成手冊–指導動作」這一統一范式的有效性。

      一、研究背景與挑戰

      近年來,VLA 模型在機器人場景理解和泛化操作方面取得了顯著進展,推動了通用具身智能體的發展。但當面臨需要精確定義最終目標狀態的長周期任務,例如復雜的樂高組裝或物體重新排列時,現有模型仍然難以協調高級規劃與精確操作。

      這些任務主要面臨兩個核心難題:首先,VLA 模型必須執行精確操作以嚴格對齊預定義的最終場景或物體配置;其次,模型必須有效地將長周期規劃與細粒度控制相集成,同時保持對多樣化現實世界環境的泛化能力。

      現有的分層方法通過依賴人工制作說明書或人類演示視頻來模仿這種能力,然而,這些方法通常在泛化到未見過的最終目標狀態方面存在局限性,在系統復雜度、部署成本和泛化性之間難以取得兼顧,難以形成一個統一、可端到端訓練和部署的體系。

      二、ManualVLA 方法陳述

      為此,ManualVLA 讓模型學會「自己生成說明書,再按說明書去執行動作」。在推理階段,系統首先接收自然語言指令、當前場景圖像和最終目標圖像,由規劃專家生成包含關鍵步驟的多模態手冊:由文字描述指出要操控哪些物體以及要完成的子目標,像素級坐標給出目標物體在圖像中的精確位置,子目標圖像則展示子目標完成后的「預期畫面」。動作專家在閉環控制中執行這一子目標,直到達到預期狀態,再進入下一次手冊生成與執行。通過這種逐步推進的方式,原本困難的長時序任務被拆解為一系列可控、可解釋的短階段。



      ▲ 圖 1| (a) 諸如樂高拼搭或物體重排等具有預定義目標狀態的長程任務,對智能機器人構成了重大挑戰。(b) 為了解決此類任務,我們提出了 ManualVLA。這是一個基于 MoT 架構構建的統一 VLA 模型,它通過一種精心設計的「說明書思維鏈」(Manual Chain-of-Thought),實現了多模態手冊生成與動作生成之間的緊密協同。


      https://mp.weixin.qq.com/s/5d8G8SHTagcJO8pKRZpI6A

      架構設計

      ManualVLA 將 Janus-Pro 1B 拓展到 MoT 架構,形成統一 VLA 模型并集成「規劃專家」和「動作專家」,實現了多模態手冊生成和動作執行之間的連貫協作。

      • 規劃專家:處理圖像信息時,ManualVLA 采用了基于 VQ 的視覺分詞器 (VQ-based vision tokenizer),該分詞器遵循 VQ-GAN 的編碼器-量化器-解碼器架構,對子目標圖像進行離散化建模。
      • 動作專家:采用基于擴散去噪的方法進行動作建模,通過兩層 MLP 構建將噪聲動作注入動作專家的噪聲編碼器,以及用于從潛在表示中預測噪聲的噪聲解碼器。在動作生成的視覺輸入上,ManualVLA 采用了 SigLIP-large,從 384×384 輸入圖像中提取高維語義特征。

      ManualCoT 思維鏈機制

      該機制從顯式與隱式兩條路徑影響動作生成。

      • 顯式路徑:模型把規劃專家預測的目標位置以 visual prompt 形式疊加在當前圖像上,構成帶有明顯操作區域提示的「提示圖」,動作專家直接以此作為視覺輸入之一,仿佛在圖像上用熒光筆圈出了「請在這里操作」。
      • 隱式路徑:手冊生成時產生的內部特征——無論對應文字描述、坐標還是子目標圖像——都通過專門設計的注意力掩碼被動作專家讀取,相當于在看不見的空間中不斷提醒動作模塊「當前在做什么、應該做到什么程度、做完以后世界會是什么樣」。消融實驗表明,去掉任一路徑都會顯著降低長任務中的成功率,說明只有顯隱結合,才能兼顧精度與穩健性。



      ▲ 圖 2| (a) 該框架包含兩個專家模塊:負責生成多模態「說明書」的規劃專家,以及負責預測精確動作的動作專家。規劃專家處理人類指令、當前圖像和最終目標圖像,生成結合了下一步圖像、位置坐標和子任務指令的中間手冊。我們引入了一個顯式思維鏈 (Explicit CoT)推理過程,其中每個位置指示符都作為一個視覺提示 (Visual Prompt) 嵌入到動作專家的觀測輸入中。(b) 結合跨任務共享注意力機制和專門設計的 Attention mask,生成的「說明書」token 也被用作動作生成的條件信號,從而實現了一種能有效引導動作專家的隱式思維鏈 (Implicit CoT)推理過程。

      三階段訓練

      • 第一階段:基于互聯網機器人數據集,篩選與裝配和重排相關的軌跡,構建超過 40 萬條示例的預訓練集,只更新動作專家,學習抓取、搬運和放置技能。
      • 第二階段:利用基于三維高斯表示的數字孿生工具,對樂高板、單塊積木和常見桌面物體進行三維重建,在虛擬空間中反復隨機排列組合,自動渲染每個中間狀態的圖像并記錄對應的位置和文字描述模板,為每個任務合成上萬幀帶有精確標注的手冊數據,用于訓練規劃專家。
      • 第三階段:在真實雙臂平臺上通過遙操作采集每個任務 100 條專家示范軌跡,自動抽取關鍵幀生成與真實執行過程一致的手冊–動作配對,在此基礎上對規劃與動作兩個專家進行聯合微調,使模型在真實環境中的規劃–執行閉環更加貼合物理世界。



      ▲ 圖 3| 數字孿生示例 (a) 我們重建了 3D 高斯濺射表征,隨后將其分解為樂高底板和單個積木。(b) 我們逐步地將積木放置在底板上/將物體放置在盒子上。

      三、真機、模擬器、泛化性實驗

      真機實驗

      在 Franka 雙臂平臺上,ManualVLA 測試了三個需要明確目標狀態的長周期真實世界任務——2D 樂高組裝、3D 樂高組裝和物體重新排列。在手冊生成方面,規劃專家在 300 個未見過的測試樣本上生成了令人滿意的中間圖像(例如 2D 樂高組裝的 PSNR 達 29.01),低 FID 分數(例如物體重新排列為 24.46)證實了生成圖像的真實性和保真度,而極低的 MAE 分數(例如 2D 樂高組裝為 3.23)則突顯了模型在預測目標對象位置方面的精確性。



      ▲ 圖 5| 「規劃專家」逐步生成 ManualCoT「說明書」,Pred 指代模型生成的預測結果,GT 指代真實圖像。



      ▲ 表 1| 在三個長程任務上,ManualVLA 生成的中間目標圖像與 UV 坐標的質量的量化結果。

      動作生成結果

      ManualVLA 在所有三個真實世界長周期任務中均取得了最高成功率,相比最強的分層基線 (VLM + π0.5),最終任務完成率提高了 15% 到 30%,平均成功率高出 32%。基線模型通常難以在整個長序列中保持性能,但 ManualVLA 通過 ManualCoT 策略有效地將復雜任務分解并錨定到精確動作中,緩解了性能隨步驟數增加而下降的問題。


      https://mp.weixin.qq.com/s/5d8G8SHTagcJO8pKRZpI6A


      https://mp.weixin.qq.com/s/5d8G8SHTagcJO8pKRZpI6A



      ▲ 表 2| 我們使用 20 個模型均未見過的目標狀態進行測試,得到完成長程任務的操作成功率與關鍵中間步驟的成功率。

      仿真實驗

      ManualVLA 在 RLBench 的 10 個仿真任務上取得了 70% 的平均成功率,超越了 SOTA 方法 π0 的 63%,進一步驗證了 ManualCoT 策略在指導精確動作生成方面的優勢,在通用原子任務上也能表現出良好效果。



      ▲ 表 3| ManualVLA 與各 Baseline 模型在仿真環境 RLBench 上各項原子任務的成功率與方差。

      消融與泛化實驗

      消融實驗證明,說明書中所有模態信息(文本、圖像、UV 坐標)和隱式 CoT(潛在空間中的條件信號)推理對于解決長周期、目標明確的操作任務是不可或缺的,兩者結合才能達到最佳性能。同時,ManualVLA 在未見過的背景、物體形狀和光照變化下也表現出魯棒的泛化能力。



      ▲ 表 4| 我們探究了如下因素對任務成功率的影響:(a) 說明書中包含的信息;(b) 顯式與隱式的 ManualCoT 思維鏈機制;(c) MoT 架構與 action 生成范式。



      ▲ 表 5| 在明顯變化且模型未見過的背景、物體形狀和光照變化下,ManualVLA 的任務成功率。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美國做初一,我們就可做十五,直接攔截從美國運往臺島的軍售船只

      美國做初一,我們就可做十五,直接攔截從美國運往臺島的軍售船只

      安安說
      2025-12-14 11:19:31
      發現沒?凡是男人帶女人出去玩,女的都會穿裙子,你知道為什么嗎

      發現沒?凡是男人帶女人出去玩,女的都會穿裙子,你知道為什么嗎

      風起見你
      2025-12-16 15:52:02
      京東京造智能生態魚缸PRO預售,首發價259.9元

      京東京造智能生態魚缸PRO預售,首發價259.9元

      IT之家
      2025-12-16 16:09:11
      中央六提“漲工資”,所有央企還會“過苦日子”嗎?

      中央六提“漲工資”,所有央企還會“過苦日子”嗎?

      環球通信
      2025-12-18 20:12:56
      優信第三季營收8.8億:同比增77% 凈虧損為6070萬

      優信第三季營收8.8億:同比增77% 凈虧損為6070萬

      雷遞
      2025-12-18 17:35:09
      青島市人大常委會原主任王文華卸任8年被查,曾與“種樹市長”共事

      青島市人大常委會原主任王文華卸任8年被查,曾與“種樹市長”共事

      界面新聞
      2025-12-18 11:44:39
      美國致67死撞機事故細節曝光!直升機飛行員及空管均有失誤

      美國致67死撞機事故細節曝光!直升機飛行員及空管均有失誤

      南方都市報
      2025-12-18 10:58:12
      癲出新高度!比安卡穿乳膠衣,把自己扭成家具?網友:看不懂但大受震撼

      癲出新高度!比安卡穿乳膠衣,把自己扭成家具?網友:看不懂但大受震撼

      最黑科技
      2025-12-16 22:49:00
      別羨慕首富!馬斯克的生活你真過不了:博主親測3天,心態崩了

      別羨慕首富!馬斯克的生活你真過不了:博主親測3天,心態崩了

      報人劉亞東
      2025-12-16 16:04:56
      突然爆火!浙大博士在杭州花40萬元買車庫,一批年輕人跑來上班,沒工資卻天天加班到凌晨……

      突然爆火!浙大博士在杭州花40萬元買車庫,一批年輕人跑來上班,沒工資卻天天加班到凌晨……

      環球網資訊
      2025-12-17 17:49:28
      釣魚島駐軍:勢在必行的戰略抉擇

      釣魚島駐軍:勢在必行的戰略抉擇

      譚嘯箋
      2025-11-18 22:32:24
      人有沒有心梗,散步就知道?得心梗的人,散步常有這2個表現

      人有沒有心梗,散步就知道?得心梗的人,散步常有這2個表現

      健康科普365
      2025-12-18 10:01:25
      范志毅的英籍女兒:身材傲人,與國足馬鎮訂婚,跟繼母相處如閨蜜

      范志毅的英籍女兒:身材傲人,與國足馬鎮訂婚,跟繼母相處如閨蜜

      比利
      2025-12-19 01:27:05
      俄羅斯沒想到,美國更沒想到,如今的中國石油,成為石油遙遙領先

      俄羅斯沒想到,美國更沒想到,如今的中國石油,成為石油遙遙領先

      億通電子游戲
      2025-12-18 11:03:06
      美國囤銅抬價的報應!鋁價跟漲 , 中國手握主導權 , 輪到美國急著求饒

      美國囤銅抬價的報應!鋁價跟漲 , 中國手握主導權 , 輪到美國急著求饒

      花小貓的美食日常
      2025-12-18 15:39:28
      多國首腦即將趕到東京!高市早苗癟著嘴笑,全球已收到中國的通知

      多國首腦即將趕到東京!高市早苗癟著嘴笑,全球已收到中國的通知

      離離言幾許
      2025-12-18 12:08:38
      遼籃輸得太冤了?京遼大戰8次漏判13次錯判:楊鳴矛頭直指裁判?

      遼籃輸得太冤了?京遼大戰8次漏判13次錯判:楊鳴矛頭直指裁判?

      籃球快餐車
      2025-12-19 01:24:31
      元創股份深交所上市:9個月營收11億 市值52.7億

      元創股份深交所上市:9個月營收11億 市值52.7億

      雷遞
      2025-12-18 16:55:33
      50歲女士夜里翻身拿手機,突然失去知覺,確診癱瘓!罪魁禍首竟是它

      50歲女士夜里翻身拿手機,突然失去知覺,確診癱瘓!罪魁禍首竟是它

      上海女性
      2025-12-18 19:10:56
      蘇聯攻克柏林后,斯大林沒有選黃金,用3000列火車運走德國鐵疙瘩

      蘇聯攻克柏林后,斯大林沒有選黃金,用3000列火車運走德國鐵疙瘩

      古書記史
      2025-12-11 22:22:41
      2025-12-19 04:03:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11950文章數 142513關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽總決賽收官

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      本地
      手機
      游戲
      時尚
      公開課

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      手機要聞

      iPhone Air2再次被確認:升級雙攝+降價,只為存活下來!

      《巫火》仍堅持是單人游戲 沒有升級到虛幻5計劃

      陳妍希這婚,離晚了

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色窝窝免费一区二区三区| 国产成人精品三级麻豆| 在熟睡夫面前侵犯我在线播放| 日韩人妻中文无码一区二区七区| 99RE6在线观看国产精品| 浪荡干片网在线观看| 亚洲最大成人小说网| 粗大的内捧猛烈进出小视频| 8av国产精品爽爽ⅴa在线观看| 狠狠爱网站| 龙山县| 国产成人精品日本亚洲| 精品无码一区二区三区| 性欧美乱熟妇xxxx白浆| 东北露脸91| 国产人妻人伦精品1国产丝袜| 202丰满熟女妇大| 99re6在线视频精品免费| 26uuu亚洲| 顺义区| 国产女人高潮视频在线观看| 91久久性奴调教国产免费| 在线看片a| 亚洲精品在线成人| 国产白嫩护士被弄高潮| 岛国大片在线免费播放| 亚洲国产第六| 色欲人妻综合网| 无尺码精品产品视频| 无码中文字幕人妻在线一区| 日韩AV在线免费观看| 精品国产一区av天美传媒| 人人草人人做人人爱| 91你懂的| 万载县| 免费观看全黄做爰大片国产| 2020国产成人精品视频| 日日夜干| 一本色道综合久久欧美日韩精品| 无码一区二区| 婷婷四虎东京热无码群交双飞视频|