哈嘍,大家好,今天小墨這篇評論,主要來分析北大ManualVLA模型憑啥碾壓傳統機器人,逆襲成特斯拉機器人勁敵。
在智能機器人領域,馬斯克的特斯拉機器人一直是行業焦點,憑借炫酷的外觀和自主行走能力圈粉無數。但很少有人知道,咱們國內的科研團隊已經實現了技術突破,讓機器人在復雜任務中的表現實現了質的飛躍。
![]()
![]()
現在的智能機器人在簡單任務中表現尚可,比如拿取物品、簡單清掃等,但遇到需要明確最終目標的長時序任務就露怯了。像樂高搭建、物體重排這類任務,對機器人的高層規劃和精細操控能力要求極高,傳統機器人很難兼顧。
![]()
據北大科研團隊成員在近期學術分享會上透露,之前他們做過一組對比實驗,讓傳統分層架構機器人組裝2D樂高,機器人要么搞錯積木拼接順序,要么精準度不夠導致積木脫落,最終成功率只有40%。更頭疼的是,傳統機器人還依賴人工制作的操作說明書或人類演示視頻,遇到沒見過的目標狀態就徹底“罷工”。
這種“規劃與執行割裂”的問題,成了制約智能機器人走向實用的最大瓶頸,也讓很多科研團隊束手無策。而這一痛點,恰恰被北大團隊精準抓住并攻克。
![]()
![]()
北大團隊提出的全新「生成–理解–動作」一體化模型ManualVLA,最核心的創新就是摒棄了傳統分層級聯方案,讓機器人學會“自己生成說明書,再按說明書執行動作”。這一思路徹底解決了規劃與執行割裂的問題。
![]()
51CTO報道中提到了一個具體的研發細節,在模型訓練階段,科研團隊為了讓規劃專家精準生成說明書,利用三維高斯數字孿生工具,對樂高板、積木等物體進行三維重建。
在虛擬空間中反復排列組合,自動渲染中間狀態圖像并記錄相關數據,最終合成了上萬幀帶有精確標注的手冊數據。通過這種方式,規劃專家才能精準預判每一步操作的目標和位置。
![]()
更厲害的是ManualCoT思維鏈機制,它從顯式和隱式兩條路徑引導動作執行。顯式路徑會在圖像上標注出操作區域,就像用熒光筆圈出重點;隱式路徑則通過內部特征持續提醒動作模塊當前進度和目標,確保操作不跑偏。
![]()
實驗室的創新最終要靠實驗驗證,ManualVLA模型在Franka雙臂平臺上的表現堪稱驚艷。科研團隊選取了2D樂高組裝、3D樂高組裝、物體重排三個真實世界長周期任務進行測試,結果顯示,模型在所有任務中均取得最高成功率。
![]()
其中在3D樂高組裝任務中,傳統基線模型成功率只有45%,而ManualVLA模型直接提升到72%,就算是沒見過的目標狀態,也能精準完成組裝。在物體重排任務中,模型生成的中間圖像保真度極高,位置預測誤差極低,充分證明了其精確性。
值得一提的是,該模型還具備很強的泛化能力。在未見過的背景、物體形狀和光照變化環境下,依然能保持較高的任務成功率。
![]()
據北大團隊透露,目前他們已與國內多家智能制造企業對接,計劃將該技術應用到電子元件組裝、精密儀器檢測等場景。
除了真機實驗,ManualVLA模型在仿真環境中也表現出色。在RLBench的10個仿真任務上,模型取得了70%的平均成功率,超越了SOTA方法π0的63%,進一步驗證了技術的通用性和可靠性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.