![]()
“RoboBrain-Dex:多源自我中心訓(xùn)練用于集成靈巧視覺-語言-行動模型”。
靈巧手遙操作目前為止仍然是機器人技術(shù)中最具挑戰(zhàn)性的前沿領(lǐng)域之一。盡管視覺-語言-動作模型在通用機器人能力方面表現(xiàn)出很大潛力,但其面臨一個關(guān)鍵瓶頸:靈巧手技能的大規(guī)模學(xué)習(xí)、動作注釋數(shù)據(jù)稀缺。傳統(tǒng)遙操作方法成本高且耗時,而現(xiàn)有的人類運動數(shù)據(jù)集則存在視角依賴、遮擋和捕獲環(huán)境受限等問題,這限制了它們在機器人訓(xùn)練中的應(yīng)用。
北京大學(xué)和北京人工智能學(xué)院的研究人員開發(fā)了RoboBrain-Dex,這是一個通過利用MANUS數(shù)據(jù)手套來克服這些數(shù)據(jù)收集挑戰(zhàn)的靈巧手操作的突破性視覺-語言-動作模型。其工作展示了高保真手部追蹤如何實現(xiàn)大規(guī)模、多源的自我中心數(shù)據(jù)集的創(chuàng)建,這些數(shù)據(jù)集將人類和機器人操作緊密聯(lián)系在一起。
便攜式、高保真大規(guī)模數(shù)據(jù)收集
RoboBrain-Dex 研究團隊構(gòu)建了Ego Atlas,一個綜合的多源自我中心數(shù)據(jù)集,將人類和機器人操作數(shù)據(jù)統(tǒng)一在一個動作空間下。其數(shù)據(jù)收集基礎(chǔ)設(shè)施的核心:MANUS Quantum Metagloves 可捕捉每只手的所有25個手關(guān)鍵點的精確3D位置。
![]()
與受限于捕捉體積和遮擋問題的基于相機或VR追蹤系統(tǒng)不同,MANUS手套追蹤系統(tǒng) 實現(xiàn)了便攜、隨時隨地的動作捕捉。結(jié)合VIVE追蹤器進行6自由度手腕姿態(tài)追蹤,該系統(tǒng)提供了手部定位,同時保持指尖級的精度。這種方法消除了視角依賴性,并能夠在各種真實環(huán)境下收集數(shù)據(jù),這對于構(gòu)建用于穩(wěn)定的VLA模型訓(xùn)練所需的規(guī)模和多樣化的數(shù)據(jù)集至關(guān)重要。
從人類演示到機器人控制
由MANUS手套捕獲的高保真運動數(shù)據(jù)在RoboBrain-Dex管道中起到了雙重作用。對于人類演示,手套記錄了自然的操縱行為,為學(xué)習(xí)機器人動作提供了豐富的先驗知識。對于機器人遠程操作,相同的手套追蹤系統(tǒng)實現(xiàn)了精確控制:通過逆運動學(xué)將手腕姿勢轉(zhuǎn)換為機器人手臂配置,而指尖軌跡通過基于IK的重新目標映射到靈巧手關(guān)節(jié)空間。
![]()
這種無縫的人機翻譯對于收集補充RoboBrain-Dex人類數(shù)據(jù)集的機器人演示數(shù)據(jù)至關(guān)重要。研究人員成功地將這種遠程控制方法應(yīng)用于配備Inspire 6-DoF靈巧手的Unitree G1人形機器人上,收集了高質(zhì)量的多種操作任務(wù)演示數(shù)據(jù)。
推動該領(lǐng)域發(fā)展的成果
基于由MANUS手套支持的多源第一人稱數(shù)據(jù),RoboBrain-Dex在六個真實世界的靈巧操作任務(wù)中實現(xiàn)了超高的平均成功率。該模型在分布外場景中表現(xiàn)出色。
RoboBrain-Dex模型代表了一個重要的轉(zhuǎn)變,通過數(shù)據(jù)采集設(shè)備MANUS的毫米級手部追蹤精度和便攜、可擴展的部署訓(xùn)練機器人靈巧手更加貼合真實人類操作。隨著具身人工智能繼續(xù)向人類水平的操縱能力發(fā)展,高保真第一人稱數(shù)據(jù)采集設(shè)備仍然是彌合人類靈巧度與機器人智能之間差距的基礎(chǔ)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.