網易首頁 > 網易號 > 正文申請入駐

模仿學習如何賦能靈巧操作？這有一份「2021-2025」全景技術圖譜

2026-04-07 13:23:01　來源: 機器之心Pro

河北舉報

分享至

作者團隊涵蓋天津大學、山東大學、KTH、ETH、MIT、南方科技大學、北京通用人工智能研究院和中科院自動化所等機構，在機器人學習、靈巧操作、多模態感知等方向具有持續研究積累。

靈巧操作（Dexterous Manipulation）要求機器人通過多指末端執行器完成抓取、旋擰、插拔等精細任務，其核心挑戰在于高維動作空間、復雜接觸動力學與實時力控的耦合。傳統模型依賴方法難以泛化至未見過物體與場景，而純強化學習又面臨樣本效率低、獎勵設計難等瓶頸。

與強化學習通過試錯優化獎勵信號不同，模仿學習（Imitation Learning, IL）通過直接從人類示范中捕獲細粒度協調行為，避免顯式建模復雜接觸動力學與設計稀疏獎勵函數，為靈巧操作提供了一條數據驅動的新路徑。

然而，該領域研究長期分散于不同數據范式、算法框架與硬件平臺，缺乏系統性整合。近期，來自天津大學、山東大學、KTH、ETH、MIT、上海交通大學、南方科技大學、北京通用人工智能研究院和中科院自動化所的綜述論文《Dexterous Manipulation through Imitation Learning: A Survey》首次對這一方向進行了全景式梳理，涵蓋 2021–2025 年關鍵進展，旨在為研究人員提供模仿學習靈巧操作領域的全面視角。

論文標題：Dexterous Manipulation Through Imitation Learning: A Survey
論文鏈接：https://ieeexplore.ieee.org/document/11305224/

該綜述指出，模仿學習的核心價值在于避免顯式建模與大規模試錯，直接利用人類示范數據學習策略。但其有效應用依賴高質量數據、適配算法、可靠硬件與標準化評估的協同。

理論支撐

從認知科學到優化理論的跨學科根基

模仿學習在靈巧操作中的有效性并非經驗巧合，而是植根于多層級理論體系。在認知層面，Bandura 的社會學習理論為「觀察 - 模仿」范式提供了行為學依據，而靈長類鏡像神經元的發現則從神經機制上解釋了動作觀察與執行的表征共享現象。

在控制層面，內部模型理論（internal model theory）與最優反饋控制框架為策略的預測 - 校正閉環設計提供了數學工具，例如 DMP（Dynamic Movement Primitives）通過微分方程參數化運動基元，實現了對人類示范軌跡的緊湊表征與泛化生成。

在優化層面，行為克隆的負對數似然目標、逆強化學習的特征計數匹配約束、以及對抗模仿的 Jensen-Shannon 散度最小化，均對應明確的統計學習理論保證，這為算法收斂性與樣本復雜度分析奠定了基礎。

數據資源

從遙操作到互聯網規模弱監督

高質量示范數據是模仿學習的基礎。早期工作依賴遙操作或動作捕捉系統，代表性數據集如 BridgeData V2、RH20T 提供 RGB-D 視覺、關節狀態、力 / 扭矩等多模態同步記錄。近年研究轉向更具可擴展性的范式：

高保真幾何建模：ARCTIC 數據集通過手 - 物網格重建，實現復雜交互幾何的精確建模；
雙手協同標注：OAKINK2 聚焦雙人操作，提供多視角 3D 姿態標注，支持對稱 / 非對稱任務學習；
合成與增強技術：MimicGen 利用幾何 - 語義一致性約束從少量演示生成物理合理軌跡；RoboAgent 通過視頻語義擴展動作多樣性；
弱監督視頻學習：VideoDex、NIL 等方法嘗試從互聯網未標注操作視頻中提取策略，推動靈巧操作向無監督學習演進。

主流靈巧操作數據集對比

模仿學習數據集質量評估規則

學習方法

行為克隆的演進與多模態融合

模仿學習范式持續多樣化，核心進展包括：

行為克隆改進：Implicit Behavioral Cloning 通過能量模型捕獲多模態動作分布；Diffusion Policy 利用擴散模型生成高維連續動作，其迭代去噪機制可有效建模動作分布的多峰特性與時序依賴，在插拔、旋擰任務中展現優越性能；
對抗模仿魯棒性：GA-GAIL 引入任務目標引導判別器訓練，提升對噪聲 / 次優示范的魯棒性；
視頻驅動學習：按技術路線分為運動中心建模（DexMV）、合成視頻生成（Gen2Act）、表征學習（Ag2Manip）與任務定制架構（Bi-KVIL）四類，后者通過顯式建模雙手協調關系提升復雜環境復現能力；
觸覺 - 視覺融合：新一代觸覺傳感器（GelSight、TacTip）提供高分辨率接觸信息，與視覺形成互補。觸覺信號可檢測視覺遮擋下的微滑移與接觸力變化，為策略提供冗余感知通道；ViTacFormer、KineDex 等工作實現跨模態特征融合，使策略在低光照或遮擋條件下仍能穩定執行。

模仿學習方法分類體系

不同模仿學習方法的比較

基于視頻的靈巧操作模仿學習方法分類

硬件平臺

從靈巧手到人形本體

目前，靈巧手的設計正從高成本、封閉式工業系統向低成本、開源化、模塊化方向演進。

Shadow Dexterous Hand 以 24 自由度和高精度力控，長期作為高保真遙操作的黃金標準；LEAP Hand 憑借簡易制造工藝與良好運動性能，已成為大規模模仿學習實驗的常用平臺；Linker Hand L20 采用連桿驅動設計，每個手指配備 4 個電機，工作空間與指尖力接近人類手，在高靈巧性工業應用與學術研究中廣泛使用；Allegro Hand 采用直接驅動，結構緊湊且響應迅速；BarrettHand 通過欠驅動實現自適應抓取，在工業場景中廣泛應用；而 DLR/HIT Hand II 等早期平臺則為多指力控與傳感集成提供了重要參考。這些硬件進步降低了研究門檻，也為算法與物理世界的緊密耦合創造條件。

三種末端執行器在靈巧操作中的性能比較

代表性機器人手的關鍵特征

靈巧策略的部署效能高度依賴本體構型，除靈巧手外，整體硬件平臺同樣不可忽視。論文指出，高自由度人形平臺（如配備 Shadow Hand 的雙臂系統）雖能復現精細手指運動，但其動作空間維度激增會加劇模仿學習的分布偏移風險；而輕量化本體（如 LEAP Hand+ 移動基座）通過結構簡化降低策略學習難度，卻可能犧牲復雜任務的執行能力。

更關鍵的是，本體動力學特性（如關節摩擦、傳動遲滯、質量分布）會引入示范數據與實機執行間的系統誤差，這要求策略設計必須考慮「感知 - 決策 - 執行」鏈路的端到端魯棒性。近期工作如 Mobile ALOHA 通過 whole-body teleoperation 采集全身協同數據，正是為了彌合「手部策略」與「全身運動」間的表征鴻溝。

靈巧操作操作系統

算法落地的工程接口

「操作系統」指支撐策略執行的基礎軟件棧與任務調度框架。論文指出，分層模仿學習框架需通過高層任務分解與底層動作執行的解耦，實現長時程任務的穩定復現；而遙操作數據采集系統則依賴 ROS-native 接口、多傳感器時間同步協議及低延遲通信中間件，確保示范軌跡的時空一致性。

此外，為解決跨平臺復現難題，綜述呼吁社區共建標準化部署環境，包括統一的仿真參數配置、硬件抽象層接口及評估指標注冊表，以降低「代碼可跑」與「結果可復現」之間的鴻溝。

評估協議

標準化 benchmark 的迫切需求

當前靈巧操作評估存在顯著瓶頸：多數研究在私有任務或特定平臺驗證，任務定義（如成功判定閾值）、評價指標（如軌跡誤差 / 任務完成率 / 能耗）、硬件依賴（如是否要求特定靈巧手型號）缺乏統一標準，難以實現跨方法、跨平臺的公平比較。

綜述呼吁社區共建標準化 benchmark，涵蓋插拔、旋擰、穿線、布料操作等典型任務，并引入物理可行性、能耗、失敗恢復率等綜合指標。

靈巧操作關鍵挑戰的重要性與解決難度矩陣

總結與展望

本綜述不僅提供技術地圖，更指出未來方向：算法需降低對特定硬件 / 環境的依賴，提升跨平臺遷移能力；評估體系亟需標準化以支持公平比較；研究重心正從單次短時任務轉向長期交互與多技能組合，要求系統具備分層規劃、在線適應與任務組合能力。

靈巧操作的價值在于賦能具身智能體完成復雜物理交互。從家庭服務到工業裝配，具備類人手部靈活性的機器人將拓展人工智能應用邊界。本綜述為此領域研究者提供了一幅清晰、系統且面向未來的全景圖譜。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.