一個瓶蓋在機械手指間被旋轉、擰開,整個過程流暢得仿佛人手。但驅動這套動作的眼睛只是一個普通攝像頭,皮膚是成本不到250美元的觸覺傳感器。
![]()
長久以來,機器人專家深信不疑:要復現人手無與倫比的靈巧性,必須配備與之匹配的、同樣精密的感知系統,如高分辨率視覺、能繪制精細力場分布圖的觸覺傳感器。
然而,來自浙江大學等機構研究團隊發表在《Science Robotics》的最新研究《Visual-tactile pretraining and online multitask learning for humanlike manipulation dexterity》,以其徹底的降維方式給出顛覆性的答案。
![]()
![]()
研究團隊證明,僅依靠單目RGB攝像頭和提供二值觸覺信號的簡易觸覺傳感器,機器人手就能在擰瓶蓋、轉水龍頭、滑動杠桿等復雜任務中達到約85%的成功率,并能舉一反三,完成削鉛筆等未訓練任務。
更令人驚訝的是,這套感官系統的總成本僅約250美元。怎么實現的?一套邏輯:靈巧的關鍵或許不在于感官的高保真,而在于大腦如何理解并融合“感知”與“控制”。
▍硬件降級,為何能力躍升?
這一研究結果挑戰了機器人靈巧性領域的傳統認知。長久以來,學界和產業界的主流路徑是追求感知硬件的極致精密化。
為了讓機器人手更聰明,工程師們為其裝上多目立體視覺系統、高幀率相機,以及能感知微小壓力梯度的高密度觸覺傳感器陣列。
這套邏輯簡單直接:既然人類依靠精密的視覺和觸覺配合完成靈巧操作,那么給機器人更高清的“眼”和更敏感的“皮膚”,它理應做得更好。
然而,這條路徑成本高昂、系統復雜,且易受光照、遮擋干擾,遲遲未能讓機器人獲得可靠的日常物品操作能力。
這項新研究則反其道而行之,進行了一場“感官降級”實驗:將視覺輸入簡化為一個固定角度的普通攝像頭,將觸覺輸入簡化為分布在手指關鍵位置的20個二值開關(接觸為1,不接觸為0)。
![]()
結果出人意料:這套“低配”感知系統,在多指靈巧操作任務上的綜合表現,遠超同等條件下僅有高清視覺或僅有復雜觸覺的系統。
▍解耦“感知”與“控制”,模仿人腦分工
奧秘不在于傳感器本身,而在于處理傳感器信息的大腦。研究團隊從神經科學中獲得了核心靈感,為機器人構建了一個“仿生大腦”。這個大腦并非混沌一體,而是像人腦一樣,有著清晰的功能分區。
頂下小葉區域負責整合視覺與觸覺信息,運動皮層區域負責發出運動指令,兩者相對獨立又協同工作的。也就是說,我們并非直接用眼睛看到的像素去指揮肌肉,而是先由頂下小葉將多種感官信息融合成一個關于“手和物體正在發生何種交互”的抽象理解,再將這個理解傳遞給運動皮層生成動作。
研究團隊精準復現了這一“解耦”架構。他們設計了一個兩階段學習框架:
![]()
機器人系統完整學習流程示意圖
第一步,賦予它“知覺”。讓AI模型觀看海量人類佩戴觸覺手套操作物體的視頻。在此過程中,模型唯一的學習目標,是建立視覺畫面變化(如手部姿態、物體移動)與簡單觸覺信號(何時、何指發生接觸)之間的內在關聯。
這相當于讓AI自行領悟“當手指以某種姿勢接觸物體某處時,畫面通常會是什么樣子”。
第二步,訓練它“動手”。利用第一階段訓練好的成熟感知能力,“仿生大腦”在虛擬環境中專攻動作控制。這時,它接收到的已經是融合了視覺與觸覺意義的高級抽象信號,從而能更高效、更穩定地學會如何移動手指來完成特定任務。
這種分工明確的架構,被同期發表的評論文章盛贊為“方法論的革新” 。它避免了傳統方法中,智能體既要學怎么看懂世界,又要學怎么動手操作的混亂與低效,讓機器人學習變得像人類一樣,先理解,再行動。
▍250美元超低成本,多復雜任務成功率達85%
在嚴謹的實驗中,這套“降級感官+仿生大腦”的機器人手展現出全面而強大的優勢。
在五項核心靈巧任務(擰瓶蓋、擰水龍頭、滑動杠桿、桌面重定向、手中重定向)中,面對25個不同形狀、材質(包括光滑、透明)的物體,取得了平均約85%的成功率。
關鍵對比數據如下表所示:
![]()
![]()
這意味著,在大多數情況下,它都能像人類一樣流暢完成任務。
更關鍵的突破在于“舉一反三”。研究人員給了它三項從未練習過的“加試”:削鉛筆、擰螺絲、滑動零食包裝套。它居然成功完成了大部分嘗試。這說明它學會的并非一套死刻板公式,而是一種更接近本能的物理直覺,能夠將核心協調能力遷移到新場景中。
![]()
值得注意的是,系統對硬件也表現出極佳的兼容性。研究團隊測試了壓阻陣列、氣壓傳感等不同原理、不同分辨率的觸覺傳感器,策略均能良好運行。這得益于預訓練時對二值化閾值進行了隨機化處理,增強了系統的適應性。
![]()
這套系統的硬件核心均采用低成本商用組件,總成本僅約250美元,相比以往依賴數千美元高精度傳感器的方案,實現了數量級上的降低。
▍觸手可及的靈巧性革命
這項研究的深遠意義,在于它為機器人靈巧性的普及掃清了一個關鍵障礙——成本和復雜度。
它證明,無需等待造價數萬美金的高精尖傳感器成熟,利用現有的、低成本的感測組件,通過算法層面的革新,就能讓機器手獲得應對復雜物理世界的能力。
這極大地加速了靈巧機器人從實驗室走入倉庫、家庭、醫院乃至更廣闊天地的進程。當靈巧操作不再是一項昂貴的技術特權,而成為一種可大規模部署的基礎能力時,一場真正的機器人應用革命才將拉開序幕。
從追求感官的高保真,到致力于理解力的高智能,這條路看似迂回,卻可能正是讓機器人靈巧性變得“觸手可及”的最短路徑。
論文鏈接:https://www.science.org/doi/10.1126/scirobotics.ady2869
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.