擰螺絲、緊螺母,這些人類看似輕松的精細操作,對機器人來說卻是巨大挑戰。復雜的接觸面摩擦、難以預判的螺紋咬合,再加上指尖觸覺反饋的精準模擬難題,讓機器人在這類接觸密集型任務中屢屢受挫。
![]()
加州大學伯克利分校的研究團隊給出了一套全新解決方案——DexScrew框架。它跳出了“必須高保真仿真”的思維定式,用簡化仿真學核心技能,靠真實世界數據補全細節,最終讓機器人在無視覺依賴的情況下,憑借觸覺和時序信息,精準完成螺母螺栓緊固與螺絲刀操作,甚至能應對未見過的零件形狀和外部干擾。
▍三步流程:從簡化仿真到真實操作的完整落地
![]()
研究方法概述
第一步:簡化仿真中練出“核心旋轉技能”
研究團隊沒有在仿真中復刻螺母、螺絲刀的復雜細節,而是做了極致簡化:把螺母簡化成厚三角形,把螺絲刀手柄簡化成球形或多邊形,通過旋轉關節和固定底座連接。這種設計完全忽略螺紋結構和復雜摩擦,只保留“旋轉”這一核心動作需求。
![]()
簡化物體模型。每個螺母或手柄均被建模為一個剛體,通過旋轉關節與固定底座相連。這種抽象建模方式忽略了螺紋層面的力學特性,同時保留了學習過程中所需的核心旋轉動力學特征。
之所以這么設計,是因為團隊發現:機器人操作這類零件的關鍵,是掌握手指的旋轉步態(比如拇指和食指如何交替用力),而這種核心運動模式,不需要依賴高保真仿真。簡化模型能讓強化學習快速收斂,還能避免機器人學到依賴仿真細節的“壞毛病”——比如厚三角形螺母的設計,就是為了防止機器人學會“從底部用力頂”這種在真實世界中行不通的動作。
訓練時,團隊采用了“先知策略+感官運動策略”的兩步法。先知策略能獲取仿真中的全部“內幕信息”,包括零件的質量、摩擦系數、手指位置等97維數據,快速找到最優旋轉動作;之后再通過蒸餾技術,把這些技能轉移到感官運動策略中,讓它僅靠關節運動歷史就能完成動作,為后續真實世界部署做準備。
為了提升魯棒性,訓練過程中還加入了域隨機化——隨機調整零件的質量、尺寸、摩擦系數,甚至加入微小的外力干擾,讓策略在仿真中就具備應對變化的能力。
第二步:遙操作收集真實世界“多感官數據”
仿真訓練的策略雖然能完成旋轉動作,但缺少真實世界的物理反饋和觸覺信息,無法應對螺紋咬合等實際情況。這一步的核心,是用仿真學到的技能當“助手”,降低人類遙操作的難度,高效收集真實數據。
![]()
遙操作界面:操作人員通過VR控制器的按鍵控制腕部位置,并借助操縱桿調節偏航角與俯仰角。該設置使操作人員能夠在數據收集過程中引導機械臂運動,同時依托已習得的手指旋轉技能完成精細操作。
團隊設計了一套技能輔助遙操作系統:人類操作員不用控制每個手指的關節,只需通過VR手柄控制機器人手臂的腕部位置(比如上下移動、調整角度),并在合適時機觸發仿真訓練好的“手指旋轉技能”。簡單說,人類負責“對準位置”,機器人負責“精細擰動”。
這種方式極大降低了操作門檻,操作員不用糾結于手指的復雜協調,能快速收集大量高質量數據。數據收集過程中,系統會同步記錄兩部分關鍵信息:一是機器人的關節運動數據(包括手部12個關節和手臂6個關節的位置),二是指尖的觸覺信號——每個指尖有120個壓力傳感單元,能捕捉三軸方向的微小力變化,最小可檢測0.05N的力,相當于一根頭發的重量。
最終,團隊為螺母螺栓任務收集了50條軌跡(每條約80秒),為螺絲刀任務收集了72條軌跡(每條120-180秒),構建了包含運動和觸覺的多感官數據集。
第三步:行為克隆訓練“精準觸覺策略”
有了真實世界的多感官數據,接下來就是訓練能落地的最終策略。團隊采用行為克隆(BC)方法,讓機器人“模仿”遙操作中的成功動作,同時融入觸覺反饋和時序信息,提升精準度和魯棒性。
策略的神經網絡設計很有針對性:輸入過去5個時間步的關節運動數據和觸覺信號,輸出未來16個時間步的動作序列。這種“預測未來動作”的設計,能讓機器人更好地把握動作的連貫性,避免單次決策的偏差。
觸覺信號的處理是關鍵:先將5個手指、每個手指120個單元、三軸方向的信號扁平化,通過神經網絡提取特征,再和關節運動數據融合。這樣一來,機器人能通過觸覺判斷是否打滑、是否對準,及時調整腕部角度或手指力度。
訓練過程中,用均方誤差損失函數讓預測動作盡可能貼近真實遙操作動作,經過200個epoch的訓練,最終得到兼具穩定性和泛化能力的策略。值得一提的是,整個策略完全不依賴視覺,即便在昏暗或遮擋環境中也能正常工作。
▍實測效果:跨形狀泛化,抗干擾能力拉滿
團隊在UR5e機械臂+12自由度XHand靈巧手上做了全面測試,覆蓋螺母螺栓緊固和螺絲刀操作兩大任務,結果遠超傳統方法。
▍螺母螺栓任務:四種形狀全拿下,觸覺是關鍵
測試用了方形、三角形、六邊形、十字形四種螺母,其中六邊形和十字形是訓練中沒見過的“新形狀”,專門用來考驗泛化能力。
![]()
真實世界緊固性能測試結果
結果顯示,融合觸覺和時序信息的DexScrew策略表現最佳:所有螺母的緊固進度比都超過95%,十字形螺母更是達到98.75%,平均完成時間在75-125秒之間。對比之下,沒有觸覺的策略在三角形螺母上的進度比只有30%左右,即便有了時序信息,也難以穩定完成操作。
關鍵原因在于,觸覺能幫機器人快速糾錯:當螺母輕微錯位或打滑時,指尖觸覺信號會立刻變化,策略會及時調整腕部orientation 或施加向下的校正力,重新建立穩定接觸;而沒有觸覺的策略,一旦錯位就會持續失效,無法恢復。
▍螺絲刀任務:攻克打滑難題,穩定性碾壓基線
螺絲刀操作比螺母螺栓更難——刀桿沒有沿螺絲軸線的約束,稍微傾斜就會打滑,且螺絲刀與螺絲的咬合關系極難仿真。
測試結果顯示,傳統直接仿真到現實的策略,進度比只有41.6%,從未完成一次完整擰緊;專家數據回放的進度比也只有50.8%,無法適應部署時的細微變化。
![]()
真實世界螺絲刀操作性能
![]()
觸覺信息對操作模式的影響
而DexScrew策略在融合觸覺和時序信息后,進度比飆升至95%,平均完成時間僅187.87秒。可視化顯示,有觸覺的策略能維持拇指和食指的交替接觸模式,始終牢牢“抓”住螺絲刀手柄;沒有觸覺的策略則頻繁出現接觸不穩定、刀桿偏移,最終導致操作失敗。
▍抗干擾測試:外力拖拽、反向旋轉都能恢復
團隊還測試了策略的抗干擾能力:故意用外力拖拽機器人手指,或反向旋轉螺母、螺絲刀。
![]()
策略抗干擾恢復性能
結果顯示,DexScrew策略能快速調整——被拖拽后會重新定位手指和腕部,恢復穩定接觸;遇到反向旋轉時,會先穩住姿態,再重新啟動正確的旋轉方向,全程不會中斷任務。
▍消融實驗:這些設計缺一不可
為了驗證各組件的作用,團隊在仿真中做了對比實驗。
特權信息很重要:訓練時給策略提供零件質量、摩擦系數等“內幕信息”,能讓episode獎勵大幅提升,沒有這些信息的策略,性能會明顯下降;
時序信息是補充:僅靠單次觀測的策略,難以判斷零件形狀和旋轉進度,加入過去5個時間步的歷史數據后,泛化能力顯著提升;
觸覺是核心:在復雜形狀或易打滑的場景中,觸覺反饋能讓進度比提升30%以上,是穩定完成任務的關鍵。
![]()
螺絲刀操作策略訓練的仿真消融實驗
這些結果證明,DexScrew的三步流程、觸覺+時序信息融合的設計,不是多余的“疊加”,而是相互支撐的核心競爭力。
▍結語與未來:
DexScrew的突破,不僅在于解決了擰螺絲、緊螺母這兩個具體任務,更在于提供了一套“低成本、可擴展”的靈巧操作落地方案。它不追求完美仿真,而是用“簡化仿真學技能+真實數據補細節”的思路,避開了傳統方法的短板,讓普通實驗室也能訓練出高性能的靈巧操作策略。同時,它驗證了觸覺反饋在接觸密集型任務中的不可替代性,為后續機器人在工業裝配、家庭服務、精密制造等領域的應用打下了基礎。
論文鏈接:https://arxiv.org/pdf/2512.02011
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.