![]()
機器人前瞻(公眾號:robot_pro)
作者 江宇
編輯 漠影
機器人前瞻12月2日報道,今日,字節跳動Seed具身智能團隊發布最新成果強化訓練模型GR-RL,首次在真機條件下完成“整只鞋連續穿鞋帶”任務,并在這一精細操控場景中將成功率從45.7%提升至83.3%,減少了近70%的失敗情況。

▲ByteMini-v2完成“穿鞋帶”任務
與此前主要依靠模仿學習的路線不同,該成果采用了真機強化學習(Real-world Reinforcement Learning)的方式,通過多階段訓練框架提升機器人在長程任務中的穩定表現。
![]()
值得注意的是,今年7月22日,Seed團隊曾發布了通用機器人模型GR-3及雙臂移動機器人ByteMini,展示了其在泛化、新環境適應及柔性物體操作方面的能力。
本次研究則在長時程精細靈巧操作方向進一步推進,新一代雙臂輪式機器人ByteMini-v2也同步亮相。
![]()
▲上為ByteMini,下為ByteMini-v2
論文鏈接:https://arxiv.org/abs/2512.01801
項目主頁:https://seed.bytedance.com/gr_rl
一、從“看得懂”到“做得準”,穿鞋帶是通用模型失效的典型場景
Seed團隊將穿鞋帶設為驗證任務,是因為它集中體現了真實環境中的三類難點:柔性物體的不確定性、毫米級的穿孔精度、以及多步驟連續執行的穩定性。
鞋帶會隨牽引和摩擦即時改變狀態,孔徑較小,對抓取角度要求嚴格,機器人需要在持續的視覺反饋中調整動作。而整個過程可能持續數分鐘,每一次滑落、偏移或姿態變化,都可能影響后續動作。
Seed團隊發現,基于模仿學習、具有較強泛化能力的通用模型GR-3在這一任務上的表現也不穩定,他們將這種情況歸因于模仿學習的結構性限制。
一是人類演示數據存在“次優片段”,人類演示包含放慢、猶豫、嘗試與回退等片段,模型在學習過程中會一并吸收,從而產生“動作保守”“執行停頓”等行為;
二是訓練與推理存在“執行錯位”,訓練階段學到的是預測動作,而部署時執行的動作經過推理平滑、軌跡整形等處理,這種訓練與執行之間的偏移,在毫米級任務中會被放大。
這將導致:模型即使“理解”人類動作,而是在關鍵節點上缺乏連續性與決斷性,難以把任務高效完成。
二、GR-RL的核心思路:從篩掉“壞動作”開始,再讓機器人自己積累經驗
GR-RL并非簡單增加數據量或延長訓練時間,而是在結構上引入了一個額外的判別器網絡(Critic Transformer),用于判斷每一個動作片段的價值,對動作序列中每個時刻的動作都進行一次打分。
![]()
▲GR-RL的模型架構
Seed團隊在離線數據中標記出“演示重新開始”的關鍵幀,將其之前的片段視為負樣本,用于補足失敗數據來源。這樣做的目的,是讓模型在監督學習前先學會辨別哪些行為在后續執行中會導致失敗。
在此基礎上,Seed團隊使用時序差分方法訓練評估網絡,以動作后果作為回報信號,過濾掉質量較低的軌跡片段,保留較穩定的演示數據作為基礎策略。
![]()
▲評估模型評判采集軌跡片段的好壞
由于穿鞋帶涉及空間關系和左右協同動作,Seed團隊對圖像、機器人狀態及動作軌跡進行鏡像增強,使模型在雙臂協作中獲得對稱性理解,從而減少對單一演示路徑的依賴。
GR-RL訓練的第二階段發生在真實機器人上。Seed團隊采用導向強化學習方法,通過調整模型生成動作的隱空間噪聲,使其在實際探索中逐漸靠近更高回報的策略,而不是在關節層面隨機擾動。
![]()
▲ByteMini-v2機器人
為了防止模型“遺忘先前策略”或短期偏移,他們引入“雙緩沖池”策略,將歷史軌跡與最新軌跡分開存儲,訓練時按固定比例抽取,保證探索與穩定并行。
這種訓練方式的核心是在“允許模型犯錯”的前提下,讓它逐步形成適應真實環境的動作序列。
三、ByteMini-v2真機完成驗證,成功率階梯式提升
GR-RL的驗證是在雙臂輪式機器人ByteMini-v2上完成的。與初代相比,該機型保留了多自由度結構,并通過球形腕部關節獲得更靈活的局部動作空間,適合在狹窄區域完成旋轉與穿孔操作。
實驗使用稀疏獎勵策略,即任務完全完成才計分,其余情況均為0。這一設定避免了模型對局部中間狀態的過度依賴,也提高了對整體策略的約束。
實驗中,基線模型GR-3的成功率為45.7%。在離線數據過濾后,成功率提升至61.6%,加入鏡像增強后達到72.7%。
在此基礎上進行約150條真機探索后,最終成功率提升至83.3%。這種結果呈現出明顯的“階梯式”變化,與訓練流程中每一階段的作用對應。
![]()
▲左圖:多階段訓練實現階梯式成功率提升;右圖:在線強化學習的成功率變化曲線
在多輪實驗中,Seed團隊還觀察到任務執行過程中的行為變化。當鞋帶在穿孔過程中滑落時,模型會重新進行抓取或調整角度。當初始擺放夾帶阻礙時,模型會改變狀態再繼續執行任務。



▲面對失誤情況能自發重試,擺放位置別扭時會主動調整。
這些行為并非額外編碼,而是強化階段逐漸形成的策略表現。它們呈現為一種連續執行能力,而非記憶某一條“正確答案”。
結語:從實驗室到人類家庭,精細操作依然是具身智能的“門檻”
在數據驅動和模型擴大的推動下,具身智能已經能完成越來越多看得懂、能上手的任務。
但當機器人離開實驗室,走進真實家庭,面對穿鞋帶這種看似普通、卻涉及柔性物體、連續動作和高精度控制的任務時,通用模型的能力邊界就會暴露出來。
機器人不僅要看得清,還要在不斷的反饋中穩定執行任務,這一環節目前仍是最難被可靠解決的部分。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.