人形機器人走向實用,最難的從來不是 “能走”,而是走得穩、學得快、能從仿真順利落地現實。豐田未來創生中心,正用一套全新的強化學習 + Sim2Real 路線,讓旗下 CUE 籃球機器人實現行走、站立乃至運球。盡管CUE目前還不具備行走能力,但通過這套技術路線,有望把雙足控制與動態交互能力推到新高度。
![]()
左側:森田光典。右側:伊藤貴弘
近日,豐田官方采訪了 R-Frontier 部門的伊藤貴弘、森田光典兩位研發人員,披露了CUE人形機器人的最新進展。
伊藤貴弘現任豐田 R-Frontier 人形機器人團隊運動控制 / 全身動力學核心工程師、研究員,主攻雙足行走穩定、力矩控制與 MPC 模型預測控制,參與 T-HR3 及下一代人形平臺研發。加入豐田僅一年多,便成為運動控制方向核心研究者。
森田光典同為該團隊研究員,主攻機器人學習、行為生成與模仿學習,擅長從人類示范和大規模數據中學習通用操作技能,聚焦人形機器人手眼協調與靈巧操作。
01.
強化學習+Sim2Real:豐田機器人的動作訓練底層邏輯
伊藤貴弘認為,人形機器人要自主掌握復雜動作,強化學習是當下最有效的路徑。
它和監督學習不同,不需要大量標注好的完美軌跡,本質是讓 AI 在環境里不斷試錯,根據獎勵機制調整行為,最終收斂到最優策略。
![]()
實驗中使用的測試機的模擬環境(左圖)用于虛擬仿真訓練。使用實際設備(右圖)進行評估。
而讓這套方案真正具備工程價值的,是 Sim2Real(仿真到現實)。先在虛擬環境里讓機器人跑完海量場景與極端工況,再把訓練好的模型遷移到實體機器人上。這能大幅減少真機損耗、縮短訓練周期,也是目前全球人形機器人落地的主流技術路線。
豐田的思路和國內頭部人形機器人企業基本一致:用仿真補足數據不足,再靠產品迭代解決仿真偏差問題。
02.
走路這件事:仿真1-2小時學會,真機磨了無數輪
行走是人形機器人的基本功,卻是工程上的老大難。豐田團隊把強化學習完整嵌入行走控制。
他們在仿真里設置了很簡單的獎勵規則:朝著目標速度走就加分,滑倒、失衡就扣分。為了加快訓練,團隊直接在仿真中并行跑上千個機器人實例,同步學習、同步迭代。
測試結果顯示,只用 1–2 小時,虛擬機器人就學會了前進、后退、轉彎,能維持基本平衡。
但模型一搬到真機上,問題就立刻暴露出來。
森田光典坦言,仿真和現實之間存在一道很難跨越的鴻溝:同樣的控制指令,虛擬里流暢自然,真機上卻會抖動、拖腳,甚至突然失穩。這也是行業普遍頭疼的 “仿真-現實差距”。
為了填平差距,豐田研究團隊同時用了兩套技術方案。
![]()
Real2Sim:優化模擬器的執行器模型,使其與真實世界數據相匹配。
第一套是域隨機化:人為給編碼器、IMU 等傳感器加噪聲,隨機改變地面摩擦力,讓機器人在 “不完美環境” 里訓練,提升策略魯棒性。
第二套更硬核:Real2Sim 實物反哺仿真。用真機關節電機的實際運行數據,反向校準仿真模型。靜摩擦、動摩擦、粘性摩擦、轉動慣量,全都通過黑箱優化一一匹配,讓虛擬執行器的行為無限貼近真實硬件。
即便這樣,真機驗證仍是漫長的循環。
![]()
每訓一個新模型,都必須上真機測試。走不穩,就分析問題、改獎勵、重訓,再放回真機驗證。一圈圈迭代下來,原型機才真正實現穩定行走,甚至被推動時也能穩住姿態不摔倒。
03.
比走路更難的運球:時機轉瞬即逝,獎勵根本沒法手工調
如果說行走只是控制機器人自身,運球還要同時兼顧動態球體,難度直接上了一個臺階。
研發這項技術,主要是為豐田的 AI 籃球機器人 CUE 做鋪墊。CUE 最早由豐田工程師志愿者發起,后來歸入 R?Frontier 部門,是一款專用投籃機器人,主打高精度投射技術驗證,并非通用服務型機器人。它和 T?HR3 及下一代人形平臺共用底層運動控制技術,但定位不同。項目始于 2017 年,靈感來自《灌籃高手》,現已迭代到 CUE6。
![]()
CUE 身高約 2.08 米,依靠全身動力學、力矩控制、MPC 模型預測控制和 AI 視覺感知,實現籃筐定位、彈道計算與實時姿態修正,能完成罰球、三分甚至超遠投籃。憑借穩定的閉環控制,CUE 已拿下兩項吉尼斯紀錄:連續罰球 2020 次命中、24.55 米超遠投籃命中。
![]()
伊藤貴弘說,運球和行走的控制邏輯完全不一樣。行走時雙腳支撐的時機相對寬松,可運球時觸球只有一瞬間,時機稍差就失敗。球一直在動,不會等機器人,對感知、預判和控制精度要求極高。
團隊最先卡在獎勵函數設計上。森田光典表示,行走的獎勵機制有很多成熟參考,很好定義;但運球要控制球速、方向、持續接觸,手工設計獎勵不僅費勁,還容易讓動作僵硬不自然。人工反復調參,效率低、容錯也差。
![]()
他們最終放棄手工設計獎勵,改用模仿人類運動的思路。團隊用動作捕捉記錄人類自然運球的全過程,把關節角度、運動速度等數據映射到機器人的骨骼結構和運動范圍,以人類動作為參考目標。機器人動作越接近,獎勵越高。
這種方式不用設計復雜指標,還能直接從人體數據里拿到精準觸球時機,讓機器人在正確時間擊球。最終訓練出的運球動作流暢、接近人類,還能在真機上穩定復現。
04.
Sim2Real 運球再遇坎:視覺識別誤差險些毀掉全部訓練
運球環節,仿真到現實的遷移又遇到了新問題。
在仿真里,系統能直接拿到球的精準位置和速度;但現實中,機器人只能靠頭部攝像頭加識別算法去估算。誤差、延遲都會嚴重影響動作,導致仿真里完美的策略,一上真機就失靈。
![]()
團隊沒有死磕算法優化,而是選擇把現實誤差直接搬進仿真。
他們用動作捕捉測出真實環境里視覺識別的誤差和延遲,把這些特性寫進仿真的觀測模型,讓虛擬訓練環境和現實保持一致。這一調整后,運球動作終于成功從仿真遷移到真機。
05.
未來規劃:先落地 CUE,再打造通用機器人框架
對于后續計劃,伊藤貴弘表示,近期目標就是把行走和運球能力遷移到 CUE 籃球機器人上。先把整套學習框架部署到 CUE,實現穩定運球,再逐步提升動作的流暢度與觀賞性,接近人類籃球運動員的表現。
森田光典則看得更遠并表示:團隊會聚焦通用人形機器人控制框架,不只依賴強化學習,而是融合多種技術,打造能像人一樣應對多樣任務、適應復雜環境的通用平臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.