網易首頁 > 網易號 > 正文申請入駐

豐田CUE機器人新進展：通過強化學習+Sim2Real，走路、運球新技能

2026-04-07 10:48:14　來源: 機器人大講堂

安徽舉報

分享至

人形機器人走向實用，最難的從來不是 “能走”，而是走得穩、學得快、能從仿真順利落地現實。豐田未來創生中心，正用一套全新的強化學習 + Sim2Real 路線，讓旗下 CUE 籃球機器人實現行走、站立乃至運球。盡管CUE目前還不具備行走能力，但通過這套技術路線，有望把雙足控制與動態交互能力推到新高度。

左側：森田光典。右側：伊藤貴弘

近日，豐田官方采訪了 R-Frontier 部門的伊藤貴弘、森田光典兩位研發人員，披露了CUE人形機器人的最新進展。

伊藤貴弘現任豐田 R-Frontier 人形機器人團隊運動控制 / 全身動力學核心工程師、研究員，主攻雙足行走穩定、力矩控制與 MPC 模型預測控制，參與 T-HR3 及下一代人形平臺研發。加入豐田僅一年多，便成為運動控制方向核心研究者。

森田光典同為該團隊研究員，主攻機器人學習、行為生成與模仿學習，擅長從人類示范和大規模數據中學習通用操作技能，聚焦人形機器人手眼協調與靈巧操作。

01.

強化學習+Sim2Real：豐田機器人的動作訓練底層邏輯

伊藤貴弘認為，人形機器人要自主掌握復雜動作，強化學習是當下最有效的路徑。

它和監督學習不同，不需要大量標注好的完美軌跡，本質是讓 AI 在環境里不斷試錯，根據獎勵機制調整行為，最終收斂到最優策略。

實驗中使用的測試機的模擬環境（左圖）用于虛擬仿真訓練。使用實際設備（右圖）進行評估。

而讓這套方案真正具備工程價值的，是 Sim2Real（仿真到現實）。先在虛擬環境里讓機器人跑完海量場景與極端工況，再把訓練好的模型遷移到實體機器人上。這能大幅減少真機損耗、縮短訓練周期，也是目前全球人形機器人落地的主流技術路線。

豐田的思路和國內頭部人形機器人企業基本一致：用仿真補足數據不足，再靠產品迭代解決仿真偏差問題。

02.

走路這件事：仿真1-2小時學會，真機磨了無數輪

行走是人形機器人的基本功，卻是工程上的老大難。豐田團隊把強化學習完整嵌入行走控制。

他們在仿真里設置了很簡單的獎勵規則：朝著目標速度走就加分，滑倒、失衡就扣分。為了加快訓練，團隊直接在仿真中并行跑上千個機器人實例，同步學習、同步迭代。

測試結果顯示，只用 1–2 小時，虛擬機器人就學會了前進、后退、轉彎，能維持基本平衡。

但模型一搬到真機上，問題就立刻暴露出來。

森田光典坦言，仿真和現實之間存在一道很難跨越的鴻溝：同樣的控制指令，虛擬里流暢自然，真機上卻會抖動、拖腳，甚至突然失穩。這也是行業普遍頭疼的 “仿真-現實差距”。

為了填平差距，豐田研究團隊同時用了兩套技術方案。

Real2Sim：優化模擬器的執行器模型，使其與真實世界數據相匹配。

第一套是域隨機化：人為給編碼器、IMU 等傳感器加噪聲，隨機改變地面摩擦力，讓機器人在 “不完美環境” 里訓練，提升策略魯棒性。

第二套更硬核：Real2Sim 實物反哺仿真。用真機關節電機的實際運行數據，反向校準仿真模型。靜摩擦、動摩擦、粘性摩擦、轉動慣量，全都通過黑箱優化一一匹配，讓虛擬執行器的行為無限貼近真實硬件。

即便這樣，真機驗證仍是漫長的循環。

每訓一個新模型，都必須上真機測試。走不穩，就分析問題、改獎勵、重訓，再放回真機驗證。一圈圈迭代下來，原型機才真正實現穩定行走，甚至被推動時也能穩住姿態不摔倒。

03.

比走路更難的運球：時機轉瞬即逝，獎勵根本沒法手工調

如果說行走只是控制機器人自身，運球還要同時兼顧動態球體，難度直接上了一個臺階。

研發這項技術，主要是為豐田的 AI 籃球機器人 CUE 做鋪墊。CUE 最早由豐田工程師志愿者發起，后來歸入 R?Frontier 部門，是一款專用投籃機器人，主打高精度投射技術驗證，并非通用服務型機器人。它和 T?HR3 及下一代人形平臺共用底層運動控制技術，但定位不同。項目始于 2017 年，靈感來自《灌籃高手》，現已迭代到 CUE6。

CUE 身高約 2.08 米，依靠全身動力學、力矩控制、MPC 模型預測控制和 AI 視覺感知，實現籃筐定位、彈道計算與實時姿態修正，能完成罰球、三分甚至超遠投籃。憑借穩定的閉環控制，CUE 已拿下兩項吉尼斯紀錄：連續罰球 2020 次命中、24.55 米超遠投籃命中。

伊藤貴弘說，運球和行走的控制邏輯完全不一樣。行走時雙腳支撐的時機相對寬松，可運球時觸球只有一瞬間，時機稍差就失敗。球一直在動，不會等機器人，對感知、預判和控制精度要求極高。

團隊最先卡在獎勵函數設計上。森田光典表示，行走的獎勵機制有很多成熟參考，很好定義；但運球要控制球速、方向、持續接觸，手工設計獎勵不僅費勁，還容易讓動作僵硬不自然。人工反復調參，效率低、容錯也差。

他們最終放棄手工設計獎勵，改用模仿人類運動的思路。團隊用動作捕捉記錄人類自然運球的全過程，把關節角度、運動速度等數據映射到機器人的骨骼結構和運動范圍，以人類動作為參考目標。機器人動作越接近，獎勵越高。

這種方式不用設計復雜指標，還能直接從人體數據里拿到精準觸球時機，讓機器人在正確時間擊球。最終訓練出的運球動作流暢、接近人類，還能在真機上穩定復現。

04.

Sim2Real 運球再遇坎：視覺識別誤差險些毀掉全部訓練

運球環節，仿真到現實的遷移又遇到了新問題。

在仿真里，系統能直接拿到球的精準位置和速度；但現實中，機器人只能靠頭部攝像頭加識別算法去估算。誤差、延遲都會嚴重影響動作，導致仿真里完美的策略，一上真機就失靈。

團隊沒有死磕算法優化，而是選擇把現實誤差直接搬進仿真。

他們用動作捕捉測出真實環境里視覺識別的誤差和延遲，把這些特性寫進仿真的觀測模型，讓虛擬訓練環境和現實保持一致。這一調整后，運球動作終于成功從仿真遷移到真機。

05.

未來規劃：先落地 CUE，再打造通用機器人框架

對于后續計劃，伊藤貴弘表示，近期目標就是把行走和運球能力遷移到 CUE 籃球機器人上。先把整套學習框架部署到 CUE，實現穩定運球，再逐步提升動作的流暢度與觀賞性，接近人類籃球運動員的表現。

森田光典則看得更遠并表示：團隊會聚焦通用人形機器人控制框架，不只依賴強化學習，而是融合多種技術，打造能像人一樣應對多樣任務、適應復雜環境的通用平臺。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.