網易首頁 > 網易號 > 正文申請入駐

ICLR 2026 通研院提出人形機器人預訓練與真機微調新范式

2026-02-09 12:44:37　來源: 機器之心Pro

河北舉報

分享至

目前，人形機器人已經能在現實中跳舞、奔跑、甚至完成后空翻。但接下來更關鍵的問題是：這些系統能否在部署之后持續地進行強化學習 —— 在真實世界的反饋中變得更穩定、更可靠，并在分布不斷變化的新環境里持續適應與改進？

目前主流仍然是大量域隨機化的 Sim2Real 路線，“仿真里練到很強，上真機直接用”，一旦部署，策略網絡往往就被凍結，真實世界大量未知的變化包括摩擦、載荷、溫度、設備老化等都可能讓機器人表現打折，系統通常只能回到仿真里重新調參或重訓；而想在真機上再學習，又會面臨兩道門卡：安全（隨機探索可能摔倒、損壞）和數據（真機交互昂貴、速度慢、次數有限），這使得機器人缺少真正意義上持續學習的能力。

來自北京通用人工智能研究院和西安電子科技大學的研究團隊提出的LIFT給出了一條更現實的路徑：先用離策略（Off-policy）強化學習算法SAC（Soft Actor-Critic）在仿真中進行大規模預訓練，充分利用數據復用帶來的樣本效率；再在預訓練數據之上學習一個物理信息增強（Physics-informed）的世界模型。

到了真實世界，機器人主要執行確定性、更可控的動作來采集數據與微調，把 “試錯” 和 “探索” 盡可能放進世界模型里發生，從而在保證安全的前提下，用有限的真機交互下實現更快的微調與提升，繞開部分 sim2real 的硬瓶頸。

論文的第一作者黃維東是北京通用人工智能研究院的研究工程師，研究方向為強化學習和世界模型等，研究目標是構建在復雜環境中可高效持續學習的智能體，通訊作者為北京通用人工智能研究院的研究員張精文。

論文標題：Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control
論文主頁：https://lift-humanoid.github.io/
論文鏈接：https://arxiv.org/abs/2601.21363
代碼鏈接：https://github.com/bigai-ai/LIFT-humanoid

背景與動機：

人形機器人真機強化學習的不安全性

目前機器人界廣泛依賴在策略（On-policy）算法 PPO (Proximal Policy Optimization）進行預訓練。PPO 雖然在仿真中有較快的（Wall-time）收斂性能，但由于不能有效復用舊數據，并且依賴隨機探索，這使其在真實人形機器人上做后續微調或持續學習幾乎不可行：既不安全，也不經濟。

傳統強化學習中，有兩種有潛力的方案：

離策略 RL（Off-policy RL）（如 SAC）：能復用舊數據，提高樣本效率；
基于世界模型的 RL（Model-based RL）（如 MBPO/ Dreamer）：用模型生成數據減少真實交互。

但作者發現把這些方法直接搬到人形機器人的預訓練和微調上會遇到新的瓶頸：

1.確定性數據采集 + 數據多樣性不足會讓常規 off-policy /model-based 的訓練變得不穩定或極慢；

2.世界模型誤差在人形高維接觸動力學下更容易積累，導致生成的數據質量較差，難以被策略利用;

3. 若像 MBPO 或 Dreamer 那樣 “邊與環境交互邊訓練世界模型和策略，在數千并行仿真下 wall-time 代價不可接受。

因此核心問題是：能否既不犧牲大規模預訓練速度，又能讓微調階段足夠樣本高效、并且安全可控？

LIFT：大規模預訓練與高效微調

圖 1. LIFT 框架圖

為了解決上述問題，作者提出了 LIFT (Large-Scale PretraIning and Efficient FineTuning) 框架（如圖 1 所示）。LIFT 的框架的設計基于以下三個核心洞察：

洞察一：SAC 比 PPO 在數據量和數據多樣性受限時更具優勢。

先前的方法（如 SSRL）已經證明使用 SAC 在世界模型中探索和學習，可以在真實世界從頭開始訓練一個四足機器人完成行走任務。一種自然的做法是將 SSRL 中的 SAC 替換成 PPO，因為 PPO 具有大量并行訓練的基礎設施。

然而，作者發現，SAC 相比 PPO 具有兩個優勢：它的離策略的特性使得它在數據量和數據多樣性不足時，樣本效率仍然很高；它的與狀態有關的隨機策略能夠促進其在世界模型中的探索，生成更多樣和更有效的訓練數據。因此，作者后續圍繞 SAC 打造合適的預訓練和微調框架。

洞察二：經過 SAC 大規模預訓練的策略能在真實世界零樣本部署。

作者使用 Jax 實現了 SAC 并使用了 Optuna 框架對 SAC 的超參數進行了系統性地搜索。在 Booster T1 的行走預訓練任務上，優化后的 SAC 收斂時間能從原先的 7 個小時下降到半小時以內。

在固定其他超參數不變后，該研究發現提升 UTD，Batch Size，Replay Buffer Size 均能降低收斂所需的樣本數量，并且無需使用額外復雜的技巧（如 ensemble/dropout critic）就能得到一個在真機可零樣本部署的基礎策略，該策略可作為后續持續學習的穩定起點。同時，可把預訓練時的 Replay Buffer 存盤，再離線訓練世界模型，避免拖慢大規模并行預訓練的速度；

洞察三：物理信息增強的世界模型能提升模型預測性能和策略微調性能。

作者將 Ensemble 網絡與人形機器人動力學模型（公式 2）結合以提升世界模型的預測性能：

Ensemble 網絡只需要輸出接觸力與預測的不確定性（方程 3）就可以通過方程（2）計算出加速度，然后積分出下一個時刻的狀態：

作者修正了 SSRL 中的機器人特權狀態空間到廣義狀態空間的映射關系，并引入構建人形機器人動力學所需的狀態（如身體的高度）到特權狀態空間中，使得世界模型能準確預測下一個時刻的人形機器人狀態。

在真實環境微調時，該方法只需要用：確定性動作（action mean）在真實環境采集一小段數據；用新數據微調世界模型；用SAC 隨機策略在世界模型里探索生成合成軌跡，再用這些合成軌跡更新 actor-critic；更新后的策略再回到真實環境，進入下一輪迭代。這就把 “探索的風險” 盡可能留在世界模型里，實現安全且高效率的持續學習。

實驗結果

作者在兩款人形平臺Booster T1與Unitree G1上進行了預訓練和微調實驗，對比基線包括PPO、SAC 等。相比于基線方法，LIFT 展現了顯著的優勢：

1.策略預訓練的收斂時間：在 MuJoCo Playground 的人形機器人任務上，相同運行時間內，LIFT 的預訓練回報與 PPO、FastTD3 相當或更高，這說明該框架沒有使得策略預訓練的時間變長。如圖 2 所示，策略可以直接零樣本部署到真機，作為后續微調的初始化策略。

圖 2. 真機零樣本部署

2.樣本效率：作者將預訓練策略遷移到 Brax 仿真器進行微調，并設計了三種場景：

分布內（In-Distribution）：目標速度落在預訓練范圍內；
長尾分布（Long-Tail）：預訓練中很少出現的目標速度；
分布外（Out-of-Distribution）：目標速度超出預訓練范圍。

如圖 3 所示，LIFT 在三類場景中均能在 4×10?的環境樣本數量級下收斂（約為真實世界的 800 秒）并準確跟蹤目標速度。

圖 3. 在 Brax 中微調的訓練曲線圖

微調效果如下所示， Booster T1 在微調前無法準確跟蹤預訓練時未見過的目標速度（1.5 m/s 的速度向前行走），微調后的策略能準確追蹤該目標，并且微調后步態更平順、身體擺動更小、速度偏差顯著降低。

Booster T1 預訓練策略的效果

在 Booster T1 微調后策略的效果

圖4. 在Brax中微調前后的效果對比圖

作者進一步在 Booster T1 真機上進行了微調實驗：以一個仿真預訓練后遷移到真機失敗的預訓練策略為起點，LIFT 通過多輪迭代，僅用約 80–590 秒的真實數據，就能逐步修正策略的不穩定行為（如圖 5 所示）。

圖 5. 在 Booster T1 真機上微調的過程

在消融實驗中（圖 6），作者發現去掉世界模型預訓練算法仍能收斂，但收斂速度明顯更慢；而完全去除預訓練則容易陷入局部最優。

圖 6. 預訓練的消融實驗

而另外一項消融實驗（圖 7）表明使用純 ensemble 網絡構建的世界模型更容易給出物理上不合理的預測（如異常的身體高度），導致 critic loss 爆炸并阻礙策略提升。相比之下，LIFT 提供了更強的歸納偏置，在有限數據下表現更穩健。

圖 7. 物理信息增強的世界模型消融實驗

此外，作者也將同一預訓練框架拓展到 Unitree G1 的全身跟蹤類任務。

圖 8. 全身跟蹤的預訓練效果

結語

如果把在真實世界的機器人上擴展強化學習當成一條通向通用人工智能的路徑，那么關鍵不在于機器人某一次演示能跑多酷，而在于：我們能否把機器人的學習過程在真實世界閉環，即構建一個可持續、可擴展、自動化的學習系統。

當前的結果說明，用更可控的真實數據采集，把高風險探索盡量轉移到世界模型里，是讓強化學習在真實人形機器人上變得可行的一種方向；但要把它 “規模化”，仍然有幾類瓶頸需要被解決。

一是觀測與狀態估計。如果關鍵物理量（例如機器人基座高度、速度）仍依賴外部動捕或存在累積漂移，那么系統就很難脫離人工與場地約束，也難以在開放環境中長期運行。

二是安全與重置機制。即便采取確定性執行，依然有可能因為策略誤差與建模誤差導致策略失控。需要設計更自動化的安全保護機制 —— 包括不確定性驅動的保護、恢復策略。

三是系統吞吐量。需要設計異步的數據采集與強化學習訓練系統，保證策略推理時也在進行持續學習。當這些要素逐步到位時，強化學習才能在真實世界發揮重要作用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.