網易首頁 > 網易號 > 正文申請入駐

王興興署名，宇樹機器人春晚之后又進化了：單個策略就能學習各種極限動作

2026-03-03 21:40:11　來源: 算法與數學之美

北京舉報

分享至

春晚上，《武 BOT》給人留下了深刻印象。表演中，人形機器人 G1 和 H2 在快速奔跑中完成了穿插變陣和武術動作，展現出了高動態、高協同的全自主集群控制技術。

而現在，北京通用人工智能研究院（BIGAI）、宇樹、上海交通大學和中國科技大學等機構的一項新研究在這個方向上更推進了一步，提出了OmniXtreme：第一個可以執行各種極限動作的通用策略，包括連續翻轉、極限平衡，甚至可以通過快速接觸切換進行霹靂舞。

這種能力的實現過程首先是預訓練一個基于流的生成控制策略（flow-based generative control policy），然后針對復雜物理動力學進行「驅動感知殘差強化學習」（actuation-aware residual RL）的后訓練。其中后訓練這一步對于成功實現真實世界的遷移至關重要。

該項目的通訊作者之一、BIGAI 研究科學家 Siyuan Huang 在 X 上表示：「我們花了一整年時間深入研究通用跟蹤和極端物理行為之間的障礙。在測試了數十臺 G1 機器人之后，我們最終找到了學習和物理執行能力方面的瓶頸。」

值得注意的是，宇樹科技聯創和 CEO 王興興也在這篇論文的作者名單中。論文一作為 Yunshen Wang 和 Shaohang Zhu。

論文地址：https://arxiv.org/abs/2602.23843

項目地址：https://extreme-humanoid.github.io

代碼地址：https://github.com/Perkins729/OmniXtreme

方法：打破高動態控制的泛化壁壘

在人形機器人的運動控制領域，研究人員長期面臨一個被稱為「泛化壁壘（generality barrier）」的困境。

當動作庫的規模和多樣性增加時，傳統的統一強化學習策略往往會遭遇性能崩潰，這在高動態動作的物理部署中尤為明顯。這種崩潰源于兩個相互疊加的瓶頸：仿真環境中的學習瓶頸（多動作優化的梯度干擾）以及物理執行瓶頸（真實世界復雜的驅動約束）。

為了從根本上解決這一問題，該研究團隊提出了OmniXtreme框架。該框架將動作技能的學習與物理驅動的微調進行了巧妙的解耦，分為「基于流的可擴展預訓練」與「驅動感知的殘差后訓練」兩個核心階段。

階段一：基于流的可擴展預訓練

在第一階段，研究團隊的目標是賦予模型極高的表示容量，使其能夠掌握大量異構的極限動作，同時避免傳統多動作強化學習中常見的保守化平均傾向。

研究人員首先整合了 LAFAN1、AMASS、MimicKit 等多個高質量動作數據集，并將其重定向至宇樹 G1 人形機器人上。

針對這些參考動作，團隊利用 PPO 算法訓練了一系列專家策略。隨后，OmniXtreme 采用了基于數據集聚合 (DAgger) 的知識蒸餾技術，將這些專家策略的行為統一融合到一個基于流匹配的生成式策略中。

在數學表達上，基于流的模型通過優化以下目標函數來學習從純噪聲中恢復專家動作的過程：

在上述公式中，a_t 表示在流時間步 t 下，專家動作 a_{expert} 與隨機噪聲 ε 之間的插值動作。該目標函數使得模型能夠學習到一個速度場 v_θ，從而在推理時通過正向歐拉積分生成高精度的連續控制動作。為了保證物理穩定性，團隊在這一階段僅引入了適度的噪聲和域隨機化，確保策略能夠準確捕捉底層的物理動力學特征。

階段二：驅動感知的后訓練

預訓練得到的流匹配策略雖然在仿真中表現出了驚人的跟蹤精度，但現實世界中的電機非線性特性往往會導致這種高動態表現大打折扣。

為了實現平滑的「仿真到現實」遷移，團隊凍結了預訓練的基礎策略，并在其之上訓練了一個輕量級的 MLP 殘差策略。該殘差策略無需重新學習動作跟蹤，主要負責輸出修正動作以對抗真實的硬件約束。

為了讓殘差策略真正理解物理世界的殘酷，團隊在訓練環境中引入了三個層面的深度建模：

1. 激進的域隨機化

研究人員將初始姿態噪聲、外力干擾幅度、角速度等常見域隨機化參數的范圍大幅提升了最高 50%。更為關鍵的是，他們將終止閾值放寬了 1.5 倍（例如將軀干方向誤差容忍度從 0.8 弧度放寬至 1.2 弧度）。這種設計給予了殘差策略充足的探索空間，使其能夠學會在大偏差狀態下進行極限挽救，極大地增強了系統的魯棒性。

2. 功率安全驅動正則化

執行后空翻等高動態動作時，機器人會產生巨大的瞬態制動負載。常規的強化學習管線通常缺乏對此類負載的約束，從而極易在真實硬件上觸發過流保護或熱應力宕機。OmniXtreme 創新性地引入了針對機械功率的懲罰機制，其核心在于計算關節扭矩與角速度的乘積，即瞬時機械功率 P=τ?ω。

對于超出安全死區的高額負功率（再生制動），團隊應用了嚴格的二次懲罰函數：

在實際應用中，該懲罰項被重點施加于膝關節，因為膝關節在沖擊與恢復階段最容易承受破壞性的制動負載。

3. 驅動感知的扭矩與速度約束

單純的扭矩截斷往往會忽略由反電動勢引起的與速度相關的物理限制。團隊將真實的電機運行包絡線直接集成到了仿真器中，定義了隨關節速度幅值單調遞減的容許扭矩函數。此外，系統還通過非線性摩擦項對執行器級別的內部損耗進行了建模：

該公式精確捕捉了從靜摩擦到動摩擦的平滑過渡，并計算了與速度相關的耗散阻尼。

純機載的實時部署

在硬件部署方面，OmniXtreme 展現出了極高的工程完成度。

整個推理管線（包括基于正向運動學的狀態估計、流匹配基礎策略以及殘差策略）均使用 TensorRT 進行了深度優化。在宇樹 G1 人形機器人的機載 NVIDIA Jetson Orin NX 平臺上，系統實現了約 10 ms 的端到端推理延遲，完美支持 50 Hz 的高頻閉環控制。

實驗表現：全方位挑戰極限測試

為了全面評估 OmniXtreme 的可擴展性與魯棒性，研究團隊不僅使用了標準的 LAFAN1 動作庫，還精心挑選了約 60 個極具挑戰性的動作，構建了 XtremeMotion 評估集。這些動作包含了極高的角速度、頻繁的接觸切換以及嚴苛的時序約束。

可擴展的高保真跟蹤能力

在仿真環境中，OmniXtreme 與傳統的「從頭訓練多動作強化學習」基線模型以及「專家到統一 MLP 蒸餾」基線模型進行了直接對比。數據表明，OmniXtreme 在所有指標上均實現了碾壓。面對難度激增的 XtremeMotion 數據集，傳統方法的跟蹤誤差顯著增加，而 OmniXtreme 依舊維持了極低的運動學誤差和極高的成功率。

在現實世界的宇樹 G1 機器人上，團隊選取了 XtremeMotion 中的 24 個不同高動態動作進行了 157 次物理測試。測試涵蓋了后空翻、雜技、霹靂舞、武術等多個動作類別。

最終，OmniXtreme 斬獲了 91.08% 的整體平均成功率。其中，后空翻類動作的成功率高達 96.36%，武術類動作達到 93.33%，霹靂舞類動作也保持在 86.36% 的高水平。這證明了仿真中的高保真度成功跨越了現實鴻溝。

下面展示了一些示例：

托馬斯全旋、上旋、向前爬行和后空翻。

霹靂舞

武術

打破保真度與可擴展性的權衡

為了驗證系統是否打破了泛化壁壘，團隊設計了漸進式的壓力測試。他們將訓練動作集從 10 個逐步擴展到 20 個，最終擴展到 50 個，并使用固定的前 10 個動作進行統一評估。

實驗結果揭示了顯著的差異。隨著動作多樣性的增加，傳統從頭訓練的強化學習基線模型出現了嚴重的性能衰退，其成功率從 100% 暴跌至 83.3%，最終滑落至 73.9%。

相比之下，OmniXtreme 展現出了驚人的韌性，在 50 個動作的龐大訓練集下，其對核心動作的跟蹤成功率依然堅挺在 93.3%。這徹底推翻了高保真度必定隨著多樣性增加而崩潰的固有認知。

模型規模的 Scaling Law

在人工智能的發展歷程中，增加模型參數量往往能帶來性能的飛躍，但這一規律在傳統的運動控制領域似乎失效了。團隊對比了不同參數規模（20M、50M、70M）的模型表現。

圖表數據清晰地顯示，傳統的 MLP 策略在擴大參數量后很快就陷入了性能飽和，跟蹤精度提升極其有限。

與之形成鮮明對比的是，基于流匹配的生成式策略完美契合了 Scaling Law。隨著參數量向 70M 邁進，OmniXtreme 的跟蹤精度與魯棒性呈現出顯著且穩定的線性增長。這說明生成式預訓練為人形機器人控制系統提供了一條切實可行的能力進化路徑。

現實世界執行力的深度消融

究竟是哪些機制賦予了機器人如此強大的物理穩健性？團隊通過消融實驗給出了答案。

對于具有強爆發力的翻騰動作（如后空翻），僅僅引入電機約束就足以保障穩定執行，因為這避免了底層硬件極限的瞬間崩潰。然而，對于包含高頻接觸轉換的霹靂舞動作，系統必須同時依賴電機約束與激進的域隨機化，才能在接觸擾動中維持時序敏感的平衡。

最嚴苛的挑戰來自于包含高速沖擊緩沖的雜技落地動作。團隊發現，如果沒有功率安全正則化機制，即使模型在姿態上維持了平衡，也會因為電機瞬態制動導致過流或電池欠壓而宣告失敗。

這充分說明，真實世界的極度敏捷必須建立在聲、光、電、熱等多維物理約束的精確建模之上。

https://x.com/siyuanhuang95/status/2028506522633073132

文章來源：機器之心。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.