HSImul3R：給三維交互重建裝上物理大腦

2026-04-02 16:48:12　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

在具身智能狂飆突進(jìn)的今天，讓機(jī)器人像人一樣在復(fù)雜場景中靈活交互，已成為學(xué)術(shù)界與工業(yè)界的共同愿景。其中的核心挑戰(zhàn)在于人體 - 場景交互建模，這需要深入理解人體運(yùn)動、空間布局以及交互的穩(wěn)定性。從圖像或視頻中重建人體 - 場景交互（HSI），不僅能提供高保真的監(jiān)督信號，還能幫助構(gòu)建可擴(kuò)展的、仿真就緒（Simulation-ready）的數(shù)據(jù)集。

然而，現(xiàn)有方法普遍存在 “感知 - 仿真鴻溝”（Perception–Simulation Gap）：許多在視覺上極其逼真的人體交互重建結(jié)果，一旦丟進(jìn)物理仿真器，就會因?yàn)檫`背物理定律（如身體穿透物體、重心不穩(wěn)等）而瞬間崩塌。這一鴻溝很大程度上源于人體與環(huán)境建模的分離。現(xiàn)有研究很少捕捉兩者間明確的物理耦合，而是分為三個獨(dú)立方向：1)3D 場景重建（如 NeRF, 3DGS），側(cè)重環(huán)境幾何而忽視人體動力學(xué)；2)人體動作估計(jì)，雖具魯棒性但在隔離狀態(tài)下重建，缺乏物理接觸或環(huán)境約束；3)交互建模，通常受限于規(guī)模和物理驗(yàn)證不足。盡管近期出現(xiàn)了一些統(tǒng)一框架，但仍主要在 2D 圖像空間優(yōu)化，優(yōu)先考慮視覺對齊而非幾何與物理的有效性。因此，重建結(jié)果缺乏尺度和接觸精度，無法用于仿真部署。

為了彌合這一鴻溝，來自南洋理工大學(xué) S-Lab，ACE Robotics，和上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)推出了 HSImul3R—— 一個仿真就緒的人體 - 場景交互 3D 重建框架。該框架將重建表述為一個雙向物理感知優(yōu)化問題。物理仿真器充當(dāng) “主動監(jiān)督者”，實(shí)現(xiàn)人體運(yùn)動與場景幾何之間的閉環(huán)優(yōu)化。

正向優(yōu)化：在固定場景幾何下細(xì)化人體運(yùn)動。利用 3D 生成模型的結(jié)構(gòu)先驗(yàn)建立尺度一致的對齊后，他們將重建結(jié)果集成到模擬器中，進(jìn)行針對場景的強(qiáng)化學(xué)習(xí)，利用物理信號（如關(guān)鍵點(diǎn)跟蹤一致性和幾何接觸約束）優(yōu)化運(yùn)動穩(wěn)定性。
反向優(yōu)化：在經(jīng)物理驗(yàn)證的動作下細(xì)化場景幾何。針對結(jié)構(gòu)缺陷導(dǎo)致的穩(wěn)定性問題，他們提出了直接仿真獎勵優(yōu)化（DSRO），利用仿真器反饋的獎勵來增強(qiáng)重力穩(wěn)定性和交互可行性。

此外，他們采集構(gòu)建了 HSIBench 數(shù)據(jù)集，包含 19 類物體、50 多個運(yùn)動序列及 300 個獨(dú)特交互實(shí)例。

想深入了解 HSImul3R 的技術(shù)細(xì)節(jié)？我們已經(jīng)為你準(zhǔn)備好了完整的論文、項(xiàng)目主頁！

論文標(biāo)題：HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions
arXiv： https://arxiv.org/abs/2603.15612
Project Page：https://yukangcao.github.io/HSImul3R/
GitHub：https://github.com/yukangcao/HSImul3R

方法

以日常采集到的視頻或圖片作為輸入，HSImul3R 通過 Physics-in-the-loop 的優(yōu)化管線實(shí)現(xiàn)了模擬就緒的人體 - 場景交互重建。本文以圖片輸入的情況作為講解。首先，他們提出了在重建管線中注入顯式 3D 生成先驗(yàn)，以實(shí)現(xiàn)更優(yōu)的人體 - 場景對齊。隨后：（1）在正向優(yōu)化中，作者提出了場景針對性強(qiáng)化學(xué)習(xí)，通過優(yōu)化人體運(yùn)動來提高在仿真器中的交互穩(wěn)定性。（2）在反向優(yōu)化中，作者引入了直接仿真獎勵優(yōu)化（DSRO），利用仿真器關(guān)于穩(wěn)定性的反饋來精細(xì)化場景幾何。

具體而言，他們根據(jù)仿真的穩(wěn)定性反饋定義了四種結(jié)果類型：第一類：物體在重力作用下無法保持自穩(wěn)；第二類：物體在人體交互過程中失去平衡；第三類：物體雖能達(dá)到穩(wěn)定狀態(tài)，但不能和人體產(chǎn)生有意義的交互；第四類：物體和人體實(shí)現(xiàn)了穩(wěn)定的交互。

人體 - 場景交互重建與對齊

通過顯式 3D 結(jié)構(gòu)先驗(yàn)進(jìn)行對齊：盡管完成了上述初步對齊，兩個關(guān)鍵問題依然存在：

(1) 重建的場景幾何常包含結(jié)構(gòu)錯誤，如組件斷開、表面缺失或非封閉拓?fù)洌?/p>

(2) 人體 - 場景對齊僅依賴于基于 2D 投影的監(jiān)督，缺乏 3D 幾何感知且易受遮擋影響。

這些缺陷不可避免地導(dǎo)致物理仿真器中的物理不穩(wěn)定和漂移。為解決這些挑戰(zhàn)，作者利用預(yù)訓(xùn)練生成模型的 3D結(jié)構(gòu)先驗(yàn)來修正場景幾何，并施加更穩(wěn)健的交互約束。

正向優(yōu)化：基于場景的人體動作優(yōu)化

在完成人體 - 場景交互的初始 3D 重建和對齊后，下一步是確保其在物理仿真器中具有穩(wěn)定的動力學(xué)表現(xiàn)。一種直接的方法是采用運(yùn)動跟蹤技術(shù)將重建的人體姿態(tài)重定向并放到仿真器中。然而，這樣直接仿真原始重建結(jié)果的做法往往無法產(chǎn)生穩(wěn)定的交互。在許多情況下，人形機(jī)器人會無意中碰撞附近的物體，導(dǎo)致物體與身體分離并獨(dú)立靜置于地面。這種不穩(wěn)定性是因?yàn)閭鹘y(tǒng)的 3D 重建未考慮重力與交互力，無法驗(yàn)證姿態(tài)與物體放置在物理上是否可實(shí)現(xiàn)。

為解決此問題，作者在基于強(qiáng)化學(xué)習(xí)的運(yùn)動跟蹤中引入了針對場景的監(jiān)督信號。

反向優(yōu)化：仿真器引導(dǎo)的物體精細(xì)化

盡管帶有場景針對性強(qiáng)化學(xué)習(xí)的正向優(yōu)化增強(qiáng)了仿真穩(wěn)定性，作者仍觀察到穩(wěn)定性比例尚不理想。研究發(fā)現(xiàn)，該問題很大程度上源于顯式 3D 生成先驗(yàn)的質(zhì)量不一，主要原因有二：(1) 生成的物體常包含結(jié)構(gòu)缺陷（尤其是細(xì)長幾何體），例如桌椅缺失腿部，導(dǎo)致其在無交互的情況下也無法在仿真器中自穩(wěn)；(2) 輸入圖像中人體造成的嚴(yán)重遮擋常導(dǎo)致生成的物體出現(xiàn)表面畸變或異常凸起。這些局限使得人形機(jī)器人在仿真中難以建立穩(wěn)定且符合物理規(guī)律的接觸。

直接仿真獎勵優(yōu)化 (DSRO)：受 DSO 啟發(fā)，他們提出了直接仿真獎勵優(yōu)化（DSRO），這是一種利用物理仿真反饋?zhàn)鳛楸O(jiān)督信號來精細(xì)化 3D 顯式物體生成的創(chuàng)新方法。不同于依賴人工標(biāo)注或 3D 真值的方法，DSRO 直接利用仿真結(jié)果來評估生成物體及其與人體交互的物理合理性。

形式上，我們將 DSRO 目標(biāo)定義為：

穩(wěn)定性由三個標(biāo)準(zhǔn)判定：(1) 物體必須在模擬器重力作用下保持直立和物理穩(wěn)定；(2) 重建場景必須達(dá)到穩(wěn)定的最終狀態(tài)；(3) 交互必須包含實(shí)際接觸，而非物體獨(dú)立靜置于地面。

HSIBench 數(shù)據(jù)集及仿真實(shí)驗(yàn)

為了支持本框架的訓(xùn)練與基準(zhǔn)測試，作者們構(gòu)建了一個專門針對人體 - 場景交互的數(shù)據(jù)集 ——HSIBench。該數(shù)據(jù)集通過系統(tǒng)性地采集交互場景構(gòu)建而成，邀請了三名志愿者（兩男一女）與多種物體進(jìn)行交互，包括 8 把椅子、3 張桌子和 3 個沙發(fā)。

HSIBench 共記錄了300 個獨(dú)特的 HSI 案例，每個案例均從16 個不同視角進(jìn)行拍攝，以提供豐富的多視圖監(jiān)督信號。上圖中，作者提供了部分?jǐn)?shù)據(jù)的示例圖和仿真結(jié)果。

真機(jī)實(shí)驗(yàn)

除了仿真模擬之外，作者們基于 HSImul3R 優(yōu)化的人體運(yùn)動軌跡，實(shí)現(xiàn)了 sim-to-real 的真機(jī)實(shí)驗(yàn)。其中，他們首先利用 GMR 將人體動作重定向至宇樹 G1 人形機(jī)器人的形態(tài)。這些重定向后的動作隨后被用作擴(kuò)散引導(dǎo)強(qiáng)化學(xué)習(xí)（Diffusion-guided RL）的先驗(yàn)，在 IsaacGym 仿真器中訓(xùn)練全身控制策略。該框架允許智能體在強(qiáng)化學(xué)習(xí)訓(xùn)練階段利用擴(kuò)散模型的生成先驗(yàn)來學(xué)習(xí)穩(wěn)健的平衡能力。訓(xùn)練完成后，生成的控制策略通過 Unitree SDK 直接部署到 G1 人形機(jī)器人硬件上。

如上圖所示，該策略在宇樹 G1 真機(jī)上的成功部署表明，HSImul3R 精細(xì)化后的動作能夠?qū)崿F(xiàn)穩(wěn)定的機(jī)器人 - 場景交互。該框架為利用 YouTube 等平臺的海量低成本數(shù)據(jù)來增強(qiáng)大規(guī)模具身智能模型的訓(xùn)練數(shù)據(jù)提供了可擴(kuò)展的基礎(chǔ)。

總結(jié)

本文介紹了 HSImul3R，一個能夠從非校準(zhǔn)稀疏視角中重建仿真就緒人體 - 場景交互的框架。該方法方法集成了：(1)接觸感知交互模型，旨在緩解 3D 重建中的人與場景穿模的問題；(2)場景針對性強(qiáng)化學(xué)習(xí)策略，用以提升仿真器內(nèi)的交互穩(wěn)定性；(3)直接仿真獎勵優(yōu)化（DSRO）方案，利用仿真反饋微調(diào)圖生 3D 生成模型，從而提高仿真成功率。此外，作者們采集了 HSIBench 數(shù)據(jù)集以支持訓(xùn)練與評估。實(shí)驗(yàn)證明，HSImul3R 在穩(wěn)定仿真與高質(zhì)量 3D 重建方面均達(dá)到了高保真效果，性能顯著優(yōu)于現(xiàn)有最先進(jìn)方法。

盡管 HSImul3R 在仿真就緒重建領(lǐng)域邁出了第一步，但仍存在以下局限：

1.成功率仍有提升空間：尤其是在涉及復(fù)雜交互或多物體（超過三個）的場景下；

2.交互深度不足：在部分失敗案例中，人體與物體趨向于各自獨(dú)立站立，而非產(chǎn)生有意義的實(shí)質(zhì)性交互；

3.模型偏見：微調(diào)后的圖生 3D 模型不可避免地繼承了原始 MIDI 數(shù)據(jù)集及 HSIBench 的偏見，這可能限制其在域外場景的泛化能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.