![]()
在具身智能狂飆突進(jìn)的今天,讓機(jī)器人像人一樣在復(fù)雜場景中靈活交互,已成為學(xué)術(shù)界與工業(yè)界的共同愿景。其中的核心挑戰(zhàn)在于人體 - 場景交互建模,這需要深入理解人體運(yùn)動、空間布局以及交互的穩(wěn)定性。從圖像或視頻中重建人體 - 場景交互(HSI),不僅能提供高保真的監(jiān)督信號,還能幫助構(gòu)建可擴(kuò)展的、仿真就緒(Simulation-ready)的數(shù)據(jù)集。
然而,現(xiàn)有方法普遍存在 “感知 - 仿真鴻溝”(Perception–Simulation Gap):許多在視覺上極其逼真的人體交互重建結(jié)果,一旦丟進(jìn)物理仿真器,就會因?yàn)檫`背物理定律(如身體穿透物體、重心不穩(wěn)等)而瞬間崩塌。這一鴻溝很大程度上源于人體與環(huán)境建模的分離。現(xiàn)有研究很少捕捉兩者間明確的物理耦合,而是分為三個獨(dú)立方向:1)3D 場景重建(如 NeRF, 3DGS),側(cè)重環(huán)境幾何而忽視人體動力學(xué);2)人體動作估計(jì),雖具魯棒性但在隔離狀態(tài)下重建,缺乏物理接觸或環(huán)境約束;3)交互建模,通常受限于規(guī)模和物理驗(yàn)證不足。盡管近期出現(xiàn)了一些統(tǒng)一框架,但仍主要在 2D 圖像空間優(yōu)化,優(yōu)先考慮視覺對齊而非幾何與物理的有效性。因此,重建結(jié)果缺乏尺度和接觸精度,無法用于仿真部署。
為了彌合這一鴻溝,來自南洋理工大學(xué) S-Lab,ACE Robotics,和上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)推出了 HSImul3R—— 一個仿真就緒的人體 - 場景交互 3D 重建框架。該框架將重建表述為一個雙向物理感知優(yōu)化問題。物理仿真器充當(dāng) “主動監(jiān)督者”,實(shí)現(xiàn)人體運(yùn)動與場景幾何之間的閉環(huán)優(yōu)化。
- 正向優(yōu)化:在固定場景幾何下細(xì)化人體運(yùn)動。利用 3D 生成模型的結(jié)構(gòu)先驗(yàn)建立尺度一致的對齊后,他們將重建結(jié)果集成到模擬器中,進(jìn)行針對場景的強(qiáng)化學(xué)習(xí),利用物理信號(如關(guān)鍵點(diǎn)跟蹤一致性和幾何接觸約束)優(yōu)化運(yùn)動穩(wěn)定性。
- 反向優(yōu)化:在經(jīng)物理驗(yàn)證的動作下細(xì)化場景幾何。針對結(jié)構(gòu)缺陷導(dǎo)致的穩(wěn)定性問題,他們提出了直接仿真獎勵優(yōu)化(DSRO),利用仿真器反饋的獎勵來增強(qiáng)重力穩(wěn)定性和交互可行性。
此外,他們采集構(gòu)建了 HSIBench 數(shù)據(jù)集,包含 19 類物體、50 多個運(yùn)動序列及 300 個獨(dú)特交互實(shí)例。
![]()
想深入了解 HSImul3R 的技術(shù)細(xì)節(jié)?我們已經(jīng)為你準(zhǔn)備好了完整的論文、項(xiàng)目主頁!
![]()
- 論文標(biāo)題:HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions
- arXiv: https://arxiv.org/abs/2603.15612
- Project Page:https://yukangcao.github.io/HSImul3R/
- GitHub:https://github.com/yukangcao/HSImul3R
方法
![]()
以日常采集到的視頻或圖片作為輸入,HSImul3R 通過 Physics-in-the-loop 的優(yōu)化管線實(shí)現(xiàn)了模擬就緒的人體 - 場景交互重建。本文以圖片輸入的情況作為講解。首先,他們提出了在重建管線中注入顯式 3D 生成先驗(yàn),以實(shí)現(xiàn)更優(yōu)的人體 - 場景對齊。隨后:(1)在正向優(yōu)化中,作者提出了場景針對性強(qiáng)化學(xué)習(xí),通過優(yōu)化人體運(yùn)動來提高在仿真器中的交互穩(wěn)定性。(2)在反向優(yōu)化中,作者引入了直接仿真獎勵優(yōu)化(DSRO),利用仿真器關(guān)于穩(wěn)定性的反饋來精細(xì)化場景幾何。
具體而言,他們根據(jù)仿真的穩(wěn)定性反饋定義了四種結(jié)果類型:第一類:物體在重力作用下無法保持自穩(wěn);第二類:物體在人體交互過程中失去平衡;第三類:物體雖能達(dá)到穩(wěn)定狀態(tài),但不能和人體產(chǎn)生有意義的交互;第四類:物體和人體實(shí)現(xiàn)了穩(wěn)定的交互。
人體 - 場景交互重建與對齊
![]()
通過顯式 3D 結(jié)構(gòu)先驗(yàn)進(jìn)行對齊:盡管完成了上述初步對齊,兩個關(guān)鍵問題依然存在:
(1) 重建的場景幾何常包含結(jié)構(gòu)錯誤,如組件斷開、表面缺失或非封閉拓?fù)洌?/p>
(2) 人體 - 場景對齊僅依賴于基于 2D 投影的監(jiān)督,缺乏 3D 幾何感知且易受遮擋影響。
這些缺陷不可避免地導(dǎo)致物理仿真器中的物理不穩(wěn)定和漂移。為解決這些挑戰(zhàn),作者利用預(yù)訓(xùn)練生成模型的 3D結(jié)構(gòu)先驗(yàn)來修正場景幾何,并施加更穩(wěn)健的交互約束。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
正向優(yōu)化:基于場景的人體動作優(yōu)化
在完成人體 - 場景交互的初始 3D 重建和對齊后,下一步是確保其在物理仿真器中具有穩(wěn)定的動力學(xué)表現(xiàn)。一種直接的方法是采用運(yùn)動跟蹤技術(shù)將重建的人體姿態(tài)重定向并放到仿真器中。然而,這樣直接仿真原始重建結(jié)果的做法往往無法產(chǎn)生穩(wěn)定的交互。在許多情況下,人形機(jī)器人會無意中碰撞附近的物體,導(dǎo)致物體與身體分離并獨(dú)立靜置于地面。這種不穩(wěn)定性是因?yàn)閭鹘y(tǒng)的 3D 重建未考慮重力與交互力,無法驗(yàn)證姿態(tài)與物體放置在物理上是否可實(shí)現(xiàn)。
為解決此問題,作者在基于強(qiáng)化學(xué)習(xí)的運(yùn)動跟蹤中引入了針對場景的監(jiān)督信號。
![]()
![]()
![]()
反向優(yōu)化:仿真器引導(dǎo)的物體精細(xì)化
盡管帶有場景針對性強(qiáng)化學(xué)習(xí)的正向優(yōu)化增強(qiáng)了仿真穩(wěn)定性,作者仍觀察到穩(wěn)定性比例尚不理想。研究發(fā)現(xiàn),該問題很大程度上源于顯式 3D 生成先驗(yàn)的質(zhì)量不一,主要原因有二:(1) 生成的物體常包含結(jié)構(gòu)缺陷(尤其是細(xì)長幾何體),例如桌椅缺失腿部,導(dǎo)致其在無交互的情況下也無法在仿真器中自穩(wěn);(2) 輸入圖像中人體造成的嚴(yán)重遮擋常導(dǎo)致生成的物體出現(xiàn)表面畸變或異常凸起。這些局限使得人形機(jī)器人在仿真中難以建立穩(wěn)定且符合物理規(guī)律的接觸。
直接仿真獎勵優(yōu)化 (DSRO):受 DSO 啟發(fā),他們提出了直接仿真獎勵優(yōu)化(DSRO),這是一種利用物理仿真反饋?zhàn)鳛楸O(jiān)督信號來精細(xì)化 3D 顯式物體生成的創(chuàng)新方法。不同于依賴人工標(biāo)注或 3D 真值的方法,DSRO 直接利用仿真結(jié)果來評估生成物體及其與人體交互的物理合理性。
形式上,我們將 DSRO 目標(biāo)定義為:
![]()
![]()
穩(wěn)定性由三個標(biāo)準(zhǔn)判定:(1) 物體必須在模擬器重力作用下保持直立和物理穩(wěn)定;(2) 重建場景必須達(dá)到穩(wěn)定的最終狀態(tài);(3) 交互必須包含實(shí)際接觸,而非物體獨(dú)立靜置于地面。
HSIBench 數(shù)據(jù)集及仿真實(shí)驗(yàn)
![]()
為了支持本框架的訓(xùn)練與基準(zhǔn)測試,作者們構(gòu)建了一個專門針對人體 - 場景交互的數(shù)據(jù)集 ——HSIBench。該數(shù)據(jù)集通過系統(tǒng)性地采集交互場景構(gòu)建而成,邀請了三名志愿者(兩男一女)與多種物體進(jìn)行交互,包括 8 把椅子、3 張桌子和 3 個沙發(fā)。
HSIBench 共記錄了300 個獨(dú)特的 HSI 案例,每個案例均從16 個不同視角進(jìn)行拍攝,以提供豐富的多視圖監(jiān)督信號。上圖中,作者提供了部分?jǐn)?shù)據(jù)的示例圖和仿真結(jié)果。
真機(jī)實(shí)驗(yàn)
![]()
除了仿真模擬之外,作者們基于 HSImul3R 優(yōu)化的人體運(yùn)動軌跡,實(shí)現(xiàn)了 sim-to-real 的真機(jī)實(shí)驗(yàn)。其中,他們首先利用 GMR 將人體動作重定向至 宇樹 G1 人形機(jī)器人的形態(tài)。這些重定向后的動作隨后被用作擴(kuò)散引導(dǎo)強(qiáng)化學(xué)習(xí)(Diffusion-guided RL)的先驗(yàn),在 IsaacGym 仿真器中訓(xùn)練全身控制策略。該框架允許智能體在強(qiáng)化學(xué)習(xí)訓(xùn)練階段利用擴(kuò)散模型的生成先驗(yàn)來學(xué)習(xí)穩(wěn)健的平衡能力。訓(xùn)練完成后,生成的控制策略通過 Unitree SDK 直接部署到 G1 人形機(jī)器人硬件上。
如上圖所示,該策略在 宇樹 G1 真機(jī)上的成功部署表明,HSImul3R 精細(xì)化后的動作能夠?qū)崿F(xiàn)穩(wěn)定的機(jī)器人 - 場景交互。該框架為利用 YouTube 等平臺的海量低成本數(shù)據(jù)來增強(qiáng)大規(guī)模具身智能模型的訓(xùn)練數(shù)據(jù)提供了可擴(kuò)展的基礎(chǔ)。
總結(jié)
本文介紹了 HSImul3R,一個能夠從非校準(zhǔn)稀疏視角中重建仿真就緒人體 - 場景交互的框架。該方法方法集成了:(1)接觸感知交互模型,旨在緩解 3D 重建中的人與場景穿模的問題;(2)場景針對性強(qiáng)化學(xué)習(xí)策略,用以提升仿真器內(nèi)的交互穩(wěn)定性;(3)直接仿真獎勵優(yōu)化(DSRO)方案,利用仿真反饋微調(diào)圖生 3D 生成模型,從而提高仿真成功率。此外,作者們采集了 HSIBench 數(shù)據(jù)集以支持訓(xùn)練與評估。實(shí)驗(yàn)證明,HSImul3R 在穩(wěn)定仿真與高質(zhì)量 3D 重建方面均達(dá)到了高保真效果,性能顯著優(yōu)于現(xiàn)有最先進(jìn)方法。
盡管 HSImul3R 在仿真就緒重建領(lǐng)域邁出了第一步,但仍存在以下局限:
1.成功率仍有提升空間:尤其是在涉及復(fù)雜交互或多物體(超過三個)的場景下;
2.交互深度不足:在部分失敗案例中,人體與物體趨向于各自獨(dú)立站立,而非產(chǎn)生有意義的實(shí)質(zhì)性交互;
3.模型偏見:微調(diào)后的圖生 3D 模型不可避免地繼承了原始 MIDI 數(shù)據(jù)集及 HSIBench 的偏見,這可能限制其在域外場景的泛化能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.