<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      智源清華帶來PAM,手物交互數據生成新SOTA | CVPR 2026

      0
      分享至


      PAM僅需初始/目標手部姿態與物體幾何信息,即可生成高保真交互視頻。

      Project Page: https://gasaiyu.github.io/PAM.github.io/

      01

      TL;DR

      ? 在只給定初始姿態、目標姿態和不含外觀的物體幾何信息的輸入下,如何直接生成逼真的手物交互(HOI)視頻

      ? 現有方法存在一系列問題:姿態合成方法只能預測 MANO 軌跡,而不能生成像素細節;文生圖方法能生成能產生外觀,但缺乏動態信息;而視頻生成方法目前大多依賴完整的姿態序列和首幀作為輸入,導致其無法真正應用于 Sim-to-Real數據生成管線。

      ? 我們提出PAM (Pose-Appearance-Motion),一個統一的數據生成引擎,利用姿態、外觀和運動的解耦生成過程,完美解決上述痛點。

      ? 這是第一個僅需條件初始姿態、目標姿態和物體的幾何信息作為輸入,即可實現高質量 Sim-to-Real 手物交互視頻生成的框架,且利用這個管線合成的數據能顯著提升下游任務(例如手部姿態估計)的性能。

      02


      簡介


      手物交互(HOI)的重建與合成正逐漸成為具身智能和 AR/VR 領域的核心基石。盡管數據驅動范式推動了準確的手部姿態估計和視頻生成領域的的快速發展,但獲取帶有詳細標注的真實 HOI序列需要耗費極大的人力物力,這嚴重限制了可擴展性。

      為了打破這一數據壁壘,北京大學聯合清華大學、智源研究院(BAAI)、上海交通大學及東方理工大學提出了一個突破性的統一引擎——PAM。PAM 能夠將姿態(Pose)、外觀(Appearance)和運動(Motion)無縫整合到一個連貫的框架中。用戶只需提供初始和目標姿態以及物體幾何形狀,PAM 就能生成具有連貫動態和逼真手物交互的視頻。實驗證明,PAM 不僅在視頻保真度和幾何準確度上大幅超越現有方法,其生成的合成視頻還能直接作為數據增強工具,使下游手部姿態估計模型在僅使用 50%真實數據加上合成數據的情況下,就能匹配使用100%真實數據的效果!

      03


      研究動機

      隨著深度學習和擴散模型的出現,大規模生成 HOI 視頻展現出了巨大潛力。然而,縱觀當前最先進的方法,整個研究領域呈現出三種趨勢:

      1.純姿態合成(Pose-only synthesis只預測手部MANO軌跡而不生成外觀,缺乏視覺真實感,降低了其實用價值。

      2.單圖外觀生成(Appearance generation根據掩碼或 2D 提示生成外觀,但完全無法捕捉時間上的動態連貫性。

      3.視頻運動生成(Motion generation雖然能生成視頻,但需要完整的姿態序列和真實的視頻第一幀作為輸入,這些條件在實際場景中較難獲得,容易獲得的是模擬器中的手部姿態數據,但由于模擬器中根本無法獲取真實的第一幀,這類方法不適合 Sim-to-Real的部署。

      基于上述痛點,研究團隊認為 HOI 生成亟需一個能統一融合姿態、外觀和運動的引擎。因此,PAM 引入了整合運動與外觀的擴散過程,繞過了對第一幀條件和完成手部姿態序列的依賴,從而最大化了運動和外觀的多樣性。

      04


      PAM 方法


      方法概覽

      給定初始 MANO 手部姿態 、無外觀的物體 Mesh 、初始 6-DoF 物體姿態 以及目標手部 MANO 姿態 ,PAM 的目標是生成一段逼真的 HOI 視頻。整個模型可以形式化為一個生成函數 :

      該模型最終輸出一段連貫且具有物理約束的 RGB 視頻幀序列 。為了應對生成 HOI 視頻的高維時空流形的復雜性,PAM 將生成過程解構為三個核心階段:

      第一階段:姿態生成 (Pose Generation)

      在這個階段,模型主要解決中間物理運動的插值問題。使用預訓練的姿態生成模型(如 GraspXL)來合成對齊的手物交互姿態序列。模型接收 作為輸入,輸出時間上連貫的手部和物體運動軌跡 。這確保了物理一致性,為后續的視覺渲染奠定幾何基礎。

      第二階段:外觀生成 (Appearance Generation)

      為了解決從模擬器到真實視頻的視覺鴻溝,PAM 利用可控的圖像擴散模型 Flux 來合成逼真的視頻第一幀 。單靠深度圖和語義掩碼不足以處理手部的高自由度。模型將以下三種條件融合并作為生成引導,它們均為 的特征圖:

      ?深度圖 (Depth Maps):保證全局的幾何連貫性。

      ?語義掩碼 (Semantic Masks)保證實例級別的語義一致性。

      ?手部關鍵點映射 (Hand Keypoints):提供精確的手部骨骼拓撲結構,保證手部細節生成的一致性。

      這些條件首先通過 VAE 編碼為 的潛在表示,在通道維度上拼接后,注入到 ControlNet 分支的 DiT 塊中。特征的注入計算公式如下:

      其中 是原始 Flux 模型中第 7 層 DiT 塊的輸出, 是接收拼接條件輸入的復制 DiT 塊的輸出,而零卷積層 (Zero-convolution layer) 為參數全零初始化的 卷積層。

      第三階段:運動生成 (Motion Generation)

      在生成首幀 后,模型將第一階段生成的序列 逐幀渲染,得到對應的深度圖、語義圖和關鍵點序列。隨后,利用預訓練的視頻 VAE 將這些空間條件編碼為形狀為 的潛在張量。

      PAM 采用基于 CogVideoX 的可控視頻擴散模型來生成最終的視頻流。為了保持與姿態序列的一致性,視頻模型沿用了上述公式的特征融合機制,將多模態特征通過 12 個復制的 DiT 塊注入網絡。特別地,在訓練階段,為了防止模型過度依賴某單一模態特征,每種條件都會以 的概率被隨機掩碼,從而提升模型的泛化能力。

      05


      實驗結果

      基準測試

      團隊在 DexYCB(聚焦于單手交互)和 OAKINK2(聚焦于雙手復雜交互)兩個基準數據集上對 PAM 進行了全面評估,并與當前最先進的 ManiVideo、InterDyn 和 CosHand 等方法進行了對比。

      定量結果


      ? 在DexYCB數據集上:PAM 實現了 29.13 的 FVD(Fréchet Video Distance,反映視頻整體的時空連貫性與真實度,該數值越低越好),大幅優于 InterDyn 的 38.83。在反映手部姿態準確度的 MPJPE 指標上,PAM 達到了19.37 mm,遠優于 CosHand 的 30.05 mm。此外,在結構相似性(SSIM)和運動保真度(MF)等指標上,PAM 也穩居第一。

      ?OAKINK2數據集上面對更復雜的雙手交互場景,PAM 同樣展現出強大的建模能力,將 FVD 從 CosHand 的 68.76 顯著降至 46.31,MPJPE 從 14.49 mm 大幅降低至 7.01 mm。

      ?更高清的分辨率相比于基線方法生成的256 \times 256 (CosHand) 或 256 \times 384 (InterDyn) 模糊視頻,PAM 能夠穩定生成 480 \times 720 的高保真、高分辨率交互視頻。

      定性結果


      ?如上圖所示,現有方法(如 CosHand)由于僅依賴手部掩碼作為單一條件,缺乏深度的幾何引導,且缺少顯式的時間建模機制,導致生成的視頻往往出現手部姿態畸變以及嚴重的幀間閃爍。相比之下,PAM 利用帶有時間注意力機制的視頻擴散基礎模型,加以多條件的控制,保證了較強的幀間連貫性。

      06


      多條件的消融實驗



      ? DexYCB數據集上的消融實驗證實,PAM 的“深度圖+語義掩碼+手部關鍵點”多模態控制組合缺一不可。如上圖所示,僅靠手部關鍵點會導致整體外觀質量下降,而僅靠語義掩碼或深度圖則會引發手部姿態的錯位失真。PAM 巧妙結合了全局場景理解(深度與語義)與局部手部細節(關鍵點),明確保留了手部結構的細節。這使得 PAM 不僅在背景和前景的生成上具備更高的視覺保真度,還成功消除了幾何錯位,生成了準確、流暢且符合物理常理的視頻序列。

      07


      Sim-To-Real生成


      如上圖所示,PAM 展現了強大的 Sim-to-Real 遷移能力。僅僅給定初始和終止狀態的HOI Pose,利用解耦架構,模型成功結合了 GraspXL 的運動先驗與擴散模型的外觀建模,合成了具有不同主體和背景的多樣化、逼真的視頻。這些視頻為之后的下游任務提供了源源不斷的數據生成管線。

      08


      下游任務驗證


      為了評估生成視頻的實用性,研究人員將合成視頻用于下游手部姿態估計任務(SimpleHand 模型)的數據增強。PAM 訓練生成了 3,400 個視頻序列(包含 207,400 幀)作為增強數據。

      結果表明,使用合成數據結合不同比例的真實數據進行訓練,始終能提高手部姿態估計的準確度。從上圖中可以看到,僅使用 50% 真實數據加上 PAM 生成的合成樣本,其性能就足以具備與使用 100% 真實數據基線相競爭的實力!這證明了合成數據能有效彌補真實數據量的不足。

      09


      總結

      PAM 提出了一個創新的 Pose-Appearance-Motion 解耦架構,成功打破了傳統方法依賴真實第一幀的瓶頸,實現了從極簡姿態輸入到高保真 HOI 視頻的生成。其卓越的感知質量、幾何準確度以及對下游任務的顯著增益,為具身智能領域的生成模型研究提供了堅實的基礎。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      WSBK荷蘭站第二回合,張雪機車獲第7

      WSBK荷蘭站第二回合,張雪機車獲第7

      極目新聞
      2026-04-19 21:00:45
      39歲前國腳現狀:定居美國踢野球,早已財富自由,有2個可愛女兒

      39歲前國腳現狀:定居美國踢野球,早已財富自由,有2個可愛女兒

      攬星河的筆記
      2026-04-14 15:18:30
      第一,張雪機車WSBK荷蘭站第二回合熱身賽成績出爐

      第一,張雪機車WSBK荷蘭站第二回合熱身賽成績出爐

      貝殼財經
      2026-04-19 17:56:03
      全新款奔馳GLS曝光 內飾大改 配主動懸架

      全新款奔馳GLS曝光 內飾大改 配主動懸架

      沙雕小琳琳
      2026-04-19 11:58:40
      突發!伊朗,玩命了!

      突發!伊朗,玩命了!

      財經要參
      2026-04-19 09:00:03
      1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

      1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

      干史人
      2026-04-14 21:10:03
      廣東隊三消息:徐杰病情、杜鋒下課、季后賽對手已確定

      廣東隊三消息:徐杰病情、杜鋒下課、季后賽對手已確定

      逗比演員說體育
      2026-04-19 17:43:58
      俄外長剛歸國,普京就在開會時發火!但他心中明白:中方已盡力了

      俄外長剛歸國,普京就在開會時發火!但他心中明白:中方已盡力了

      夢醉為紅顏一笑
      2026-04-18 17:55:00
      斯諾克賽程:決出4席16強,丁俊暉首秀,中國4人出場,75雙雄上陣

      斯諾克賽程:決出4席16強,丁俊暉首秀,中國4人出場,75雙雄上陣

      劉姚堯的文字城堡
      2026-04-19 07:44:16
      35歲傅彪兒子,住豪宅生活奢華,單身滿頭白發,走上了“不歸路”

      35歲傅彪兒子,住豪宅生活奢華,單身滿頭白發,走上了“不歸路”

      林輕吟
      2026-04-02 19:51:37
      便攜式氣象站應用場景與綜合價值

      便攜式氣象站應用場景與綜合價值

      測控技術有限公司
      2026-03-10 15:55:30
      先是海參崴,再是圖瓦和庫頁島,俄羅斯對中國,心態完全變了

      先是海參崴,再是圖瓦和庫頁島,俄羅斯對中國,心態完全變了

      觀察者小海風
      2026-04-17 16:11:00
      院士候選人,嚴重違紀違法,被雙開!

      院士候選人,嚴重違紀違法,被雙開!

      新浪財經
      2026-04-19 19:41:09
      銷量飆升100%,年入千萬,百元“睡眠神器”走俏,5億失眠人福音

      銷量飆升100%,年入千萬,百元“睡眠神器”走俏,5億失眠人福音

      思思夜話
      2026-04-17 18:16:02
      深夜猝死的人增多!醫生反復強調:吃完晚飯后,盡量少做這4件事

      深夜猝死的人增多!醫生反復強調:吃完晚飯后,盡量少做這4件事

      岐黃傳人孫大夫
      2026-04-18 11:45:03
      62年中印戰爭:肯尼迪與赫魯曉夫一致認為中國不會開戰,也打不過

      62年中印戰爭:肯尼迪與赫魯曉夫一致認為中國不會開戰,也打不過

      云霄紀史觀
      2026-04-19 15:59:01
      開拓者VS馬刺傷情報告出爐,文班亞馬季后賽首秀,楊瀚森有望登場

      開拓者VS馬刺傷情報告出爐,文班亞馬季后賽首秀,楊瀚森有望登場

      世界體育圈
      2026-04-19 20:16:28
      國產光纖全球“爆單”:部分產品價格暴漲650%

      國產光纖全球“爆單”:部分產品價格暴漲650%

      環球網資訊
      2026-04-19 11:16:14
      《八千里路云和月》大結局,田家泰犧牲,七哥的真正身份曝光

      《八千里路云和月》大結局,田家泰犧牲,七哥的真正身份曝光

      情感大頭說說
      2026-04-19 19:49:30
      47歲的李晨,在上海吃包子被偶遇,差點沒認出!

      47歲的李晨,在上海吃包子被偶遇,差點沒認出!

      舊時光老師
      2026-04-19 20:30:03
      2026-04-19 21:48:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7200文章數 20745關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      印度當晚召見伊朗大使抗議兩船只遭開火襲擊 伊朗回應

      頭條要聞

      印度當晚召見伊朗大使抗議兩船只遭開火襲擊 伊朗回應

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      張天愛評論區淪陷!被曝卷入小三風波

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      房產
      教育
      游戲
      旅游
      時尚

      房產要聞

      官宣簽約最強城更!海口樓市,突然殺入神秘房企!

      教育要聞

      挑戰30天:用60道邏輯題,練出孩子的理解力與變通力

      《英雄聯盟》重大更新:終于支持手柄了!

      旅游要聞

      豐臺王佐這片花海,真的藏不住了!春天必沖的打卡地標

      裝修“精神角落”,就是這么上癮

      無障礙瀏覽 進入關懷版