品玩4月15日訊,據CSDN消息,南洋理工大學MMLab團隊近日正式推出Hand2World模型。該模型使AI世界模型能夠通過空中手勢實時生成第一人稱交互視頻,真正實現了從“被動觀察”到“主動觸達”的技術跨越,解決了長期存在的手眼交互難題。
針對現有模型在訓練與推理階段因手部遮擋導致的分布不匹配問題,Hand2World摒棄了傳統的2D掩碼,采用基于3D手部網格(MANO)的投影作為控制信號。同時,模型利用像素級Plücker射線嵌入顯式編碼相機運動,成功解耦了手部動作與頭部視角轉動,有效防止了背景漂移。
在技術架構上,Hand2World將雙向擴散教師模型蒸餾為因果自回歸生成器,支持流式輸出與無限時長的連續交互。實驗數據顯示,該模型在ARCTIC等三大基準測試中FVD指標大幅下降,顯著提升了生成視頻的視覺質量與3D一致性。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.