![]()
隨著 AIGC(Artificial Intelligence Generated Content) 的爆發(fā),我們已經習慣了像 Sora 或 Wan 這樣的視頻生成模型能夠理解「一只宇航員在火星后空翻」這樣天馬行空的指令。然而,3D 人體動作生成(3D MoGen)領域卻稍顯滯后。
現(xiàn)有的模型在標準數據集上表現(xiàn)良好,但在泛化能力上仍存在明顯瓶頸。一旦用戶輸入訓練集中未見過的復雜交互或罕見動作,生成的動作往往會缺乏自然性、崩壞或退化為簡單的平均姿態(tài),這嚴重限制了其在現(xiàn)實場景和交互系統(tǒng)中的應用。
那很自然地就會思考:視頻生成模型已經初步學會了通用的物理規(guī)律和人類行為,為什么不把這些知識「蒸餾」給 3D 人體動作生成模型呢?
![]()
![]()
- 論文鏈接:https://arxiv.org/abs/2510.26794
- 項目主頁:https://linjing7.github.io/vimogen/
ViGen-to-MoGen 的三大支柱
來自南洋理工大學、商湯科技、清華大學、香港中文大學和英偉達的研究人員提出了題為《The Quest for Generalizable Motion Generation: Data, Model, and Evaluation》的最新研究成果。這項工作從數據、模型、評估三個維度重新定義了通向通用動作生成的路徑。
- 數據 ViMoGen-228K:結合了從 30 個 MoCap 數據集中篩選的高精度數據,海量互聯(lián)網視頻與由視頻模型(Video Gen)合成視頻中提取的動作數據,包含了大量罕見、復雜的交互動作,突破了傳統(tǒng)數據棚采集的物理限制。
- 模型 ViMoGen:采用Text-to-Motion (T2M) 與 Motion-to-Motion (M2M)雙分支架構。通過門控機制,將視頻生成模型的語義先驗與 MoCap 的物理先驗完美統(tǒng)一。
- 評估 MBench: 首個面向「泛化性」的評測基準。從動作質量、文本忠實度、泛化能力三大維度(細分 9 項指標)對模型進行全方面測評,是目前最全面的動作生成評測方式。
數據 ViMoGen-228K —— 規(guī)模與多樣性的雙重飛躍
傳統(tǒng)動作數據集(如 AMASS)雖然精準但語義單一。ViMoGen 引入了 ViMoGen-228K 數據集,包含約 22.8 萬條高質量動作樣本。
多模態(tài)覆蓋,包含文本–動作、文本–視頻–動作多模態(tài)三元組。
多來源實現(xiàn)泛化能力提升:
- 對來自 30 個公開高質量的光學動作捕捉數據集進行了篩選和重標注。
- 從網絡視頻提取動作序列與語義標簽。
- 利用視頻生成(ViGen)模型生成了在真實動作捕捉中極難獲取的長尾動作,填補了語義空白。
模型 ViMoGen —— 多源先驗知識的深度表征與協(xié)同優(yōu)化探索
![]()
![]()
![]()
ViMoGen 模型巧妙地通過門控機制控制Text-to-Motion (T2M)分支與Motion-to-Motion (M2M)雙分支,同時利用 MoCap 數據的精準先驗和 ViGen 模型的廣泛語義先驗。該架構模型不僅在傳統(tǒng)動作生成測評上取得較好的分數,同時也通過文中提出的 MBench 測評基準,體現(xiàn)了它在泛化性上的卓越表現(xiàn)。
測評 MBench —— 多維分層評測體系
![]()
傳統(tǒng)的 FID(Frechet Inception Distance)等指標只能衡量生成動作與特定動作集分布的相似度,卻無法體現(xiàn)模型在處理復雜、罕見指令時的真實泛化能力。MBench 將評測拆解為相互關聯(lián)的三個層面,并細化為 9 項具體的量化指標。
動作質量 (Motion Quality)關注動作的合理性。通過計算與地面物理接觸、穿模情況以及腳步抖動和平滑度,評判生成動作的動作的物理可實現(xiàn)性。
指令忠實度 (Motion-Condition Consistency)利用多模態(tài)大模型評估生成動作與復雜文本描述的一致性。例如,模型是否準確還原了文本中提到的方位(“向左后方倒下”)或特定的交互邏輯。
開放世界泛化力 (Motion Generalizability)設計了一系列 Out-of-Distribution (OOD) 測試案例,涵蓋了極端動作、長尾語義以及復合指令,專門考驗模型在未見過場景下的穩(wěn)定性。
賦能具身智能,構建 Real-to-Sim 的高質量動作橋梁
在當前的人形機器人控制研究中(如 [arXiv:2505.03729] ),研究者通常依賴海量的 SMPL 參考軌跡(Reference Motions)來訓練高魯棒性的控制策略(Policy)。然而,傳統(tǒng)數據的匱乏嚴重限制了機器人動作的演化。
傳統(tǒng)的機器人訓練往往局限于幾套標準的行走動作。而 ViMoGen-228k 能夠帶來大量長尾、邊緣場景(Corner Cases)高質量動作, 同時 ViMoGen 憑借強大的泛化能力,能夠批量產出一些特殊需求的動作數據。這些數據能夠讓具身智能體在虛擬訓練階段就完成了對復雜動態(tài)的預演,使其在現(xiàn)實部署中具備更強的抗干擾能力。
同時 MBench 針對動作質量的一系列評估,能夠為下游的 Real-to-Sim 過程做初步篩選,從而排除了可能導致機器人頻繁跌倒或關節(jié)自鎖的無效動作。
結果展示

空翻
指令:一個人俯身蹲低,雙腿積蓄力量,隨后蹬地猛然躍起,下巴緊貼胸口。身體蜷縮成一個緊密的球狀,在空中優(yōu)雅地翻轉。隨著空翻動作的完成,他舒展雙腿,膝蓋微屈平穩(wěn)著陸,雙臂向外伸展以保持平衡。

多球雜耍
指令:一個人雙腳與肩同寬站立,目光緊盯著空中的彩色球。憑借熟練的手腕甩動,他們將每個球依次拋向空中,劃出流暢的弧線,雙手以協(xié)調一致的節(jié)奏交替動作。球不斷升起又落下,形成連續(xù)的循環(huán),雜耍者的動作流暢而精準,在整個表演過程中始終保持著完美的節(jié)奏與平衡。

引體向上
指令:一個人在單杠上進行一組標準的引體向上。從雙臂完全伸直的懸垂狀態(tài)開始,利用背部力量將身體垂直向上拉起,直到下巴超過單杠。

空手道
指令:一位武術家在前進的同時,執(zhí)行一套動態(tài)的空手道組合動作。

推箱子
指令:一個人身體前傾,雙手抵住一個巨大的重型箱子,在保持接觸的同時緩慢向前邁步。
作者介紹
本文由南洋理工大學、商湯科技、清華大學、香港中文大學及英偉達的頂尖學者合作完成。
林靖、王睿思、魯俊喆為共同第一作者。林靖是南洋理工大學博士生,研究大模型驅動的 3D 感知、生成與理解;王睿思為商湯研究員,興趣方向在高性能計算與大模型空間智能;魯俊喆是清華大學碩士,研究生成式模型和 3D 計算機視覺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.