網易首頁 > 網易號 > 正文申請入駐

不止動起來：SentiAvatar重新定義3D數字人動作生成范式

2026-04-08 11:23:10　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

當你和 3D 數字人對話時，有沒有遇到過這種詭異時刻：它的嘴在動，但表情依舊僵硬；手在揮舞，但和說話內容完全脫節；更糟的是，那種外表像真人但動作不自然的違和感，讓人瞬間陷入 “恐怖谷”。

問題的根源在于，人類溝通從來不只是語言或動作的單一呈現。一個聳肩可以表達無奈，一個點頭傳遞認同，而微微揚起的眉毛則暗示懷疑。這些由手勢、姿態與面部表情構成的非語言信號，是真實交流中不可或缺的關鍵維度。

當前大多數 3D 數字人的動作生成仍停留在通用動作拼接層面，難以承載復雜語義與情緒表達。而這種自然、連貫且富有情緒的表現力對 3D 數字角色至關重要：數字人需要它來建立信任，機器人需要它來與人類協作，游戲則需要它讓角色更加生動。

AI 初創公司 SentiPulse 聯合中國人民大學高瓴人工智能學院博士生團隊的最新研究，提出了一套 3D 數字人動作生成新范式SentiAvatar，它是用于構建具備表現力的交互式 3D 數字人框架。團隊基于此打造了虛擬角色SUSU，使其能夠實時進行語言表達、動作表現與情緒傳達

視頻鏈接：https://mp.weixin.qq.com/s/13XKw1FLyDr9V3IxaPZltg

今天，SentiAvatar 框架、3D 數字人 SUSU 角色模型及高質量動作數據集 SuSuInterActs全球同步開源

論文標題：SentiAvatar: Towards Expressive and Interactive Digital Humans
論文地址：https://arxiv.org/abs/2604.02908
項目主頁：https://sentiavatar.github.io/

一眼假的 3D 數字人

困在三個 "無人區"

讓 3D 數字人在真實對話中自然地手舞足蹈，聽起來只是一個工程問題，但它實際上橫跨了三個長期未被同時解決的研究缺口：

第一，高質量數據荒。現有數據集要么以英語語料為主，要么缺乏與動作同步的面部表情，中文對話場景下的高質量全身動作數據幾乎空白。

第二，復合語義動作漂移。當描述從簡單的“揮手”變成“無奈地聳肩”、“認同地點頭” 這種復合語義時，模型的理解能力急劇退化。

第三，對話節奏錯亂。模型生成的動作要么像機器人一樣勻速機械，要么和語音的重音、停頓完全錯位。

能不能讓數字人既理解“要說什么”，又能做出能跟上說話的節奏的流暢動作？

問題本質

語義與韻律是兩個時間尺度的問題

現有方法在對話驅動的動作生成上陷入兩難：全局語義對齊要求模型理解句子級的行為語義，如：無奈地聳肩，并生成宏觀動作結構；幀級韻律對齊則要求動作的速度起伏精確響應語音的重音、停頓與節律變化。兩者分別工作在句子級和幀級兩個時間尺度，單一模型難以兼顧。

以往的共語音手勢生成方法（EMAGE、TalkShow 等）將動作視為音頻的低階反射，缺乏句子級語義規劃；而文本驅動的動作生成方法（T2M-GPT、MoMask 等）則完全丟棄了音頻信號，無法捕捉語音韻律對動作時序的精細調制。

SentiAvatar 的出發點正是將這兩個目標解耦，將句子級語義規劃與幀級韻律驅動分階段處理，而非強行塞進一個端到端模型。

SentiAvatar

3D 數字人動作生成新范式

為了解決以上問題，SentiPulse 團隊基于統一技術框架SentiAvatar打造了虛擬角色 SUSU，并構建SuSuInterActs 數據集（包含 2.1 萬段片段，總計 37 小時），該對話語料通過光學動捕技術采集，圍繞單一角色，包含同步的語音、全身動作與面部表情。其次，在超過 20 萬條動作序列上預訓練了一個動作基礎模型 Motion Foundation Model，使其具備豐富的動作先驗，能力遠超對話場景本身。在此基礎上，團隊創新提出了一種全新的模型架構 plan-then-infill，將句子級語義規劃與逐幀的韻律驅動插值解耦，從而使生成的動作既符合語義，又在節奏上與語音高度一致。

SuSuInterActs 數據集

數據瓶頸是 SentiAvatar 解決的一個硬核問題。現有共語音數據集的兩個主要局限：1）以英語為主 2）缺乏同步的面部表情數據，在中文對話場景下尤為突出。

SentiPulse 圍繞單一虛擬角色 SUSU（22 歲，溫柔活潑，情感豐富），從頭構建了SuSuInterActs 數據集。該數據集包含2.1 萬段片段、37 小時的多模態對話語料，涵蓋同步語音、行為標注文本、全身動作與面部表情。

數據采集流程分四步：

角色與場景設計。
LLM 生成帶行為標注的對話腳本，比如：動作 “攤手無奈”、表情 “擔憂” 等標簽。
專業動捕演員使用 Nokov 光學動捕系統 + MANUS 手套 + iPhone ARKit 系統完整錄制。
后處理與時間對齊（統一幀率 20FPS，幀級同步）。

最終數據集規模：21,133 條片段，36.9 小時，覆蓋日常聊天、情感支持、趣味互動等多類場景。每條樣本包含四路同步模態：中文對話文本（含行為語義標注）、語音音頻（WAV）、全身骨骼動作（63 關節，6D 旋轉表示）、面部混合形狀系數（blendshape coefficient）（51 維 ARKit 參數）。其中 14,278 條含非默認動作標注，9,412 條含非默認表情標注。

聚焦單一角色是一個有意為之的設計選擇，相比 BEAT2 等多角色數據集，它帶來了更一致的行為模式，有利于角色特定的動作與表情風格學習。

動作基礎模型：200K 序列的異質預訓練

對話數據集的動作分布天然受限于對話場景。團隊在預訓練階段引入了自研的 Motion Foundation Model 動作基礎模型，在 200K + 條異質動作序列（約 676 小時）上訓練通用運動先驗。數據來源如下：

蒸餾流程值得關注：通過挖掘原子動詞、LLM 擴展同義短語、組合模板生成復合動作描述（最多 4 個動作），以及引入奧運運動、仿生動作等專項類別，系統性地擴展了動作先驗的覆蓋邊界。

基礎模型以 Qwen-0.5B 為骨干，擴展詞表至包含 2,048 個動作 Token（R-VQVAE，4 層殘差量化，每層碼本 512）和音頻 Token（HuBERT K-means 量化）。預訓練任務為文本-動作生成，所有文本描述統一翻譯為中文，保持語言空間一致性。

核心架構 plan-then-infill

用對話生成動作的核心在于理解高層語義意圖，模型需要先知道 “做什么動作”，再決定 “如何逐幀執行”，這一過程建模是一個規劃問題。SentiAvatar 采用雙通道并行架構 plan-then-infill，身體動作與面部表情分離處理，身體動作通道由兩個串聯階段構成。

1. 身體動作通道

第一階段，LLM 語義規劃器接收行為標簽文本和稀疏音頻 Token，輸出稀疏關鍵幀動作 Token 序列。為支持多輪流式連續生成，模型以前一句話的最后兩個關鍵幀音頻 - 動作 Token 對作為上下文前綴，從下一個關鍵幀位置續寫，實現無縫跨句過渡。

第二階段，Body Infill Transformer在相鄰關鍵幀之間填入中間 3 幀，以逐幀 HuBERT 連續特征（768 維，20FPS）作為條件信號。模型采用 5 幀滑動窗口，首尾幀已知，預測中間 3 幀（12 個動作 Token）。推理時使用迭代置信度解碼策略（默認 6 步），逐步接受高置信度預測，避免一次性預測的質量退化。

2. 面部表情通道

直接繞過 LLM 規劃階段，面部表情的動態與語音韻律高度耦合，無需句子級語義規劃。Face Infill Transformer結構與 Body Infill Transformer 類似，但操作 2Token / 幀的面部離散表示，直接從音頻特征生成面部 Token，再由 Face R-VQVAE 解碼為 51 維 ARKit 混合形狀系數序列。

兩通道共享 HuBERT 特征提取，端到端延遲約 0.53 秒生成 6 秒動作，支持無限多輪流式輸出

實時性能：0.3 秒內生成 6 秒輸出

FGD/BC 雙刷 SOTA

整體實驗結果：跨數據集均達最優水平

實驗結果表明，SentiAvatar 在 SuSuInterActs 和 BEATv2 兩個數據集上均達到了當前最優水平。

在自建 SuSuInterActs 測試集上，SentiAvatar 的文本 - 動作檢索召回率 R@1 達 43.64%，接近次優基線 T2M-GPT（23.12%）的兩倍，FID 降至 8.912（對比：T2M-GPT 67.78，EMAGE 441.6）。
在跨數據集評測 BEATv2 上，SentiAvatar 以 FGD 4.941、BC 8.078 同時刷新兩項指標的 SOTA ，超越此前最優的 Language-of-Motion（FGD 5.301）和 SynTalker（BC 7.971），驗證了方法的跨語言、跨數據集泛化能力。
SentiAvatar 在所有生成方法中取得最低 ESD（0.456 秒，真實動作基準為 0.308 秒）。

注：評測指標 ESD（Event Sync Distance），是一種用于衡量生成動作與驅動信號（如語音節奏）之間時間同步性的客觀評測指標，它直接反映了數字人或機器人的動作是否 “對得上拍子”。

定性分析結果：SentiAvatar 動作生成效果最佳

團隊將 SentiAvatar 與幾種 3D 動作生成主流 AI 模型進行對比。下圖中每一行展示特定動作與語音的關鍵幀序列，相同顏色的文字和箭頭代表同一時間，紅色箭頭表示動作錯誤。

多模型對比結果：SentiAvatar 呈現出最自然的生成效果，動作語義正確，并且在時間上與音頻波形高度對齊。MoMask 能夠從文本標簽中部分捕捉動作語義，但由于無法獲取語音信息，生成的動作節奏較為靜態，且與音頻不存在對應關系。MEAGE 可以生成與音頻同步的動作，但動作較為通用，忽略了標簽中指定的語義意圖。AT2M-GPT 盡管能同時接受音頻和文本輸入，但常常會誤解動作語義。HunYuan-Motion 因未基于高質量動捕數據進行訓練，生成結果中存在明顯的身體畸形和不自然姿態，整體表現最差。

消融實驗結果：驗證核心架構各部分不可替代

在架構消融實驗中，移除 LLM 規劃器會導致性能大幅下降：R@1 從 43.64% 驟降至 28.06%，FID 從 8.912 劣化至 27.567，說明句子語義規劃至關重要；移除 Infill Transformer 同樣會導致所有指標下降，R@1 降至 27.52%，ESD 惡化至 0.503 秒，因為僅依賴稀疏關鍵幀會產生不連續、節奏不自然的動作。

音頻條件消融進一步揭示，Infill Transformer 中的連續 HuBERT 特征是幀級同步的主要驅動力，而 LLM 中的離散音頻 Token 則更多貢獻于整體動作質量和節律規劃，驗證了 “粗粒度音頻規劃+細粒度音頻對齊” 的協同效果。

在實驗能力外，工程落地能力同樣關鍵。SentiAvatar 實現了 0.3 秒內生成 6 秒動作序列，支持無限輪次的流式交互。這意味著數字人可以在實時對話中持續生成連貫的動作與表情，無需等待整句結束再批量處理。

開源與未來

從 "數字人" 到下一代 "數字生命"

今天，SentiAvatar 框架、SuSuInterActs 數據集及預訓練模型重磅開源，上線 GitHub。SentiPulse 團隊邀請全球對 3D 動作生成感興趣的研究機構、開發者，共同突破 3D 數字人技術與應用的新邊界。

SentiPulse 看到的未來不止于此。當前 3D 數字人的競爭焦點仍在數字人的視覺形象和基礎語音動作能力，下一步技術躍遷，是構建像人一樣的認知和表達能力：更完整的表達模型、更統一的人格系統、更長期的交互記憶。3D 數字人未來的競爭重心，將不再是誰渲染得更真實，而是誰能構建更完整的認知-表達閉環。

當數字人不再只是 "提線木偶"，而是能感知語境、理解情緒、主動表達的交互主體，人機關系的底層邏輯將被重寫，下一代 “數字生命” 也即將走進現實。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.