機器之心發布
當你和 3D 數字人對話時,有沒有遇到過這種詭異時刻:它的嘴在動,但表情依舊僵硬;手在揮舞,但和說話內容完全脫節;更糟的是,那種外表像真人但動作不自然的違和感,讓人瞬間陷入 “恐怖谷”。
問題的根源在于,人類溝通從來不只是語言或動作的單一呈現。一個聳肩可以表達無奈,一個點頭傳遞認同,而微微揚起的眉毛則暗示懷疑。這些由手勢、姿態與面部表情構成的非語言信號,是真實交流中不可或缺的關鍵維度。
當前大多數 3D 數字人的動作生成仍停留在通用動作拼接層面,難以承載復雜語義與情緒表達。而這種自然、連貫且富有情緒的表現力對 3D 數字角色至關重要:數字人需要它來建立信任,機器人需要它來與人類協作,游戲則需要它讓角色更加生動。
AI 初創公司 SentiPulse 聯合中國人民大學高瓴人工智能學院博士生團隊的最新研究,提出了一套 3D 數字人動作生成新范式SentiAvatar,它是用于構建具備表現力的交互式 3D 數字人框架。團隊基于此打造了虛擬角色SUSU,使其能夠實時進行語言表達、動作表現與情緒傳達
![]()
視頻鏈接:https://mp.weixin.qq.com/s/13XKw1FLyDr9V3IxaPZltg
今天,SentiAvatar 框架、3D 數字人 SUSU 角色模型及高質量動作數據集 SuSuInterActs全球同步開源
![]()
- 論文標題:SentiAvatar: Towards Expressive and Interactive Digital Humans
- 論文地址:https://arxiv.org/abs/2604.02908
- 項目主頁:https://sentiavatar.github.io/
一眼假的 3D 數字人
困在三個 "無人區"
讓 3D 數字人在真實對話中自然地手舞足蹈,聽起來只是一個工程問題,但它實際上橫跨了三個長期未被同時解決的研究缺口:
第一,高質量數據荒。現有數據集要么以英語語料為主,要么缺乏與動作同步的面部表情,中文對話場景下的高質量全身動作數據幾乎空白。
第二,復合語義動作漂移。當描述從簡單的“揮手”變成“無奈地聳肩”、“認同地點頭” 這種復合語義時,模型的理解能力急劇退化。
第三,對話節奏錯亂。模型生成的動作要么像機器人一樣勻速機械,要么和語音的重音、停頓完全錯位。
能不能讓數字人既理解“要說什么”,又能做出能跟上說話的節奏的流暢動作?
問題本質
語義與韻律是兩個時間尺度的問題
現有方法在對話驅動的動作生成上陷入兩難:全局語義對齊要求模型理解句子級的行為語義,如:無奈地聳肩,并生成宏觀動作結構;幀級韻律對齊則要求動作的速度起伏精確響應語音的重音、停頓與節律變化。兩者分別工作在句子級和幀級兩個時間尺度,單一模型難以兼顧。
以往的共語音手勢生成方法(EMAGE、TalkShow 等)將動作視為音頻的低階反射,缺乏句子級語義規劃;而文本驅動的動作生成方法(T2M-GPT、MoMask 等)則完全丟棄了音頻信號,無法捕捉語音韻律對動作時序的精細調制。
SentiAvatar 的出發點正是將這兩個目標解耦,將句子級語義規劃與幀級韻律驅動分階段處理,而非強行塞進一個端到端模型。
SentiAvatar
3D 數字人動作生成新范式
![]()
為了解決以上問題,SentiPulse 團隊基于統一技術框架SentiAvatar打造了虛擬角色 SUSU,并構建SuSuInterActs 數據集(包含 2.1 萬段片段,總計 37 小時),該對話語料通過光學動捕技術采集,圍繞單一角色,包含同步的語音、全身動作與面部表情。其次,在超過 20 萬條動作序列上預訓練了一個動作基礎模型 Motion Foundation Model,使其具備豐富的動作先驗,能力遠超對話場景本身。在此基礎上,團隊創新提出了一種全新的模型架構 plan-then-infill,將句子級語義規劃與逐幀的韻律驅動插值解耦,從而使生成的動作既符合語義,又在節奏上與語音高度一致。
SuSuInterActs 數據集
數據瓶頸是 SentiAvatar 解決的一個硬核問題。現有共語音數據集的兩個主要局限:1) 以英語為主 2)缺乏同步的面部表情數據,在中文對話場景下尤為突出。
SentiPulse 圍繞單一虛擬角色 SUSU(22 歲,溫柔活潑,情感豐富),從頭構建了SuSuInterActs 數據集。該數據集包含2.1 萬段片段、37 小時的多模態對話語料,涵蓋同步語音、行為標注文本、全身動作與面部表情。
![]()
數據采集流程分四步:
- 角色與場景設計。
- LLM 生成帶行為標注的對話腳本,比如:動作 “攤手無奈”、表情 “擔憂” 等標簽。
- 專業動捕演員使用 Nokov 光學動捕系統 + MANUS 手套 + iPhone ARKit 系統完整錄制。
- 后處理與時間對齊(統一幀率 20FPS,幀級同步)。
最終數據集規模:21,133 條片段,36.9 小時,覆蓋日常聊天、情感支持、趣味互動等多類場景。每條樣本包含四路同步模態:中文對話文本(含行為語義標注)、語音音頻(WAV)、全身骨骼動作(63 關節,6D 旋轉表示)、面部混合形狀系數(blendshape coefficient)(51 維 ARKit 參數)。其中 14,278 條含非默認動作標注,9,412 條含非默認表情標注。
聚焦單一角色是一個有意為之的設計選擇,相比 BEAT2 等多角色數據集,它帶來了更一致的行為模式,有利于角色特定的動作與表情風格學習。
動作基礎模型:200K 序列的異質預訓練
對話數據集的動作分布天然受限于對話場景。團隊在預訓練階段引入了自研的 Motion Foundation Model 動作基礎模型,在 200K + 條異質動作序列(約 676 小時)上訓練通用運動先驗。數據來源如下:
![]()
蒸餾流程值得關注:通過挖掘原子動詞、LLM 擴展同義短語、組合模板生成復合動作描述(最多 4 個動作),以及引入奧運運動、仿生動作等專項類別,系統性地擴展了動作先驗的覆蓋邊界。
基礎模型以 Qwen-0.5B 為骨干,擴展詞表至包含 2,048 個動作 Token(R-VQVAE,4 層殘差量化,每層碼本 512)和音頻 Token(HuBERT K-means 量化)。預訓練任務為文本-動作生成,所有文本描述統一翻譯為中文,保持語言空間一致性。
核心架構 plan-then-infill
用對話生成動作的核心在于理解高層語義意圖,模型需要先知道 “做什么動作”,再決定 “如何逐幀執行”,這一過程建模是一個規劃問題。SentiAvatar 采用雙通道并行架構 plan-then-infill,身體動作與面部表情分離處理,身體動作通道由兩個串聯階段構成。
1. 身體動作通道
![]()
第一階段,LLM 語義規劃器接收行為標簽文本和稀疏音頻 Token,輸出稀疏關鍵幀動作 Token 序列。為支持多輪流式連續生成,模型以前一句話的最后兩個關鍵幀音頻 - 動作 Token 對作為上下文前綴,從下一個關鍵幀位置續寫,實現無縫跨句過渡。
第二階段,Body Infill Transformer在相鄰關鍵幀之間填入中間 3 幀,以逐幀 HuBERT 連續特征(768 維,20FPS)作為條件信號。模型采用 5 幀滑動窗口,首尾幀已知,預測中間 3 幀(12 個動作 Token)。推理時使用迭代置信度解碼策略(默認 6 步),逐步接受高置信度預測,避免一次性預測的質量退化。
2. 面部表情通道
直接繞過 LLM 規劃階段,面部表情的動態與語音韻律高度耦合,無需句子級語義規劃。Face Infill Transformer結構與 Body Infill Transformer 類似,但操作 2Token / 幀的面部離散表示,直接從音頻特征生成面部 Token,再由 Face R-VQVAE 解碼為 51 維 ARKit 混合形狀系數序列。
兩通道共享 HuBERT 特征提取,端到端延遲約 0.53 秒生成 6 秒動作,支持無限多輪流式輸出
實時性能:0.3 秒內生成 6 秒輸出
FGD/BC 雙刷 SOTA
整體實驗結果:跨數據集均達最優水平
實驗結果表明,SentiAvatar 在 SuSuInterActs 和 BEATv2 兩個數據集上均達到了當前最優水平。
- 在自建 SuSuInterActs 測試集上,SentiAvatar 的文本 - 動作檢索召回率 R@1 達 43.64%,接近次優基線 T2M-GPT(23.12%)的兩倍,FID 降至 8.912(對比:T2M-GPT 67.78,EMAGE 441.6)。
- 在跨數據集評測 BEATv2 上,SentiAvatar 以 FGD 4.941、BC 8.078 同時刷新兩項指標的 SOTA ,超越此前最優的 Language-of-Motion(FGD 5.301)和 SynTalker(BC 7.971),驗證了方法的跨語言、跨數據集泛化能力。
- SentiAvatar 在所有生成方法中取得最低 ESD(0.456 秒,真實動作基準為 0.308 秒)。
注:評測指標 ESD(Event Sync Distance),是一種用于衡量生成動作與驅動信號(如語音節奏)之間時間同步性的客觀評測指標,它直接反映了數字人或機器人的動作是否 “對得上拍子”。
定性分析結果:SentiAvatar 動作生成效果最佳
團隊將 SentiAvatar 與幾種 3D 動作生成主流 AI 模型進行對比。下圖中每一行展示特定動作與語音的關鍵幀序列,相同顏色的文字和箭頭代表同一時間,紅色箭頭表示動作錯誤。
![]()
多模型對比結果:SentiAvatar 呈現出最自然的生成效果,動作語義正確,并且在時間上與音頻波形高度對齊。MoMask 能夠從文本標簽中部分捕捉動作語義,但由于無法獲取語音信息,生成的動作節奏較為靜態,且與音頻不存在對應關系。MEAGE 可以生成與音頻同步的動作,但動作較為通用,忽略了標簽中指定的語義意圖。AT2M-GPT 盡管能同時接受音頻和文本輸入,但常常會誤解動作語義。HunYuan-Motion 因未基于高質量動捕數據進行訓練,生成結果中存在明顯的身體畸形和不自然姿態,整體表現最差。
消融實驗結果:驗證核心架構各部分不可替代
在架構消融實驗中,移除 LLM 規劃器會導致性能大幅下降:R@1 從 43.64% 驟降至 28.06%,FID 從 8.912 劣化至 27.567,說明句子語義規劃至關重要;移除 Infill Transformer 同樣會導致所有指標下降,R@1 降至 27.52%,ESD 惡化至 0.503 秒,因為僅依賴稀疏關鍵幀會產生不連續、節奏不自然的動作。
音頻條件消融進一步揭示,Infill Transformer 中的連續 HuBERT 特征是幀級同步的主要驅動力,而 LLM 中的離散音頻 Token 則更多貢獻于整體動作質量和節律規劃,驗證了 “粗粒度音頻規劃+細粒度音頻對齊” 的協同效果。
在實驗能力外,工程落地能力同樣關鍵。SentiAvatar 實現了 0.3 秒內生成 6 秒動作序列,支持無限輪次的流式交互。這意味著數字人可以在實時對話中持續生成連貫的動作與表情,無需等待整句結束再批量處理。
開源與未來
從 "數字人" 到下一代 "數字生命"
今天,SentiAvatar 框架、SuSuInterActs 數據集及預訓練模型重磅開源,上線 GitHub。SentiPulse 團隊邀請全球對 3D 動作生成感興趣的研究機構、開發者,共同突破 3D 數字人技術與應用的新邊界。
SentiPulse 看到的未來不止于此。當前 3D 數字人的競爭焦點仍在數字人的視覺形象和基礎語音動作能力,下一步技術躍遷,是構建像人一樣的認知和表達能力:更完整的表達模型、更統一的人格系統、更長期的交互記憶。3D 數字人未來的競爭重心,將不再是誰渲染得更真實,而是誰能構建更完整的認知-表達閉環。
當數字人不再只是 "提線木偶",而是能感知語境、理解情緒、主動表達的交互主體,人機關系的底層邏輯將被重寫,下一代 “數字生命” 也即將走進現實。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.