文章來源:我愛計算機視覺(ID:aicvml)
最近,數字人領域因為3D高斯濺射(3D Gaussian Splatting)技術的出現,又熱鬧了起來。這項技術大大加快了渲染速度,讓實時高保真渲染成為了可能。不過,挑戰依然存在,尤其是在處理衣服、快速運動的肢體等這些“軟”的、動態的細節時,效果總是不盡如人意。
今天,CV君想和大家聊一篇剛被機器人頂會IROS 2025接收的論文《STG-Avatar: Animatable Human Avatars via Spacetime Gaussian》。這篇工作來自大連理工大學、復旦大學等機構的研究者們,他們提出了一個名為STG-Avatar的全新框架,旨在解決上述痛點。簡單來說,只用一段普通單目視頻,它就能在25分鐘內訓練出一個細節豐富、可實時動畫的數字人分身,并能以60 FPS的絲滑幀率進行渲染。
![]()
論文標題 : STG-Avatar: Animatable Human Avatars via Spacetime Gaussian
作者 : Guangan Jiang, Tianzi Zhang, Dong Li, Zhenjun Zhao, Haoang Li, Mingrui Li, Hongyu Wang
機構 : 大連理工大學、復旦大學、澳門大學、薩拉戈薩大學、香港科技大學(廣州)
論文地址 : https://arxiv.org/abs/2510.22140
項目主頁(尚未開源) : https://github.com/jiangguangan/STG-Avatar
創建逼真的可動數字人,無論是在人機交互、VR/AR還是機器人遠程呈現等領域,都有著巨大的應用價值。傳統方法,比如基于NeRF(神經輻射場)的技術,雖然能生成高質量的數字人,但訓練和渲染速度都太慢,動輒需要幾十個小時訓練,渲染一幀也要好幾秒,離“實時”相去甚遠。
3D高斯濺射(3DGS)的出現像一股清流,它用成千上萬個“高斯球”來顯式地表示三維場景,渲染速度極快。然而,當面對一個活生生的人時,3DGS也遇到了麻煩。現有的基于3DGS的方法通常使用經典的線性混合蒙皮(Linear Blend Skinning, LBS)模型來驅動人體的骨骼運動。LBS擅長處理剛性的骨骼和關節運動,但對于衣服的褶皺、頭發的飄動這類非剛性變形,就顯得力不從心,導致細節丟失或產生不自然的“穿模”現象。
如何才能既保留LBS帶來的高效實時骨骼控制,又能精準捕捉那些微妙的非剛性動態細節呢?這正是STG-Avatar試圖解決的核心問題。
方法:剛柔并濟,時空高斯巧補細節
STG-Avatar的核心思想是“剛柔并濟”。它巧妙地將LBS和一種名為“時空高斯(Spacetime Gaussian, STG)”的技術結合起來,形成了一個剛-非剛耦合的變形框架。
![]()
整個流程可以分為三個階段:
SMPL引導的初始化 :首先,利用SMPL人體參數化模型對時空高斯進行初步的位置設定。
剛-非剛協同優化 :這是最關鍵的一步。LBS負責驅動人體總體的、剛性的姿態變化,保證了動畫的實時性和骨骼運動的準確性。而STG則在此基礎上,對3D高斯球進行時空維度的自適應優化,專門捕捉和補償LBS無法處理的非剛性變形,比如衣服的褶皺和擺動。
動態感知的神經渲染 :最后,通過一個輕量級的MLP(多層感知機)進行顏色解碼和渲染。
為了更好地捕捉高速運動區域的細節,作者們還引入了一個非常聰明的策略:用光流(Optical Flow)來識別哪些區域正在快速運動。
![]()
上圖展示了未使用光流引導(左)和使用后(右)的對比。可以清晰地看到,在手部、面部這些細節豐富且動態的區域,完整模型的重建效果有了顯著提升。當檢測到某個區域(比如揮舞的手臂)運動劇烈時,框架就會自動地、有針對性地在該區域增加3D高斯球的密度。這樣一來,計算資源就被用在了“刀刃上”,既能精準還原動態細節,又避免了全局加密帶來的巨大計算開銷。
實驗:效果與效率雙雙領先
口說無憑,實驗為證。研究者們在ZJU-MoCap和THUman4.0這兩個主流的單目視頻人體動作捕捉數據集上,將STG-Avatar與當前最先進的方法(SOTA)進行了全面對比。
定量對比 ![]()
從上表數據可以看出,在PSNR、SSIM(越高越好)和LPIPS(越低越好)這三項關鍵的圖像質量評估指標上,STG-Avatar都取得了最優或次優的成績,全面超越了HumanNeRF、GauHuman和3DGS-Avatar等方法。特別是在動態區域,其PSNR比3DGS-Avatar提升了1.5dB,衣物褶皺的LPIPS誤差降低了23%。
定性對比 ![]()
上圖是在ZJU-MoCap數據集上的效果對比,可以直觀地看到,相比其他方法,STG-Avatar(Ours)在重建衣服褶皺、身體輪廓等非剛性部分的細節上要清晰和真實得多。
![]()
在難度更高的THUman4.0數據集上,STG-Avatar同樣表現出色,無論是衣服的紋理、褶皺還是面部特征,都還原得惟妙惟肖。
效率對比 ![]()
效率是STG-Avatar的另一大殺手锏。在單張RTX 4090顯卡上,訓練時間僅需25分鐘,而渲染速度則達到了驚人的60 FPS,真正實現了實時交互。相比之下,NeRF類方法需要數天訓練,而其他3DGS方法要么訓練更慢,要么效果稍遜。
消融實驗 ![]()
為了驗證框架中各個模塊的有效性,作者還進行了消融研究。結果表明,無論是光流引導的采樣,還是STG模塊,都對最終的性能提升起到了至關重要的作用。
總結
CV君認為,STG-Avatar的巧妙之處在于它沒有試圖用一個“萬能模型”去解決所有問題,而是將剛性運動和非剛性細節這兩個不同性質的問題解耦,并用最適合的技術(LBS和STG)分別應對,最后通過光流進行智能化的資源調配。這種“分而治之”的哲學,在資源有限的情況下,實現了效果和效率的最佳平衡。
大家對這個方法怎么看?歡迎在評論區留下你的看法!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.