在元宇宙的世界里,3D數字人像是一扇通往虛擬現實的窗口,而建模效果則直接影響著我們的視覺體驗。然而,人體復雜的拓撲結構和豐富的細節使得傳統建模方法往往耗時費力且成本高昂。近年來,一種名為"隱式神經表示"的新型技術悄然興起,它能夠以連續表示的方式描述任意拓撲結構的物體,且分辨率不受限制。這項技術被應用于人體3D建模中,與傳統方法相比展現出驚人的效果。當人工智能與數字人結合,會碰撞出怎樣的火花?隱式神經表示技術正在如何重塑我們創建和體驗虛擬人物的方式?讓我們一同揭開這項革命性技術的神秘面紗。
舊法與新途
傳統的3D數字人建模方法通常需要專業團隊投入大量時間與精力。這個過程不僅需要精心布置的專用場地和昂貴的攝像機陣列,還需要演員穿戴特殊服裝進行動作和圖像捕捉。拍攝完成后,制作技術人員還需手動修正生成的數據,消除瑕疵并填補缺失部分。最后,將3D網格綁定到骨骼上,這個被稱為"蒙皮"的過程直接決定了動畫的視覺效果。
整個工作流程繁瑣且成本高昂,這促使研究人員轉向人工智能模型,希望能從傳感器數據中自動恢復人體形狀和動作。這些數據通常包括3D點云、RGB圖像、深度圖和骨骼關鍵點,后三者往往是同步采集的。
3D模型的表示方式主要分為三類:體素、網格和隱式場。體素和網格是離散表示方法,它們用大量離散元素模擬整個物體。相比體素,網格因表示變形的便捷性而更受歡迎。研究人員已經構建了各種參數化網格模型來描述虛擬形象的不同部分,包括身體、頭部和手部。
參數化模型是一種統計模型,它在數據集上分析拓撲結構的共同特征和影響因素,建立通用參數方程。例如SMPL模型構建了一個通用人體模板,包含關節分布、運動約束、形狀和姿勢參數來描述個性化特征。參數化模型通過公式將個人特征與3D形象的皮膚和骨骼關聯起來,大大增強了3D形象表示的便捷性。
然而,這種人工設計的參數模型存在幾個缺點:(1)精度不夠,參數難以描述細節;(2)不夠全面,模型尚未完全覆蓋表情和肌肉等特征;(3)缺乏照相級建模能力。
![]()
隱式神經表示方法應運而生。這種方法將3D物體的輪廓視為一個函數,然后使用神經網絡擬合這個函數。具體來說,主要有三種類型:
占位場(Occupancy Field):在空間中采樣一個點,如果該點在物體輪廓內,占位值為1,否則為0。分類的決策面就是物體的輪廓。
符號距離場(Signed Distance Field,SDF):計算點到輪廓面的距離。在輪廓內,符號為負,否則為正。距離為0的平面代表物體輪廓。
神經輻射場(Neural Radiance Field,NeRF):受SDF啟發,將輪廓特征改為顏色和體積密度,主要用于合成具有良好視角一致性的新視角圖像。
基于隱式神經表示的方法是連續的,理論上可以表示任意拓撲和分辨率的3D物體,已被廣泛應用于3D重建、數據壓縮和圖像生成等領域。在3D數字人重建中,幾乎所有最新的優秀研究都使用了隱式神經網絡來構建更精細的模型。
人體新塑
隱式神經表示在人體建模上的應用十分豐富多樣。從表示方法上看,可分為基于占位場、基于符號距離場和基于神經輻射場三類;從建模范圍看,既有全局建模也有基于部件的表示;從動態特性看,有靜態人體建模,也有動態人體建模;從服裝表示看,既能表示最小著裝的身體,也能表現有服裝的人體。
在基于占位場的人體建模方法中,O-Flow是最早使用隱式神經表示進行動態人體建模的研究之一。雖然占位網絡能夠描述形狀,但對于動作序列輸入,需要為每一幀重建,這在動態場景中非常繁瑣。因此,O-Flow只使用占位網絡一次性生成第一幀的人體形狀,而對于其余幀,設計了一個速度網絡來學習變形梯度場,描述網格上頂點的軌跡。然后將這個輸出傳入常微分方程進行變形映射,從而實現對動作序列的連續表示。
不過,O-Flow只在第一幀形成固定網格,這難以穩定表示大規模的動作變化。受O-Flow啟發,后續研究通常設計一個規范模板,將姿態形狀通過反向線性混合蒙皮映射到規范空間進行形狀學習,然后用姿態信息調節隱式神經網絡。
NASA是一種基于部件的方法,將人體視為由多個骨骼鉸接的物體,并為每個骨骼建立占位場。與O-Flow不同,NASA分別學習骨骼的剛性變換和局部非剛性變形。剛性網絡描述骨骼的剛性變換,依靠姿態參數調整占位值;非剛性變形網絡為每個骨骼配置另一個算子,這是一個可學習的線性子空間投影,姿態被投影到低維空間,作為形狀校正的局部變形信息。最后,每個骨骼給出的預測占位值被送入最大算子得到結果。
LEAP方法將所有骨骼的變換矩陣作為全局特征送入形狀編碼器、結構編碼器和姿態編碼器,然后通過每個骨骼的投影模塊獲取其局部特征。此外,LEAP使用每個骨骼的變換矩陣學習反向線性混合蒙皮,用于權衡所有骨骼的局部特征來調節占位網絡。LEAP采用反向蒙皮方法使規范空間的學習依賴于姿態,難以處理未見過的姿態。
SNARF通過使用前向蒙皮方法避免了這個問題。與之前方法一樣,第一步仍需通過反向蒙皮將姿態形狀映射到規范空間。但SNARF不是直接學習反向蒙皮函數,而是根據幾何循環一致性求解前向蒙皮的逆。此外,它還使用迭代尋根方法處理前向蒙皮逆計算無封閉解的情況。
S3是一種從多模態數據獲取形狀、姿態和皮膚特征的方法,不同于上述方法,輸入需要2D圖像和3D體素化雷達點云,分別用于生成2D特征圖和3D特征圖。有三個隱式場,包括形狀場、姿態場和皮膚場,后續組合獲得可動畫的3D數字人。
在基于符號距離場的人體建模中,SCANimate旨在根據給定的3D掃描生成可調整姿態的3D數字人。這也是一種在規范空間中建模人體的方法,引入SMPL作為先驗指導模型學習反向蒙皮權重。與SNARF類似,SCANimate基于幾何循環一致性解決規范空間缺乏真實蒙皮權重的問題。頂點的位移不受所有關節影響,只受幾個關節影響,因此SCANimate引入注意力機制,有效提高泛化能力。
![]()
Neural-GIF同樣使用SMPL引導網絡學習人體形狀。與NASA類似,Neural-GIF將變形過程分為兩步:剛性變換和非剛性變形。對于剛性變換,使用混合蒙皮權重計算所有骨骼的影響;對于非剛性變換,Neural-GIF學習一個依賴姿態的位移場,而NASA采用投影方式。Neural-GIF不僅通過符號距離描述輪廓,還學習從查詢點到最近表面的法線,進一步實現服裝細節的表示。
UNIF作為一種基于部件的表示,用20個SDF部件表示人體。與其他基于部件的方法不同,UNIF采用以骨骼為中心的初始化方法。每個隱式函數初始是以骨骼為中心的小半徑球體,然后各部分繼續擴展,實現身體的自動分離。為避免骨骼旋轉導致的裂縫和重疊,他們提出了一種相鄰拼接算法,相當于一種蒙皮方法,使用附近骨骼的旋轉角度影響頂點的蒙皮權重。
雖然UNIF實現了自動分割,但初始化仍采用先驗手工設計,難以推廣到其他物體。為此,Bozic等人提出了神經變形圖。他們使用圖結構建模物體,為每個節點安排一個SDF描述形狀。這是一種自監督建模方法,設計了多個損失函數進行必要約束,包括圖結構覆蓋整個身體、輪廓內節點均勻分布、邊連接的稀疏性。它以SDF序列為輸入,使用幀間圖節點的相對位移評估變形,然后用于生成動態蒙皮權重。UNIF具有強大的拓撲適應性,能模擬人體與可變形物體之間的動態交互。
在神經輻射場方面,由于NeRF主要用于合成新視角,3D重建通常是次要任務或不考慮的任務。不過,Neural Body將潛碼附加到SMPL模型上作為結構化潛碼,能從體素密度提取3D模型,但有偽影。Yao等人將SMPL先驗作為粗略特征,多視角輸入作為詳細特征,兩種特征融合一起學習SDF,實現3D重建并獲得比Neural Body更詳細的效果。
受占位網絡和SDF實現的建模流程啟發,Peng等人開發了用于數字人重動畫的NeRF。他們使用NeRF表示實現規范空間,然后以SMPL為約束構建神經變形場,將其饋入位置編碼器。位置編碼器的輸出通過密度模型轉換為形狀特征和體積密度,作為NeRF的必要元素。
從圖像重建3D人體也是一個挑戰性任務。PIFu首次提出了像素對齊方法,將2D像素與3D形狀對齊,使學習的函數保留圖像中的局部細節。輸入RGB圖像,通過編碼器獲得特征圖,其像素和相應的3D頂點位置用于監督網絡。為提高保真度,PIFu利用RGB場預測3D紋理,設計了體積占位場來調節圖像編碼器,提高對未見姿態的泛化能力。
![]()
由于硬件內存限制,輸入圖像的分辨率較低,PIFu難以實現高精度重建。PIFuHD提出了多級表示策略,基于PIFu,粗略PIFu使用預估的正面和背面法線圖作為額外輸入,精細PIFu使用從粗級網絡提取的3D嵌入特征計算占位值,而非絕對深度值。雖然粗網絡提取全局信息,精網絡不需要知道全局信息,因此可以通過裁剪圖像訓練,解決內存限制問題。PIFuHD因此產生比PIFu更詳細的結果。
PIFu使用像素對齊丟失幾何細節,PIFuHD引入互補細節的多級網絡,但都沒有利用3D空間信息。Geo-PIFu通過提出幾何對齊方法改進PIFu,將3D幾何與2D像素融合為特征向量。首先,使用3D U-Nets將像素特征提升為體素特征,然后將3D點到2D圖像的弱透視相機投影和2D編碼向量一起輸入隱式函數描述輪廓。因此,重建對單視角不可見區域效果更好,且Geo-PIFu的參數比PIFuHD少一個數量級。
![]()
手頭并進
手部和頭部的精確建模是數字人技術中不可或缺的一環,這兩個部位不僅細節豐富,還承載著人類表達情感和互動的核心功能。隱式神經表示技術在這兩個領域的應用雖然研究相對較少,但進展同樣引人注目。
在手部建模方面,HALO是一個基于占位場的隱式手部模型,完全依賴骨骼輸入。與人體建模的方法類似,骨架被映射到規范空間,其長度被視為形狀描述符。對于混合蒙皮權重,HALO保持與MANO(一種參數化手部模型)一致。由于物體也可以用關鍵點表示,HALO將物體代碼與手部骨骼代碼結合,經過關鍵點解碼器后生成抓取形狀。這種擴展被稱為HALO-VAE。另一種描述抓取動作的隱式方法與HALO-VAE相似,不同之處在于手部模型和物體模型都以點云形式輸入,分別通過各自的占位網絡編碼器處理。最終預測包括查詢點到手部和物體的距離,以及手部的分解。為避免解碼后的物體和手部相互穿透,兩種方法都引入了物理約束。
LISA同樣使用MANO來指導手部建模,屬于基于部件的方法。與HALO類似,MANO中的形狀參數使用骨骼姿態進行隱式描述,但LISA采用符號距離場來描述形狀。此外,LISA還學習了顏色場以實現更逼真的外觀。這些手部建模技術展示了隱式神經表示在表達關節物體方面的有效性。
頭部建模包括面部和頭發,同樣得益于隱式表示技術的進步。NeuralHDHair是一種基于占位場的頭發生長模型,能從單張圖像恢復3D發型。這項研究為3D空間中的點分配占位值和方向,其中占位值描述頭發是否生長,方向決定生長方向。對于占位場,采用了體素對齊的思想,將2D像素對應到3D體素。對于方向場,學習過程分為兩步:首先從原始圖像的2D方向圖估計3D方向作為粗略生長方向;其次從高精度照明圖豐富方向細節。
面部建模的關鍵任務是表達豐富多樣的表情和情感。ImFace是一個隱式面部模型,在神經網絡中等效地描述了3DMM模型。ImFace的靈感與人體隱式建模類似,從面部嵌入向量中提取并解耦面部表情和身份特征。隱式神經表示還可用于驅動面部表情。有研究將人臉分散為大量彈性單元,構建隱式控制信號場,并對每個彈性單元施加應力。形狀變化通過物理模擬計算,為隱式神經表示在軟體控制上的應用提供了新思路。
基于參數模型的隱式建模受限于原始模型,無法詳細表示整個頭部。近期,頭部精細建模取得了一些成果。H3D探索從多視角生成完整頭部模型,包括發型、面部和表情。首先,他們用大量3D掃描數據訓練符號距離場,然后固定參數;其次,以當前符號距離場為先驗訓練隱式神經渲染模型;收斂后,解凍符號距離場參數繼續訓練進行微調。不過,重建質量受預訓練模型影響,依賴大量3D掃描數據。HeadNeRF是一個頭部渲染模型,直接從圖像提取包括身份、表情、紋理和照明四種潛碼。前兩者對應像素密度場,后兩者對應顏色場。該模型可以插值潛碼生成新圖像,并借助NeRF支持的可微渲染直接改變相機視角生成新視角圖像。
![]()
突破與前瞻
隱式神經場在人類數字人重建中展示出巨大優勢,它能以連續場的形式建模任何拓撲結構和各種特征。與傳統方法相比,在精細度、真實感和效率方面都有很大提升。占位場和符號距離場被廣泛用于表示,前者只輸出占位值,后者包含距離量。占位場的梯度范數僅在零水平處達到最大,而符號距離場的梯度范數是恒定的。兩種方法都被廣泛應用于3D重建任務,足以描述物體形狀。神經輻射場將符號距離場的思想擴展到渲染領域,在新視角合成方面取得了良好進展。不過,直接從體積密度恢復的3D形狀存在偽影。
盡管隱式神經表示技術取得了顯著進展,但在研究中仍存在幾個關鍵問題需要解決:
對于動作序列重建,基于隱式表示的方法只考慮空間相關性,忽略了時間相關性,而這正是特定動作的特征。目前的研究雖然能夠模擬動畫,但缺乏物理真實性使數字人的表現嚴重依賴蒙皮權重,難以推廣到未見過的姿勢。給模型賦予物理彈性仍是一個挑戰。
手部對數字人的交互能力至關重要。雖然隱式表示已被用于描述抓取動作,但效果仍然粗糙,手部與物體之間的接觸無法在物理上建模。在物理交互中,精確模擬手指與物體之間的接觸點、壓力分布及其引起的變形至關重要,但當前技術尚未能完美解決這些問題。
對于頭部,頭發無疑是最難模擬的部分,即使在計算機圖形學中也是如此。目前的頭發模型比較僵硬,使用隱式神經表示建立更精細的頭發表示具有重要價值。頭發的每一根絲都有獨特的形狀、彎曲度和光照反應,真實的頭發模擬需要考慮這些微小的差異以及它們在運動中的物理行為。
在解決這些問題方面,以下方向值得探索:
可以通過將與運動相關的力學方程作為先驗或可學習參數,進一步利用動作序列的時間相關性。比如將牛頓運動定律融入模型中,使數字人的動作不僅視覺連貫,也符合物理規律,在重力作用下表現出適當的加速度和慣性。
基于彈性力學的方法更適合處理非剛性變形,而骨骼便于描述剛性變形。結合彈性模型和基于骨骼的表示是一個不錯的選擇。這樣的混合模型可以在保持骨骼結構支撐的同時,模擬肌肉、脂肪和皮膚等軟組織的自然變形。
![]()
為使手部更具表現力,手部與物體之間的交互應體現在隱式神經場的融合形式中。這需要在模型中顯式地表示接觸力、摩擦和材質的變形響應,使虛擬手能夠以物理上可信的方式與環境交互。
為增強物理屬性,應將計算機圖形學中的頭發模型作為先驗,而將隱式形狀視為物理約束。這種方法可以結合傳統頭發模擬技術的物理精確性和隱式神經表示的表達能力,創建更逼真的頭發模型。
在計算機科學中,算法的進步多種多樣且迅速。在隱式神經表示被提出的短短幾年內,研究人員根據不同的應用場景迅速創造了大量變體。在人體全身建模的應用中,基于隱式神經表示的方法也已成為趨勢。隱式神經表示是一種優秀的方法,為建模3D數字人提供了強有力的支持。基于隱式表示的數字人必將向著真實性、靈活性和個性化的方向發展。
參考資料
Sun, M., Yang, D., Kou, D., Jiang, Y., Shan, W., Yan, Z., &; Zhang, L. (2023). Human 3D Avatar Modeling with Implicit Neural Representation: A Brief Survey.
Mescheder, L., Oechsle, M., Niemeyer, M., Nowozin, S., &; Geiger, A. (2019). Occupancy Networks: Learning 3D Reconstruction in Function Space.
Park, J. J., Florence, P., Straub, J., Newcombe, R., &; Lovegrove, S. (2019). DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation.
Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R., &; Ng, R. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.