在數(shù)字世界的邊界不斷推進(jìn)之際,一項(xiàng)令人驚嘆的技術(shù)突破正悄然改變我們創(chuàng)造虛擬人像的方式。想象一下,僅憑兩三張普通照片,便能生成一個(gè)栩栩如生、細(xì)節(jié)精致到每一根發(fā)絲、每一個(gè)毛孔的高清3D人臉模型。這不是科幻小說中的描述,而是由Marcel C. Buhler及其團(tuán)隊(duì)開發(fā)的尖端AI技術(shù)。這項(xiàng)技術(shù)摒棄了傳統(tǒng)方法需要大量圖像和專業(yè)硬件的繁瑣過程,打開了一扇通向未來的窗口。當(dāng)我們站在這扇窗前,能看到的不僅是技術(shù)的飛躍,更是人類想象力與算法共舞的優(yōu)美樂章。
![]()
少樣本的奇跡
傳統(tǒng)的3D人臉建模方法像一場(chǎng)復(fù)雜的交響樂,需要各種專業(yè)樂器齊奏才能呈現(xiàn)美妙音樂。這些方法通常需要特殊的硬件設(shè)備、專業(yè)的拍攝環(huán)境和大量的圖像數(shù)據(jù)。想象一下,要?jiǎng)?chuàng)建一個(gè)逼真的3D人臉模型,傳統(tǒng)的神經(jīng)輻射場(chǎng)(NeRF)技術(shù)需要超過100張不同角度的照片。這種數(shù)據(jù)需求不僅讓普通用戶望而卻步,也限制了該技術(shù)在日常場(chǎng)景中的應(yīng)用。
Marcel C. Buhler團(tuán)隊(duì)的突破性研究徹底改變了這一現(xiàn)狀。他們開發(fā)的容積先驗(yàn)?zāi)P途拖褚晃唤?jīng)驗(yàn)豐富的畫家,即使只看到人臉的一小部分,也能憑借豐富的經(jīng)驗(yàn)繪制出完整的肖像。這項(xiàng)技術(shù)只需要兩到三張普通照片就能生成驚人的4K分辨率3D人臉模型,每一個(gè)細(xì)節(jié)都栩栩如生。
這一技術(shù)進(jìn)步的核心在于他們訓(xùn)練了一個(gè)特殊的數(shù)據(jù)驅(qū)動(dòng)容積先驗(yàn)?zāi)P汀_@個(gè)模型從1,450個(gè)不同身份的多視角圖像中學(xué)習(xí),掌握了人臉幾何結(jié)構(gòu)和外觀的通用知識(shí)。就像人類通過觀察數(shù)千張人臉后能輕松辨識(shí)和理解新面孔一樣,這個(gè)AI模型也能從有限的信息中"想象"出完整的人臉。
研究團(tuán)隊(duì)在2023年的實(shí)驗(yàn)中展示了驚人的結(jié)果:僅用三張輸入圖像,他們就成功生成了4K分辨率的人臉模型,清晰度高到能看清每一根頭發(fā)絲、每一個(gè)皮膚毛孔。更令人驚訝的是,這一技術(shù)不僅適用于工作室拍攝的標(biāo)準(zhǔn)照片,還能處理在野外使用普通手機(jī)拍攝的照片。
![]()
"傳統(tǒng)的NeRF方法在處理面部這樣的復(fù)雜有機(jī)表面時(shí)面臨巨大挑戰(zhàn),尤其是當(dāng)輸入視圖有限時(shí)。"研究團(tuán)隊(duì)指出,"我們的容積先驗(yàn)?zāi)P陀行Ы鉀Q了這個(gè)問題,讓人臉的高保真3D重建變得平民化。"
與當(dāng)前其他最先進(jìn)的技術(shù)相比,這一方法在各項(xiàng)指標(biāo)上都表現(xiàn)出色。在PSNR(峰值信噪比)、SSIM(結(jié)構(gòu)相似性)和LPIPS(感知相似性)等評(píng)價(jià)指標(biāo)上,該方法分別達(dá)到了25.69、0.8039和0.1905的成績(jī),遠(yuǎn)超其他競(jìng)爭(zhēng)方法。這些數(shù)字背后是肉眼可見的質(zhì)量差異——其他方法生成的模型常常有模糊的細(xì)節(jié)、不自然的紋理或幾何錯(cuò)誤,而Buhler團(tuán)隊(duì)的方法生成的模型看起來幾乎與真實(shí)照片無異。
這項(xiàng)技術(shù)還解決了之前讓研究人員頭疼的"過擬合"問題。當(dāng)模型只能看到有限的視角時(shí),它往往會(huì)學(xué)習(xí)到這些特定視角的特征而無法推廣到新視角。容積先驗(yàn)?zāi)P颓擅畹乩妙A(yù)訓(xùn)練知識(shí)來填補(bǔ)這些信息空白,確保從任何角度看都保持一致和真實(shí)。
技術(shù)的魔法
要理解這項(xiàng)技術(shù)的魔力,我們需要先了解神經(jīng)輻射場(chǎng)(NeRF)的基本原理。NeRF是一種用神經(jīng)網(wǎng)絡(luò)表示3D場(chǎng)景的方法,它的工作方式有點(diǎn)像填充一個(gè)透明的3D空間,決定空間中每個(gè)點(diǎn)的顏色和"密度"(是否有物體存在)。當(dāng)你想從某個(gè)角度查看場(chǎng)景時(shí),NeRF會(huì)沿著視線方向?qū)@些點(diǎn)進(jìn)行采樣和積分,計(jì)算出最終的顏色。
簡(jiǎn)單地說,傳統(tǒng)NeRF就像在空間中放置無數(shù)微小的彩色玻璃球,然后從特定角度看過去,這些球體疊加起來形成圖像。這個(gè)過程需要大量學(xué)習(xí)數(shù)據(jù)才能準(zhǔn)確放置這些"玻璃球"。
Buhler團(tuán)隊(duì)設(shè)計(jì)的人臉先驗(yàn)?zāi)P驮谶@個(gè)基礎(chǔ)上做了創(chuàng)新。它不再是從零開始學(xué)習(xí)放置"玻璃球",而是先學(xué)習(xí)了人臉的通用特征。這個(gè)模型由兩個(gè)主要部分組成:一個(gè)"提議網(wǎng)絡(luò)"負(fù)責(zé)預(yù)測(cè)空間中點(diǎn)的密度(決定哪里有物體),一個(gè)"NeRF網(wǎng)絡(luò)"則負(fù)責(zé)預(yù)測(cè)密度和顏色(決定物體的外觀)。
模型的訓(xùn)練過程十分精妙。研究團(tuán)隊(duì)首先對(duì)拍攝的1,450個(gè)不同身份的多視角照片進(jìn)行處理,將每個(gè)人的頭部對(duì)齊到一個(gè)標(biāo)準(zhǔn)位置和方向。這一步至關(guān)重要,因?yàn)樗屇P湍軌驅(qū)W習(xí)人臉之間的共同特征,而不是被不同姿勢(shì)和位置干擾。
接著,模型學(xué)習(xí)將每個(gè)身份編碼為一個(gè)"潛在編碼",這就像是每個(gè)人的數(shù)字身份證。這些編碼被用來調(diào)整NeRF網(wǎng)絡(luò)的行為,使其能夠生成特定人物的面部特征。訓(xùn)練過程中,模型通過比較生成的圖像和實(shí)際照片之間的差異來不斷改進(jìn)自己。
在重建一個(gè)新的人臉時(shí),整個(gè)流程分為三個(gè)關(guān)鍵步驟:
![]()
預(yù)處理與頭部對(duì)齊:首先估計(jì)相機(jī)參數(shù)并將頭部對(duì)齊到標(biāo)準(zhǔn)位置。對(duì)于工作室照片,這通過相機(jī)校準(zhǔn)完成;對(duì)于野外照片,則使用谷歌的Mediapipe工具估計(jì)相機(jī)位置和3D關(guān)鍵點(diǎn)。
反演:找到一個(gè)能夠生成良好起點(diǎn)的潛在編碼。這一步就像在模型學(xué)習(xí)過的所有面孔中找到最接近目標(biāo)人物的"數(shù)字DNA"。
模型擬合:調(diào)整預(yù)訓(xùn)練模型的權(quán)重,生成目標(biāo)身份的高分辨率新視角。這個(gè)過程需要精心設(shè)計(jì)的正則化策略來防止過擬合,包括對(duì)視角分支的權(quán)重進(jìn)行正則化和使用法線一致性損失來調(diào)整幾何形狀。
"單純地訓(xùn)練NeRF模型處理稀疏視圖會(huì)導(dǎo)致嚴(yán)重的失真,"研究團(tuán)隊(duì)指出,"正確初始化模型的權(quán)重并使用適當(dāng)?shù)恼齽t化是避免'浮動(dòng)偽影'和獲得高質(zhì)量合成效果的關(guān)鍵。"
實(shí)驗(yàn)表明,這種方法不僅能處理標(biāo)準(zhǔn)光照條件下的照片,還能應(yīng)對(duì)具有挑戰(zhàn)性的光照環(huán)境,包括陰影和鏡面反射。即使在使用不同相機(jī)、不同環(huán)境甚至單張圖像的情況下,它仍能生成令人印象深刻的結(jié)果。
技術(shù)的核心創(chuàng)新在于它結(jié)合了數(shù)據(jù)驅(qū)動(dòng)的先驗(yàn)知識(shí)與靈活的模型微調(diào)能力。先驗(yàn)?zāi)P吞峁┝岁P(guān)于人臉幾何和外觀的基礎(chǔ)知識(shí),而微調(diào)過程則捕捉特定個(gè)體的獨(dú)特特征。這種平衡使得系統(tǒng)既能保持泛化能力,又能忠實(shí)呈現(xiàn)個(gè)性化細(xì)節(jié),從而實(shí)現(xiàn)了之前認(rèn)為不可能的任務(wù)——從極少量圖像生成超高清3D人臉。
性能大比拼
在數(shù)字技術(shù)的競(jìng)技場(chǎng)上,Buhler團(tuán)隊(duì)的人臉合成技術(shù)就像一位突然冒出的新秀,在各項(xiàng)比賽中連連擊敗老牌選手。要了解這項(xiàng)技術(shù)到底有多厲害,我們需要看看它與其他同類技術(shù)的直接對(duì)決成績(jī)。
研究團(tuán)隊(duì)設(shè)計(jì)了一場(chǎng)全面的"對(duì)抗賽",讓自己的技術(shù)與當(dāng)前五個(gè)最先進(jìn)的方法一較高下:FreeNeRF、基于EG3D的先驗(yàn)?zāi)P汀earnit、RegNeRF和KeypointNeRF。測(cè)試場(chǎng)景很簡(jiǎn)單——給每個(gè)系統(tǒng)兩張同一個(gè)人的照片,讓它們生成10241024分辨率的新視角圖像,然后比較質(zhì)量。
結(jié)果令人瞠目結(jié)舌。在PSNR指標(biāo)上(這是衡量圖像質(zhì)量的重要指標(biāo),越高越好),Buhler團(tuán)隊(duì)的方法得分25.69,遠(yuǎn)超第二名KeypointNeRF的22.79。在SSIM指標(biāo)(衡量結(jié)構(gòu)相似性)上,他們的方法得分0.8039,同樣領(lǐng)先。在LPIPS指標(biāo)(感知相似性,越低越好)上,他們的成績(jī)是0.1905,比最接近的競(jìng)爭(zhēng)對(duì)手EG3D基礎(chǔ)先驗(yàn)的0.2897好了將近35%。
但數(shù)字只是故事的一部分。看看生成圖像的視覺對(duì)比更能說明問題。其他方法生成的臉部經(jīng)常出現(xiàn)模糊不清的紋理、不自然的光照效果,或者在轉(zhuǎn)換視角時(shí)面部特征發(fā)生變形。而Buhler團(tuán)隊(duì)的方法生成的圖像清晰銳利,細(xì)節(jié)豐富,無論從哪個(gè)角度看都保持真實(shí)感。
![]()
"我們?cè)贔aceScape數(shù)據(jù)集上進(jìn)行了測(cè)試,雖然KeypointNeRF和DINER都是在這個(gè)數(shù)據(jù)集上訓(xùn)練的,而我們的模型不是,但我們的結(jié)果仍然更勝一籌。"研究團(tuán)隊(duì)在論文中如此寫道,展示了他們的技術(shù)在"分布外"場(chǎng)景的強(qiáng)大適應(yīng)能力。
這項(xiàng)技術(shù)的一個(gè)特別亮點(diǎn)是它能適應(yīng)各種拍攝環(huán)境。在受控的工作室環(huán)境中,它能從三張照片生成令人驚嘆的4K超高清模型。但更令人印象深刻的是,它同樣能處理在野外用普通手機(jī)拍攝的照片。研究團(tuán)隊(duì)展示了用數(shù)碼相機(jī)在戶外墻前和室內(nèi)拍攝的案例,證明了這項(xiàng)技術(shù)在日常環(huán)境中的實(shí)用性。
即使在光線條件極具挑戰(zhàn)性的場(chǎng)景中,如有強(qiáng)烈陰影和鏡面反射的情況下,這項(xiàng)技術(shù)仍能產(chǎn)生高質(zhì)量結(jié)果。在一個(gè)特別的測(cè)試中,拍攝對(duì)象前額有明顯的高光反射,但生成的3D模型仍然準(zhǔn)確捕捉了這些細(xì)微的光照變化,PSNR達(dá)到了25.87,SSIM為0.7688。
更讓人驚訝的是,這個(gè)系統(tǒng)甚至能從單張圖像重建出合理的3D模型。傳統(tǒng)上認(rèn)為,從單一視角重建3D是一個(gè)嚴(yán)重欠約束的問題,幾乎不可能得到準(zhǔn)確結(jié)果。但Buhler團(tuán)隊(duì)的方法證明,強(qiáng)大的先驗(yàn)知識(shí)可以彌補(bǔ)信息的不足。他們展示了從單張正面照片生成的側(cè)面和45度角視圖,不僅面部幾何合理,連深度圖和法線圖都顯示出一致性。這表明該模型學(xué)習(xí)了強(qiáng)大的人臉幾何先驗(yàn),能夠解決深度模糊問題,重建出連頭發(fā)這樣具有挑戰(zhàn)性的區(qū)域。
另一個(gè)值得注意的實(shí)驗(yàn)是不同初始化方法的比較。研究人員嘗試了六種不同的初始化策略:使用訓(xùn)練集中最遠(yuǎn)或最近鄰居的潛在編碼、使用所有潛在編碼的平均值、使用高斯噪聲、使用零向量,以及他們提出的反演方法。結(jié)果顯示,反演方法在所有指標(biāo)上都表現(xiàn)最佳,PSNR為25.69,SSIM為0.8040,LPIPS為0.1905。這證明了良好的初始化對(duì)于最終結(jié)果質(zhì)量的重要性。
研究團(tuán)隊(duì)還進(jìn)行了正則化策略的消融實(shí)驗(yàn)。他們發(fā)現(xiàn),沒有任何正則化時(shí),模型容易過度擬合視角方向,導(dǎo)致在新視角下有嚴(yán)重的色彩失真。添加視角分支權(quán)重正則化后,這個(gè)問題得到緩解,但表面結(jié)構(gòu)仍然模糊。只有同時(shí)添加法線一致性損失,模型才能從非常稀疏的視圖穩(wěn)健地?cái)M合目標(biāo)身份。這個(gè)實(shí)驗(yàn)揭示了不同組件在系統(tǒng)性能中的作用,為未來的改進(jìn)提供了方向。
未來新地圖
Buhler團(tuán)隊(duì)的技術(shù)就像打開了一扇通往數(shù)字人像新世界的大門,不過這扇門后的風(fēng)景有多遼闊,值得我們好好探索一番。
這項(xiàng)技術(shù)最顯著的突破是實(shí)現(xiàn)了超高分辨率的3D人臉合成。傳統(tǒng)上,神經(jīng)輻射場(chǎng)模型受限于計(jì)算資源,很難生成超過1K分辨率的圖像。但Buhler團(tuán)隊(duì)的方法成功突破了這一限制,實(shí)現(xiàn)了4K分辨率的輸出。這意味著生成的圖像可以放大到非常大的尺寸,仍然保持清晰銳利,每一根頭發(fā)絲、每一個(gè)皮膚毛孔都清晰可見。
在他們展示的4K分辨率渲染中,模型捕捉到了皮膚表面微妙的光照變化、眼睫毛的精細(xì)結(jié)構(gòu),甚至是面部肌肉的微小變化。這樣的細(xì)節(jié)水平在以前的方法中是不可想象的,尤其是考慮到輸入只有兩三張圖像的情況下。
![]()
更令人興奮的是,這項(xiàng)技術(shù)在不受控環(huán)境中的應(yīng)用前景。研究團(tuán)隊(duì)展示了在室外和室內(nèi)用普通相機(jī)拍攝的案例,證明該技術(shù)不依賴專業(yè)攝影設(shè)備或理想光照條件。這打開了許多實(shí)際應(yīng)用的可能性:從個(gè)性化虛擬形象創(chuàng)建、電影特效制作,到遠(yuǎn)程醫(yī)療面部分析,再到增強(qiáng)現(xiàn)實(shí)中的真實(shí)面部替換。
想象一下,未來你只需用手機(jī)拍兩張自拍,就能創(chuàng)建一個(gè)可以從任何角度查看的超高清3D模型,用于視頻游戲角色定制、虛擬試妝,或者社交媒體的個(gè)性化虛擬形象。這種技術(shù)可能徹底改變我們與數(shù)字世界互動(dòng)的方式。
不過,這項(xiàng)技術(shù)目前也存在一些局限性。正如研究團(tuán)隊(duì)坦誠(chéng)指出的,他們的數(shù)據(jù)集主要包含中性表情的面部,因此模型在處理極端表情時(shí)表現(xiàn)不佳。雖然小幅度的表情變化(如微笑)可以合成,但大幅度的表情變化會(huì)導(dǎo)致質(zhì)量下降。
另外,模型對(duì)衣物和配飾的處理也存在困難。這些元素在訓(xùn)練數(shù)據(jù)中的多樣性不足,導(dǎo)致模型無法很好地泛化到不同的服裝樣式或特殊配飾。
計(jì)算時(shí)間也是一個(gè)挑戰(zhàn)。模型擬合過程特別是在高分辨率下可能需要相當(dāng)長(zhǎng)的時(shí)間,這限制了它在實(shí)時(shí)應(yīng)用中的使用。研究團(tuán)隊(duì)認(rèn)為,某些問題可以通過更多樣化的數(shù)據(jù)解決,而其他問題則需要未來研究的突破。
研究者們指出了幾個(gè)有前途的研究方向。一是擴(kuò)展模型以處理表情變化,可能通過引入表情編碼或動(dòng)態(tài)幾何變形。二是提高計(jì)算效率,可能通過更高效的網(wǎng)絡(luò)架構(gòu)或優(yōu)化算法。三是增強(qiáng)模型處理各種環(huán)境光照的能力,使它在任何條件下都能生成高質(zhì)量結(jié)果。
![]()
"雖然我們的方法在身份、分辨率、視點(diǎn)和光照等多個(gè)維度上都有很好的泛化能力,但它也受到數(shù)據(jù)集限制的影響,"研究團(tuán)隊(duì)這樣總結(jié)道,"我們相信,隨著更多樣化的數(shù)據(jù)和算法改進(jìn),這些挑戰(zhàn)都可以得到解決。"
這項(xiàng)技術(shù)的出現(xiàn)恰逢數(shù)字人類學(xué)和元宇宙概念興起之際,它為創(chuàng)建高度真實(shí)的數(shù)字人類提供了一個(gè)重要工具。與此同時(shí),它也引發(fā)了關(guān)于數(shù)字身份、隱私和倫理使用的討論。當(dāng)創(chuàng)建逼真的數(shù)字人臉變得如此簡(jiǎn)單時(shí),如何確保這項(xiàng)技術(shù)被用于積極的目的而非濫用,將成為一個(gè)重要議題。
無論如何,Buhler團(tuán)隊(duì)的工作代表了計(jì)算機(jī)視覺和圖形學(xué)領(lǐng)域的一個(gè)重要里程碑,為未來的研究和應(yīng)用開辟了廣闊道路。當(dāng)我們站在這一技術(shù)的起點(diǎn),很難不為數(shù)字未來的可能性感到興奮。
參考資料
Buhler, M. C., Sarkar, K., Shah, T., Li, G., Wang, D., Helminger, L., … &; Meka, A. (2023). A Data-driven Volumetric Prior for Few-shot Ultra High-resolution Face Synthesis. ICCV 2023.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.