![]()
這項由北京大學(xué)多媒體信息處理國家重點實驗室、北京大學(xué)視覺技術(shù)國家工程研究中心、北京郵電大學(xué)人工智能學(xué)院,以及北京智源人工智能研究院聯(lián)合開展的研究,于2026年4月以預(yù)印本形式發(fā)布,論文編號為arXiv:2604.07966。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過該編號在arXiv平臺查閱完整論文。
**一場關(guān)于"光"的革命,從視頻生成開始**
如果你曾經(jīng)用過AI視頻生成工具,大概有過這樣的體驗:生成出來的畫面乍一看很漂亮,但總感覺哪里不對勁。仔細(xì)一看,問題往往出在光線上——桌上的玻璃杯沒有反光,金屬表面沒有高光,陰影方向亂七八糟,甚至同一個畫面里,有的物體看起來是在晴天拍的,有的又像是陰天。這種感覺就像一張照片里同時存在兩個太陽一樣違和。
光線,是讓一段視頻看起來真實的靈魂所在。人類的眼睛對光線極度敏感,哪怕只是細(xì)微的不協(xié)調(diào),我們的大腦就會立刻發(fā)出"這不對勁"的信號。對AI來說,"畫"出一個合理的光影世界,遠(yuǎn)比畫出一把椅子或一棟樓困難得多。
這就是LiVER這個研究框架要解決的核心問題。LiVER的全名是"Lighting-grounded Video genERation",中文可以理解為"以光照為基礎(chǔ)的視頻生成"。研究團隊的思路是:與其讓AI去"猜"光線應(yīng)該是什么樣的,不如直接把物理世界中真實的光照規(guī)律"喂"給它,讓它從根本上理解光是如何在不同材質(zhì)表面產(chǎn)生不同效果的。
**一、問題的根源:AI為什么不懂光**
要理解LiVER解決了什么問題,先要理解現(xiàn)有AI視頻生成工具的局限性究竟在哪里。
當(dāng)前的視頻生成模型,大多是通過學(xué)習(xí)海量視頻數(shù)據(jù)來"模仿"真實世界的樣子。這個過程有點像一個從來沒有學(xué)過繪畫的人,通過觀看成千上萬幅畫作來學(xué)習(xí)畫畫。他能學(xué)到"草地通常是綠色的"、"天空通常是藍色的"這樣的規(guī)律,但他不理解"為什么晴天草地的陰影是藍紫色調(diào)的"這樣的物理原理。
這種依賴數(shù)據(jù)驅(qū)動的學(xué)習(xí)方式,導(dǎo)致生成的視頻往往在"表面現(xiàn)象"上做到了相似,卻在"物理規(guī)律"上出現(xiàn)了錯誤。比如,生成一段陽光明媚的室外場景時,AI可能會把金屬物體渲染成啞光質(zhì)感,或者讓玻璃窗看起來沒有任何反射。更嚴(yán)重的問題是,當(dāng)場景中有多個物體相互遮擋時,AI很難正確處理它們之間復(fù)雜的陰影和反射關(guān)系。
與此同時,現(xiàn)有工具對視頻場景的"控制能力"也十分有限。用戶往往只能通過文字描述來影響生成結(jié)果,無法精確控制攝像機從哪個角度拍攝、場景中的物體放在什么位置、光線從哪個方向照射過來。這三個要素——布局、光照、攝像機軌跡——在專業(yè)影視制作中是核制約創(chuàng)作自由度的核心變量,但在現(xiàn)有AI工具中,它們要么被混在一起無法單獨調(diào)整,要么根本沒有被建模。
LiVER的研究團隊把這個問題比作一道"解耦"難題:如何把光照、布局、攝像機這三個原本糾纏在一起的因素,清晰地分離開來,讓用戶能夠像調(diào)音臺上的推子一樣,獨立地控制每一個維度?
**二、核心思路:用3D物理渲染來"教"AI**
LiVER的解題思路,可以用一個電影特效制作的比喻來理解。
在專業(yè)的電影工業(yè)里,視覺特效團隊在制作一個充滿金屬機器人或玻璃建筑的場景時,不會直接用畫筆一筆一筆地畫出光影效果。他們的做法是:先用3D軟件搭建一個完整的三維場景,設(shè)定好每個物體的材質(zhì)屬性(是金屬還是塑料?是光滑還是粗糙?),然后在場景里放置一個虛擬光源,讓計算機按照真實的物理光學(xué)規(guī)律自動計算出所有的光影效果。這個過程叫做"基于物理的渲染"(Physically-Based Rendering,簡稱PBR)。
LiVER的思路正是借鑒了這種方法。研究團隊不讓AI直接生成最終視頻,而是先讓一個"智能助手"(研究中稱之為"渲染器智能體")根據(jù)用戶的文字描述,自動搭建一個簡化的3D場景,然后用3D渲染引擎(具體使用的是開源3D軟件Blender)按照物理規(guī)律計算出光照效果,生成一套"場景代理"(Scene Proxy)圖像序列。這套圖像序列就像是電影拍攝前的分鏡頭草圖,但它包含了精確的物理光照信息。最后,再把這套物理準(zhǔn)確的"草圖"作為輸入,引導(dǎo)AI視頻生成模型來產(chǎn)生最終的高質(zhì)量視頻。
這個流程的精妙之處在于,AI視頻生成模型不需要自己去"推斷"光線應(yīng)該怎么打,因為正確答案已經(jīng)被物理渲染引擎算好了,并以圖像的形式直接告訴了它。AI只需要把這些光照信息與場景內(nèi)容融合在一起,生成視覺上更加細(xì)膩、真實的最終畫面。
**三、場景代理:把光分解成三種"語言"**
LiVER框架中最具技術(shù)創(chuàng)意的部分,是它如何表達場景的光照信息。
研究團隊沒有試圖用一張圖來描述所有的光線效果,而是把光照分解成三種不同的"語言",分別對應(yīng)光在不同材質(zhì)表面上的不同表現(xiàn)方式。
第一種語言叫做"漫反射"(Diffuse),處理的是啞光、無光澤表面的光照效果。粗糙的石頭、布料、未經(jīng)打磨的木頭,光線打上去會向四面八方均勻散射,沒有明顯的高光或反射。這種光照描述的是場景中最基礎(chǔ)的明暗關(guān)系,捕捉的是低頻的、柔和的環(huán)境光效果。
第二種語言叫做"粗糙GGX"(Rough GGX),處理的是半光滑表面的光照效果。輕微磨砂的金屬、陶瓷、部分塑料,光線打上去會產(chǎn)生模糊的、擴散的高光區(qū)域。這種光照描述捕捉的是中頻的寬泛反射,是很多日常物品表面效果的主要來源。
第三種語言叫做"光澤GGX"(Glossy GGX),處理的是高度光滑、鏡面般的表面的光照效果。拋光金屬、玻璃、鏡子,光線打上去會產(chǎn)生清晰的、尖銳的高光和環(huán)境反射。這種光照描述捕捉的是高頻的精確反射,是讓材質(zhì)看起來"貴"或"精致"的關(guān)鍵。
將這三種光照圖像疊在一起,就像把一首音樂的低音、中音、高音三個聲部分別錄制成單獨的音軌,然后再混合成最終成品。每種材質(zhì)對應(yīng)不同聲部的組合方式不同,金屬可能低音弱、高音強,織物可能低音強、高音幾乎沒有。通過這三種"光照語言"的組合,可以精確描述幾乎所有材質(zhì)表面的光照行為。
在技術(shù)實現(xiàn)上,這三種光照圖像被按照通道拼合在一起,形成一個9通道(每種光照3個RGB通道,共3種)的圖像序列,構(gòu)成最終的"場景代理"。這個場景代理不僅包含了精確的光照信息,還包含了場景的幾何布局和攝像機運動信息,一舉解決了三個控制維度的問題。
**四、智能體如何"讀懂"你的文字并搭建場景**
從用戶輸入一段文字描述,到LiVER生成場景代理,中間經(jīng)過了一個由多個AI模塊協(xié)同工作的"渲染器智能體"流程。這個過程就像從總導(dǎo)演、美術(shù)指導(dǎo)到攝影師的分工協(xié)作。
整個過程從"場景構(gòu)建"開始。智能體首先像一位文學(xué)分析師一樣,仔細(xì)拆解用戶提供的文字描述,提取出其中涉及的物體類別、它們之間的空間關(guān)系(比如"長凳在樹下"、"垃圾桶在建筑旁邊"),并把這些信息組織成一個結(jié)構(gòu)化的"場景圖譜"。場景圖譜中的每個節(jié)點代表一個物體,每條邊代表兩個物體之間的位置關(guān)系。
有了場景圖譜之后,智能體會從一個預(yù)先整理好的3D資產(chǎn)庫(基于Objaverse-XL這個包含超過1000萬個3D物體的龐大數(shù)據(jù)庫)中,為每個節(jié)點找到最合適的3D模型,然后根據(jù)場景圖譜的空間約束來擺放這些模型的位置,形成一個粗略但幾何上合理的3D場景。
接下來是"光照設(shè)置"。智能體會從用戶描述中提取與光線相關(guān)的線索,比如"溫暖的傍晚陽光"、"陰天漫射光"、"霓虹燈氛圍"等。根據(jù)這些線索,它會從Poly Haven這個高質(zhì)量HDR環(huán)境貼圖庫中篩選出最匹配的全景光照圖。HDR(高動態(tài)范圍)環(huán)境貼圖就像是把整個天空和周圍環(huán)境"拍"成一張全景照片,用它來照亮場景,可以產(chǎn)生非常真實的環(huán)境光效果。如果庫中沒有完全匹配的貼圖,智能體還能調(diào)用專門的生成模型來臨時創(chuàng)建一個。
隨后是"攝像機規(guī)劃"。智能體從文字描述中識別拍攝手法的線索,比如"繞軌道拍攝"、"推拉變焦"、"升降鏡頭"等,然后根據(jù)這些線索規(guī)劃攝像機的運動軌跡。它會先確定幾個關(guān)鍵幀的攝像機位置和朝向,再通過數(shù)學(xué)插值方法生成一條時間上平滑的完整軌跡。
最后,將場景幾何、光照設(shè)置、攝像機軌跡全部輸入Blender渲染引擎,分別渲染出三種光照圖像序列,拼合成最終的場景代理,準(zhǔn)備好喂給視頻生成模型。
**五、如何把物理信息"注入"AI視頻生成模型**
得到了場景代理之后,下一個挑戰(zhàn)是:如何讓它真正引導(dǎo)AI視頻生成模型,而不只是被模型忽視?
LiVER的基礎(chǔ)視頻生成模型選用的是阿里巴巴開源的Wan2.2-5B,這是一個在大量真實視頻數(shù)據(jù)上訓(xùn)練的高質(zhì)量視頻擴散模型,已經(jīng)具備了很強的視覺質(zhì)量生成能力。研究團隊在它的基礎(chǔ)上,額外設(shè)計了兩個輕量化的新模塊。
第一個模塊叫做"場景代理編碼器",專門負(fù)責(zé)從場景代理圖像序列中提取關(guān)鍵信息。這個編碼器由多個2D卷積神經(jīng)網(wǎng)絡(luò)塊堆疊而成,每個塊包含卷積操作、歸一化處理和激活函數(shù)。它的工作方式是:逐幀處理場景代理圖像,把9通道的光照信息壓縮提煉成一套更緊湊的特征向量。研究團隊刻意選擇了2D卷積而非更復(fù)雜的3D卷積,這樣在保持對光照信息高度敏感的同時,計算量也更加合理。
第二個模塊叫做"代理適配器",負(fù)責(zé)把場景代理的信息與視頻生成模型的內(nèi)部表示融合在一起。在技術(shù)實現(xiàn)上,場景代理編碼器輸出的特征,會以一種"殘差疊加"的方式加到視頻模型的潛在表示(Latent Representation,也就是視頻在模型內(nèi)部的抽象編碼)上。為了保證訓(xùn)練初期模型不會被新加入的信息搞亂,這個疊加操作有一個可學(xué)習(xí)的縮放權(quán)重,初始值被設(shè)為零,意味著訓(xùn)練剛開始時場景代理對視頻生成完全沒有影響,隨著訓(xùn)練的進行,權(quán)重逐漸增大,場景代理的影響也逐漸增強。這個設(shè)計的好處是讓模型能夠"平穩(wěn)過渡",不會因為新加入的信息而遺忘之前學(xué)到的視覺質(zhì)量。
**六、三階段訓(xùn)練:循序漸進地"教會"模型**
設(shè)計好了框架結(jié)構(gòu),剩下的問題是:怎么訓(xùn)練?
LiVER的研究團隊設(shè)計了一套三階段訓(xùn)練方案,每個階段都有明確的學(xué)習(xí)目標(biāo),環(huán)環(huán)相扣。
在第一階段,研究團隊完全凍結(jié)了預(yù)訓(xùn)練的視頻生成模型(即Wan2.2-5B的所有參數(shù)保持不變),只訓(xùn)練新加入的場景代理編碼器和適配器模塊。這個階段持續(xù)10個訓(xùn)練周期,目標(biāo)是讓新加入的模塊學(xué)會如何把場景代理轉(zhuǎn)化為有效的控制信號。這就像先讓新來的助理學(xué)會如何解讀導(dǎo)演的分鏡腳本,而不要一開始就讓他介入到整個拍攝流程中。
在第二階段,研究團隊在繼續(xù)訓(xùn)練編碼器和適配器的同時,還解凍了視頻生成模型中的LoRA層。LoRA(低秩適應(yīng))是一種高效的微調(diào)技術(shù),它不改變模型原有的大量參數(shù),而是在模型中插入少量額外的低秩矩陣來捕捉新的能力。這樣做既能讓視頻生成模型學(xué)會更好地響應(yīng)場景代理的控制,又不會徹底破壞它原本已經(jīng)很好的視覺質(zhì)量。這個階段同樣持續(xù)10個訓(xùn)練周期,目標(biāo)是建立場景代理與視頻內(nèi)容之間更精確的語義對應(yīng)關(guān)系。
在第三階段,訓(xùn)練策略與第二階段基本相同,但增加了一項重要變化:將真實視頻數(shù)據(jù)與合成視頻數(shù)據(jù)以1:1的比例混合訓(xùn)練。合成數(shù)據(jù)來自LiVER-Syn,其中包含了動態(tài)變化的光照效果(比如光源繞場景旋轉(zhuǎn)),這些是真實拍攝的視頻數(shù)據(jù)很難大量提供的。通過混合訓(xùn)練,模型能夠?qū)W會處理更多樣化的光照場景,不會因為真實數(shù)據(jù)中光照變化有限而出現(xiàn)能力局限。
整個訓(xùn)練過程共進行了約10萬步,使用了8塊英偉達H100 GPU,總批量大小為16,學(xué)習(xí)率為0.00001,最終生成視頻的分辨率為704×1280像素。
**七、數(shù)據(jù)集:給AI準(zhǔn)備一個"光照百科全書"**
為了訓(xùn)練LiVER,研究團隊專門構(gòu)建了一個名為LiVERSet的數(shù)據(jù)集,因為現(xiàn)有的視頻數(shù)據(jù)集幾乎都沒有附帶精確的光照、幾何、攝像機參數(shù)標(biāo)注。
LiVERSet由兩個互補的部分組成。第一部分叫做LiVER-Real,收錄的是真實世界拍攝的視頻。真實視頻的好處是自然光照效果豐富、畫面質(zhì)感真實,但問題是這些視頻本來沒有附帶任何3D標(biāo)注。研究團隊為此開發(fā)了一套自動標(biāo)注流程:首先用VGGT模型從視頻中估計每一幀的攝像機位置;然后對第一幀進行深度估計,得到場景的深度圖;接著用Grounding-DINO和SAM 2兩個模型對第一幀中的物體進行檢測和分割,提取出各個物體的二維輪廓;再通過逆投影把這些二維輪廓"還原"成粗略的3D網(wǎng)格模型;最后用DiffusionLight-Turbo模型從圖像中估計出場景的HDR環(huán)境貼圖,代表場景的全局光照。有了這些信息之后,再用Blender渲染出三種光照圖像序列,形成場景代理。文字描述則由Qwen 2.5-VL這個視覺語言模型自動為每個視頻生成。
第二部分叫做LiVER-Syn,是完全在計算機中合成的視頻數(shù)據(jù)集。研究團隊從Objaverse-XL中篩選出了一批具有高質(zhì)量PBR材質(zhì)的3D模型,通過隨機組合這些模型來生成多樣化的場景,然后從Poly Haven庫中隨機選擇HDR環(huán)境貼圖來照亮場景。為了制造動態(tài)光照效果,研究團隊讓HDR環(huán)境貼圖在視頻播放的過程中繞垂直軸旋轉(zhuǎn),每個視頻片段的總旋轉(zhuǎn)角度在180度到240度之間隨機選取,這樣就能產(chǎn)生光源方向明顯變化的效果,比如太陽從場景的一側(cè)移動到另一側(cè)。攝像機位置也通過程序化方式隨機生成。
整個LiVERSet共包含約11000段視頻,每段視頻長度為81幀,分辨率為720×1280像素。其中10000段用于訓(xùn)練,1000段用于評估,真實數(shù)據(jù)和合成數(shù)據(jù)各占一半。
**八、實驗驗證:和其他方法比較,誰更勝一籌**
研究團隊選取了三個具有代表性的現(xiàn)有方法作為比較對象。CameraCtrl是一個專注于攝像機軌跡控制的視頻生成方法,通過給視頻生成模型輸入攝像機位姿序列來控制拍攝角度。MotionCtrl是一個同時控制攝像機和物體運動的方法,通過攝像機位姿和稀疏物體軌跡來引導(dǎo)生成過程。VideoFrom3D是一個更接近LiVER思路的方法,通過粗略的3D幾何來引導(dǎo)視頻生成,它的做法是先用圖像擴散模型生成關(guān)鍵錨定幀,再用視頻擴散模型在它們之間插值過渡。
評估所用的指標(biāo)覆蓋了視頻質(zhì)量和控制精度兩個大類。在視頻質(zhì)量方面,使用了FVD(衡量生成視頻與真實視頻在統(tǒng)計分布上的差異,數(shù)值越低越好)、FID(衡量每幀圖像質(zhì)量,數(shù)值越低越好)和CLIP相似度(衡量生成視頻與文字描述的語義匹配程度,數(shù)值越高越好)。在控制精度方面,使用了攝像機軌跡誤差(包括絕對軌跡誤差A(yù)TE、逐步平移誤差RPEt、逐步旋轉(zhuǎn)誤差RPEr)、光照誤差(使用尺度不變均方誤差SI-MSE,衡量估計出的光照與真實光照的差距)、光照不穩(wěn)定性(SI-MSE隨時間的標(biāo)準(zhǔn)差,衡量光照變化是否平穩(wěn))以及布局誤差(用mIoU衡量生成視頻中物體形狀和位置與參考視頻的匹配程度)。
在量化比較的結(jié)果中,LiVER在幾乎所有指標(biāo)上都取得了優(yōu)異的表現(xiàn)。以視頻質(zhì)量為例,LiVER的FVD得分為32.56,而VideoFrom3D為36.94,CameraCtrl為48.03,MotionCtrl為63.13。FID方面,LiVER以129.56的成績優(yōu)于VideoFrom3D的157.89,而CameraCtrl和MotionCtrl的FID則分別高達98.29和97.21(這兩個方法只生成16幀,和LiVER生成的完整81幀版本對比時,LiVER的對應(yīng)16幀版本FID為42.32,遠(yuǎn)低于它們)。CLIP相似度上,LiVER達到了30.97,高于所有對比方法。
在控制精度方面,LiVER的攝像機軌跡誤差(ATE=2.48,RPEt=0.71,RPEr=0.50)顯著低于VideoFrom3D(ATE=17.55,RPEt=3.85,RPEr=3.12),也低于CameraCtrl(ATE=2.15,RPEt=1.39,RPEr=1.68)。光照誤差方面,LiVER的SI-MSE為0.04,優(yōu)于其他所有方法(均為0.05、0.06或0.07)。布局準(zhǔn)確度上,LiVER的mIoU為0.87,高于VideoFrom3D的0.74和CameraCtrl的0.68。
研究團隊還專門進行了用戶調(diào)研,邀請了25名參與者對四種方法生成的視頻進行主觀評價,每人評價20組視頻,分別在視頻質(zhì)量、場景控制、攝像機控制、光照控制四個維度上選出他們認(rèn)為最好的方法。結(jié)果顯示,LiVER在視頻質(zhì)量維度獲得83.4%的偏好率,場景控制維度獲得83.3%,攝像機控制維度獲得72.1%,光照控制維度獲得59.3%。相比之下,VideoFrom3D在攝像機控制和光照控制維度上表現(xiàn)相對較好(24.1%和29.0%),但仍遠(yuǎn)低于LiVER。
**九、消融實驗:如果缺少某個關(guān)鍵步驟會怎樣**
為了驗證LiVER框架中每個關(guān)鍵設(shè)計的必要性,研究團隊做了兩組"如果去掉這個部分會怎樣"的實驗。
第一組實驗驗證的是合成數(shù)據(jù)集的重要性。研究團隊訓(xùn)練了一個只用真實視頻數(shù)據(jù)(LiVER-Real)的對照模型,不加入任何合成數(shù)據(jù)。結(jié)果發(fā)現(xiàn),這個模型生成的視頻光照效果幾乎是平坦均勻的,無法重現(xiàn)動態(tài)變化的光源效果。這個結(jié)果說明,真實世界視頻中的光照變化相對有限(大多數(shù)實景拍攝的光照條件相對穩(wěn)定),而合成數(shù)據(jù)集中大幅旋轉(zhuǎn)的光源提供了真實數(shù)據(jù)無法覆蓋的光照多樣性,對模型學(xué)會控制光照是必不可少的。
第二組實驗驗證的是三階段訓(xùn)練策略的重要性。研究團隊訓(xùn)練了一個從頭開始、端到端訓(xùn)練所有模塊的對照模型,沒有經(jīng)過分階段的逐步引入。結(jié)果發(fā)現(xiàn),這個模型生成的視頻出現(xiàn)了嚴(yán)重的問題:視頻幾乎是靜止的,物體幾乎不動,場景控制能力也大幅下降。這個結(jié)果說明,同時學(xué)習(xí)"如何生成高質(zhì)量視頻"和"如何響應(yīng)場景代理控制"這兩件事,對于模型來說優(yōu)化難度過高,很容易陷入局部最優(yōu)。分階段訓(xùn)練讓模型能夠先鞏固視頻生成能力,再逐步學(xué)習(xí)場景控制,從而避免了災(zāi)難性遺忘的問題。
**十、LiVER能做什么,真的有用嗎**
除了比較性能數(shù)字,LiVER在實際應(yīng)用中展示出了幾個令人印象深刻的能力。
在光照控制方面,通過簡單地旋轉(zhuǎn)HDR環(huán)境貼圖,可以生成一段光源方向持續(xù)變化的視頻,比如太陽從場景左側(cè)緩緩移動到右側(cè),隨著光源方向的變化,金屬表面的高光位置跟著移動,陰影方向也跟著轉(zhuǎn)變,整個過程自然流暢,場景的幾何形狀和材質(zhì)屬性始終保持穩(wěn)定不變。這種"光照變化、其余一切不動"的精確控制能力,在現(xiàn)有視頻生成工具中是幾乎做不到的。
在布局和攝像機控制方面,通過場景代理中包含的幾何信息,LiVER能夠比只依賴2D圖像的對照方法更精確地控制場景中物體的相對位置,以及攝像機的運動軌跡。這對于需要特定攝影構(gòu)圖效果的應(yīng)用場景(比如廣告拍攝或電影分鏡制作)尤其有價值。
在靈活編輯方面,LiVER設(shè)計了一個開放的工作流程:智能體自動生成的初始3D場景并不是一個固定不變的黑盒子,而是可以被用戶導(dǎo)入到標(biāo)準(zhǔn)3D軟件中進行二次編輯的。用戶可以在Blender中添加或刪除物體、調(diào)整光照方向和顏色、設(shè)計全新的攝像機運動軌跡,然后重新渲染出新的場景代理,再送給LiVER生成新的視頻。這種"AI自動起草、人類精細(xì)調(diào)整"的混合工作流程,可以兼顧效率和創(chuàng)作自由度。
**說到底,LiVER意味著什么**
歸根結(jié)底,LiVER做的事情是把影視特效工業(yè)中已經(jīng)成熟使用了幾十年的物理渲染技術(shù),與最新的AI視頻生成技術(shù)結(jié)合在了一起。物理渲染引擎負(fù)責(zé)保證光照的物理正確性,AI視頻生成模型負(fù)責(zé)填充細(xì)節(jié)、提升畫質(zhì)、讓生成內(nèi)容看起來更加逼真自然。兩者各司其職,互相補足。
這對于想要制作高質(zhì)量視頻內(nèi)容的普通人來說,意味著什么呢?以前,要制作一段有精確光照控制的視頻,你需要掌握Blender、Maya這樣的專業(yè)3D軟件,還要懂得如何設(shè)置材質(zhì)、光源和渲染參數(shù),學(xué)習(xí)曲線非常陡峭。有了LiVER這樣的工具,用戶只需要用自然語言描述你想要的場景和光照效果,系統(tǒng)會自動完成大部分繁瑣的3D工作,最終給你一段物理上準(zhǔn)確、視覺上精美的視頻。
當(dāng)然,這篇研究也坦誠地指出了當(dāng)前的局限性:LiVER使用的3D場景重建比較粗略,場景中的精細(xì)幾何細(xì)節(jié)和材質(zhì)信息,仍然需要依賴AI根據(jù)文字描述來補充推斷。這意味著最終視頻的某些幾何細(xì)節(jié)(比如復(fù)雜的建筑結(jié)構(gòu)或精細(xì)的植物葉片)可能與用戶期望不完全一致。研究團隊表示,未來會通過改進場景重建的精度和優(yōu)化文字提示的解讀能力來進一步提升效果。
這項研究的完整細(xì)節(jié)可以通過arXiv編號2604.07966查閱,如果你對AI視頻生成、計算機圖形學(xué)或影視制作技術(shù)有進一步的好奇心,不妨去看看原始論文,里面有更多技術(shù)細(xì)節(jié)的數(shù)學(xué)推導(dǎo)和可視化比較結(jié)果。
Q&A
Q1:LiVER生成的視頻和普通AI視頻生成工具有什么本質(zhì)區(qū)別?
A:普通AI視頻生成工具主要靠學(xué)習(xí)大量視頻數(shù)據(jù)來模仿真實世界的樣子,對光照的處理是"猜測"而非"計算",所以經(jīng)常出現(xiàn)光影不一致的問題。LiVER的根本區(qū)別在于它引入了物理渲染引擎,先用Blender按照真實光學(xué)規(guī)律計算出正確的光照效果,生成包含漫反射、粗糙GGX和光澤GGX三種光照圖像的"場景代理",再把這些物理準(zhǔn)確的信息作為引導(dǎo)輸入AI視頻生成模型。用戶還能單獨控制光照方向、物體布局和攝像機軌跡三個參數(shù),而不會互相干擾。
Q2:LiVERSet數(shù)據(jù)集和普通視頻數(shù)據(jù)集有什么不同?
A:普通視頻數(shù)據(jù)集只有視頻本身,沒有附帶物理標(biāo)注。LiVERSet的特別之處在于它為每段視頻都配備了完整的物理注釋,包括場景幾何(3D網(wǎng)格模型)、全局光照(HDR環(huán)境貼圖)、攝像機位姿和文字描述。它由兩部分組成:LiVER-Real是從真實視頻中通過自動化流程提取這些標(biāo)注的;LiVER-Syn是完全在計算機中合成的,包含了旋轉(zhuǎn)光源等真實拍攝難以實現(xiàn)的動態(tài)光照場景。整個數(shù)據(jù)集共約11000段視頻,分辨率720×1280,每段81幀。
Q3:LiVER的三階段訓(xùn)練為什么不能直接一步到位?
A:如果同時訓(xùn)練所有模塊,模型需要在"生成高質(zhì)量視頻"和"響應(yīng)場景代理控制信號"這兩個目標(biāo)之間同時取得進展,這個優(yōu)化難度太高,實驗證明會導(dǎo)致視頻幾乎靜止不動、場景控制能力嚴(yán)重退化。三階段訓(xùn)練的邏輯是:第一階段凍結(jié)視頻生成模型,只訓(xùn)練新加入的場景代理編碼器和適配器,讓它們先學(xué)會"讀懂"場景代理;第二階段加入LoRA微調(diào),讓視頻生成模型學(xué)會響應(yīng)控制;第三階段混入合成數(shù)據(jù),擴展光照多樣性。循序漸進地引入新能力,避免了災(zāi)難性遺忘問題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.