北大攜手北郵，教AI"感知光線"—讓生成視頻真正懂得光影的秘密

2026-04-17 23:23:56　來源: 科技行者

天津舉報

分享至

這項由北京大學(xué)多媒體信息處理國家重點實驗室、北京大學(xué)視覺技術(shù)國家工程研究中心、北京郵電大學(xué)人工智能學(xué)院，以及北京智源人工智能研究院聯(lián)合開展的研究，于2026年4月以預(yù)印本形式發(fā)布，論文編號為arXiv:2604.07966。有興趣深入了解技術(shù)細(xì)節(jié)的讀者，可以通過該編號在arXiv平臺查閱完整論文。

**一場關(guān)于"光"的革命，從視頻生成開始**

如果你曾經(jīng)用過AI視頻生成工具，大概有過這樣的體驗：生成出來的畫面乍一看很漂亮，但總感覺哪里不對勁。仔細(xì)一看，問題往往出在光線上——桌上的玻璃杯沒有反光，金屬表面沒有高光，陰影方向亂七八糟，甚至同一個畫面里，有的物體看起來是在晴天拍的，有的又像是陰天。這種感覺就像一張照片里同時存在兩個太陽一樣違和。

光線，是讓一段視頻看起來真實的靈魂所在。人類的眼睛對光線極度敏感，哪怕只是細(xì)微的不協(xié)調(diào)，我們的大腦就會立刻發(fā)出"這不對勁"的信號。對AI來說，"畫"出一個合理的光影世界，遠(yuǎn)比畫出一把椅子或一棟樓困難得多。

這就是LiVER這個研究框架要解決的核心問題。LiVER的全名是"Lighting-grounded Video genERation"，中文可以理解為"以光照為基礎(chǔ)的視頻生成"。研究團隊的思路是：與其讓AI去"猜"光線應(yīng)該是什么樣的，不如直接把物理世界中真實的光照規(guī)律"喂"給它，讓它從根本上理解光是如何在不同材質(zhì)表面產(chǎn)生不同效果的。

**一、問題的根源：AI為什么不懂光**

要理解LiVER解決了什么問題，先要理解現(xiàn)有AI視頻生成工具的局限性究竟在哪里。

當(dāng)前的視頻生成模型，大多是通過學(xué)習(xí)海量視頻數(shù)據(jù)來"模仿"真實世界的樣子。這個過程有點像一個從來沒有學(xué)過繪畫的人，通過觀看成千上萬幅畫作來學(xué)習(xí)畫畫。他能學(xué)到"草地通常是綠色的"、"天空通常是藍色的"這樣的規(guī)律，但他不理解"為什么晴天草地的陰影是藍紫色調(diào)的"這樣的物理原理。

這種依賴數(shù)據(jù)驅(qū)動的學(xué)習(xí)方式，導(dǎo)致生成的視頻往往在"表面現(xiàn)象"上做到了相似，卻在"物理規(guī)律"上出現(xiàn)了錯誤。比如，生成一段陽光明媚的室外場景時，AI可能會把金屬物體渲染成啞光質(zhì)感，或者讓玻璃窗看起來沒有任何反射。更嚴(yán)重的問題是，當(dāng)場景中有多個物體相互遮擋時，AI很難正確處理它們之間復(fù)雜的陰影和反射關(guān)系。

與此同時，現(xiàn)有工具對視頻場景的"控制能力"也十分有限。用戶往往只能通過文字描述來影響生成結(jié)果，無法精確控制攝像機從哪個角度拍攝、場景中的物體放在什么位置、光線從哪個方向照射過來。這三個要素——布局、光照、攝像機軌跡——在專業(yè)影視制作中是核制約創(chuàng)作自由度的核心變量，但在現(xiàn)有AI工具中，它們要么被混在一起無法單獨調(diào)整，要么根本沒有被建模。

LiVER的研究團隊把這個問題比作一道"解耦"難題：如何把光照、布局、攝像機這三個原本糾纏在一起的因素，清晰地分離開來，讓用戶能夠像調(diào)音臺上的推子一樣，獨立地控制每一個維度？

**二、核心思路：用3D物理渲染來"教"AI**

LiVER的解題思路，可以用一個電影特效制作的比喻來理解。

在專業(yè)的電影工業(yè)里，視覺特效團隊在制作一個充滿金屬機器人或玻璃建筑的場景時，不會直接用畫筆一筆一筆地畫出光影效果。他們的做法是：先用3D軟件搭建一個完整的三維場景，設(shè)定好每個物體的材質(zhì)屬性（是金屬還是塑料？是光滑還是粗糙？），然后在場景里放置一個虛擬光源，讓計算機按照真實的物理光學(xué)規(guī)律自動計算出所有的光影效果。這個過程叫做"基于物理的渲染"（Physically-Based Rendering，簡稱PBR）。

LiVER的思路正是借鑒了這種方法。研究團隊不讓AI直接生成最終視頻，而是先讓一個"智能助手"（研究中稱之為"渲染器智能體"）根據(jù)用戶的文字描述，自動搭建一個簡化的3D場景，然后用3D渲染引擎（具體使用的是開源3D軟件Blender）按照物理規(guī)律計算出光照效果，生成一套"場景代理"（Scene Proxy）圖像序列。這套圖像序列就像是電影拍攝前的分鏡頭草圖，但它包含了精確的物理光照信息。最后，再把這套物理準(zhǔn)確的"草圖"作為輸入，引導(dǎo)AI視頻生成模型來產(chǎn)生最終的高質(zhì)量視頻。

這個流程的精妙之處在于，AI視頻生成模型不需要自己去"推斷"光線應(yīng)該怎么打，因為正確答案已經(jīng)被物理渲染引擎算好了，并以圖像的形式直接告訴了它。AI只需要把這些光照信息與場景內(nèi)容融合在一起，生成視覺上更加細(xì)膩、真實的最終畫面。

**三、場景代理：把光分解成三種"語言"**

LiVER框架中最具技術(shù)創(chuàng)意的部分，是它如何表達場景的光照信息。

研究團隊沒有試圖用一張圖來描述所有的光線效果，而是把光照分解成三種不同的"語言"，分別對應(yīng)光在不同材質(zhì)表面上的不同表現(xiàn)方式。

第一種語言叫做"漫反射"（Diffuse），處理的是啞光、無光澤表面的光照效果。粗糙的石頭、布料、未經(jīng)打磨的木頭，光線打上去會向四面八方均勻散射，沒有明顯的高光或反射。這種光照描述的是場景中最基礎(chǔ)的明暗關(guān)系，捕捉的是低頻的、柔和的環(huán)境光效果。

第二種語言叫做"粗糙GGX"（Rough GGX），處理的是半光滑表面的光照效果。輕微磨砂的金屬、陶瓷、部分塑料，光線打上去會產(chǎn)生模糊的、擴散的高光區(qū)域。這種光照描述捕捉的是中頻的寬泛反射，是很多日常物品表面效果的主要來源。

第三種語言叫做"光澤GGX"（Glossy GGX），處理的是高度光滑、鏡面般的表面的光照效果。拋光金屬、玻璃、鏡子，光線打上去會產(chǎn)生清晰的、尖銳的高光和環(huán)境反射。這種光照描述捕捉的是高頻的精確反射，是讓材質(zhì)看起來"貴"或"精致"的關(guān)鍵。

將這三種光照圖像疊在一起，就像把一首音樂的低音、中音、高音三個聲部分別錄制成單獨的音軌，然后再混合成最終成品。每種材質(zhì)對應(yīng)不同聲部的組合方式不同，金屬可能低音弱、高音強，織物可能低音強、高音幾乎沒有。通過這三種"光照語言"的組合，可以精確描述幾乎所有材質(zhì)表面的光照行為。

在技術(shù)實現(xiàn)上，這三種光照圖像被按照通道拼合在一起，形成一個9通道（每種光照3個RGB通道，共3種）的圖像序列，構(gòu)成最終的"場景代理"。這個場景代理不僅包含了精確的光照信息，還包含了場景的幾何布局和攝像機運動信息，一舉解決了三個控制維度的問題。

**四、智能體如何"讀懂"你的文字并搭建場景**

從用戶輸入一段文字描述，到LiVER生成場景代理，中間經(jīng)過了一個由多個AI模塊協(xié)同工作的"渲染器智能體"流程。這個過程就像從總導(dǎo)演、美術(shù)指導(dǎo)到攝影師的分工協(xié)作。

整個過程從"場景構(gòu)建"開始。智能體首先像一位文學(xué)分析師一樣，仔細(xì)拆解用戶提供的文字描述，提取出其中涉及的物體類別、它們之間的空間關(guān)系（比如"長凳在樹下"、"垃圾桶在建筑旁邊"），并把這些信息組織成一個結(jié)構(gòu)化的"場景圖譜"。場景圖譜中的每個節(jié)點代表一個物體，每條邊代表兩個物體之間的位置關(guān)系。

有了場景圖譜之后，智能體會從一個預(yù)先整理好的3D資產(chǎn)庫（基于Objaverse-XL這個包含超過1000萬個3D物體的龐大數(shù)據(jù)庫）中，為每個節(jié)點找到最合適的3D模型，然后根據(jù)場景圖譜的空間約束來擺放這些模型的位置，形成一個粗略但幾何上合理的3D場景。

接下來是"光照設(shè)置"。智能體會從用戶描述中提取與光線相關(guān)的線索，比如"溫暖的傍晚陽光"、"陰天漫射光"、"霓虹燈氛圍"等。根據(jù)這些線索，它會從Poly Haven這個高質(zhì)量HDR環(huán)境貼圖庫中篩選出最匹配的全景光照圖。HDR（高動態(tài)范圍）環(huán)境貼圖就像是把整個天空和周圍環(huán)境"拍"成一張全景照片，用它來照亮場景，可以產(chǎn)生非常真實的環(huán)境光效果。如果庫中沒有完全匹配的貼圖，智能體還能調(diào)用專門的生成模型來臨時創(chuàng)建一個。

隨后是"攝像機規(guī)劃"。智能體從文字描述中識別拍攝手法的線索，比如"繞軌道拍攝"、"推拉變焦"、"升降鏡頭"等，然后根據(jù)這些線索規(guī)劃攝像機的運動軌跡。它會先確定幾個關(guān)鍵幀的攝像機位置和朝向，再通過數(shù)學(xué)插值方法生成一條時間上平滑的完整軌跡。

最后，將場景幾何、光照設(shè)置、攝像機軌跡全部輸入Blender渲染引擎，分別渲染出三種光照圖像序列，拼合成最終的場景代理，準(zhǔn)備好喂給視頻生成模型。

**五、如何把物理信息"注入"AI視頻生成模型**

得到了場景代理之后，下一個挑戰(zhàn)是：如何讓它真正引導(dǎo)AI視頻生成模型，而不只是被模型忽視？

LiVER的基礎(chǔ)視頻生成模型選用的是阿里巴巴開源的Wan2.2-5B，這是一個在大量真實視頻數(shù)據(jù)上訓(xùn)練的高質(zhì)量視頻擴散模型，已經(jīng)具備了很強的視覺質(zhì)量生成能力。研究團隊在它的基礎(chǔ)上，額外設(shè)計了兩個輕量化的新模塊。

第一個模塊叫做"場景代理編碼器"，專門負(fù)責(zé)從場景代理圖像序列中提取關(guān)鍵信息。這個編碼器由多個2D卷積神經(jīng)網(wǎng)絡(luò)塊堆疊而成，每個塊包含卷積操作、歸一化處理和激活函數(shù)。它的工作方式是：逐幀處理場景代理圖像，把9通道的光照信息壓縮提煉成一套更緊湊的特征向量。研究團隊刻意選擇了2D卷積而非更復(fù)雜的3D卷積，這樣在保持對光照信息高度敏感的同時，計算量也更加合理。

第二個模塊叫做"代理適配器"，負(fù)責(zé)把場景代理的信息與視頻生成模型的內(nèi)部表示融合在一起。在技術(shù)實現(xiàn)上，場景代理編碼器輸出的特征，會以一種"殘差疊加"的方式加到視頻模型的潛在表示（Latent Representation，也就是視頻在模型內(nèi)部的抽象編碼）上。為了保證訓(xùn)練初期模型不會被新加入的信息搞亂，這個疊加操作有一個可學(xué)習(xí)的縮放權(quán)重，初始值被設(shè)為零，意味著訓(xùn)練剛開始時場景代理對視頻生成完全沒有影響，隨著訓(xùn)練的進行，權(quán)重逐漸增大，場景代理的影響也逐漸增強。這個設(shè)計的好處是讓模型能夠"平穩(wěn)過渡"，不會因為新加入的信息而遺忘之前學(xué)到的視覺質(zhì)量。

**六、三階段訓(xùn)練：循序漸進地"教會"模型**

設(shè)計好了框架結(jié)構(gòu)，剩下的問題是：怎么訓(xùn)練？

LiVER的研究團隊設(shè)計了一套三階段訓(xùn)練方案，每個階段都有明確的學(xué)習(xí)目標(biāo)，環(huán)環(huán)相扣。

在第一階段，研究團隊完全凍結(jié)了預(yù)訓(xùn)練的視頻生成模型（即Wan2.2-5B的所有參數(shù)保持不變），只訓(xùn)練新加入的場景代理編碼器和適配器模塊。這個階段持續(xù)10個訓(xùn)練周期，目標(biāo)是讓新加入的模塊學(xué)會如何把場景代理轉(zhuǎn)化為有效的控制信號。這就像先讓新來的助理學(xué)會如何解讀導(dǎo)演的分鏡腳本，而不要一開始就讓他介入到整個拍攝流程中。

在第二階段，研究團隊在繼續(xù)訓(xùn)練編碼器和適配器的同時，還解凍了視頻生成模型中的LoRA層。LoRA（低秩適應(yīng)）是一種高效的微調(diào)技術(shù)，它不改變模型原有的大量參數(shù)，而是在模型中插入少量額外的低秩矩陣來捕捉新的能力。這樣做既能讓視頻生成模型學(xué)會更好地響應(yīng)場景代理的控制，又不會徹底破壞它原本已經(jīng)很好的視覺質(zhì)量。這個階段同樣持續(xù)10個訓(xùn)練周期，目標(biāo)是建立場景代理與視頻內(nèi)容之間更精確的語義對應(yīng)關(guān)系。

在第三階段，訓(xùn)練策略與第二階段基本相同，但增加了一項重要變化：將真實視頻數(shù)據(jù)與合成視頻數(shù)據(jù)以1:1的比例混合訓(xùn)練。合成數(shù)據(jù)來自LiVER-Syn，其中包含了動態(tài)變化的光照效果（比如光源繞場景旋轉(zhuǎn)），這些是真實拍攝的視頻數(shù)據(jù)很難大量提供的。通過混合訓(xùn)練，模型能夠?qū)W會處理更多樣化的光照場景，不會因為真實數(shù)據(jù)中光照變化有限而出現(xiàn)能力局限。

整個訓(xùn)練過程共進行了約10萬步，使用了8塊英偉達H100 GPU，總批量大小為16，學(xué)習(xí)率為0.00001，最終生成視頻的分辨率為704×1280像素。

**七、數(shù)據(jù)集：給AI準(zhǔn)備一個"光照百科全書"**

為了訓(xùn)練LiVER，研究團隊專門構(gòu)建了一個名為LiVERSet的數(shù)據(jù)集，因為現(xiàn)有的視頻數(shù)據(jù)集幾乎都沒有附帶精確的光照、幾何、攝像機參數(shù)標(biāo)注。

LiVERSet由兩個互補的部分組成。第一部分叫做LiVER-Real，收錄的是真實世界拍攝的視頻。真實視頻的好處是自然光照效果豐富、畫面質(zhì)感真實，但問題是這些視頻本來沒有附帶任何3D標(biāo)注。研究團隊為此開發(fā)了一套自動標(biāo)注流程：首先用VGGT模型從視頻中估計每一幀的攝像機位置；然后對第一幀進行深度估計，得到場景的深度圖；接著用Grounding-DINO和SAM 2兩個模型對第一幀中的物體進行檢測和分割，提取出各個物體的二維輪廓；再通過逆投影把這些二維輪廓"還原"成粗略的3D網(wǎng)格模型；最后用DiffusionLight-Turbo模型從圖像中估計出場景的HDR環(huán)境貼圖，代表場景的全局光照。有了這些信息之后，再用Blender渲染出三種光照圖像序列，形成場景代理。文字描述則由Qwen 2.5-VL這個視覺語言模型自動為每個視頻生成。

第二部分叫做LiVER-Syn，是完全在計算機中合成的視頻數(shù)據(jù)集。研究團隊從Objaverse-XL中篩選出了一批具有高質(zhì)量PBR材質(zhì)的3D模型，通過隨機組合這些模型來生成多樣化的場景，然后從Poly Haven庫中隨機選擇HDR環(huán)境貼圖來照亮場景。為了制造動態(tài)光照效果，研究團隊讓HDR環(huán)境貼圖在視頻播放的過程中繞垂直軸旋轉(zhuǎn)，每個視頻片段的總旋轉(zhuǎn)角度在180度到240度之間隨機選取，這樣就能產(chǎn)生光源方向明顯變化的效果，比如太陽從場景的一側(cè)移動到另一側(cè)。攝像機位置也通過程序化方式隨機生成。

整個LiVERSet共包含約11000段視頻，每段視頻長度為81幀，分辨率為720×1280像素。其中10000段用于訓(xùn)練，1000段用于評估，真實數(shù)據(jù)和合成數(shù)據(jù)各占一半。

**八、實驗驗證：和其他方法比較，誰更勝一籌**

研究團隊選取了三個具有代表性的現(xiàn)有方法作為比較對象。CameraCtrl是一個專注于攝像機軌跡控制的視頻生成方法，通過給視頻生成模型輸入攝像機位姿序列來控制拍攝角度。MotionCtrl是一個同時控制攝像機和物體運動的方法，通過攝像機位姿和稀疏物體軌跡來引導(dǎo)生成過程。VideoFrom3D是一個更接近LiVER思路的方法，通過粗略的3D幾何來引導(dǎo)視頻生成，它的做法是先用圖像擴散模型生成關(guān)鍵錨定幀，再用視頻擴散模型在它們之間插值過渡。

評估所用的指標(biāo)覆蓋了視頻質(zhì)量和控制精度兩個大類。在視頻質(zhì)量方面，使用了FVD（衡量生成視頻與真實視頻在統(tǒng)計分布上的差異，數(shù)值越低越好）、FID（衡量每幀圖像質(zhì)量，數(shù)值越低越好）和CLIP相似度（衡量生成視頻與文字描述的語義匹配程度，數(shù)值越高越好）。在控制精度方面，使用了攝像機軌跡誤差（包括絕對軌跡誤差A(yù)TE、逐步平移誤差RPEt、逐步旋轉(zhuǎn)誤差RPEr）、光照誤差（使用尺度不變均方誤差SI-MSE，衡量估計出的光照與真實光照的差距）、光照不穩(wěn)定性（SI-MSE隨時間的標(biāo)準(zhǔn)差，衡量光照變化是否平穩(wěn)）以及布局誤差（用mIoU衡量生成視頻中物體形狀和位置與參考視頻的匹配程度）。

在量化比較的結(jié)果中，LiVER在幾乎所有指標(biāo)上都取得了優(yōu)異的表現(xiàn)。以視頻質(zhì)量為例，LiVER的FVD得分為32.56，而VideoFrom3D為36.94，CameraCtrl為48.03，MotionCtrl為63.13。FID方面，LiVER以129.56的成績優(yōu)于VideoFrom3D的157.89，而CameraCtrl和MotionCtrl的FID則分別高達98.29和97.21（這兩個方法只生成16幀，和LiVER生成的完整81幀版本對比時，LiVER的對應(yīng)16幀版本FID為42.32，遠(yuǎn)低于它們）。CLIP相似度上，LiVER達到了30.97，高于所有對比方法。

在控制精度方面，LiVER的攝像機軌跡誤差（ATE=2.48，RPEt=0.71，RPEr=0.50）顯著低于VideoFrom3D（ATE=17.55，RPEt=3.85，RPEr=3.12），也低于CameraCtrl（ATE=2.15，RPEt=1.39，RPEr=1.68）。光照誤差方面，LiVER的SI-MSE為0.04，優(yōu)于其他所有方法（均為0.05、0.06或0.07）。布局準(zhǔn)確度上，LiVER的mIoU為0.87，高于VideoFrom3D的0.74和CameraCtrl的0.68。

研究團隊還專門進行了用戶調(diào)研，邀請了25名參與者對四種方法生成的視頻進行主觀評價，每人評價20組視頻，分別在視頻質(zhì)量、場景控制、攝像機控制、光照控制四個維度上選出他們認(rèn)為最好的方法。結(jié)果顯示，LiVER在視頻質(zhì)量維度獲得83.4%的偏好率，場景控制維度獲得83.3%，攝像機控制維度獲得72.1%，光照控制維度獲得59.3%。相比之下，VideoFrom3D在攝像機控制和光照控制維度上表現(xiàn)相對較好（24.1%和29.0%），但仍遠(yuǎn)低于LiVER。

**九、消融實驗：如果缺少某個關(guān)鍵步驟會怎樣**

為了驗證LiVER框架中每個關(guān)鍵設(shè)計的必要性，研究團隊做了兩組"如果去掉這個部分會怎樣"的實驗。

第一組實驗驗證的是合成數(shù)據(jù)集的重要性。研究團隊訓(xùn)練了一個只用真實視頻數(shù)據(jù)（LiVER-Real）的對照模型，不加入任何合成數(shù)據(jù)。結(jié)果發(fā)現(xiàn)，這個模型生成的視頻光照效果幾乎是平坦均勻的，無法重現(xiàn)動態(tài)變化的光源效果。這個結(jié)果說明，真實世界視頻中的光照變化相對有限（大多數(shù)實景拍攝的光照條件相對穩(wěn)定），而合成數(shù)據(jù)集中大幅旋轉(zhuǎn)的光源提供了真實數(shù)據(jù)無法覆蓋的光照多樣性，對模型學(xué)會控制光照是必不可少的。

第二組實驗驗證的是三階段訓(xùn)練策略的重要性。研究團隊訓(xùn)練了一個從頭開始、端到端訓(xùn)練所有模塊的對照模型，沒有經(jīng)過分階段的逐步引入。結(jié)果發(fā)現(xiàn)，這個模型生成的視頻出現(xiàn)了嚴(yán)重的問題：視頻幾乎是靜止的，物體幾乎不動，場景控制能力也大幅下降。這個結(jié)果說明，同時學(xué)習(xí)"如何生成高質(zhì)量視頻"和"如何響應(yīng)場景代理控制"這兩件事，對于模型來說優(yōu)化難度過高，很容易陷入局部最優(yōu)。分階段訓(xùn)練讓模型能夠先鞏固視頻生成能力，再逐步學(xué)習(xí)場景控制，從而避免了災(zāi)難性遺忘的問題。

**十、LiVER能做什么，真的有用嗎**

除了比較性能數(shù)字，LiVER在實際應(yīng)用中展示出了幾個令人印象深刻的能力。

在光照控制方面，通過簡單地旋轉(zhuǎn)HDR環(huán)境貼圖，可以生成一段光源方向持續(xù)變化的視頻，比如太陽從場景左側(cè)緩緩移動到右側(cè)，隨著光源方向的變化，金屬表面的高光位置跟著移動，陰影方向也跟著轉(zhuǎn)變，整個過程自然流暢，場景的幾何形狀和材質(zhì)屬性始終保持穩(wěn)定不變。這種"光照變化、其余一切不動"的精確控制能力，在現(xiàn)有視頻生成工具中是幾乎做不到的。

在布局和攝像機控制方面，通過場景代理中包含的幾何信息，LiVER能夠比只依賴2D圖像的對照方法更精確地控制場景中物體的相對位置，以及攝像機的運動軌跡。這對于需要特定攝影構(gòu)圖效果的應(yīng)用場景（比如廣告拍攝或電影分鏡制作）尤其有價值。

在靈活編輯方面，LiVER設(shè)計了一個開放的工作流程：智能體自動生成的初始3D場景并不是一個固定不變的黑盒子，而是可以被用戶導(dǎo)入到標(biāo)準(zhǔn)3D軟件中進行二次編輯的。用戶可以在Blender中添加或刪除物體、調(diào)整光照方向和顏色、設(shè)計全新的攝像機運動軌跡，然后重新渲染出新的場景代理，再送給LiVER生成新的視頻。這種"AI自動起草、人類精細(xì)調(diào)整"的混合工作流程，可以兼顧效率和創(chuàng)作自由度。

**說到底，LiVER意味著什么**

歸根結(jié)底，LiVER做的事情是把影視特效工業(yè)中已經(jīng)成熟使用了幾十年的物理渲染技術(shù)，與最新的AI視頻生成技術(shù)結(jié)合在了一起。物理渲染引擎負(fù)責(zé)保證光照的物理正確性，AI視頻生成模型負(fù)責(zé)填充細(xì)節(jié)、提升畫質(zhì)、讓生成內(nèi)容看起來更加逼真自然。兩者各司其職，互相補足。

這對于想要制作高質(zhì)量視頻內(nèi)容的普通人來說，意味著什么呢？以前，要制作一段有精確光照控制的視頻，你需要掌握Blender、Maya這樣的專業(yè)3D軟件，還要懂得如何設(shè)置材質(zhì)、光源和渲染參數(shù)，學(xué)習(xí)曲線非常陡峭。有了LiVER這樣的工具，用戶只需要用自然語言描述你想要的場景和光照效果，系統(tǒng)會自動完成大部分繁瑣的3D工作，最終給你一段物理上準(zhǔn)確、視覺上精美的視頻。

當(dāng)然，這篇研究也坦誠地指出了當(dāng)前的局限性：LiVER使用的3D場景重建比較粗略，場景中的精細(xì)幾何細(xì)節(jié)和材質(zhì)信息，仍然需要依賴AI根據(jù)文字描述來補充推斷。這意味著最終視頻的某些幾何細(xì)節(jié)（比如復(fù)雜的建筑結(jié)構(gòu)或精細(xì)的植物葉片）可能與用戶期望不完全一致。研究團隊表示，未來會通過改進場景重建的精度和優(yōu)化文字提示的解讀能力來進一步提升效果。

這項研究的完整細(xì)節(jié)可以通過arXiv編號2604.07966查閱，如果你對AI視頻生成、計算機圖形學(xué)或影視制作技術(shù)有進一步的好奇心，不妨去看看原始論文，里面有更多技術(shù)細(xì)節(jié)的數(shù)學(xué)推導(dǎo)和可視化比較結(jié)果。

Q&A

Q1：LiVER生成的視頻和普通AI視頻生成工具有什么本質(zhì)區(qū)別？

A：普通AI視頻生成工具主要靠學(xué)習(xí)大量視頻數(shù)據(jù)來模仿真實世界的樣子，對光照的處理是"猜測"而非"計算"，所以經(jīng)常出現(xiàn)光影不一致的問題。LiVER的根本區(qū)別在于它引入了物理渲染引擎，先用Blender按照真實光學(xué)規(guī)律計算出正確的光照效果，生成包含漫反射、粗糙GGX和光澤GGX三種光照圖像的"場景代理"，再把這些物理準(zhǔn)確的信息作為引導(dǎo)輸入AI視頻生成模型。用戶還能單獨控制光照方向、物體布局和攝像機軌跡三個參數(shù)，而不會互相干擾。

Q2：LiVERSet數(shù)據(jù)集和普通視頻數(shù)據(jù)集有什么不同？

A：普通視頻數(shù)據(jù)集只有視頻本身，沒有附帶物理標(biāo)注。LiVERSet的特別之處在于它為每段視頻都配備了完整的物理注釋，包括場景幾何（3D網(wǎng)格模型）、全局光照（HDR環(huán)境貼圖）、攝像機位姿和文字描述。它由兩部分組成：LiVER-Real是從真實視頻中通過自動化流程提取這些標(biāo)注的；LiVER-Syn是完全在計算機中合成的，包含了旋轉(zhuǎn)光源等真實拍攝難以實現(xiàn)的動態(tài)光照場景。整個數(shù)據(jù)集共約11000段視頻，分辨率720×1280，每段81幀。

Q3：LiVER的三階段訓(xùn)練為什么不能直接一步到位？

A：如果同時訓(xùn)練所有模塊，模型需要在"生成高質(zhì)量視頻"和"響應(yīng)場景代理控制信號"這兩個目標(biāo)之間同時取得進展，這個優(yōu)化難度太高，實驗證明會導(dǎo)致視頻幾乎靜止不動、場景控制能力嚴(yán)重退化。三階段訓(xùn)練的邏輯是：第一階段凍結(jié)視頻生成模型，只訓(xùn)練新加入的場景代理編碼器和適配器，讓它們先學(xué)會"讀懂"場景代理；第二階段加入LoRA微調(diào)，讓視頻生成模型學(xué)會響應(yīng)控制；第三階段混入合成數(shù)據(jù)，擴展光照多樣性。循序漸進地引入新能力，避免了災(zāi)難性遺忘問題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.