![]()
這是一項(xiàng)由廈門大學(xué)多媒體信任感知與高效計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室、騰訊和復(fù)旦大學(xué)Yes Lab聯(lián)合完成的研究成果。研究團(tuán)隊(duì)由李新陽、王騰飛、顧子曉、張勝川、郭春超和曹柳娟組成,論文發(fā)表于2025年10月,論文編號(hào)為arXiv:2510.13678v1。有興趣深入了解的讀者可以通過這個(gè)編號(hào)在學(xué)術(shù)論文庫(kù)中查詢完整論文。
一、為什么我們需要更快的3D場(chǎng)景生成
想象你正在制作一部電影或設(shè)計(jì)一個(gè)游戲,需要快速創(chuàng)建逼真的三維場(chǎng)景。傳統(tǒng)的方法就像手工雕刻一樣耗時(shí)費(fèi)力,需要專業(yè)的3D藝術(shù)家花費(fèi)數(shù)小時(shí)甚至數(shù)天來完成一個(gè)場(chǎng)景。而現(xiàn)在,人工智能技術(shù)讓我們可以用文字描述或上傳一張圖片,就能在幾秒鐘內(nèi)生成精美的3D場(chǎng)景。這聽起來像魔法,但背后的技術(shù)原理其實(shí)相當(dāng)有趣。
當(dāng)前生成3D場(chǎng)景的方法主要分為兩大陣營(yíng)。一種方法叫做"多視圖導(dǎo)向",就像用多臺(tái)相機(jī)從不同角度拍攝同一個(gè)物體,然后把這些照片拼接成一個(gè)3D模型。這種方法的優(yōu)點(diǎn)是生成的圖像質(zhì)量很高,就像用專業(yè)相機(jī)拍出來的照片一樣清晰漂亮。但問題在于,從不同角度拍攝的照片之間往往不夠協(xié)調(diào),就像一個(gè)人的左臉和右臉看起來不太像一個(gè)人一樣。這導(dǎo)致最后拼接出來的3D場(chǎng)景會(huì)出現(xiàn)紋理噪點(diǎn)和幾何不一致的問題。
另一種方法叫做"3D導(dǎo)向",直接在生成過程中就考慮3D的一致性。這就像先搭建一個(gè)骨架,再在上面添加細(xì)節(jié),能保證整體的協(xié)調(diào)性。這種方法生成的3D場(chǎng)景在不同角度看起來都很協(xié)調(diào),但圖像質(zhì)量往往不如第一種方法,看起來會(huì)比較模糊。而且,這種方法需要很多額外的優(yōu)化步驟來提高質(zhì)量,這又大大增加了生成時(shí)間。
FlashWorld這項(xiàng)研究的創(chuàng)新之處就在于,它找到了一個(gè)巧妙的辦法來結(jié)合這兩種方法的優(yōu)點(diǎn)。研究團(tuán)隊(duì)開發(fā)出了一個(gè)能夠同時(shí)支持兩種生成模式的模型,然后通過一種叫做"知識(shí)蒸餾"的技術(shù),讓高質(zhì)量的多視圖模式教會(huì)3D導(dǎo)向模式如何生成既清晰又協(xié)調(diào)的場(chǎng)景。這就像一個(gè)經(jīng)驗(yàn)豐富的師傅教一個(gè)年輕學(xué)徒,既保留了學(xué)徒的優(yōu)勢(shì),又讓他學(xué)會(huì)了師傅的技巧。
二、雙模式預(yù)訓(xùn)練:打造多面手模型
要理解FlashWorld如何工作,我們需要先了解它的訓(xùn)練過程。研究團(tuán)隊(duì)采用了一個(gè)分階段的訓(xùn)練策略,第一階段叫做"雙模式預(yù)訓(xùn)練"。
在這個(gè)階段,研究團(tuán)隊(duì)從一個(gè)已經(jīng)訓(xùn)練好的視頻生成模型開始。為什么要用視頻模型而不是圖像模型呢?因?yàn)橐曨l模型已經(jīng)學(xué)會(huì)了如何處理多個(gè)連續(xù)的幀,這對(duì)生成多個(gè)視角的圖像特別有幫助。這就像用一個(gè)已經(jīng)會(huì)跑步的人來學(xué)習(xí)跳舞,比從零開始教一個(gè)人跑步再教他跳舞要快得多。
在預(yù)訓(xùn)練階段,研究團(tuán)隊(duì)輸入多個(gè)視角的圖像、對(duì)應(yīng)的攝像機(jī)參數(shù)(比如攝像機(jī)的位置和方向)以及條件信息(比如文字描述或參考圖片)。這些圖像被轉(zhuǎn)換成一種叫做"潛在空間"的壓縮表示,就像把一部電影壓縮成一個(gè)較小的文件格式,但仍然保留了所有重要信息。
然后,模型學(xué)會(huì)了兩種不同的生成方式。第一種是"多視圖導(dǎo)向"模式,它直接預(yù)測(cè)清晰的多視角圖像。這個(gè)過程就像一個(gè)學(xué)生在老師的指導(dǎo)下學(xué)習(xí)繪畫,逐步改進(jìn)自己的作品。第二種是"3D導(dǎo)向"模式,它不是直接生成圖像,而是生成3D高斯球體的參數(shù)。這些高斯球體是一種特殊的3D表示方法,可以通過渲染來生成任意視角的圖像。
這里有個(gè)巧妙的設(shè)計(jì):模型使用同一個(gè)主干網(wǎng)絡(luò)(叫做Diffusion Transformer,簡(jiǎn)稱DiT)來處理兩種模式,但在最后的輸出層有所不同。對(duì)于多視圖模式,它輸出清晰的圖像;對(duì)于3D模式,它輸出一個(gè)輔助特征,這個(gè)特征可以被一個(gè)特殊的解碼器轉(zhuǎn)換成3D高斯球體的參數(shù)。這就像一個(gè)多功能工具,可以根據(jù)需要切換不同的工作模式。
三、跨模式蒸餾:讓高質(zhì)量教導(dǎo)一致性
預(yù)訓(xùn)練完成后,研究團(tuán)隊(duì)進(jìn)入了第二階段,這是整個(gè)方法的核心創(chuàng)新,叫做"跨模式蒸餾"。這個(gè)過程有點(diǎn)像一個(gè)高手和學(xué)徒的互動(dòng)。
在這個(gè)階段,多視圖導(dǎo)向模式(因?yàn)樗傻膱D像質(zhì)量高)被凍結(jié)下來,充當(dāng)一個(gè)"老師"的角色。它的工作就是評(píng)判學(xué)生的作品。而3D導(dǎo)向模式則是"學(xué)生",它需要學(xué)會(huì)在保持3D一致性的同時(shí),生成更高質(zhì)量的圖像。
蒸餾過程使用了一種叫做"分布匹配蒸餾"的技術(shù)。簡(jiǎn)單來說,這個(gè)技術(shù)的目標(biāo)是讓學(xué)生模型生成的圖像分布與老師模型生成的圖像分布盡可能接近。想象一下,老師畫了一千幅畫,這些畫有各種各樣的風(fēng)格和特征。學(xué)生需要學(xué)會(huì)畫出具有相似風(fēng)格和特征分布的畫。
但這里有個(gè)有趣的地方:學(xué)生模型在生成過程中會(huì)經(jīng)歷多個(gè)步驟,在每個(gè)步驟中,它都會(huì)生成3D高斯球體,然后渲染成圖像。這意味著生成的圖像始終保持3D一致性,因?yàn)樗鼈兌紒碜酝粋€(gè)3D表示。這就像一個(gè)雕塑家在雕刻時(shí),每個(gè)角度看起來都協(xié)調(diào)一致,因?yàn)樗麄冊(cè)诘窨痰氖峭粋€(gè)物體。
研究團(tuán)隊(duì)還發(fā)現(xiàn),僅僅使用蒸餾有時(shí)會(huì)導(dǎo)致一些不穩(wěn)定的現(xiàn)象,比如生成的3D場(chǎng)景中會(huì)出現(xiàn)浮動(dòng)的偽影。為了解決這個(gè)問題,他們引入了一個(gè)"跨模式一致性損失"。這就像在老師和學(xué)生之間建立了一個(gè)額外的溝通機(jī)制:學(xué)生生成的3D表示經(jīng)過渲染后,應(yīng)該與多視圖模式的預(yù)測(cè)保持一致。這個(gè)額外的約束幫助穩(wěn)定了訓(xùn)練過程,就像在建筑中添加支撐梁來增強(qiáng)結(jié)構(gòu)的穩(wěn)定性。
四、超越分布的泛化:用單圖和文本擴(kuò)展能力
一個(gè)實(shí)際的問題是,用于訓(xùn)練的多視角數(shù)據(jù)集往往數(shù)量有限,而且風(fēng)格和場(chǎng)景類型也不夠多樣。這就像一個(gè)學(xué)生只在教室里學(xué)習(xí),當(dāng)他走出教室面對(duì)真實(shí)世界時(shí),可能會(huì)感到困惑。
為了解決這個(gè)問題,研究團(tuán)隊(duì)在蒸餾階段引入了一個(gè)創(chuàng)新的策略:他們使用了大量的單視角圖像和文本描述,配合隨機(jī)生成的攝像機(jī)軌跡進(jìn)行額外的訓(xùn)練。這些數(shù)據(jù)來自各種來源,包括真實(shí)的多視角序列和預(yù)定義的攝像機(jī)軌跡。
這個(gè)策略的妙處在于,它讓模型學(xué)會(huì)了如何處理在原始訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)過的輸入。就像一個(gè)人通過閱讀各種書籍來擴(kuò)展自己的知識(shí),模型通過接觸多樣化的輸入來提高自己的泛化能力。而且,在這個(gè)階段,研究團(tuán)隊(duì)特意關(guān)閉了對(duì)抗性損失(GAN損失),以避免分布不匹配的問題。這就像在教學(xué)中,有時(shí)候需要調(diào)整教學(xué)方法以適應(yīng)不同的學(xué)生。
五、實(shí)驗(yàn)驗(yàn)證:從圖像到文本的全面測(cè)試
研究團(tuán)隊(duì)對(duì)FlashWorld進(jìn)行了全面的評(píng)估,涵蓋了多個(gè)不同的任務(wù)和數(shù)據(jù)集。
在圖像到3D場(chǎng)景的生成任務(wù)中,研究團(tuán)隊(duì)與幾個(gè)最先進(jìn)的方法進(jìn)行了比較,包括CAT3D、Bolt3D和Wonderland。這些都是多視圖導(dǎo)向的方法。在視覺質(zhì)量上,F(xiàn)lashWorld生成的場(chǎng)景明顯更清晰,細(xì)節(jié)更豐富。例如,在生成樹葉、鐵柵欄和觸手等復(fù)雜結(jié)構(gòu)時(shí),F(xiàn)lashWorld能夠準(zhǔn)確地再現(xiàn)這些細(xì)節(jié),而其他方法往往會(huì)生成模糊或扭曲的結(jié)果。這就像用高分辨率相機(jī)和低分辨率相機(jī)拍照的區(qū)別。
在文本到3D場(chǎng)景的生成任務(wù)中,研究團(tuán)隊(duì)使用了來自多個(gè)數(shù)據(jù)集的600個(gè)文本提示進(jìn)行定量評(píng)估。評(píng)估指標(biāo)包括圖像質(zhì)量評(píng)分、文本對(duì)齊度和美學(xué)評(píng)分等。FlashWorld在大多數(shù)指標(biāo)上都表現(xiàn)出色。特別是在CLIP Score上,它在兩個(gè)數(shù)據(jù)集上都取得了最高分,這說明生成的場(chǎng)景與文本描述的匹配度最高。
在WorldScore基準(zhǔn)測(cè)試上,F(xiàn)lashWorld與三個(gè)其他最先進(jìn)的方法進(jìn)行了比較:WonderJourney、LucidDreamer和WonderWorld。這個(gè)基準(zhǔn)測(cè)試包含2000個(gè)測(cè)試用例,涵蓋了各種不同風(fēng)格和場(chǎng)景的世界。評(píng)估指標(biāo)包括3D一致性、光度一致性、物體控制、內(nèi)容對(duì)齊、風(fēng)格一致性和主觀質(zhì)量等多個(gè)方面。FlashWorld在風(fēng)格一致性上表現(xiàn)最好,在其他幾個(gè)指標(biāo)上也排名靠前。雖然在3D一致性上的得分相對(duì)較低,但研究團(tuán)隊(duì)解釋說,這是因?yàn)樗麄兊姆椒]有使用顯式的深度指導(dǎo),而其他方法使用了與評(píng)估協(xié)議對(duì)齊的單目深度估計(jì)模型。
六、速度的革命:秒級(jí)生成的實(shí)現(xiàn)
也許FlashWorld最令人印象深刻的特點(diǎn)就是它的生成速度。在圖像到3D場(chǎng)景的生成中,F(xiàn)lashWorld只需要大約9秒就能生成一個(gè)高質(zhì)量的場(chǎng)景,而其他方法需要數(shù)分鐘甚至數(shù)小時(shí)。具體來說,CAT3D需要77分鐘,Bolt3D需要15秒,Wonderland需要5分鐘。FlashWorld不僅比Wonderland快30倍,而且生成的質(zhì)量更高。
這個(gè)速度的提升來自于多個(gè)方面。首先,3D導(dǎo)向的生成過程本身就比多視圖導(dǎo)向的方法更高效,因?yàn)樗恍枰獑为?dú)的3D重建步驟。其次,通過蒸餾,研究團(tuán)隊(duì)成功地減少了生成所需的步驟數(shù)。在蒸餾之前,模型需要多個(gè)去噪步驟才能生成高質(zhì)量的結(jié)果;蒸餾之后,只需要4個(gè)步驟就能達(dá)到相同的質(zhì)量。這就像學(xué)會(huì)了一個(gè)快速的捷徑,而不是走完整的長(zhǎng)路。
而且,F(xiàn)lashWorld使用的是一個(gè)統(tǒng)一的模型,可以同時(shí)處理圖像到3D和文本到3D的任務(wù),不需要分別訓(xùn)練兩個(gè)模型。這進(jìn)一步降低了整個(gè)系統(tǒng)的復(fù)雜性和計(jì)算成本。
七、消融研究:每個(gè)部分都很重要
為了驗(yàn)證方法中每個(gè)部分的貢獻(xiàn),研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融研究。他們測(cè)試了不同的模型變體,看看去掉某個(gè)部分會(huì)如何影響性能。
當(dāng)只使用多視圖導(dǎo)向的擴(kuò)散模型時(shí),生成的場(chǎng)景會(huì)出現(xiàn)噪點(diǎn)和紋理不一致的問題。當(dāng)只使用3D導(dǎo)向的擴(kuò)散模型時(shí),雖然保證了3D一致性,但圖像會(huì)變得模糊。當(dāng)只使用多視圖導(dǎo)向的蒸餾時(shí),問題反而更嚴(yán)重了,因?yàn)檎麴s放大了多視圖方法的缺點(diǎn)。
當(dāng)移除跨模式一致性損失時(shí),模型在定量指標(biāo)上的表現(xiàn)看起來還不錯(cuò),但定性分析顯示生成的場(chǎng)景容易出現(xiàn)浮動(dòng)和重復(fù)的偽影。這說明這個(gè)看似簡(jiǎn)單的損失項(xiàng)實(shí)際上起到了關(guān)鍵的穩(wěn)定作用。
當(dāng)移除超分布數(shù)據(jù)的協(xié)同訓(xùn)練時(shí),模型在處理與原始訓(xùn)練數(shù)據(jù)分布不同的輸入時(shí)表現(xiàn)下降。特別是在T3Bench和WorldScore數(shù)據(jù)集上,文本對(duì)齊度的指標(biāo)明顯下降。這說明這個(gè)策略對(duì)于提高模型的泛化能力至關(guān)重要。
只有當(dāng)所有這些部分組合在一起時(shí),F(xiàn)lashWorld才能達(dá)到最優(yōu)的性能。這就像一個(gè)精心調(diào)配的食譜,每個(gè)材料都有其作用,缺少任何一個(gè)都會(huì)影響最終的味道。
八、技術(shù)細(xì)節(jié)與實(shí)現(xiàn)
從技術(shù)實(shí)現(xiàn)的角度來看,F(xiàn)lashWorld使用了一個(gè)基于Diffusion Transformer的架構(gòu),并用3D注意力塊進(jìn)行了增強(qiáng)。這個(gè)架構(gòu)能夠同時(shí)處理多個(gè)視角的信息,并理解它們之間的空間關(guān)系。
3D高斯球體的表示包括五個(gè)關(guān)鍵參數(shù):深度、旋轉(zhuǎn)四元數(shù)、縮放、不透明度和球諧系數(shù)。這些參數(shù)完全定義了一個(gè)高斯球體在3D空間中的外觀和位置。通過渲染這些高斯球體,模型可以從任意攝像機(jī)視角生成圖像。
在訓(xùn)練中,研究團(tuán)隊(duì)使用了一個(gè)叫做Reference-Point Plücker Coordinates的方法來表示攝像機(jī)參數(shù)。這是一種在計(jì)算機(jī)圖形學(xué)中常用的攝像機(jī)表示方法,能夠高效地編碼攝像機(jī)的位置和方向信息。
模型的訓(xùn)練使用了分布匹配蒸餾的第二版本(DMD2),它結(jié)合了分布匹配目標(biāo)和對(duì)抗性目標(biāo)。對(duì)抗性目標(biāo)使用了一個(gè)判別器來區(qū)分真實(shí)和生成的圖像,這有助于提高生成圖像的真實(shí)感。為了穩(wěn)定訓(xùn)練,研究團(tuán)隊(duì)還使用了一種叫做R1正則化的技術(shù)。
九、現(xiàn)實(shí)應(yīng)用與未來展望
FlashWorld的快速生成能力為許多實(shí)際應(yīng)用打開了大門。在游戲開發(fā)中,設(shè)計(jì)師可以快速生成原型場(chǎng)景,加速迭代過程。在電影和動(dòng)畫制作中,可以快速生成背景和環(huán)境,節(jié)省大量的美術(shù)工作。在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用中,可以實(shí)時(shí)生成沉浸式的3D環(huán)境。在建筑可視化中,可以快速將建筑設(shè)計(jì)轉(zhuǎn)換成逼真的3D場(chǎng)景。
研究團(tuán)隊(duì)指出,雖然FlashWorld已經(jīng)取得了顯著的進(jìn)展,但仍然存在一些限制。首先,生成場(chǎng)景的多樣性和規(guī)模仍然受到現(xiàn)有訓(xùn)練數(shù)據(jù)集的限制。其次,模型在生成細(xì)致的幾何細(xì)節(jié)、鏡面反射和有活動(dòng)關(guān)節(jié)的物體時(shí)仍然存在困難。這些問題可能可以通過引入深度先驗(yàn)信息和更多的3D感知結(jié)構(gòu)信息來解決。
研究團(tuán)隊(duì)在論文中提到,未來的工作可能包括引入自回歸生成方法,這可能進(jìn)一步提高生成的多樣性和質(zhì)量。此外,將這個(gè)框架擴(kuò)展到動(dòng)態(tài)4D場(chǎng)景生成也是一個(gè)有趣的方向,這將允許生成具有運(yùn)動(dòng)和變化的3D場(chǎng)景。
十、為什么這項(xiàng)研究很重要
FlashWorld的出現(xiàn)標(biāo)志著3D場(chǎng)景生成技術(shù)的一個(gè)重要里程碑。它不僅在生成速度上實(shí)現(xiàn)了突破性的進(jìn)展,而且在生成質(zhì)量上也保持了競(jìng)爭(zhēng)力。這種速度和質(zhì)量的結(jié)合在之前是很難實(shí)現(xiàn)的。
更重要的是,這項(xiàng)研究展示了一個(gè)重要的思想:不同的方法往往各有優(yōu)缺點(diǎn),但通過巧妙的設(shè)計(jì),我們可以結(jié)合它們的優(yōu)勢(shì)。FlashWorld的雙模式架構(gòu)和跨模式蒸餾策略為其他領(lǐng)域的研究提供了啟發(fā)。這種思想可能被應(yīng)用到其他需要平衡多個(gè)目標(biāo)的問題中。
從更廣闊的視角來看,F(xiàn)lashWorld代表了人工智能在創(chuàng)意內(nèi)容生成領(lǐng)域的進(jìn)步。隨著這類技術(shù)的發(fā)展,創(chuàng)意工作的流程可能會(huì)發(fā)生根本性的改變。不是從零開始創(chuàng)建,而是通過與AI的交互來快速迭代和優(yōu)化。這可能會(huì)讓更多的人能夠參與到3D內(nèi)容創(chuàng)作中,降低創(chuàng)意表達(dá)的技術(shù)門檻。
Q&A
Q1:FlashWorld是什么,它能做什么?
A:FlashWorld是由廈門大學(xué)、騰訊和復(fù)旦大學(xué)聯(lián)合開發(fā)的一個(gè)AI模型,可以在幾秒鐘內(nèi)從一張圖片或文字描述生成精美的3D場(chǎng)景。它比現(xiàn)有的方法快10到100倍,同時(shí)保持更高的圖像質(zhì)量。
Q2:FlashWorld為什么比其他方法快這么多?
A:FlashWorld采用了一個(gè)創(chuàng)新的雙模式設(shè)計(jì),結(jié)合了高質(zhì)量的多視圖生成和保證一致性的3D直接生成。通過知識(shí)蒸餾技術(shù),它能夠用更少的步驟生成高質(zhì)量結(jié)果,同時(shí)避免了傳統(tǒng)方法中需要的單獨(dú)3D重建階段。
Q3:FlashWorld生成的3D場(chǎng)景在實(shí)際應(yīng)用中可靠嗎?
A:根據(jù)在多個(gè)基準(zhǔn)測(cè)試上的評(píng)估,F(xiàn)lashWorld生成的場(chǎng)景在視覺質(zhì)量、3D一致性和文本對(duì)齊度等多個(gè)方面都表現(xiàn)出色。雖然在某些細(xì)節(jié)(如鏡面反射和復(fù)雜幾何)上仍有改進(jìn)空間,但已經(jīng)足以滿足游戲、電影、建筑可視化等許多實(shí)際應(yīng)用的需求。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.