網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

秒級(jí)生成精美3D場(chǎng)景：來自騰訊和廈門大學(xué)的突破性技術(shù)

2025-12-22 21:30:31　來源: 科技行者

北京舉報(bào)

分享至

這是一項(xiàng)由廈門大學(xué)多媒體信任感知與高效計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室、騰訊和復(fù)旦大學(xué)Yes Lab聯(lián)合完成的研究成果。研究團(tuán)隊(duì)由李新陽、王騰飛、顧子曉、張勝川、郭春超和曹柳娟組成，論文發(fā)表于2025年10月，論文編號(hào)為arXiv:2510.13678v1。有興趣深入了解的讀者可以通過這個(gè)編號(hào)在學(xué)術(shù)論文庫(kù)中查詢完整論文。

一、為什么我們需要更快的3D場(chǎng)景生成

想象你正在制作一部電影或設(shè)計(jì)一個(gè)游戲，需要快速創(chuàng)建逼真的三維場(chǎng)景。傳統(tǒng)的方法就像手工雕刻一樣耗時(shí)費(fèi)力，需要專業(yè)的3D藝術(shù)家花費(fèi)數(shù)小時(shí)甚至數(shù)天來完成一個(gè)場(chǎng)景。而現(xiàn)在，人工智能技術(shù)讓我們可以用文字描述或上傳一張圖片，就能在幾秒鐘內(nèi)生成精美的3D場(chǎng)景。這聽起來像魔法，但背后的技術(shù)原理其實(shí)相當(dāng)有趣。

當(dāng)前生成3D場(chǎng)景的方法主要分為兩大陣營(yíng)。一種方法叫做"多視圖導(dǎo)向"，就像用多臺(tái)相機(jī)從不同角度拍攝同一個(gè)物體，然后把這些照片拼接成一個(gè)3D模型。這種方法的優(yōu)點(diǎn)是生成的圖像質(zhì)量很高，就像用專業(yè)相機(jī)拍出來的照片一樣清晰漂亮。但問題在于，從不同角度拍攝的照片之間往往不夠協(xié)調(diào)，就像一個(gè)人的左臉和右臉看起來不太像一個(gè)人一樣。這導(dǎo)致最后拼接出來的3D場(chǎng)景會(huì)出現(xiàn)紋理噪點(diǎn)和幾何不一致的問題。

另一種方法叫做"3D導(dǎo)向"，直接在生成過程中就考慮3D的一致性。這就像先搭建一個(gè)骨架，再在上面添加細(xì)節(jié)，能保證整體的協(xié)調(diào)性。這種方法生成的3D場(chǎng)景在不同角度看起來都很協(xié)調(diào)，但圖像質(zhì)量往往不如第一種方法，看起來會(huì)比較模糊。而且，這種方法需要很多額外的優(yōu)化步驟來提高質(zhì)量，這又大大增加了生成時(shí)間。

FlashWorld這項(xiàng)研究的創(chuàng)新之處就在于，它找到了一個(gè)巧妙的辦法來結(jié)合這兩種方法的優(yōu)點(diǎn)。研究團(tuán)隊(duì)開發(fā)出了一個(gè)能夠同時(shí)支持兩種生成模式的模型，然后通過一種叫做"知識(shí)蒸餾"的技術(shù)，讓高質(zhì)量的多視圖模式教會(huì)3D導(dǎo)向模式如何生成既清晰又協(xié)調(diào)的場(chǎng)景。這就像一個(gè)經(jīng)驗(yàn)豐富的師傅教一個(gè)年輕學(xué)徒，既保留了學(xué)徒的優(yōu)勢(shì)，又讓他學(xué)會(huì)了師傅的技巧。

二、雙模式預(yù)訓(xùn)練：打造多面手模型

要理解FlashWorld如何工作，我們需要先了解它的訓(xùn)練過程。研究團(tuán)隊(duì)采用了一個(gè)分階段的訓(xùn)練策略，第一階段叫做"雙模式預(yù)訓(xùn)練"。

在這個(gè)階段，研究團(tuán)隊(duì)從一個(gè)已經(jīng)訓(xùn)練好的視頻生成模型開始。為什么要用視頻模型而不是圖像模型呢？因?yàn)橐曨l模型已經(jīng)學(xué)會(huì)了如何處理多個(gè)連續(xù)的幀，這對(duì)生成多個(gè)視角的圖像特別有幫助。這就像用一個(gè)已經(jīng)會(huì)跑步的人來學(xué)習(xí)跳舞，比從零開始教一個(gè)人跑步再教他跳舞要快得多。

在預(yù)訓(xùn)練階段，研究團(tuán)隊(duì)輸入多個(gè)視角的圖像、對(duì)應(yīng)的攝像機(jī)參數(shù)（比如攝像機(jī)的位置和方向）以及條件信息（比如文字描述或參考圖片）。這些圖像被轉(zhuǎn)換成一種叫做"潛在空間"的壓縮表示，就像把一部電影壓縮成一個(gè)較小的文件格式，但仍然保留了所有重要信息。

然后，模型學(xué)會(huì)了兩種不同的生成方式。第一種是"多視圖導(dǎo)向"模式，它直接預(yù)測(cè)清晰的多視角圖像。這個(gè)過程就像一個(gè)學(xué)生在老師的指導(dǎo)下學(xué)習(xí)繪畫，逐步改進(jìn)自己的作品。第二種是"3D導(dǎo)向"模式，它不是直接生成圖像，而是生成3D高斯球體的參數(shù)。這些高斯球體是一種特殊的3D表示方法，可以通過渲染來生成任意視角的圖像。

這里有個(gè)巧妙的設(shè)計(jì)：模型使用同一個(gè)主干網(wǎng)絡(luò)（叫做Diffusion Transformer，簡(jiǎn)稱DiT）來處理兩種模式，但在最后的輸出層有所不同。對(duì)于多視圖模式，它輸出清晰的圖像；對(duì)于3D模式，它輸出一個(gè)輔助特征，這個(gè)特征可以被一個(gè)特殊的解碼器轉(zhuǎn)換成3D高斯球體的參數(shù)。這就像一個(gè)多功能工具，可以根據(jù)需要切換不同的工作模式。

三、跨模式蒸餾：讓高質(zhì)量教導(dǎo)一致性

預(yù)訓(xùn)練完成后，研究團(tuán)隊(duì)進(jìn)入了第二階段，這是整個(gè)方法的核心創(chuàng)新，叫做"跨模式蒸餾"。這個(gè)過程有點(diǎn)像一個(gè)高手和學(xué)徒的互動(dòng)。

在這個(gè)階段，多視圖導(dǎo)向模式（因?yàn)樗傻膱D像質(zhì)量高）被凍結(jié)下來，充當(dāng)一個(gè)"老師"的角色。它的工作就是評(píng)判學(xué)生的作品。而3D導(dǎo)向模式則是"學(xué)生"，它需要學(xué)會(huì)在保持3D一致性的同時(shí)，生成更高質(zhì)量的圖像。

蒸餾過程使用了一種叫做"分布匹配蒸餾"的技術(shù)。簡(jiǎn)單來說，這個(gè)技術(shù)的目標(biāo)是讓學(xué)生模型生成的圖像分布與老師模型生成的圖像分布盡可能接近。想象一下，老師畫了一千幅畫，這些畫有各種各樣的風(fēng)格和特征。學(xué)生需要學(xué)會(huì)畫出具有相似風(fēng)格和特征分布的畫。

但這里有個(gè)有趣的地方：學(xué)生模型在生成過程中會(huì)經(jīng)歷多個(gè)步驟，在每個(gè)步驟中，它都會(huì)生成3D高斯球體，然后渲染成圖像。這意味著生成的圖像始終保持3D一致性，因?yàn)樗鼈兌紒碜酝粋€(gè)3D表示。這就像一個(gè)雕塑家在雕刻時(shí)，每個(gè)角度看起來都協(xié)調(diào)一致，因?yàn)樗麄冊(cè)诘窨痰氖峭粋€(gè)物體。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，僅僅使用蒸餾有時(shí)會(huì)導(dǎo)致一些不穩(wěn)定的現(xiàn)象，比如生成的3D場(chǎng)景中會(huì)出現(xiàn)浮動(dòng)的偽影。為了解決這個(gè)問題，他們引入了一個(gè)"跨模式一致性損失"。這就像在老師和學(xué)生之間建立了一個(gè)額外的溝通機(jī)制：學(xué)生生成的3D表示經(jīng)過渲染后，應(yīng)該與多視圖模式的預(yù)測(cè)保持一致。這個(gè)額外的約束幫助穩(wěn)定了訓(xùn)練過程，就像在建筑中添加支撐梁來增強(qiáng)結(jié)構(gòu)的穩(wěn)定性。

四、超越分布的泛化：用單圖和文本擴(kuò)展能力

一個(gè)實(shí)際的問題是，用于訓(xùn)練的多視角數(shù)據(jù)集往往數(shù)量有限，而且風(fēng)格和場(chǎng)景類型也不夠多樣。這就像一個(gè)學(xué)生只在教室里學(xué)習(xí)，當(dāng)他走出教室面對(duì)真實(shí)世界時(shí)，可能會(huì)感到困惑。

為了解決這個(gè)問題，研究團(tuán)隊(duì)在蒸餾階段引入了一個(gè)創(chuàng)新的策略：他們使用了大量的單視角圖像和文本描述，配合隨機(jī)生成的攝像機(jī)軌跡進(jìn)行額外的訓(xùn)練。這些數(shù)據(jù)來自各種來源，包括真實(shí)的多視角序列和預(yù)定義的攝像機(jī)軌跡。

這個(gè)策略的妙處在于，它讓模型學(xué)會(huì)了如何處理在原始訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)過的輸入。就像一個(gè)人通過閱讀各種書籍來擴(kuò)展自己的知識(shí)，模型通過接觸多樣化的輸入來提高自己的泛化能力。而且，在這個(gè)階段，研究團(tuán)隊(duì)特意關(guān)閉了對(duì)抗性損失（GAN損失），以避免分布不匹配的問題。這就像在教學(xué)中，有時(shí)候需要調(diào)整教學(xué)方法以適應(yīng)不同的學(xué)生。

五、實(shí)驗(yàn)驗(yàn)證：從圖像到文本的全面測(cè)試

研究團(tuán)隊(duì)對(duì)FlashWorld進(jìn)行了全面的評(píng)估，涵蓋了多個(gè)不同的任務(wù)和數(shù)據(jù)集。

在圖像到3D場(chǎng)景的生成任務(wù)中，研究團(tuán)隊(duì)與幾個(gè)最先進(jìn)的方法進(jìn)行了比較，包括CAT3D、Bolt3D和Wonderland。這些都是多視圖導(dǎo)向的方法。在視覺質(zhì)量上，F(xiàn)lashWorld生成的場(chǎng)景明顯更清晰，細(xì)節(jié)更豐富。例如，在生成樹葉、鐵柵欄和觸手等復(fù)雜結(jié)構(gòu)時(shí)，F(xiàn)lashWorld能夠準(zhǔn)確地再現(xiàn)這些細(xì)節(jié)，而其他方法往往會(huì)生成模糊或扭曲的結(jié)果。這就像用高分辨率相機(jī)和低分辨率相機(jī)拍照的區(qū)別。

在文本到3D場(chǎng)景的生成任務(wù)中，研究團(tuán)隊(duì)使用了來自多個(gè)數(shù)據(jù)集的600個(gè)文本提示進(jìn)行定量評(píng)估。評(píng)估指標(biāo)包括圖像質(zhì)量評(píng)分、文本對(duì)齊度和美學(xué)評(píng)分等。FlashWorld在大多數(shù)指標(biāo)上都表現(xiàn)出色。特別是在CLIP Score上，它在兩個(gè)數(shù)據(jù)集上都取得了最高分，這說明生成的場(chǎng)景與文本描述的匹配度最高。

在WorldScore基準(zhǔn)測(cè)試上，F(xiàn)lashWorld與三個(gè)其他最先進(jìn)的方法進(jìn)行了比較：WonderJourney、LucidDreamer和WonderWorld。這個(gè)基準(zhǔn)測(cè)試包含2000個(gè)測(cè)試用例，涵蓋了各種不同風(fēng)格和場(chǎng)景的世界。評(píng)估指標(biāo)包括3D一致性、光度一致性、物體控制、內(nèi)容對(duì)齊、風(fēng)格一致性和主觀質(zhì)量等多個(gè)方面。FlashWorld在風(fēng)格一致性上表現(xiàn)最好，在其他幾個(gè)指標(biāo)上也排名靠前。雖然在3D一致性上的得分相對(duì)較低，但研究團(tuán)隊(duì)解釋說，這是因?yàn)樗麄兊姆椒]有使用顯式的深度指導(dǎo)，而其他方法使用了與評(píng)估協(xié)議對(duì)齊的單目深度估計(jì)模型。

六、速度的革命：秒級(jí)生成的實(shí)現(xiàn)

也許FlashWorld最令人印象深刻的特點(diǎn)就是它的生成速度。在圖像到3D場(chǎng)景的生成中，F(xiàn)lashWorld只需要大約9秒就能生成一個(gè)高質(zhì)量的場(chǎng)景，而其他方法需要數(shù)分鐘甚至數(shù)小時(shí)。具體來說，CAT3D需要77分鐘，Bolt3D需要15秒，Wonderland需要5分鐘。FlashWorld不僅比Wonderland快30倍，而且生成的質(zhì)量更高。

這個(gè)速度的提升來自于多個(gè)方面。首先，3D導(dǎo)向的生成過程本身就比多視圖導(dǎo)向的方法更高效，因?yàn)樗恍枰獑为?dú)的3D重建步驟。其次，通過蒸餾，研究團(tuán)隊(duì)成功地減少了生成所需的步驟數(shù)。在蒸餾之前，模型需要多個(gè)去噪步驟才能生成高質(zhì)量的結(jié)果；蒸餾之后，只需要4個(gè)步驟就能達(dá)到相同的質(zhì)量。這就像學(xué)會(huì)了一個(gè)快速的捷徑，而不是走完整的長(zhǎng)路。

而且，F(xiàn)lashWorld使用的是一個(gè)統(tǒng)一的模型，可以同時(shí)處理圖像到3D和文本到3D的任務(wù)，不需要分別訓(xùn)練兩個(gè)模型。這進(jìn)一步降低了整個(gè)系統(tǒng)的復(fù)雜性和計(jì)算成本。

七、消融研究：每個(gè)部分都很重要

為了驗(yàn)證方法中每個(gè)部分的貢獻(xiàn)，研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融研究。他們測(cè)試了不同的模型變體，看看去掉某個(gè)部分會(huì)如何影響性能。

當(dāng)只使用多視圖導(dǎo)向的擴(kuò)散模型時(shí)，生成的場(chǎng)景會(huì)出現(xiàn)噪點(diǎn)和紋理不一致的問題。當(dāng)只使用3D導(dǎo)向的擴(kuò)散模型時(shí)，雖然保證了3D一致性，但圖像會(huì)變得模糊。當(dāng)只使用多視圖導(dǎo)向的蒸餾時(shí)，問題反而更嚴(yán)重了，因?yàn)檎麴s放大了多視圖方法的缺點(diǎn)。

當(dāng)移除跨模式一致性損失時(shí)，模型在定量指標(biāo)上的表現(xiàn)看起來還不錯(cuò)，但定性分析顯示生成的場(chǎng)景容易出現(xiàn)浮動(dòng)和重復(fù)的偽影。這說明這個(gè)看似簡(jiǎn)單的損失項(xiàng)實(shí)際上起到了關(guān)鍵的穩(wěn)定作用。

當(dāng)移除超分布數(shù)據(jù)的協(xié)同訓(xùn)練時(shí)，模型在處理與原始訓(xùn)練數(shù)據(jù)分布不同的輸入時(shí)表現(xiàn)下降。特別是在T3Bench和WorldScore數(shù)據(jù)集上，文本對(duì)齊度的指標(biāo)明顯下降。這說明這個(gè)策略對(duì)于提高模型的泛化能力至關(guān)重要。

只有當(dāng)所有這些部分組合在一起時(shí)，F(xiàn)lashWorld才能達(dá)到最優(yōu)的性能。這就像一個(gè)精心調(diào)配的食譜，每個(gè)材料都有其作用，缺少任何一個(gè)都會(huì)影響最終的味道。

八、技術(shù)細(xì)節(jié)與實(shí)現(xiàn)

從技術(shù)實(shí)現(xiàn)的角度來看，F(xiàn)lashWorld使用了一個(gè)基于Diffusion Transformer的架構(gòu)，并用3D注意力塊進(jìn)行了增強(qiáng)。這個(gè)架構(gòu)能夠同時(shí)處理多個(gè)視角的信息，并理解它們之間的空間關(guān)系。

3D高斯球體的表示包括五個(gè)關(guān)鍵參數(shù)：深度、旋轉(zhuǎn)四元數(shù)、縮放、不透明度和球諧系數(shù)。這些參數(shù)完全定義了一個(gè)高斯球體在3D空間中的外觀和位置。通過渲染這些高斯球體，模型可以從任意攝像機(jī)視角生成圖像。

在訓(xùn)練中，研究團(tuán)隊(duì)使用了一個(gè)叫做Reference-Point Plücker Coordinates的方法來表示攝像機(jī)參數(shù)。這是一種在計(jì)算機(jī)圖形學(xué)中常用的攝像機(jī)表示方法，能夠高效地編碼攝像機(jī)的位置和方向信息。

模型的訓(xùn)練使用了分布匹配蒸餾的第二版本（DMD2），它結(jié)合了分布匹配目標(biāo)和對(duì)抗性目標(biāo)。對(duì)抗性目標(biāo)使用了一個(gè)判別器來區(qū)分真實(shí)和生成的圖像，這有助于提高生成圖像的真實(shí)感。為了穩(wěn)定訓(xùn)練，研究團(tuán)隊(duì)還使用了一種叫做R1正則化的技術(shù)。

九、現(xiàn)實(shí)應(yīng)用與未來展望

FlashWorld的快速生成能力為許多實(shí)際應(yīng)用打開了大門。在游戲開發(fā)中，設(shè)計(jì)師可以快速生成原型場(chǎng)景，加速迭代過程。在電影和動(dòng)畫制作中，可以快速生成背景和環(huán)境，節(jié)省大量的美術(shù)工作。在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用中，可以實(shí)時(shí)生成沉浸式的3D環(huán)境。在建筑可視化中，可以快速將建筑設(shè)計(jì)轉(zhuǎn)換成逼真的3D場(chǎng)景。

研究團(tuán)隊(duì)指出，雖然FlashWorld已經(jīng)取得了顯著的進(jìn)展，但仍然存在一些限制。首先，生成場(chǎng)景的多樣性和規(guī)模仍然受到現(xiàn)有訓(xùn)練數(shù)據(jù)集的限制。其次，模型在生成細(xì)致的幾何細(xì)節(jié)、鏡面反射和有活動(dòng)關(guān)節(jié)的物體時(shí)仍然存在困難。這些問題可能可以通過引入深度先驗(yàn)信息和更多的3D感知結(jié)構(gòu)信息來解決。

研究團(tuán)隊(duì)在論文中提到，未來的工作可能包括引入自回歸生成方法，這可能進(jìn)一步提高生成的多樣性和質(zhì)量。此外，將這個(gè)框架擴(kuò)展到動(dòng)態(tài)4D場(chǎng)景生成也是一個(gè)有趣的方向，這將允許生成具有運(yùn)動(dòng)和變化的3D場(chǎng)景。

十、為什么這項(xiàng)研究很重要

FlashWorld的出現(xiàn)標(biāo)志著3D場(chǎng)景生成技術(shù)的一個(gè)重要里程碑。它不僅在生成速度上實(shí)現(xiàn)了突破性的進(jìn)展，而且在生成質(zhì)量上也保持了競(jìng)爭(zhēng)力。這種速度和質(zhì)量的結(jié)合在之前是很難實(shí)現(xiàn)的。

更重要的是，這項(xiàng)研究展示了一個(gè)重要的思想：不同的方法往往各有優(yōu)缺點(diǎn)，但通過巧妙的設(shè)計(jì)，我們可以結(jié)合它們的優(yōu)勢(shì)。FlashWorld的雙模式架構(gòu)和跨模式蒸餾策略為其他領(lǐng)域的研究提供了啟發(fā)。這種思想可能被應(yīng)用到其他需要平衡多個(gè)目標(biāo)的問題中。

從更廣闊的視角來看，F(xiàn)lashWorld代表了人工智能在創(chuàng)意內(nèi)容生成領(lǐng)域的進(jìn)步。隨著這類技術(shù)的發(fā)展，創(chuàng)意工作的流程可能會(huì)發(fā)生根本性的改變。不是從零開始創(chuàng)建，而是通過與AI的交互來快速迭代和優(yōu)化。這可能會(huì)讓更多的人能夠參與到3D內(nèi)容創(chuàng)作中，降低創(chuàng)意表達(dá)的技術(shù)門檻。

Q&A

Q1：FlashWorld是什么，它能做什么？

A：FlashWorld是由廈門大學(xué)、騰訊和復(fù)旦大學(xué)聯(lián)合開發(fā)的一個(gè)AI模型，可以在幾秒鐘內(nèi)從一張圖片或文字描述生成精美的3D場(chǎng)景。它比現(xiàn)有的方法快10到100倍，同時(shí)保持更高的圖像質(zhì)量。

Q2：FlashWorld為什么比其他方法快這么多？

A：FlashWorld采用了一個(gè)創(chuàng)新的雙模式設(shè)計(jì)，結(jié)合了高質(zhì)量的多視圖生成和保證一致性的3D直接生成。通過知識(shí)蒸餾技術(shù)，它能夠用更少的步驟生成高質(zhì)量結(jié)果，同時(shí)避免了傳統(tǒng)方法中需要的單獨(dú)3D重建階段。

Q3：FlashWorld生成的3D場(chǎng)景在實(shí)際應(yīng)用中可靠嗎？

A：根據(jù)在多個(gè)基準(zhǔn)測(cè)試上的評(píng)估，F(xiàn)lashWorld生成的場(chǎng)景在視覺質(zhì)量、3D一致性和文本對(duì)齊度等多個(gè)方面都表現(xiàn)出色。雖然在某些細(xì)節(jié)（如鏡面反射和復(fù)雜幾何）上仍有改進(jìn)空間，但已經(jīng)足以滿足游戲、電影、建筑可視化等許多實(shí)際應(yīng)用的需求。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.