登上NeurIPS，Genesis開創(chuàng)無需OCC引導(dǎo)的多模態(tài)生成新范式

2025-09-28 16:51:08　來源: 機器之心Pro

北京舉報

分享至

由華中科技大學(xué)與小米汽車提出了業(yè)內(nèi)首個無需 OCC 引導(dǎo)的多模態(tài)的圖像 - 點云聯(lián)合生成框架Genesis。該算法只需基于場景描述和布局（包括車道線和 3D 框），就可以生成逼真的圖像和點云視頻。

論文題目：Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency
論文鏈接：https://arxiv.org/abs/2506.07497
Github 鏈接：xiaomi-research/genesis

Genesis 采用兩階段架構(gòu)：第一階段基于透視圖投影的布局和場景描述等條件，利用基于 DiT 的擴散模型學(xué)習(xí) 3D 變分自編碼器編碼的環(huán)視圖特征；第二階段將第一階段多視角視頻序列轉(zhuǎn)到鳥瞰圖的特征空間，并結(jié)合場景描述和布局等條件，學(xué)習(xí) 2D 自編碼器編碼的點云特征。

為了以結(jié)構(gòu)化語義引導(dǎo)生成過程，本文引入了 DataCrafter (一個基于 VLM 的數(shù)據(jù)標(biāo)注模塊)，可提供場景級與實例級的信息描述。在 nuScenes 基準(zhǔn)數(shù)據(jù)集上的大量實驗表明，Genesis 在視頻與激光雷達(dá)指標(biāo)上均達(dá)到了當(dāng)前 SOTA 水平。

本文的主要貢獻(xiàn)總結(jié)如下：

統(tǒng)一的多模態(tài)生成架構(gòu)。Genesis 采用統(tǒng)一的 pipeline，視頻和 LiDAR 分支都在共享相同的條件輸入，包括場景描述和布局等，這確保了生成的多模態(tài)數(shù)據(jù)的一致性。為進(jìn)一步保證點云和圖像背景的信息一致性，我們將 RGB 透視圖轉(zhuǎn)到鳥瞰圖視角下的特征下，并把該特征作為條件輸入到基于點云擴散模型中，從而加強兩種模態(tài)的一致性，該過程無需依賴 occupancy 或體素等中間體。
通過 DataCrafter 進(jìn)行結(jié)構(gòu)化語義信息提取。為了提高語義可控性，本文引入了 DataCrafter，這是一個基于視覺語言模型構(gòu)建的 caption 數(shù)據(jù)處理模塊。它提取多視圖、場景級和實例級描述，這些描述融合到密集的語言引導(dǎo)式先驗中。這些 caption 數(shù)據(jù)為視頻和 LiDAR 生成器提供了詳細(xì)的語義指導(dǎo)，從而產(chǎn)生不僅逼真而且可解釋和可控的輸出。

引言

在自動駕駛技術(shù)向高階邁進(jìn)的進(jìn)程中，構(gòu)建多樣化、高擬真度的駕駛場景數(shù)據(jù)集，已成為不可或缺的關(guān)鍵環(huán)節(jié)。合成數(shù)據(jù)因為其可編輯，易泛化的特點得到了廣泛的關(guān)注?，F(xiàn)有研究雖在視頻生成、LiDAR 序列合成領(lǐng)域取得顯著進(jìn)展，但如何實現(xiàn)視覺與幾何模態(tài)間的深度協(xié)同與一致性表達(dá)，仍屬亟待攻克的前沿課題。

如圖 1，當(dāng)前主流的駕駛場景生成方案，多聚焦于 RGB 視頻或 LiDAR 點云的單模態(tài)數(shù)據(jù)生成。這些方法雖極大推動了場景生成技術(shù)的發(fā)展，卻未能充分挖掘多模態(tài)融合的協(xié)同優(yōu)勢。在處理 RGB 視頻與其他傳感器數(shù)據(jù)時，模態(tài)間的對齊精度不足，導(dǎo)致生成結(jié)果難以滿足實際應(yīng)用需求。許多方法采用基于 BEV 地圖或 3D 框的 “布局 - 數(shù)據(jù)” 單步生成模式，這種依賴粗略空間先驗的架構(gòu)，在捕捉復(fù)雜交通動態(tài)與精細(xì)語義細(xì)節(jié)時存在天然缺陷。

盡管 UniScene 等研究嘗試引入占用網(wǎng)格實現(xiàn)多模態(tài)生成，但實際自動駕駛場景中 OCC 標(biāo)簽的獲取是非常昂貴的，這嚴(yán)重限制了生成模型在工業(yè)界的應(yīng)用。另外，現(xiàn)有多模態(tài)生成方案多依賴粗略標(biāo)簽或通用標(biāo)題模型提供語義標(biāo)簽，未能有效利用現(xiàn)代視覺語言模型（VLM）的細(xì)粒度語義解析能力。這種語義標(biāo)簽的缺失，直接影響生成場景的真實性、可控性，以及時空邏輯的連貫性。

具體工作

DataCrafter 模塊

本文提出 DataCrafter, 一個專為多視角自動駕駛視頻設(shè)計的 Caption 數(shù)據(jù)生成模塊，旨在實現(xiàn)以下兩項核心功能：

(1) 訓(xùn)練階段數(shù)據(jù)篩選：借助預(yù)訓(xùn)練視覺語言模型的圖像理解能力，對原始訓(xùn)練片段進(jìn)行評估，僅篩選高質(zhì)量片段用于訓(xùn)練。(2) 結(jié)構(gòu)化語義提取：利用視覺語言模型對多視角視頻片段提取細(xì)粒度語義信息，為多模態(tài)生成任務(wù)提供豐富的結(jié)構(gòu)化語義條件。

評分體系涵蓋三類關(guān)鍵視覺屬性：(1) 圖像清晰度：如模糊、畸變、臟污等；(2) 結(jié)構(gòu)合理性：如遮擋程度、結(jié)構(gòu)混亂、場景完整性等；(3) 美學(xué)特性：如逆光、過暗過亮、曝光異常、色彩偏差等。

視頻生成模型

如圖 2 中 camera_branch，Genesis 的視頻生成模塊以 DiT 為骨干，引入 3D-VAE 編碼與結(jié)構(gòu)化語義先驗，構(gòu)建出具備時空一致性的生成架構(gòu)。Camera 分支將場景布局信息與語言描述通過注意力機制深度耦合，使生成的視頻不僅具備視覺真實感，更能遵循語義邏輯。

我們發(fā)現(xiàn)，目前自動駕駛場景視頻生成的疼點在于行人難以清晰地生成，為此，我們創(chuàng)新性地利用 YOLOv8x-Pose 檢測行人姿態(tài)并投影到各視角，以此增強動態(tài)場景的語義表達(dá)。

具體實現(xiàn)上，我們首先構(gòu)建包含車道段和 3D 邊界框的結(jié)構(gòu)化場景布局，將其投影到各視角 2D 圖像平面形成語義控制圖，再通過 Control-DiT 模塊的交叉注意力機制在每個去噪時間步融入這些結(jié)構(gòu)化先驗，實現(xiàn)對生成過程的引導(dǎo)。

在隱空間編碼方面，借助 3D VAE 將多幀 BEV 圖壓縮為隱空間表示，解碼器從去噪詞元中重建 BEV 語義。訓(xùn)練目標(biāo)函數(shù)為：

最后，模塊集成的語義對齊控制 Transformer 通過控制注意力將語義特征注入擴散塊早期階段，并結(jié)合空間自注意力、跨視角注意力和時間注意力機制，全面保障多視角視頻生成的時空連貫性與語義保真度。

激光雷達(dá)生成模型

如圖 2 中 lidar_branch，激光雷達(dá)生成模塊致力于生成幾何精確且時空連貫的點云序列，通過點云自動編碼器與時空擴散模塊的協(xié)同設(shè)計，結(jié)合跨模態(tài)語義條件實現(xiàn)多傳感器數(shù)據(jù)的一致性生成。

如圖 4，首先，點云自動編碼器將稀疏點云體素化為 BEV 網(wǎng)格，利用 Swin Transformer 骨干網(wǎng)絡(luò)壓縮為隱空間特征，再通過 Swin 解碼器與 NeRF 渲染模塊重建點云，過程中采用空間跳躍算法減少空網(wǎng)格誤差，并通過深度 L1 損失、占用損失和表面正則化損失優(yōu)化訓(xùn)練，同時引入后處理過濾噪聲點。

時空擴散模塊以自動編碼器的隱空間特征為基礎(chǔ)，采用雙 DiT 網(wǎng)絡(luò)結(jié)合 ControlNet 架構(gòu)，集成場景描述、道路圖等語義條件，以及 3D 邊界框幾何條件；為保證跨模態(tài)一致，通過 LSS 算法將視頻分支的 RGB 圖像轉(zhuǎn)為 BEV 特征，與道路圖特征拼接后輸入 ControlNet。擴散過程中，隱空間詞元通過交叉注意力融合語義與幾何嵌入，交叉注意力操作的公式為：

實驗結(jié)果

視頻生成結(jié)果

在無首幀條件設(shè)定下，本文的方法實現(xiàn)了 83.10 的多幀 FVD 和 14.90 的多幀 FID，優(yōu)于 DriveDreamer-2 等先前的工作。在有首幀條件設(shè)定下，本文的方法進(jìn)一步提升至 16.95 的 FVD 和 4.24 的 FID，與 MiLA 相比展現(xiàn)出具有競爭力的結(jié)果，同時保持了時間一致性和結(jié)構(gòu)保真度。在有噪聲隱空間設(shè)定下，在 6019 個樣本上實現(xiàn)了 67.87 的 FVD 和 6.45 的 FID，超過了 UniScene 報告的先前最佳結(jié)果。

LiDAR 生成結(jié)果

表 2 展現(xiàn)了先前最先進(jìn)的方法與本文提出的 Genesis 框架在激光雷達(dá)序列生成性能方面的定量比較。評估標(biāo)準(zhǔn)遵循 HERMES 的設(shè)定進(jìn)行，在水平面 [?51.2, 51.2] 米以及高度 [?3, 5] 米的空間范圍內(nèi)，使用 Chamfer distance 作為主要指標(biāo)。在短期和長期預(yù)測方面，Genesis 始終優(yōu)于現(xiàn)有方法。在預(yù)測時長為 1 秒時，它的 Chamfer distance 達(dá)到 0.611，比之前的最佳值（HERMES 的 0.78）高出 21%。在預(yù)測時長為 3 秒時，優(yōu)勢擴大到相對減少 45%（從 1.17 降至 0.633）。

下游任務(wù)實驗

本文的方法在多個下游感知任務(wù)上評估了生成數(shù)據(jù)的效用。如表 5 所示，本文的方法在 BEVFormer 3D 目標(biāo)檢測中取得了最佳的平均交并比（38.01）和平均精度均值（27.90）。如表 6 所示，本文評估了生成數(shù)據(jù)在 BEVFusion 3D 目標(biāo)檢測框架上的有效性。在所有設(shè)置中，本文的方法都取得了一致的改進(jìn)，mAP 從 66.87 提高到 67.78，NDS 從 69.65 提高到 71.13。攝像頭和激光雷達(dá)模態(tài)的聯(lián)合生成實現(xiàn)了的最高增益（+0.91 mAP / +1.48 NDS），證明了多模態(tài)生成的互補優(yōu)勢。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.