<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      登上NeurIPS,Genesis開(kāi)創(chuàng)無(wú)需OCC引導(dǎo)的多模態(tài)生成新范式

      0
      分享至



      由華中科技大學(xué)與小米汽車提出了業(yè)內(nèi)首個(gè)無(wú)需 OCC 引導(dǎo)的多模態(tài)的圖像 - 點(diǎn)云聯(lián)合生成框架Genesis。該算法只需基于場(chǎng)景描述和布局(包括車道線和 3D 框),就可以生成逼真的圖像和點(diǎn)云視頻。



      • 論文題目:Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency
      • 論文鏈接:https://arxiv.org/abs/2506.07497
      • Github 鏈接:xiaomi-research/genesis

      Genesis 采用兩階段架構(gòu):第一階段基于透視圖投影的布局和場(chǎng)景描述等條件,利用基于 DiT 的擴(kuò)散模型學(xué)習(xí) 3D 變分自編碼器編碼的環(huán)視圖特征; 第二階段將第一階段多視角視頻序列轉(zhuǎn)到鳥(niǎo)瞰圖的特征空間,并結(jié)合場(chǎng)景描述和布局等條件,學(xué)習(xí) 2D 自編碼器編碼的點(diǎn)云特征。

      為了以結(jié)構(gòu)化語(yǔ)義引導(dǎo)生成過(guò)程,本文引入了 DataCrafter (一個(gè)基于 VLM 的數(shù)據(jù)標(biāo)注模塊),可提供場(chǎng)景級(jí)與實(shí)例級(jí)的信息描述。在 nuScenes 基準(zhǔn)數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,Genesis 在視頻與激光雷達(dá)指標(biāo)上均達(dá)到了當(dāng)前 SOTA 水平。



      本文的主要貢獻(xiàn)總結(jié)如下:

      • 統(tǒng)一的多模態(tài)生成架構(gòu)。Genesis 采用統(tǒng)一的 pipeline,視頻和 LiDAR 分支都在共享相同的條件輸入,包括場(chǎng)景描述和布局等,這確保了生成的多模態(tài)數(shù)據(jù)的一致性。為進(jìn)一步保證點(diǎn)云和圖像背景的信息一致性,我們將 RGB 透視圖轉(zhuǎn)到鳥(niǎo)瞰圖視角下的特征下,并把該特征作為條件輸入到基于點(diǎn)云擴(kuò)散模型中,從而加強(qiáng)兩種模態(tài)的一致性,該過(guò)程無(wú)需依賴 occupancy 或體素等中間體。
      • 通過(guò) DataCrafter 進(jìn)行結(jié)構(gòu)化語(yǔ)義信息提取。為了提高語(yǔ)義可控性,本文引入了 DataCrafter,這是一個(gè)基于視覺(jué)語(yǔ)言模型構(gòu)建的 caption 數(shù)據(jù)處理模塊。它提取多視圖、場(chǎng)景級(jí)和實(shí)例級(jí)描述,這些描述融合到密集的語(yǔ)言引導(dǎo)式先驗(yàn)中。這些 caption 數(shù)據(jù)為視頻和 LiDAR 生成器提供了詳細(xì)的語(yǔ)義指導(dǎo),從而產(chǎn)生不僅逼真而且可解釋和可控的輸出。

      引言

      在自動(dòng)駕駛技術(shù)向高階邁進(jìn)的進(jìn)程中,構(gòu)建多樣化、高擬真度的駕駛場(chǎng)景數(shù)據(jù)集,已成為不可或缺的關(guān)鍵環(huán)節(jié)。合成數(shù)據(jù)因?yàn)槠淇删庉嫞追夯奶攸c(diǎn)得到了廣泛的關(guān)注。現(xiàn)有研究雖在視頻生成、LiDAR 序列合成領(lǐng)域取得顯著進(jìn)展,但如何實(shí)現(xiàn)視覺(jué)與幾何模態(tài)間的深度協(xié)同與一致性表達(dá),仍屬亟待攻克的前沿課題。

      如圖 1,當(dāng)前主流的駕駛場(chǎng)景生成方案,多聚焦于 RGB 視頻或 LiDAR 點(diǎn)云的單模態(tài)數(shù)據(jù)生成。這些方法雖極大推動(dòng)了場(chǎng)景生成技術(shù)的發(fā)展,卻未能充分挖掘多模態(tài)融合的協(xié)同優(yōu)勢(shì)。在處理 RGB 視頻與其他傳感器數(shù)據(jù)時(shí),模態(tài)間的對(duì)齊精度不足,導(dǎo)致生成結(jié)果難以滿足實(shí)際應(yīng)用需求。許多方法采用基于 BEV 地圖或 3D 框的 “布局 - 數(shù)據(jù)” 單步生成模式,這種依賴粗略空間先驗(yàn)的架構(gòu),在捕捉復(fù)雜交通動(dòng)態(tài)與精細(xì)語(yǔ)義細(xì)節(jié)時(shí)存在天然缺陷。

      盡管 UniScene 等研究嘗試引入占用網(wǎng)格實(shí)現(xiàn)多模態(tài)生成,但實(shí)際自動(dòng)駕駛場(chǎng)景中 OCC 標(biāo)簽的獲取是非常昂貴的,這嚴(yán)重限制了生成模型在工業(yè)界的應(yīng)用。另外,現(xiàn)有多模態(tài)生成方案多依賴粗略標(biāo)簽或通用標(biāo)題模型提供語(yǔ)義標(biāo)簽,未能有效利用現(xiàn)代視覺(jué)語(yǔ)言模型(VLM)的細(xì)粒度語(yǔ)義解析能力。這種語(yǔ)義標(biāo)簽的缺失,直接影響生成場(chǎng)景的真實(shí)性、可控性,以及時(shí)空邏輯的連貫性。



      具體工作



      DataCrafter 模塊



      本文提出 DataCrafter, 一個(gè)專為多視角自動(dòng)駕駛視頻設(shè)計(jì)的 Caption 數(shù)據(jù)生成模塊,旨在實(shí)現(xiàn)以下兩項(xiàng)核心功能:

      (1) 訓(xùn)練階段數(shù)據(jù)篩選:借助預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型的圖像理解能力,對(duì)原始訓(xùn)練片段進(jìn)行評(píng)估,僅篩選高質(zhì)量片段用于訓(xùn)練。(2) 結(jié)構(gòu)化語(yǔ)義提取:利用視覺(jué)語(yǔ)言模型對(duì)多視角視頻片段提取細(xì)粒度語(yǔ)義信息,為多模態(tài)生成任務(wù)提供豐富的結(jié)構(gòu)化語(yǔ)義條件。







      評(píng)分體系涵蓋三類關(guān)鍵視覺(jué)屬性:(1) 圖像清晰度:如模糊、畸變、臟污等;(2) 結(jié)構(gòu)合理性:如遮擋程度、結(jié)構(gòu)混亂、場(chǎng)景完整性等;(3) 美學(xué)特性:如逆光、過(guò)暗過(guò)亮、曝光異常、色彩偏差等。







      視頻生成模型

      如圖 2 中 camera_branch,Genesis 的視頻生成模塊以 DiT 為骨干,引入 3D-VAE 編碼與結(jié)構(gòu)化語(yǔ)義先驗(yàn),構(gòu)建出具備時(shí)空一致性的生成架構(gòu)。Camera 分支將場(chǎng)景布局信息與語(yǔ)言描述通過(guò)注意力機(jī)制深度耦合,使生成的視頻不僅具備視覺(jué)真實(shí)感,更能遵循語(yǔ)義邏輯。

      我們發(fā)現(xiàn),目前自動(dòng)駕駛場(chǎng)景視頻生成的疼點(diǎn)在于行人難以清晰地生成,為此,我們創(chuàng)新性地利用 YOLOv8x-Pose 檢測(cè)行人姿態(tài)并投影到各視角,以此增強(qiáng)動(dòng)態(tài)場(chǎng)景的語(yǔ)義表達(dá)。

      具體實(shí)現(xiàn)上,我們首先構(gòu)建包含車道段和 3D 邊界框的結(jié)構(gòu)化場(chǎng)景布局,將其投影到各視角 2D 圖像平面形成語(yǔ)義控制圖,再通過(guò) Control-DiT 模塊的交叉注意力機(jī)制在每個(gè)去噪時(shí)間步融入這些結(jié)構(gòu)化先驗(yàn),實(shí)現(xiàn)對(duì)生成過(guò)程的引導(dǎo)。

      在隱空間編碼方面,借助 3D VAE 將多幀 BEV 圖壓縮為隱空間表示,解碼器從去噪詞元中重建 BEV 語(yǔ)義。訓(xùn)練目標(biāo)函數(shù)為:







      最后,模塊集成的語(yǔ)義對(duì)齊控制 Transformer 通過(guò)控制注意力將語(yǔ)義特征注入擴(kuò)散塊早期階段,并結(jié)合空間自注意力、跨視角注意力和時(shí)間注意力機(jī)制,全面保障多視角視頻生成的時(shí)空連貫性與語(yǔ)義保真度。



      激光雷達(dá)生成模型

      如圖 2 中 lidar_branch,激光雷達(dá)生成模塊致力于生成幾何精確且時(shí)空連貫的點(diǎn)云序列,通過(guò)點(diǎn)云自動(dòng)編碼器與時(shí)空擴(kuò)散模塊的協(xié)同設(shè)計(jì),結(jié)合跨模態(tài)語(yǔ)義條件實(shí)現(xiàn)多傳感器數(shù)據(jù)的一致性生成。

      如圖 4,首先,點(diǎn)云自動(dòng)編碼器將稀疏點(diǎn)云體素化為 BEV 網(wǎng)格,利用 Swin Transformer 骨干網(wǎng)絡(luò)壓縮為隱空間特征,再通過(guò) Swin 解碼器與 NeRF 渲染模塊重建點(diǎn)云,過(guò)程中采用空間跳躍算法減少空網(wǎng)格誤差,并通過(guò)深度 L1 損失、占用損失和表面正則化損失優(yōu)化訓(xùn)練,同時(shí)引入后處理過(guò)濾噪聲點(diǎn)。

      時(shí)空擴(kuò)散模塊以自動(dòng)編碼器的隱空間特征為基礎(chǔ),采用雙 DiT 網(wǎng)絡(luò)結(jié)合 ControlNet 架構(gòu),集成場(chǎng)景描述、道路圖等語(yǔ)義條件,以及 3D 邊界框幾何條件;為保證跨模態(tài)一致,通過(guò) LSS 算法將視頻分支的 RGB 圖像轉(zhuǎn)為 BEV 特征,與道路圖特征拼接后輸入 ControlNet。擴(kuò)散過(guò)程中,隱空間詞元通過(guò)交叉注意力融合語(yǔ)義與幾何嵌入,交叉注意力操作的公式為:





      實(shí)驗(yàn)結(jié)果

      視頻生成結(jié)果







      在無(wú)首幀條件設(shè)定下,本文的方法實(shí)現(xiàn)了 83.10 的多幀 FVD 和 14.90 的多幀 FID,優(yōu)于 DriveDreamer-2 等先前的工作。在有首幀條件設(shè)定下,本文的方法進(jìn)一步提升至 16.95 的 FVD 和 4.24 的 FID,與 MiLA 相比展現(xiàn)出具有競(jìng)爭(zhēng)力的結(jié)果,同時(shí)保持了時(shí)間一致性和結(jié)構(gòu)保真度。在有噪聲隱空間設(shè)定下,在 6019 個(gè)樣本上實(shí)現(xiàn)了 67.87 的 FVD 和 6.45 的 FID,超過(guò)了 UniScene 報(bào)告的先前最佳結(jié)果。

      LiDAR 生成結(jié)果



      表 2 展現(xiàn)了先前最先進(jìn)的方法與本文提出的 Genesis 框架在激光雷達(dá)序列生成性能方面的定量比較。評(píng)估標(biāo)準(zhǔn)遵循 HERMES 的設(shè)定進(jìn)行,在水平面 [?51.2, 51.2] 米以及高度 [?3, 5] 米的空間范圍內(nèi),使用 Chamfer distance 作為主要指標(biāo)。在短期和長(zhǎng)期預(yù)測(cè)方面,Genesis 始終優(yōu)于現(xiàn)有方法。在預(yù)測(cè)時(shí)長(zhǎng)為 1 秒時(shí),它的 Chamfer distance 達(dá)到 0.611,比之前的最佳值(HERMES 的 0.78)高出 21%。在預(yù)測(cè)時(shí)長(zhǎng)為 3 秒時(shí),優(yōu)勢(shì)擴(kuò)大到相對(duì)減少 45%(從 1.17 降至 0.633)。

      下游任務(wù)實(shí)驗(yàn)



      本文的方法在多個(gè)下游感知任務(wù)上評(píng)估了生成數(shù)據(jù)的效用。如表 5 所示,本文的方法在 BEVFormer 3D 目標(biāo)檢測(cè)中取得了最佳的平均交并比(38.01)和平均精度均值(27.90)。如表 6 所示,本文評(píng)估了生成數(shù)據(jù)在 BEVFusion 3D 目標(biāo)檢測(cè)框架上的有效性。在所有設(shè)置中,本文的方法都取得了一致的改進(jìn),mAP 從 66.87 提高到 67.78,NDS 從 69.65 提高到 71.13。攝像頭和激光雷達(dá)模態(tài)的聯(lián)合生成實(shí)現(xiàn)了的最高增益(+0.91 mAP / +1.48 NDS),證明了多模態(tài)生成的互補(bǔ)優(yōu)勢(shì)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      沐曦接力造富:股民中一簽賺36萬(wàn),梁文鋒大賺4500萬(wàn),私募大佬葛衛(wèi)東收益翻17倍

      沐曦接力造富:股民中一簽賺36萬(wàn),梁文鋒大賺4500萬(wàn),私募大佬葛衛(wèi)東收益翻17倍

      搜狐科技
      2025-12-17 17:28:42
      豬肝再次成為關(guān)注對(duì)象!醫(yī)生發(fā)現(xiàn):常吃豬肝,可能會(huì)收獲4大好處

      豬肝再次成為關(guān)注對(duì)象!醫(yī)生發(fā)現(xiàn):常吃豬肝,可能會(huì)收獲4大好處

      搖感軍事
      2025-11-30 18:57:30
      26歲女子顏值秒殺女明星,男子相中才知東莞工作,要求男方月薪1.5w

      26歲女子顏值秒殺女明星,男子相中才知東莞工作,要求男方月薪1.5w

      趣筆談
      2025-12-16 22:57:31
      1949年南京解放,一位只懂搓麻將的闊太太走向軍部,報(bào)出一個(gè)名字后,政委當(dāng)場(chǎng)敬禮,鄰居手里的菜都嚇掉了

      1949年南京解放,一位只懂搓麻將的闊太太走向軍部,報(bào)出一個(gè)名字后,政委當(dāng)場(chǎng)敬禮,鄰居手里的菜都嚇掉了

      文史明鑒
      2025-12-12 20:47:14
      特朗普:我宣布將它定性為“大規(guī)模殺傷性武器”

      特朗普:我宣布將它定性為“大規(guī)模殺傷性武器”

      看看新聞Knews
      2025-12-16 17:04:10
      第一批免簽去俄羅斯的中產(chǎn),傻眼了

      第一批免簽去俄羅斯的中產(chǎn),傻眼了

      旅界Pro
      2025-12-15 08:35:24
      南京城市隊(duì)首筆重量級(jí)引援敲定,特謝拉有望加盟,已跟著主帥亮相

      南京城市隊(duì)首筆重量級(jí)引援敲定,特謝拉有望加盟,已跟著主帥亮相

      懂個(gè)球
      2025-12-17 16:26:10
      房產(chǎn)證上的人去世了,繼承別再花大幾千的公證費(fèi),80塊錢就能搞定

      房產(chǎn)證上的人去世了,繼承別再花大幾千的公證費(fèi),80塊錢就能搞定

      室內(nèi)設(shè)計(jì)師有料兒
      2025-12-07 16:05:28
      將“55寸電視”換成85寸后,有些話我不吐不快,太扎心了!

      將“55寸電視”換成85寸后,有些話我不吐不快,太扎心了!

      家電小超人
      2025-12-16 16:35:03
      老公屬這3生肖,別嫌當(dāng)下窮,日子生財(cái)有道,錢財(cái)不缺

      老公屬這3生肖,別嫌當(dāng)下窮,日子生財(cái)有道,錢財(cái)不缺

      人閒情事
      2025-12-16 15:37:48
      10人聚餐逃單后續(xù):10人已社死,組局人身份被扒,張某正臉照曝光

      10人聚餐逃單后續(xù):10人已社死,組局人身份被扒,張某正臉照曝光

      不寫(xiě)散文詩(shī)
      2025-12-17 19:22:27
      何晴葬禮現(xiàn)場(chǎng)曝光!不到24小時(shí),許亞軍一個(gè)舉動(dòng)實(shí)現(xiàn)口碑暴漲

      何晴葬禮現(xiàn)場(chǎng)曝光!不到24小時(shí),許亞軍一個(gè)舉動(dòng)實(shí)現(xiàn)口碑暴漲

      冷紫葉
      2025-12-16 13:10:08
      價(jià)格過(guò)高可能不是主要原因,印度決定放棄美國(guó)19億美元NASAMS協(xié)議

      價(jià)格過(guò)高可能不是主要原因,印度決定放棄美國(guó)19億美元NASAMS協(xié)議

      止戈軍是我
      2025-12-17 22:17:54
      事實(shí)證明!陪馬克龍回國(guó)的鞏俐,可能已經(jīng)走上了另一條大道

      事實(shí)證明!陪馬克龍回國(guó)的鞏俐,可能已經(jīng)走上了另一條大道

      夢(mèng)史
      2025-12-13 11:46:11
      運(yùn)-30首飛成功,將成為世界最強(qiáng)戰(zhàn)術(shù)運(yùn)輸機(jī)嗎?

      運(yùn)-30首飛成功,將成為世界最強(qiáng)戰(zhàn)術(shù)運(yùn)輸機(jī)嗎?

      世家寶
      2025-12-17 15:22:48
      繼續(xù)下滑,奧納納身價(jià)再降500萬(wàn)歐至1500萬(wàn)歐

      繼續(xù)下滑,奧納納身價(jià)再降500萬(wàn)歐至1500萬(wàn)歐

      懂球帝
      2025-12-17 22:36:06
      中國(guó)已經(jīng)提前準(zhǔn)備好,開(kāi)戰(zhàn)之后的第一件事,先廢掉美國(guó)的“星鏈”

      中國(guó)已經(jīng)提前準(zhǔn)備好,開(kāi)戰(zhàn)之后的第一件事,先廢掉美國(guó)的“星鏈”

      科普100克克
      2025-12-17 01:07:54
      童瑤胸貼露出來(lái)了

      童瑤胸貼露出來(lái)了

      手工制作阿殲
      2025-12-15 12:20:21
      63歲張凱麗扮嫩翻車!頭發(fā)和蘋(píng)果肌都是假的,皺紋全堆眼睛上了

      63歲張凱麗扮嫩翻車!頭發(fā)和蘋(píng)果肌都是假的,皺紋全堆眼睛上了

      丁丁鯉史紀(jì)
      2025-12-16 11:01:13
      中國(guó)曝光關(guān)鍵武器!美俄都沒(méi)攻克的世界難題,被中國(guó)80歲老頭拿下

      中國(guó)曝光關(guān)鍵武器!美俄都沒(méi)攻克的世界難題,被中國(guó)80歲老頭拿下

      策略述
      2025-12-16 16:21:07
      2025-12-17 23:03:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11943文章數(shù) 142512關(guān)注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬(wàn)億靠畫(huà)餅 Waymo值千億靠跑單

      頭條要聞

      捐贈(zèng)博物館價(jià)值8800萬(wàn)的名畫(huà)現(xiàn)身拍賣市場(chǎng) 捐贈(zèng)方發(fā)聲

      頭條要聞

      捐贈(zèng)博物館價(jià)值8800萬(wàn)的名畫(huà)現(xiàn)身拍賣市場(chǎng) 捐贈(zèng)方發(fā)聲

      體育要聞

      短短一年,從爭(zhēng)冠到0勝墊底...

      娛樂(lè)要聞

      狗仔曝?zé)岵〗愕軕僬嬲劻耍浚浚?/h3>

      財(cái)經(jīng)要聞

      重磅信號(hào)!收入分配制度或迎重大突破

      汽車要聞

      一車多動(dòng)力+雙姿態(tài) 長(zhǎng)城歐拉5上市 限時(shí)9.18萬(wàn)元起

      態(tài)度原創(chuàng)

      時(shí)尚
      親子
      家居
      藝術(shù)
      旅游

      這才是50歲女人該有的冬季穿搭,既保暖又體面,想不優(yōu)雅都難

      親子要聞

      媳婦帶小珠珠打疫苗

      家居要聞

      溫馨獨(dú)棟 駝色與淺色碰撞

      藝術(shù)要聞

      毛主席書(shū)寫(xiě)林則徐詩(shī)詞,字跡超凡,引發(fā)關(guān)注。

      旅游要聞

      大理洱源縣境內(nèi)的G214國(guó)道擅長(zhǎng)蛇形走位,堪稱經(jīng)典的天險(xiǎn)路段

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 2018天天拍拍天天爽视频| 四虎永久在线精品无码视频| jizz喷水| 人人妻人人澡人人爽人人欧美一区 | 国产真人性做爰久久网站| 中文字幕亚洲乱码熟女一区二区| 蜜桃av无码免费看永久| 亚州精品熟女在线| 尹人久久| 成人午夜国产内射主播| 久久久久久久一线毛片| 久久精品亚洲精品国产色婷| 亚洲无码| 丰满熟妇人妻av无码区 | 久久国产亚洲精品无码| 性交大片| 合山市| 酒店大战丝袜高跟鞋人妻| 国产精品无码天天爽视频| 国产视频最新| 色色91| 中文字幕成熟丰满人妻| 91偷拍视频| 精品在免费线| 亚洲精品一品| 人妻无码一区二区三区免费| 国产精品理论片| 国产精品老熟女400部| 内射人妻无码色| 亚洲成亚洲成网| 国产精品无码成人午夜电影| www.97色伦| 亚洲一卡二卡| 男人j进女人p免费视频| 亚洲日本韩国欧美云霸高清| 91人人操| 日韩成人一区二区三区在线观看| 中文无码热在线视频| 91人妻熟妇在线视频| 丹凤县| 韩产日产国产欧产|