網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

《現(xiàn)代電影技術(shù)》｜影視數(shù)字資產(chǎn)的智能構(gòu)建：基于Multi?SLAM+3DGS技術(shù)的三維數(shù)字重建方案研究

2026-03-27 17:18:37　來源: 電影技術(shù)微刊

北京舉報

分享至

本文刊發(fā)于《現(xiàn)代電影技術(shù)》2026年第3期

專家點評

季向陽

教授

清華大學自動化系腦與認知科學研究所所長，中國人工智能學會深度學習專委會主任

隨著人工智能（AI）技術(shù)，特別是文生視頻、文生3D大模型的發(fā)展與應用，傳統(tǒng)影視內(nèi)容創(chuàng)作面臨的高成本、長周期等行業(yè)痛點有望被大模型技術(shù)重構(gòu)。三維數(shù)字資產(chǎn)作為虛擬攝制、電影特效的核心生產(chǎn)要素，其快速生成、高精度還原與便捷編輯能力，正成為提升影視制作效率的關(guān)鍵手段。《影視數(shù)字資產(chǎn)的智能構(gòu)建：基于Multi?SLAM+3DGS 技術(shù)的三維數(shù)字重建方案研究》一文針對影視制作中三維資產(chǎn)重建周期長、人工干預多、純視覺方案魯棒性差等問題，提出了一種融合Multi?SLAM和3DGS的影視化數(shù)字資產(chǎn)構(gòu)建方案，在所選擇的測試場景中取得了最優(yōu)效果。論文總結(jié)了不同傳感器的技術(shù)特點和應用場景，構(gòu)建了涵蓋弱紋理、透明物體、動態(tài)干擾的室內(nèi)外場景測試數(shù)據(jù)集，并基于該數(shù)據(jù)集從定性結(jié)果、采集時間、重建時間等多個維度進行了實驗對比，分析了3DGS 在編輯自由度以及重光照質(zhì)量方面的局限性，為未來的工作提供了有益參考。總體而言，本文所解決的問題明確，方法描述較為詳實，實驗結(jié)果較為豐富，具有較好的方法創(chuàng)新和工程應用價值。論文現(xiàn)有實驗對比主要以主觀定性結(jié)果為主，建議在未來研究中補充峰值信噪比（PSNR）、結(jié)構(gòu)相似性（SSIM）等客觀定量指標的對比結(jié)果。

基金項目

國家社科基金藝術(shù)學重點項目“智能影像創(chuàng)作與傳播的中國路徑與自主體系研究”（25AC006）；北京電影學院人才隊伍建設(shè)資助計劃——創(chuàng)新團隊項目“電影智能制作中的藝術(shù)與科學融合發(fā)展研究”（3040025002）。

作者簡介

陳　軍

博士，北京電影學院智能影像工程學院研究員，主要研究方向：數(shù)字電影技術(shù)、電影虛擬化制作、電影智能制作。

盧柏宏

碩士，北京電影學院智能影像工程學院講師，主要研究方向：電影虛擬化制作、電影智能制作、特種影像制作。

黃子津

大學本科，深圳市其域創(chuàng)新科技有限公司合伙人，主要研究方向：空間智能技術(shù)、三維重建。

顏青松

博士，深圳市其域創(chuàng)新科技有限公司研發(fā)工程師，主要研究方向：視覺三維重建。

摘要

隨著影視制作日益向虛擬化、實時化與空間智能化方向發(fā)展，傳統(tǒng)三維數(shù)字重建與內(nèi)容生成流程在精度、效率及可用性方面逐漸顯現(xiàn)出局限性。本文聚焦多源傳感融合?即時定位與地圖構(gòu)建（Multi?SLAM）、3D高斯?jié)姙R（3D Gaussian Splatting, 3DGS）技術(shù)，闡述了Multi?SLAM+3DGS在空間幾何獲取、建模質(zhì)量、重建效率及行業(yè)適用性等方面的技術(shù)特點與優(yōu)勢，并通過與基于微型單反相機、全景相機等純視覺3DGS工作流的實測對比，驗證了該方案在影視多場景應用中的普適性與先進性，構(gòu)建了一套面向影視生產(chǎn)的從物理空間到三維數(shù)字資產(chǎn)轉(zhuǎn)化的智能一體化解決方案。研究結(jié)果表明，Multi?SLAM+3DGS在室內(nèi)外場景的掃描與重建中均展現(xiàn)出更高的效率、更優(yōu)的模型質(zhì)量及更強的魯棒性。該解決方案有望顯著提升影視制作的整體效能與三維數(shù)字資產(chǎn)質(zhì)量，為未來的虛擬攝制、后期視效、虛擬現(xiàn)實電影等提供高效、可靠的技術(shù)路徑。

關(guān)鍵詞

Multi?SLAM；3DGS；影視三維數(shù)字資產(chǎn)；三維數(shù)字重建

引言

在影視制作中，三維內(nèi)容的重建與還原貫穿于虛擬勘景（Virtual Scouting）、視覺預演（PreViz）、虛擬攝制、后期視效及虛擬現(xiàn)實/增強現(xiàn)實/混合現(xiàn)實（VR/AR/MR）等新興內(nèi)容生產(chǎn)過程中，是不可或缺的核心環(huán)節(jié)。然而，傳統(tǒng)人工建模或攝影測量方法普遍存在建模周期長、人工干預多、重建效果不理想等問題，一直制約著三維內(nèi)容生產(chǎn)的發(fā)展。

3D高斯?jié)姙R（3D Gaussian Splatting, 3DGS）技術(shù)的出現(xiàn)為影視三維數(shù)字資產(chǎn)重建提供了全新路徑，其不僅能快速實現(xiàn)三維數(shù)字資產(chǎn)重建，其過程基本無需人工干預，顯著縮短制作周期。同時，得益于其高效的渲染機制，該技術(shù)可在更為普通的計算機上實現(xiàn)實時、逼真的三維內(nèi)容渲染，為不同類型的影視制作帶來全新可能。然而，隨著行業(yè)對3DGS資產(chǎn)數(shù)量與質(zhì)量要求的不斷提升，基于純視覺的重建方法逐漸暴露出明顯局限：掃描過程耗時長、效率低；重建階段易出現(xiàn)圖像位姿丟失、弱紋理區(qū)域模型破面、透明或高反光物體幾何失真等問題。針對上述挑戰(zhàn)，借助多源傳感融合-即時定位與地圖構(gòu)建（Multi?SLAM）技術(shù)通過融合視覺、激光雷達（LiDAR）與慣性測量單元（Inertial Measurement Unit, IMU）數(shù)據(jù)，可有效提升3DGS資產(chǎn)重建的質(zhì)量和魯棒性[1,2] 。

本文系統(tǒng)性闡述Multi?SLAM+3DGS結(jié)合的技術(shù)路徑，深入分析該技術(shù)路徑在影視行業(yè)中具備通用性的可能，并通過測試對比，展示端到端流程及應用環(huán)節(jié)，探討在影視虛擬攝制時代應用這一系統(tǒng)解決行業(yè)痛點、提升效率的技術(shù)路徑。本文提出的Multi?SLAM+3DGS一體化方案，不僅能顯著提升重建效率與模型質(zhì)量，更能確保厘米級幾何精度與1∶1真實尺度還原，從而實現(xiàn)虛擬環(huán)境與物理世界的精準同步，以更高的制作效率為影視制作提供高精度實景三維數(shù)字資產(chǎn)。

研究背景

2.1 三維重建技術(shù)的發(fā)展

三維重建（3D Reconstruction）是指對三維物體建立適合計算機表示和處理的數(shù)學模型，是在計算機環(huán)境下對其進行處理、操作和分析其性質(zhì)的基礎(chǔ)，目前主要有攝影測量、神經(jīng)輻射場（NeRF）、3DGS。

傳統(tǒng)攝影測量（Photogrammetry）方法通過一定數(shù)量照片計算生成網(wǎng)格（Mesh）模型，其技術(shù)歷經(jīng)多年發(fā)展已經(jīng)十分成熟，但其復雜的制作流程和較弱的真實感成為其在影視創(chuàng)作中的瓶頸。近年來，神經(jīng)輻射場（Neural Radiance Fields, NeRF）[3]通過神經(jīng)網(wǎng)絡(luò)編碼場景為三維場景重建創(chuàng)造了新的可能，但高昂的重建成本、非實時渲染速度等局限性，限制了其在影視制作中的應用。3DGS是一種顯式三維重建與渲染技術(shù)[4]，能直接從多視角圖像生成高保真、可實時渲染的三維場景。相比傳統(tǒng)攝影測量方法，3DGS可提供更強的真實感、更高渲染效率；同時區(qū)別于NeRF的隱式表達，3DGS采用顯式幾何表達，訓練后場景固化，渲染時無需查詢神經(jīng)網(wǎng)絡(luò)，顯著提升速度與實用性。不同的三維重建技術(shù)具備各自的特點與優(yōu)劣，如表1所示。

表1　三維重建方法優(yōu)劣分析

2.2 傳統(tǒng)三維數(shù)字資產(chǎn)采集、重建與使用的痛點

影視行業(yè)中三維數(shù)字資產(chǎn)采集、重建與使用面臨諸多挑戰(zhàn)，一些復雜場景從采集到重建完成往往耗時數(shù)天甚至數(shù)周，其主要原因是方案的魯棒性不足，在一些不利條件下易導致模型破損失真，進而需要更多人力和時間成本進行修復。另外，傳統(tǒng)方法的渲染效率低，在渲染性能有限的情況下難以直接滿足虛擬攝制、視效及VR等應用對真實感和實時性的要求。本文提出的Multi?SLAM+3DGS技術(shù)路徑，正是為解決和改善這些痛點而設(shè)計。

Multi?SLAM+3DGS技術(shù)流程及特點

Multi?SLAM+3DGS技術(shù)流程中（圖1），不同傳感設(shè)備具備相應的特點，所獲數(shù)據(jù)在前后期分別發(fā)揮不同的作用，互補結(jié)合后發(fā)揮更大效能。

圖1　Multi?SLAM+3DGS技術(shù)流程

3.1 多源傳感融合技術(shù)

Multi?SLAM+3DGS是一種一體化空間三維重建系統(tǒng)，其核心在于通過多源傳感融合技術(shù)實現(xiàn)多源傳感空間感知，從而構(gòu)建高魯棒性、高精度的即時定位與地圖構(gòu)建（SLAM）前期掃描，為后期3DGS提供更多精準的有效信息，如相機位姿（Pose）、稀疏或稠密點云初始化（Initialization）以及絕對尺度約束（Scale Constraint）等。不同類型傳感器在采集和重建中能夠形成多維感知互補。

3.1.1 視覺傳感技術(shù)特點

視覺傳感器的兩項主要功能為獲取設(shè)備位姿及場景紋理色彩細節(jié)。視覺傳感器在弱光、高反差等惡劣光照環(huán)境下性能顯著下降[5]。純視覺傳感器方案中在例如白墻、玻璃等缺少特征點或者水面、播放畫面的屏幕等動態(tài)變化環(huán)境中，將無法有效定位并識別幾何結(jié)構(gòu)，進而影響三維重建。此外，大部分純視覺方案還無法精確實現(xiàn)1∶1尺度的測量。

3.1.2 激光雷達傳感技術(shù)特點

激光雷達能提供準確的三維結(jié)構(gòu)信息與絕對尺度約束，其具備全天候抗干擾能力，在弱紋理（如白墻）和暗光等極端環(huán)境下仍能穩(wěn)定輸出空間結(jié)構(gòu)信息，且可提供1∶1的真實尺度測量，對純視覺方案形成原理與算法上的有效補充。激光雷達直接提供的準確稠密點云能為3DGS重建帶來更快的訓練速度與更佳的重建精度。

3.1.3 IMU傳感技術(shù)特點

IMU由加速度計與陀螺儀組成，可在上百赫茲頻率輸出加速度、角速度信息，在快速運動、劇烈轉(zhuǎn)向及短時遮擋期間仍可連續(xù)跟蹤設(shè)備運動，有效防止在快速移動或震動掃描時出現(xiàn)跟蹤丟失，從而提升數(shù)據(jù)采集過程中的魯棒性與數(shù)據(jù)準確性。IMU還可發(fā)揮其自身刷新快、抗干擾能力強的特點，輔助抑制累積誤差，即便在大場景中也能確保場景重建的空間一致性[6]。

3.1.4 多維度感知互補

視覺傳感器、激光雷達和IMU的多維度感知互補，共同構(gòu)建完整的環(huán)境感知，分類如下：

（1）位姿：3DGS的重建質(zhì)量高度依賴于精準的相機位姿[7]。視覺系統(tǒng)通過特征跟蹤算法進行位姿估計，但在低光、強反射、紋理缺失及動態(tài)物體等條件中極易失效；IMU憑借其高刷新率及不受外部光照視覺條件影響的特性，能穩(wěn)定有效地獲取相對運動信息，但其存在累積誤差的問題；而激光雷達則能在視覺失效時，通過幾何匹配繼續(xù)提供穩(wěn)定的位姿約束[5]。三者協(xié)同互補，共同完成高準確度和強魯棒性的位姿獲取。

（2）幾何結(jié)構(gòu)：基于設(shè)備位姿，融合激光雷達的精準測距數(shù)據(jù)與視覺圖像特征，可獲取高精度的深度及點云信息，從而構(gòu)建出物體或場景的幾何結(jié)構(gòu)。

（3）尺度測量：普通單目視覺重建難以準確獲取真實尺度，而Multi?SLAM方案激光雷達提供真實準確的深度信息，IMU可輔助估計尺度與運動，從而確保重建的幾何量具有準確的物理意義。若再配合GPS?RTK傳感器，還可確保重建場景朝向及經(jīng)緯度位置的準確性。

（4）紋理和色彩：激光雷達和IMU均無法獲取有效紋理和色彩信息，因此需通過視覺傳感器實現(xiàn)這一功能，通常使用相機在不同位置拍攝獲取。

根據(jù)上述感知維度與不同傳感器的對應關(guān)系可見，需多傳感器融合使用以實現(xiàn)多維度感知互補，彌補單一傳感器的弱點，實現(xiàn)更強的系統(tǒng)魯棒性，從而提升采集和重建的效率和質(zhì)量[6,8,9]。

3.2 前期采集關(guān)鍵技術(shù)及流程

3.2.1 多源傳感融合定位

在前期采集中定位技術(shù)尤為重要， SLAM常用于機器人、無人機、自動駕駛等領(lǐng)域，其核心目標是讓采集設(shè)備在未知環(huán)境中，同時估計自身位置和構(gòu)建外部空間地圖。Multi?SLAM的多源傳感數(shù)據(jù)融合的主要作用為定位，視覺、激光雷達、IMU通過復雜的定位融合算法，互補三者的優(yōu)勢特點，在掃描過程中實時獲取準確的定位信息。其不僅能顯示點云及軌跡，為采集掃描作業(yè)提供便利，還能為后續(xù)3DGS重建提供準確的定位信息。

3.2.2 設(shè)備集成與時間、位姿同步的重要性

在Multi?SLAM技術(shù)中，視覺、激光雷達、IMU多源傳感器通過硬件集成連接以確保時空一致性，在設(shè)備加工制造及校準時，會對不同傳感器的相對位置和姿態(tài)進行嚴格標定，通過高精度硬件確保時間微秒級同步，即可在設(shè)備運動時確保不同傳感器位姿的精準同步，以確保定位精度和地圖構(gòu)建質(zhì)量。若各傳感器分散在不同設(shè)備，未做嚴格外參標定和時間同步，則會在重建時產(chǎn)生計算誤差進而影響質(zhì)量，嚴重時甚至會導致重建失敗。因此Multi?SLAM技術(shù)中多傳感器的時空一致性是準確重建的有效保障，可避免在后期重建中進行不必要的數(shù)據(jù)修正，從而大幅提升重建的效率和質(zhì)量。

3.2.3 前期采集技術(shù)流程

在前期采集過程中，需在完成視覺、激光雷達、IMU三種類型傳感器的微秒級同步后，將不同采集頻率的視覺圖像、激光雷達、IMU數(shù)據(jù)進行多源傳感融合，并通過幾何一致性、視覺一致性等約束條件優(yōu)化位姿。在不同情況下，不同類型傳感器獲取的數(shù)據(jù)會根據(jù)其自身置信度開展準確且穩(wěn)定的位姿信息獲取，并實時生成稠密點云以供現(xiàn)場實時預覽。視覺、激光雷達、IMU的原始信息以及位姿軌跡信息和稠密點云都會被保存，以供后期進行高魯棒性與高精度重建。圖2為前期采集技術(shù)流程圖。

圖2　前期采集技術(shù)流程

3.3 后期重建關(guān)鍵技術(shù)及流程

在Multi?SLAM+3DGS制作流程中，后期算法及軟件尤為重要。一套融合定位建圖、數(shù)據(jù)清洗、重建解算的后期重建軟件，能顯著提升三維數(shù)字資產(chǎn)質(zhì)量與生產(chǎn)效率。除此之外，其易用性與魯棒性則是降低使用門檻、確保產(chǎn)出穩(wěn)定的關(guān)鍵。

3.3.1 多源傳感融合定位與閉環(huán)優(yōu)化

3DGS的重建結(jié)果高度依賴準確的圖像位姿，過大的偏差可能會導致幾何結(jié)構(gòu)塌陷。在前期掃描過程中，Multi?SLAM由于機載處理器性能有限，其位姿數(shù)據(jù)的準確性仍有優(yōu)化空間，后期會通過相應算法，結(jié)合多傳感器數(shù)據(jù)繼續(xù)修正，以獲取更精準的位姿信息，確保多源傳感融合的全局一致性。Multi?SLAM系統(tǒng)還可通過回環(huán)檢測（Loop Closure）功能，在設(shè)備回到起點或有視角重疊時自動校正累積定位誤差，從而生成更加一致、準確的地圖。

3.3.2 多源傳感融合幾何結(jié)構(gòu)與紋理色彩

多源傳感融合是生成優(yōu)質(zhì)幾何結(jié)構(gòu)與紋理色彩的關(guān)鍵技術(shù)。激光雷達采集環(huán)境的三維點云信息，作為幾何結(jié)構(gòu)的核心數(shù)據(jù)源，相機則捕捉場景的色彩紋理信息。為充分融合兩者優(yōu)勢，需通過高精度標定算法統(tǒng)一兩傳感器的時空坐標系，建立三維點云與二維像素的可靠映射；并依據(jù)多視角一致性原則對幾何結(jié)構(gòu)與色彩紋理信息實施協(xié)同優(yōu)化，確保融合結(jié)果在精度與一致性上達到更高水平。

3.3.3 動態(tài)物體自動檢測與剔除算法

利用深度學習（DL）的語義識別技術(shù)，結(jié)合時序一致性分析，系統(tǒng)能從采集畫面中識別移動的人員、車輛等，生成遮罩并將其剔除，從而在3DGS重建中排除干擾，輸出純凈的靜態(tài)場景模型，有效避免動態(tài)物體在場景中留下虛影[10]。

3.3.4 后期重建技術(shù)流程

使用前期采集時記錄圖像、激光雷達、IMU的原始信息進行高精度的設(shè)備位姿計算并生成全局點云，根據(jù)點云信息和帶有準確位姿信息的視覺信息進行點云著色獲得彩色點云，完成 3D 高斯模型初始化[11,12]，再借助可微渲染（Differentiable Rendering）技術(shù)迭代優(yōu)化3D高斯模型，從而得到高保真實景三維模型。圖3為后期重建技術(shù)流程圖。

圖3　后期重建技術(shù)流程

3.4 Multi?SLAM+3DGS技術(shù)特點

基于Multi?SLAM+3DGS的端到端自動化流程不僅大幅縮短了影視制作周期，也讓三維內(nèi)容的生成與應用更加高效便捷。

（1）采集和重建速度更快

大部分集成化Multi?SLAM+3DGS采用雙目全景相機保證全方位快速采集，部分方案配合非全景相機保證細節(jié)采集，激光雷達獲取準確的點云信息，配合IMU獲取穩(wěn)定姿態(tài)，豐富多維度的數(shù)據(jù)采集減少了后期相機位姿追蹤和點云生成等多個步驟，從而節(jié)約后期重建成本并提高重建效率。

（2）操作更簡易

Multi?SLAM使3DGS重建流程從專業(yè)化轉(zhuǎn)變?yōu)槠者m化。傳統(tǒng)純視覺3DGS重建流程容錯率低，用戶需掌握攝影測量、3DGS重建等專業(yè)知識，通常需要專業(yè)培訓或長時間試錯。而目前Multi?SLAM+3DGS方案由于其多源傳感融合技術(shù)的高容錯性等特點，重建流程相對自動化，顯著提升了3DGS資產(chǎn)重建在影視行業(yè)中普及推廣的可能性。

（3）魯棒性更高、可復現(xiàn)性更強

Multi?SLAM+3DGS通過多源傳感融合，為3DGS重建提供多維度約束與保障，避免純視覺3DGS技術(shù)在弱紋理、重復紋理、弱光、高反光、鏡面、動態(tài)物體等環(huán)境中容易發(fā)生匹配失敗或幾何漂移而導致模型斷裂、重影或塌陷等問題。

Multi?SLAM+3DGS的可復現(xiàn)性更強。純視覺3DGS的重建結(jié)果高度依賴專業(yè)經(jīng)驗，不同的拍攝路徑與特征提取參數(shù)會導致結(jié)果不一致甚至失敗。Multi?SLAM+3DGS方案不僅提高了掃描成功率，也使結(jié)果在不同拍攝者、不同設(shè)備間具備良好的復現(xiàn)效果，可滿足影視制作的批量化資產(chǎn)生成需求。

（4）三維數(shù)字資產(chǎn)數(shù)據(jù)質(zhì)量更高

Multi?SLAM 技術(shù)不僅顯著提升了幾何精度，更直接優(yōu)化了模型的空間一致性與數(shù)據(jù)潔凈度。借助激光雷達提供的精確深度信息、點云與幾何約束，算法能構(gòu)建出準確、連續(xù)的場景幾何結(jié)構(gòu)，有效解決了純視覺方案因幾何約束不足而產(chǎn)生的漂浮偽影[13]（Floating Artifacts）問題，大幅降低了后期人工清理成本。同時，通過動態(tài)物體自動檢測與剔除算法，系統(tǒng)可自動移除行人、車輛等干擾目標，生成高潔凈度資產(chǎn)。此外，融合激光雷達與 IMU 獲取的絕對尺度信息，實現(xiàn)了場景的 1∶1 精準還原，以便后期視效與虛擬攝制等工作的開展。

Multi?SLAM+3DGS重建方案與常規(guī)3DGS對比測試

為對比Multi?SLAM+3DGS重建方案與常規(guī)純視覺3DGS重建方案，本測試設(shè)計了室內(nèi)與室外兩組測試環(huán)境，對比索尼微型單反相機α7R IV、大疆全景相機Osmo 360、其域創(chuàng)新靈視P1和靈光L2 Pro共4種設(shè)備使用方案下3DGS重建的表現(xiàn)。

4.1 測試實驗設(shè)計

目前，3DGS在小型靜物重建方面已相對成熟，若排除高反光、透明或弱紋理等極端情況，其重建效果通常較好。然而，面對大尺度或幾何結(jié)構(gòu)復雜的場景，純視覺方案仍面臨諸多挑戰(zhàn)。為此，本文設(shè)計了室內(nèi)與室外2個場景，旨在對比不同空間尺度下的建模效果。

（1）室內(nèi)場景

選取面積約為15 m2的臥室作為室內(nèi)測試場景。其中，白墻與關(guān)閉的電視旨在測試不同方案在弱紋理及反光表面的表現(xiàn)；窗戶用于評估對透明物體的重建效果；而顯示畫面的電腦屏幕等物件，則用于測試算法對細節(jié)紋理的還原能力。

（2）室外場景

選取湖邊區(qū)域外景作為室外測試場景。場景中復雜的環(huán)境特征極具挑戰(zhàn)性，植被存在鏤空結(jié)構(gòu)與風動干擾；湖面兼具鏡面反射與流動性；建筑物的大面積玻璃窗則包含透明與反光屬性。此外，隨機出現(xiàn)的行人能有效測試算法對動態(tài)移動物體的剔除能力。測試還涵蓋建筑物內(nèi)小型室內(nèi)區(qū)域，以驗證室內(nèi)外空間連接過渡的重建效果。室外區(qū)域整體面積約10,000 m2，與室外連接的室內(nèi)部分約100 m2。

4.2 設(shè)備參數(shù)和采集方式

前期采集設(shè)備的具體參數(shù)如表2所示，由于全景相機、靈視P1及靈光L2 Pro均采用全景采集模式，三者的采集路徑與作業(yè)時長基本一致，具備良好的可比性；而微型單反相機受限于其定向的采集方式，難以在路徑規(guī)劃和時間消耗上與其他設(shè)備保持嚴格一致。

表2　4種采集設(shè)備參數(shù)和采集方式

4.3 后期重建

對于常規(guī)純視覺方案而言，后期需經(jīng)歷圖像抽幀、特征匹配、FOV分塊等復雜人工流程，期間人工操作的經(jīng)驗和時間也會對結(jié)果造成較大影響，本文測試對微型單反相機和全景相機的素材進行基礎(chǔ)處理后，使用目前較好的純視覺3DGS制作方案之一的Postshot進行三維重建，在測試中使用默認參數(shù)。

靈視P1和靈光L2 Pro采集素材使用Lixel CyberColor進行三維重建，所有細節(jié)參數(shù)由系統(tǒng)在三維重建時根據(jù)素材進行自適應調(diào)整。

4.4 測試結(jié)果

4.4.1 室內(nèi)場景

室內(nèi)測試結(jié)果如表3所示。微型單反相機與全景相機所生成資產(chǎn)在白墻、電視等區(qū)域依然出現(xiàn)嚴重的瑕疵，且空中會出現(xiàn)漂浮偽影，這些問題需要大量時間進行人工后期修模。Multi?SLAM技術(shù)得益于視覺、激光雷達和IMU多源傳感融合的優(yōu)勢，白墻、電視機等弱紋理區(qū)域能得到較好的重建，并且重建的場景中不存在漂浮偽影。場景的細節(jié)還原度差距不明顯，得益于微型單反相機拍攝精度較高，微型單反相機及靈光L2 pro+高清補拍的結(jié)果展現(xiàn)出更強的細節(jié)還原度，但微型單反相機純視覺方案下存在更多的重建瑕疵。

表3　室內(nèi)場景測試結(jié)果及對比①

4.4.2 室外場景

室外測試結(jié)果如表4所示，在室外場景測試中，由于數(shù)據(jù)量較大，微型單反相機和全景相機所拍攝素材，在Postshot中的相機追蹤步驟已出現(xiàn)嚴重問題，最終導致場景出現(xiàn)嚴重破損，場景中存在大量的漂浮偽影。而Multi?SLAM方案的重建非常穩(wěn)定，無論是大型建筑重建還是細節(jié)均有良好的表現(xiàn)。

表4　室外場景測試結(jié)果及對比①

與室外場景連接的室內(nèi)空間由于照片位置追蹤失敗，導致無法連接室內(nèi)外場景，在人工挑選并減少重建照片數(shù)量后，室內(nèi)外場景連接和重建才得以完成。需要特別指出的是，純視覺方案在某些特定角度下，會出現(xiàn)由于相機定位追蹤出錯導致嚴重錯位重影的情況（圖4）。

圖4　純視覺方案景物被錯誤重建的示例

4.5 測試結(jié)論

對于純視覺3DGS重建方案而言，前期采集和后期重建都非常依賴實操經(jīng)驗和人工干預：前期采集的角度、位置及相機參數(shù)等因素對于重建有較大的影響；后期重建往往需要以結(jié)果為導向的調(diào)參和修模等經(jīng)驗，并耗費更多的人工時間。

Multi?SLAM借助多源傳感融合的技術(shù)和算法，極大優(yōu)化了3DGS資產(chǎn)的采集速度和重建質(zhì)量，能為影視行業(yè)內(nèi)容創(chuàng)作高效賦能。

Multi?SLAM+3DGS重建方案在影視中的應用

在影視制作中，虛擬勘景、前期預演、電影虛擬攝制、電影后期視效乃至VR電影均需高質(zhì)量三維數(shù)字資產(chǎn)支撐。Multi?SLAM+3DGS方案通過硬件與軟件一體化設(shè)計，解決了傳統(tǒng)攝影測量和視覺重建中存在的幾何結(jié)構(gòu)破損、重建失敗、還原度低等諸多應用問題，實現(xiàn)從物理世界到三維數(shù)字資產(chǎn)的鏈路全自動化閉環(huán)，快速生成具備真實光照、紋理、幾何結(jié)構(gòu)和尺度信息的3DGS資產(chǎn)。其高效率、高保真、低人工依賴的特性，使其成為攝影測量與人工修模流程的替代技術(shù)，為影視行業(yè)帶來了三維數(shù)字資產(chǎn)生產(chǎn)方式的巨大變革。

5.1 影視虛擬攝制中的應用

影視虛擬攝制包括虛擬勘景、虛擬預演、現(xiàn)場實時交互預演和LED虛擬攝制等，其共同特點是制作大多在虛幻引擎（UE）、Unity等三維實時引擎中完成。

通過Multi?SLAM+3DGS的采集與重建流程所得的三維數(shù)字資產(chǎn)可直接應用于影視虛擬攝制的各個流程中，通過插件即可將3DGS資產(chǎn)導入UE，本文測試實踐時所用的插件為Volinga Plugin Pro及其域創(chuàng)新LCC SDK。

5.1.1 虛擬勘景與前期預演

傳統(tǒng)的照片、視頻或平面圖勘景難以呈現(xiàn)真實空間結(jié)構(gòu)和1∶1尺度，而反復現(xiàn)場勘查耗時、費力，且往往效果不佳。Multi?SLAM+3DGS工作流程可1∶1精準還原空間結(jié)構(gòu)。即便在大型或復雜場景中，也可借助控制點和實時動態(tài)定位（Real?Time Kinematic, RTK）功能實現(xiàn)場景拼接融合，還可對局部細節(jié)精度進行不斷迭代優(yōu)化，以達到更強的適用性，從而提高虛擬勘景和虛擬預演效率。

5.1.2 LED虛擬攝制與現(xiàn)場實時交互預演

Multi?SLAM+3DGS技術(shù)流程能為虛擬攝制和現(xiàn)場實時交互預演快速高效地提供可直接使用的3DGS資產(chǎn)，把以往重建的時間從數(shù)天甚至數(shù)周壓縮到數(shù)小時。此外，憑借3DGS對場景光照的真實還原，使用更少的渲染資源即可還原出更真實的背景。

5.2 后期視效制作中的應用

Multi?SLAM與3DGS技術(shù)的結(jié)合實現(xiàn)了高保真三維數(shù)字資產(chǎn)的快速生成。在后期視效制作中，其生成的三維數(shù)字資產(chǎn)可直接高效地應用于中后景，配合精細化掃描亦可滿足中前景的畫質(zhì)需求。相較于傳統(tǒng)視覺特效流程，該技術(shù)免除了點云清理、修補孔洞、拓撲重構(gòu)、材質(zhì)貼圖及布光渲染等繁瑣環(huán)節(jié)，有效縮短了制作周期。然而，3DGS的幾何結(jié)構(gòu)、色彩、光照均直接呈現(xiàn)于高斯橢球的屬性中，且并沒有材質(zhì)、貼圖的概念，而是通過球諧函數(shù)等屬性表示相關(guān)特性，因此目前對3DGS資產(chǎn)的編輯自由度依然十分受限。綜上所述，3DGS技術(shù)較為適合實景背景替換的拍攝，例如補拍、重拍及異地拍攝等，但對于虛構(gòu)場景或改動較大的場景，目前尚無明顯優(yōu)勢。

5.3 VR電影創(chuàng)制和播映中的應用

2025年3月，《國家電影局關(guān)于促進虛擬現(xiàn)實電影有序發(fā)展的通知》發(fā)布，大力支持VR電影產(chǎn)業(yè)發(fā)展，而VR電影的創(chuàng)制需要大量的三維數(shù)字資產(chǎn)。基于Multi?SLAM+3DGS技術(shù)方案生產(chǎn)三維數(shù)字資產(chǎn)，不僅可大幅縮短生產(chǎn)周期和生產(chǎn)成本，在最終呈現(xiàn)效果上也更逼真。

盡管 3DGS技術(shù)目前已在桌面端平面顯示上實現(xiàn)了流暢的實時渲染，但在VR頭顯設(shè)備上仍面臨挑戰(zhàn)。由于 VR 采用特殊渲染管線，計算負載顯著增加，導致在處理大規(guī)模或復雜場景時，當前的算法效率與硬件性能尚難滿足沉浸式體驗所需的高幀率與低延遲標準[14]。因此，未來仍需持續(xù)深耕針對VR端的算法優(yōu)化，以解決這一性能瓶頸。

5.4 3DGS應用中存在的問題

5.4.1 可編輯性瓶頸

可編輯性弱是目前 3DGS技術(shù)的顯著瓶頸。盡管現(xiàn)有工具已支持對3D高斯橢球的選擇、刪除、復制，以及包括平移、旋轉(zhuǎn)、縮放在內(nèi)的基礎(chǔ)幾何變換，并能進行一定的色彩調(diào)整（圖5）。由于3DGS資產(chǎn)的編輯組成方式是離散的高斯橢球，因此對象的選擇大多依靠人工完成，相關(guān)技術(shù)仍在發(fā)展過程中[15]。此外，相較于傳統(tǒng)網(wǎng)格資產(chǎn)在材質(zhì)、紋理貼圖及網(wǎng)格拓撲結(jié)構(gòu)等方面成熟且豐富的編輯能力，3DGS在編輯自由度上仍存在較大差距。

圖5　對3DGS資產(chǎn)進行移動（a）、旋轉(zhuǎn)（b）、縮小（c）、放大（d）及調(diào)色（e）等編輯

5.4.2 重光照質(zhì)量差距

目前，3DGS的重光照技術(shù)主要依賴逆向渲染思路，即從高斯場中估算出法線、粗糙度等物理屬性，或引入 Mesh 代理幾何體來輔助光照計算。這使在虛擬預演等應用中快速調(diào)整光源方向與顏色成為可能。然而，該技術(shù)尚處于起步階段，核心瓶頸在于去光照（De?lighting）的徹底性，原始拍攝時的環(huán)境陰影往往難以完全剝離，導致重光照時出現(xiàn)雙重陰影現(xiàn)象，且陰影的投射質(zhì)量仍難以達到影視級標準。圖6為3DGS虛擬場景重光照效果。

圖6　通過3DGS虛擬場景布光

總結(jié)與展望

本文系統(tǒng)性地研究并驗證了基于Multi?SLAM與3DGS的影視三維數(shù)字資產(chǎn)重建方案，研究結(jié)果表明，Multi?SLAM技術(shù)通過融合視覺、激光雷達與IMU數(shù)據(jù)并結(jié)合后期技術(shù)優(yōu)化，能有效彌補以往三維重建方法的不足，提高重建的速度、質(zhì)量與魯棒性，減少時間和人力成本的消耗，實現(xiàn)從物理空間到高質(zhì)量三維數(shù)字資產(chǎn)的“端到端”快速轉(zhuǎn)化，高效賦能影視三維數(shù)字資產(chǎn)的精細化和多元化。目前3DGS資產(chǎn)在可編輯性、重光照等方面依然需要不斷改進完善，其在VR頭顯設(shè)備以及移動端上的渲染管線仍需優(yōu)化。

隨著空間智能（Spatial Intelligence）理念的興起，人工智能（AI）正從二維圖像生成邁向?qū)θS物理世界的理解與建模。然而，當前可用于訓練的空間感知與生成模型仍面臨高質(zhì)量三維數(shù)據(jù)嚴重匱乏的瓶頸。基于Multi?SLAM與3DGS的實景三維重建方法，不僅能高效獲取高保真、具備真實尺度的三維場景，還可為構(gòu)建下一代“世界模型”提供大規(guī)模、結(jié)構(gòu)化的真實世界訓練數(shù)據(jù)。

值得關(guān)注的是，作為3DGS技術(shù)的延伸與突破，4D高斯?jié)姙R（4DGS）在三維空間基礎(chǔ)上引入時間維度，可有效應對3DGS在動態(tài)場景處理上的短板，近年來取得顯著進展。目前4DGS在渲染效率與可編輯性上已有明顯提升，能實現(xiàn)動態(tài)場景的快速高保真重建，同時降低硬件運行門檻。這些新進展可與Multi?SLAM技術(shù)進一步融合，為影視動態(tài)資產(chǎn)重建、數(shù)字人實時呈現(xiàn)提供更高效的技術(shù)支撐，助力影視虛擬攝制提質(zhì)增效。

注釋、參考文獻

（向下滑動閱讀）

注釋

① 使用Postshot的重建流程，其抽幀密度以及其截止訓練步數(shù)對重建時間影響很大。在本測試中，微型單反相機和全景相機采用2 FPS的抽幀速度，使用導入Postshot后軟件默認的截止訓練步數(shù)。

參考文獻

[1] 譚臻,牛中顏,張津浦,等.SLAM新機遇—高斯濺射技術(shù)[J].中國圖象圖形學報,2025,30(06):1792?1807.

[2] 李永昌,李瑋.基于多傳感器融合的三維高斯?jié)姙R技術(shù)[J].現(xiàn)代電子技術(shù),2025,48(17):93?97.DOI:10.16652/j.issn.1004-373x.2025.17.014.

[3] MILDENHALL B, SRINIVASAN P P, TANCIK M, et al. NeRF: Representing scenes as neural radiance fields for view synthesis[EB/OL].(2020?08?03)[2026?01?15]. https://arxiv.org/pdf/2003.08934.

[4] KERBL B, KOPANAS G, LEIMKüHLER T, et al. 3D Gaussian splatting for real?time radiance field rendering[J]. ACM?Transactions on Graphic, 2023, 42(4): 1?14.

[5] ZHU Z, ZHANG W, HAALA N, et al. VIGS?SLAM: Visual Inertial Gaussian Splatting SLAM[EB/OL].(2025?12?02) [2026?01?15].https://arxiv.org/pdf/2512.02293.

[6] PAK G, KIM E. VIGS SLAM: IMU?based Large?Scale 3D Gaussian Splatting SLAM[EB/OL].(2025?01?23)[2026?01?15] . https://arxiv.org/abs/2501.13402.

[7] YAN Q, WANG Q, ZHAO K, et al. RA?NeRF: Robust Neural Radiance Field Reconstruction with Accurate Camera Pose Estimation under Complex Trajectories[EB/OL].(2025?01?24)[2026?01?15]. https://arxiv.org/pdf/2506.15242.

[8] HONG S, ZHENG C, SHEN Y, et al. GS?LIVO: Real?Time LiDAR, Inertial, and Visual Multi?sensor Fused Odometry with Gaussian Mapping[EB/OL] . (2025?01?15) [2026?01?15]. https://arxiv.org/abs/2501.08672.

[9] HONG S, HE J, ZHENG X, et al. LIV?GaussMap: LiDAR?inertial?visual fusion for real?time 3D radiance field map rendering[J]. IEEE Robotics and Automation Letters, 2024, 9(11): 9765?9772.

[10] 朱東林,陳淼,毛宇巖,等.三維高斯?jié)姙R技術(shù)在場景重建中的研究現(xiàn)狀與挑戰(zhàn)[J].集成技術(shù),2025,14(04):1?20.

[11] ZHAO H, GUAN W, LU P, et al. LVI?GS: Tightly?coupled LiDAR?Visual?Inertial SLAM using 3D Gaussian Splatting[EB/OL]. (2024?11?05) [2026?01?28]. https://arxiv.org/abs/2411.02703.

[12] ZHANG T, HUANG R, LI J, et al. Incremental Gaussian Splatting: A Real?Time Multi?Sensor SLAM Backend with LiDAR Priors[C]// Proceedings of 2025 44th Chinese Control Conference (CCC). IEEE, 2025: 4021?4028.

[13] WANG J, ZHOU P, LI C, et al. Low?Frequency First: Eliminating Floating Artifacts in 3D Gaussian Splatting [EB/OL]. (2024?08?08) [2026?01?28]. https://arxiv.org/abs/2408.04381.

[14] 國家電影局.國家電影局關(guān)于促進虛擬現(xiàn)實電影有序發(fā)展的通知[EB/OL].(2025?03?21)[2026?01?26].https://www.chinafilm.gov.cn/xwzx/ywxx/202503/t202 50321_888199.html.

[15] 王鋒,銀瑩,王佳炎,等.基于高斯?jié)姙R的輕量級重建場景分割方法[J].計算機學報,2025,48(05):1232?1243.

期刊導讀 |《現(xiàn)代電影技術(shù)》2026年第3期

張海悅等：虛擬現(xiàn)實電影發(fā)展趨勢與技術(shù)標準體系建設(shè)研究

傅凌焜等：新能源技術(shù)賦能電影產(chǎn)業(yè)綠色轉(zhuǎn)型的路徑研究——以運達集團移動儲能系統(tǒng)為例

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.