網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

《現(xiàn)代電影技術(shù)》｜袁邈桐：具身認知導向下電影聲音國際技術(shù)標準演進及裝備國產(chǎn)化啟示

2026-04-10 15:26:43　來源: 電影技術(shù)微刊

北京舉報

分享至

本文刊發(fā)于《現(xiàn)代電影技術(shù)》2026年第3期

專家點評

王玨

教授

北京電影學院研究生院院長、博士生導師

電影聲音技術(shù)正從多聲道環(huán)繞聲向沉浸式空間音頻加速演進，電影聲音國際技術(shù)標準體系持續(xù)迭代升級，具身認知、多模態(tài)交互、智能感知已成為下一代電影聲音技術(shù)的核心發(fā)展趨勢。技術(shù)標準主導權(quán)與核心裝備自主化成為產(chǎn)業(yè)競爭的基礎(chǔ)和關(guān)鍵，我國正處于技術(shù)跟跑、標準并跑向自主領(lǐng)跑轉(zhuǎn)型的重要階段。《具身認知導向下電影聲音國際技術(shù)標準演進及裝備國產(chǎn)化啟示》一文針對電影沉浸式音頻技術(shù)發(fā)展前沿，指出具身認知是電影聲音感知的核心導向，多模態(tài)具身智能是電影聲音的進階方向。該論文對標電影聲音國際標準制定與聲音裝備革新，分析了我國電影聲音相關(guān)標準制定和裝備發(fā)展上取得的成果和存在的短板，以及如何從國際標準的演進趨勢中抓住國產(chǎn)電影音頻設(shè)備的研發(fā)方向，在具身智能和多模態(tài)交互領(lǐng)域打造具有全球影響力的產(chǎn)業(yè)高地。論文對電影聲音標準制定的體系性和前瞻性的分析以及對“技術(shù)突破-標準支撐-產(chǎn)業(yè)協(xié)同”的研發(fā)路徑研判，為我國電影聲音標準制定和裝備研發(fā)提供了邏輯清晰的思路，為實現(xiàn)標準引領(lǐng)、技術(shù)自主、市場突圍提供了理論支撐和實踐參考。

項目信息

北京高校虛擬教研室試點建設(shè)項目“數(shù)字媒體聲音交互教研室”(XNJYS2023004)。

作者簡介

袁邈桐

博士，中國傳媒大學音樂與錄音藝術(shù)學院教授，主要研究方向：聲音科學與藝術(shù)、數(shù)字媒體與數(shù)字人文。

摘要

本文立足媒介技術(shù)與國際技術(shù)標準研究的交叉視角，結(jié)合比對標準演進與裝備革新前沿進展，系統(tǒng)剖析“沉浸式環(huán)境-多模態(tài)交互-具身認知”的協(xié)同邏輯，梳理了電影聲音領(lǐng)域具身智能（Embodied Intelligence）關(guān)聯(lián)技術(shù)的演進路徑，分析具代表性國際技術(shù)標準發(fā)展態(tài)勢及國內(nèi)外技術(shù)標準對標現(xiàn)狀，探討我國電影聲音新技術(shù)裝備國產(chǎn)化進程的優(yōu)勢與挑戰(zhàn)。研究發(fā)現(xiàn)，電影聲音國際技術(shù)標準建設(shè)已形成“人工智能引領(lǐng)-技術(shù)協(xié)同支撐-標準加速迭代”的演進趨勢，我國在具身認知（Embodied Cognition）算法優(yōu)化、多模態(tài)交互技術(shù)應用及標準體系銜接方面仍存在較大發(fā)展空間。基于此，本文提出“技術(shù)突破-標準支撐-產(chǎn)業(yè)協(xié)同”的路徑思考，旨在為我國電影聲音技術(shù)實現(xiàn)標準引領(lǐng)、技術(shù)自主、市場突圍提供理論支撐與實踐參考。

關(guān)鍵詞

具身智能；具身認知；沉浸式環(huán)境；多模態(tài)交互；裝備國產(chǎn)化

引言

在新一輪科技革命與產(chǎn)業(yè)變革縱深演進的背景下，具身智能（Embodied Intelligence）以“認知源于身體與環(huán)境的動態(tài)交互”為核心邏輯，強調(diào)智能體（Agent）通過傳感器運動與環(huán)境交互產(chǎn)生認知，其技術(shù)演進圍繞理解、生成與交互三大核心展開，不僅為電影技術(shù)突破提供了系統(tǒng)性方法論支撐，更激勵著電影聲音技術(shù)從“被動呈現(xiàn)”向“主動交互”、由“感官刺激”向“具身沉浸”的雙重轉(zhuǎn)型。這一轉(zhuǎn)型既深度回應了觀眾對沉浸式體驗的核心需求，重構(gòu)了電影聲音技術(shù)的研發(fā)邏輯、標準體系與產(chǎn)業(yè)生態(tài)，更體現(xiàn)為突破傳統(tǒng)聲畫關(guān)系束縛，通過高精度、對象化的聲音空間渲染，將觀眾置于一個可被觸覺化、運動化感知的聲學環(huán)境中，從而極大豐富身體體驗并重塑聽覺主體的存在狀態(tài)[1]，使聲音不再單純是被人耳接收的客觀信號，更能通過其物理屬性直接作用于觀眾的身體感知，引發(fā)生理與心理的協(xié)同反應。

當前，電影聲音前沿領(lǐng)域正面臨從立體聲向六自由度（6DoF）沉浸式音頻[2—4]、從單一聽覺向多模態(tài)協(xié)同的關(guān)鍵升級，而傳統(tǒng)技術(shù)在感知優(yōu)化實時性、交互邏輯適應性、制作流程可追溯性上存在明顯短板，具身智能技術(shù)恰好為這一升級提供了從數(shù)字資產(chǎn)生成到交互實現(xiàn)、從流程管控到體驗校準的全鏈條解決方案。

在技術(shù)層面，當前核心發(fā)展趨勢聚焦于3大方向：一是生成式3D資產(chǎn)構(gòu)建技術(shù)成熟化，能夠根據(jù)文本或圖像輸入高效生成具備真實物理屬性、精準尺度與完整幾何結(jié)構(gòu)的三維場景與物體，為聲音空間定位、聲場模擬提供高精度底層基礎(chǔ)；二是人機共融的具身交互（Embodied Interaction）技術(shù)落地，通過多模態(tài)智能體與沉浸式穿戴設(shè)備的融合，可實現(xiàn)物理場景的實時感知、流程追蹤、誤差校正與自適應指導，為聲音多模態(tài)協(xié)同、實時交互反饋提供全新工具鏈；三是數(shù)字場景生成的精細化與自動化，依托層級化架構(gòu)與智能校驗機制，批量生成多樣化、高保真且具備物理合理性與功能完整性的交互場景，為虛擬攝制中的聲場環(huán)境建模、多區(qū)域聲音交互邏輯設(shè)計提供可實現(xiàn)的技術(shù)支撐。

在標準與產(chǎn)業(yè)層面，全球電影聲音技術(shù)呈現(xiàn)“技術(shù)創(chuàng)新引領(lǐng)標準演進，標準規(guī)范推動產(chǎn)業(yè)升級”的清晰格局。國際標準化組織（ISO）、國際電信聯(lián)盟（ITU）、美國電影電視工程師協(xié)會（SMPTE）等組織已開始關(guān)注具身認知（Embodied Cognition）導向的感知優(yōu)化需求，在沉浸式聲音空間定位、多模態(tài)交互協(xié)議等關(guān)聯(lián)領(lǐng)域啟動相關(guān)標準研制，其制定邏輯與具身智能的3D場景交互、物理屬性還原等技術(shù)趨勢高度契合。國內(nèi)則以沉浸式音頻技術(shù)標準為核心，積極推動國產(chǎn)化技術(shù)場景落地；然而，當前具身認知相關(guān)的核心技術(shù)研發(fā)與標準制定方面仍存在差距，尤其缺乏針對空間關(guān)系建模、物理交互適配、多模態(tài)協(xié)同等具身化需求的成熟技術(shù)規(guī)范。我國電影產(chǎn)業(yè)正處于高質(zhì)量發(fā)展關(guān)鍵期，裝備國產(chǎn)化需求日益迫切，如何將具身智能領(lǐng)域的核心技術(shù)成果轉(zhuǎn)化為電影聲音技術(shù)創(chuàng)新動力，如何依托國際標準演進趨勢構(gòu)建本土化技術(shù)生態(tài)與標準體系，成為當前亟待解決的重要課題。

電影聲音的具身性

2.1 聲音的具身認知基礎(chǔ)

電影聲音體驗的沉浸式本質(zhì)，根植于人類自然聽覺具身認知的生理與心理本源。從生理來看，人類聽覺系統(tǒng)的先天具身性是技術(shù)設(shè)計的物理前提，雙耳時間差/強度差、頭相關(guān)傳輸函數(shù)（HRTF）等生理機制，決定了空間音頻的三維定位邏輯，而人體聽覺頻率閾值、動態(tài)范圍等特征，也規(guī)范了相關(guān)技術(shù)標準的量化指標[5]；從具身認知建構(gòu)來看，電影聲音的沉浸感源于對人類后天具身記憶（Embodied Memory）的精準觸發(fā)，通過空間、動作、情緒3類具身記憶的喚醒與匹配，實現(xiàn)“以聲傳情”的心理沉浸，這一認知邏輯呼應了具身認知心理學“認知源于身體與環(huán)境動態(tài)交互、具身記憶是認知喚醒核心”的核心論述[6]。究其本質(zhì)，電影聲音并非創(chuàng)造全新具身認知，而是在人體生理具身框架內(nèi)，對自然具身認知記憶的技術(shù)化篩選與重構(gòu)，無法脫離自然具身的生理與認知本源，這正是“有限模擬”的核心合理性所在[7]。

2.2 電影聲音領(lǐng)域具身認知理論的核心聚焦

具身認知理論的核心內(nèi)涵聚焦“認知源于身體、大腦與環(huán)境的動態(tài)交互閉環(huán)”，其本質(zhì)是反對將認知視為脫離具體身體與場景的抽象計算，強調(diào)認知過程深植于人體生理結(jié)構(gòu)、感官體驗與環(huán)境交互的耦合關(guān)系中[6]。在電影聲音領(lǐng)域，智能空間環(huán)境中的聲音感知絕非聽覺器官對聲學信號的被動接收，而是人體運動狀態(tài)（如頭部轉(zhuǎn)動、位置移動、肢體動作）、空間體驗、情感預期與聲學信號的多維度協(xié)同作用結(jié)果[8]。

電影聲音的具身認知應用邏輯可系統(tǒng)歸納為3方面：首先是聲音設(shè)計貼合人體聽覺生理特性，如基于HRTF的個性化適配：通過采集不同人群的聽覺生理數(shù)據(jù)，優(yōu)化聲音在三維空間中的定位精度，解決傳統(tǒng)標準化HRTF導致的個體適配偏差問題[9]；其次是聲場構(gòu)建匹配用戶空間運動軌跡，例如針對用戶的平移、旋轉(zhuǎn)等六自由度運動，通過動態(tài)調(diào)整聲場參數(shù)確保聲音定位與空間位置的實時同步[10]；最后是聲音反饋響應人體交互行為，如用戶通過手勢、語音指令觸發(fā)音效變化，或系統(tǒng)根據(jù)用戶面部微表情自適應調(diào)整聲音的響度、混響與頻率特性[9]，三者共同構(gòu)成電影聲音具身化優(yōu)化的理論與技術(shù)支撐框架。

音頻作為電影聲音科技的核心載體，其具身體驗呈現(xiàn)由淺入深的三級遞進邏輯，每一層均貼合“有限模擬”核心且存在明確邊界。生理層具身感知通過多聲道布局、HRTF算法等技術(shù)，復刻自然聲音的物理傳播特征，實現(xiàn)聽覺信號與人體生理感知規(guī)律的匹配，這一技術(shù)路徑契合三維聲編解碼及渲染的行業(yè)標準要求[5]，但僅能完成單感官信號級模擬，無身體與環(huán)境的物理交互；心理層具身喚醒依托三維動態(tài)聲場，觸發(fā)觀眾的自然具身認知記憶，形成心理層面的空間沉浸，該層面僅能實現(xiàn)記憶喚醒而非全新認知建構(gòu)，且記憶呈現(xiàn)碎片化特征；行為層具身反饋通過頭部追蹤、體感聯(lián)動等技術(shù)，構(gòu)建“聲音感知-身體微行為”的簡易閉環(huán)，推動身體從被動接收到輕度主動參與，但無法實現(xiàn)全身自主空間行動與全雙向“感知-行動”閉環(huán)。三級層次技術(shù)雖能不斷逼近自然具身體驗，卻始終受限于媒介虛擬性與身體物理性，無法復刻自然具身“生理-認知-行為”的全維度耦合[6]。

2.3 沉浸式音頻：電影聲音具身沉浸感的實現(xiàn)基礎(chǔ)

在空間智能和具身感知理論影響下，電影聲音系統(tǒng)可被認為是空間智能環(huán)境中具身認知導向的聲音感知與交互網(wǎng)絡(luò)系統(tǒng)。該系統(tǒng)以具身認知理論為核心，強調(diào)聲音感知源于人體與智能機制及聲場環(huán)境的動態(tài)交互，智能體通過整合空間定位、運動狀態(tài)、情感反饋等多模態(tài)信息，實現(xiàn)符合特定人體感知規(guī)律的聲音體驗優(yōu)化，以此構(gòu)成電影聲音具身化呈現(xiàn)的核心目標。

沉浸式聲音（Immersive Sound）環(huán)境作為具備三維空間屬性、真實物理聲學特性的聲場載體，能通過多聲道布局、聲場重建技術(shù)模擬各類真實空間的混響、反射等聲學效果，為具身認知提供了基礎(chǔ)場景支撐，其核心特征包括空間連續(xù)性、聲學真實性與用戶適配性[11]。而多模態(tài)交互則是融合聽覺、視覺、運動感知、面部表情識別等多模態(tài)信號的交互方式，通過聲音與畫面、用戶動作的實時聯(lián)動（如頭部姿態(tài)與聲音定位適配、交互指令與音效反饋協(xié)同），強化電影聲音的主動性與參與感。ISO/IEC 23090?4:2025《信息技術(shù)—沉浸式媒體的編碼表示第4部分：MPEG-I沉浸式音頻》（Information technology — Coded representation of immersive media — Part 4: MPEG-I immersive audio[3]，以下簡稱“ISO/IEC 23090?4標準”）、ISO/IEC 23008?3:2026《信息技術(shù)—異構(gòu)環(huán)境中的高效編碼和媒體傳輸第3部分：3D音頻》（Information technology — High efficiency coding and media delivery in heterogeneous environments — Part 3: 3D audio[12]，以下簡稱“ISO/IEC 23008-3標準”）以及我國的GB/T 44115.3-2025《信息技術(shù) 虛擬現(xiàn)實內(nèi)容表達第3部分: 音頻》[13]（以下簡稱“GB/T 44115.3標準”）等當前生效或最新修訂的權(quán)威標準，共同構(gòu)成全球電影行業(yè)沉浸式音頻技術(shù)落地與產(chǎn)業(yè)協(xié)同的核心依據(jù)。沉浸式聲音技術(shù)理論以三維聲場重建為核心，旨在通過技術(shù)手段模擬自然聲場的物理特性與交互邏輯，為具身認知的落地提供底層支撐[14]。其關(guān)鍵技術(shù)體系涵蓋3大維度：一是空間定位技術(shù)，包括高階Ambisonics HOA編碼、6DoF音頻渲染等，其中6DoF音頻渲染技術(shù)的核心原理為通過對象化編碼將聲源獨立封裝為帶元數(shù)據(jù)的音頻對象，結(jié)合稀疏平面波插值等算法實現(xiàn)不同空間位置的聲場連續(xù)渲染，確保用戶在±10 m位移范圍內(nèi)聲音無斷層、無失真[15]，該技術(shù)已在ISO/IEC 23090?4標準中形成標準化規(guī)范[3]；二是聲學環(huán)境模擬技術(shù)，通過麥克風陣列采集真實空間（如影院、古建筑、戶外場景）的聲學脈沖響應（Acoustic Impulse Response, AIR），基于卷積混響算法精準還原不同空間的混響時間、早期反射系數(shù)等聲學特性，實現(xiàn)“聲”臨其境的環(huán)境感知[16]；三是多模態(tài)協(xié)同技術(shù)，通過網(wǎng)絡(luò)時間協(xié)議（Network Time Protocol, NTP）或精確時間協(xié)議（Precision Time Protocol, PTP）實現(xiàn)聲音與視覺、運動信號的時間戳對齊，將多模態(tài)信號同步誤差控制在≤5 ms，滿足具身交互的實時性要求[17]。

2.4 多模態(tài)具身智能：電影聲音進階方向

多模態(tài)具身智能是電影聲音、空間音頻單/弱多模態(tài)具身模擬的進階方向，其實現(xiàn)條件、核心接口與推進路徑均圍繞“貼合自然具身認知、突破模擬邊界”展開，聚焦生理、認知、行為三大維度，要求多模態(tài)感知匹配人體跨模態(tài)生理特征、算法模型契合自然具身跨模態(tài)認知關(guān)聯(lián)、具備“多模態(tài)感知-身體動作-環(huán)境反饋”的閉環(huán)能力[6,7]，其本質(zhì)是“有限模擬”框架內(nèi)的技術(shù)進階，最終逼近甚至超越自然具身認知特征[18,19]。

具身認知-沉浸式環(huán)境-多模態(tài)交互邏輯關(guān)系圖如圖1所示。具身認知作為核心導向，明確聲音感知的優(yōu)化方向，直接決定沉浸式環(huán)境的構(gòu)建邏輯與多模態(tài)交互的設(shè)計目標，例如ITU?R BS.2076?3《音頻定義模型》（Audio Definition Model，以下簡稱“ITU?R BS.2076標準”）[20]、ITU?T H.430.7《交互沉浸式服務要求》（Requirements of Interactive Immersive Services，以下簡稱“ITU?T H.430.7標準”）[21]，以及ITU?R BT.2420?8《高級沉浸式感官媒體系統(tǒng)使用場景集錦》（Collection of usage scenarios of advanced immersive sensory media systems，以下簡稱“ITU?R BT.2420標準”）[22]中關(guān)于“聲音空間定位需適配人體頭部運動特性”的規(guī)范，均是具身認知導向的直接體現(xiàn)。沉浸式環(huán)境作為物理載體，為具身認知的落地提供空間聲場基礎(chǔ)，其聲學特性直接影響感知體驗質(zhì)量，ISO/IEC 23008?3標準[12]和ISO/IEC 23090?4標準[3]中對聲場重建聲學參數(shù)的嚴格要求本質(zhì)就是為了保障沉浸式環(huán)境的真實性與適配性。多模態(tài)交互作為實現(xiàn)路徑，通過多信號協(xié)同聯(lián)動，將具身認知的需求轉(zhuǎn)化為可感知的聲音反饋[23,24]。

圖1　具身認知-沉浸式環(huán)境-多模態(tài)交互協(xié)同邏輯關(guān)系圖

電影聲音國際標準演進

3.1 電影聲音標準演進總體脈絡(luò)

電影聲音國際標準的演進遵循從通道固定到元數(shù)據(jù)驅(qū)動、從靜態(tài)呈現(xiàn)到動態(tài)交互的核心邏輯，可劃分為3大階段，各階段技術(shù)導向與核心規(guī)范明確且銜接遞進。多聲道環(huán)繞聲階段（20世紀90年代—2010年）技術(shù)發(fā)展以固定揚聲器布局為核心，聚焦水平面環(huán)繞聲實現(xiàn)，標準僅規(guī)范聲道定位、電平匹配等基礎(chǔ)參數(shù)，確立了5.1/7.1多聲道系統(tǒng)的技術(shù)框架，其中ITU?R BS.775《帶有和無附圖的多聲道立體聲系統(tǒng)》（Multichannel stereophonic sound system with and without accompanying picture，現(xiàn)ITU?R BS.775?4）[25]系列成為5.1/7.1多聲道揚聲器布局的核心規(guī)范，杜比數(shù)字（Dolby Digital）與DTS等專有標準則奠定了影院早期環(huán)繞聲的技術(shù)基礎(chǔ)，成為該階段的核心依據(jù)。

高級三維聲階段（2012年—2018年），技術(shù)發(fā)展邁向下一代音頻（Next Generation Audio, NGA）體系，核心突破為引入Z軸垂直高度聲道與對象化音頻技術(shù)，標準設(shè)計從固定揚聲器布局轉(zhuǎn)向元數(shù)據(jù)驅(qū)動的自適應布局，實現(xiàn)三維空間聲場的編碼與解碼，為3D音頻標準化傳輸?shù)於ɑA(chǔ)。這一階段以ITU?R系列標準為核心，2014年發(fā)布的 ITU?R BS.2051?0 《節(jié)目制作用高級音響系統(tǒng)》（Advanced sound system for programme production，現(xiàn)ITU?R BS.2051?3[26]，以下簡稱“ITU?R BS.2051標準”）首次定義了高級音響系統(tǒng)制作規(guī)范，率先引入4.0.4、5.0.4、9.1.4等基于聲道的3D布局，支持頂置揚聲器與對象化元數(shù)據(jù)，成為三維聲布局的基礎(chǔ)準則；2017年推出的ITU?R BS.2076?1標準（現(xiàn)ITU?R BS.2076?3）[20]搭建了HRTF渲染所需的音頻定義模型（ADM）元數(shù)據(jù)框架，首次實現(xiàn)音頻對象三維空間描述體系的標準化，為后續(xù)元數(shù)據(jù)驅(qū)動的音頻技術(shù)發(fā)展奠定了基礎(chǔ)。同時，ISO/IEC系列編碼標準形成早期技術(shù)支撐，杜比全景聲（Dolby Atmos）相關(guān)技術(shù)規(guī)范則率先推動了對象化三維聲在影院場景的商業(yè)化落地，讓三維聲技術(shù)從標準定義走向?qū)嶋H應用，共同構(gòu)建起高級三維聲的基礎(chǔ)技術(shù)體系。

2018年至今，耳機正式進入沉浸式音頻的核心呈現(xiàn)載體領(lǐng)域，高級三維聲技術(shù)向更具沉浸感、更具交互性深度發(fā)展，開啟了雙耳交互階段。標準體系同步將基于HRTF的實時空間音頻渲染技術(shù)納入規(guī)范，新增虛擬現(xiàn)實/增強現(xiàn)實（VR/AR）高級沉浸式音視頻（AIAV）的交互技術(shù)要求，核心聚焦6DoF音頻渲染、多模態(tài)交互協(xié)議與具身感知適配，實現(xiàn)了用戶動態(tài)運動下低延遲、高同步的具身化聲音體驗，相關(guān)標準也在前期基礎(chǔ)上完成了全體系的迭代與完善。在元數(shù)據(jù)與渲染規(guī)范層面，2019年ITU?R BS.2076標準[20]迭代成為ADM元數(shù)據(jù)模型的成熟版本，清晰定義了音頻對象在三維空間中的位置、移動軌跡及屬性描述規(guī)范，同年發(fā)布ITU?R BS.2088?1建議書《帶有元數(shù)據(jù)的音頻節(jié)目素材國際交換的長文件格式》（Long?form file format for the international exchange of audio programme materials with metadata，以下簡稱“ITU?R BS.2088標準”）[27]規(guī)定了BW64文件格式，實現(xiàn)ADM元數(shù)據(jù)在音頻文件中的標準化封裝，ITU?R BS.2127?0建議書《高級音響系統(tǒng)的音頻定義模型渲染器》[28]則定義了ADM參考渲染算法，確保VR頭顯、揚聲器陣列等不同設(shè)備的渲染效果一致性；而ITU?R BS.2466?0《音頻定義模型操作實踐》（Guidelines for the use of the ITU?R ADM Renderer）[29]則成為ADM元數(shù)據(jù)的實操手冊，指導電影、VR場景中的元數(shù)據(jù)標簽設(shè)置問題，與ITU?R BS.2076標準[20]形成“定義+應用”的完整體系。在編碼與場景應用層面，2019年發(fā)布的ISO/IEC 23090?2:2019《信息技術(shù)—沉浸式媒體的編碼表示—第 2 部分：全向媒體格式》（Information technology — Coded representation of immersive media Part 2: Omnidirectional media format，現(xiàn)ISO/IEC 23090?2:2023[30]）完善了3D音頻標準化壓縮與傳輸技術(shù)；2022年11月的ITU?R BT.2420?5標準（現(xiàn)ITU?R BT.2420?8）[22]明確了沉浸式廣播中耳機與雙耳元數(shù)據(jù)的應用規(guī)范，覆蓋影院、移動端VR等多場景需求，ITU?T H.430.7標準[21]規(guī)范了交互服務的音頻技術(shù)要求，保障頭部運動時3D音頻的穩(wěn)定性與低延遲。在前沿技術(shù)與實操規(guī)范層面，2022年3月更新的ITU?R BS.2159《家庭和廣播應用中的多聲道聲音技術(shù)》（Multichannel sound technology in home and broadcasting applications）[31]詳細描述了3D音頻在電影級制作中的實際應用，包含耳機虛擬化、輔助音頻等關(guān)鍵細節(jié)；2025年9月推出的ITU?R BS.2555?0《高級聲音系統(tǒng)制作工作流》（Production workflows for advanced sound system）[32]規(guī)范了從錄制到母帶處理的端到端全流程，指導核心標準的實際落地，2025年發(fā)布的ISO/IEC 23090?4標準更成為全球首個6DoF沉浸式音頻標準，填補了動態(tài)交互場景標準化編碼的空白。此外，AES69?2020[33]制定了HRTF數(shù)據(jù)的跨平臺存儲與交換標準，ITU?T H.870[34]對耳機音量進行了規(guī)范，為沉浸式音頻提供了技術(shù)共享與安全基礎(chǔ)。這一階段的標準形成了從基礎(chǔ)框架、元數(shù)據(jù)描述、文件封裝到渲染實現(xiàn)、場景應用、全流程制作的完整閉環(huán)，推動電影聲音實現(xiàn)了從靜態(tài)三維聲到動態(tài)交互沉浸式音頻的技術(shù)跨越。

演進核心特征呈現(xiàn)3大明確轉(zhuǎn)型：一是從“技術(shù)參數(shù)規(guī)范”向“感知體驗優(yōu)化”延伸，標準不再局限于設(shè)備接口、信號格式等硬性參數(shù)，逐步納入人體聽覺感知適配、交互體驗一致性等軟性要求；二是從“單一技術(shù)標準”向“多技術(shù)協(xié)同標準”發(fā)展，整合聲場編碼、多模態(tài)交互、物理屬性還原等跨領(lǐng)域技術(shù)要求，形成系統(tǒng)性標準體系；三是從“固定視角適配” 向“動態(tài)交互適配”轉(zhuǎn)型，支持用戶平移、旋轉(zhuǎn)等6DoF運動狀態(tài)下的聲音實時適配，強化聲音與用戶行為的聯(lián)動性。

3.2 行業(yè)技術(shù)革新與電影聲音標準演進

電影聲音國際標準的演進與行業(yè)技術(shù)革新呈現(xiàn)出互促共生的緊密關(guān)系：技術(shù)突破為標準升級提供核心動力，而標準則通過統(tǒng)一技術(shù)接口與感知指標，掃清技術(shù)規(guī)模化應用的障礙，推動標準體系從單純的技術(shù)參數(shù)規(guī)范向感知體驗優(yōu)化迭代，從單一技術(shù)要求向跨領(lǐng)域協(xié)同適配升級。其核心創(chuàng)新圍繞沉浸式環(huán)境構(gòu)建、多模態(tài)交互實現(xiàn)和具身感知優(yōu)化3大技術(shù)方向展開，并與前沿技術(shù)形成精準的落地適配。

這一演進過程的核心驅(qū)動因素多元：6DoF音頻渲染、多模態(tài)協(xié)同、具身感知建模等關(guān)鍵技術(shù)的成熟落地，為標準升級筑牢核心技術(shù)支撐；觀眾對沉浸式、交互化、具身化聲音體驗的持續(xù)升級需求，推動標準從“被動呈現(xiàn)”向“主動交互”轉(zhuǎn)型；全球電影制作、放映設(shè)備廠商的技術(shù)協(xié)同訴求，要求標準統(tǒng)一技術(shù)接口與感知指標，以增強互操作性，進一步降低產(chǎn)業(yè)協(xié)作成本；而國家產(chǎn)業(yè)結(jié)構(gòu)調(diào)整的政策導向以及配套金融市場服務的資源支撐，更成為標準與技術(shù)協(xié)同升級的重要抓手。同時，日趨激烈的全球競爭態(tài)勢推動行業(yè)加速技術(shù)與標準的雙重升級，破壞式創(chuàng)新帶來的技術(shù)迭代與模式重構(gòu)，也對企業(yè)的技術(shù)研發(fā)、標準適配、產(chǎn)業(yè)布局能力形成全方位挑戰(zhàn)。

在此背景下，電影聲音技術(shù)領(lǐng)域整體演進呈現(xiàn)出顯著規(guī)律：一是技術(shù)趨勢引領(lǐng)標準迭代，具身認知、沉浸式、多模態(tài)等核心技術(shù)趨勢直接決定標準升級方向，技術(shù)成熟度把控標準落地節(jié)奏；二是標準與產(chǎn)業(yè)形成雙向支撐，標準通過統(tǒng)一技術(shù)規(guī)范降低產(chǎn)業(yè)協(xié)作成本，產(chǎn)業(yè)端的應用反饋又為標準修訂提供關(guān)鍵實踐依據(jù)；三是多組織協(xié)同制定標準，SMPTE、ITU、ISO等組織分工明確、協(xié)同配合，分別聚焦制作、傳輸、應用等產(chǎn)業(yè)鏈環(huán)節(jié)，構(gòu)建起覆蓋全產(chǎn)業(yè)鏈的標準體系，既保障了標準的全面性與適用性，也助力行業(yè)在全球競爭中筑牢核心技術(shù)與標準優(yōu)勢。

3.3 當前電影聲音標準演進的重點方向

在行業(yè)科技創(chuàng)新和產(chǎn)業(yè)模式發(fā)展的推動下，標準的演進主要聚焦沉浸式環(huán)境構(gòu)建技術(shù)、多模態(tài)交互實現(xiàn)技術(shù)和具身認知優(yōu)化技術(shù)3個方面。

沉浸式環(huán)境構(gòu)建技術(shù)創(chuàng)新依托ISO/IEC 23008?3標準[12]與ISO/IEC 23090?4標準[3]兩大核心標準的技術(shù)支撐，二者共同奠定了三維聲對象化編碼的技術(shù)基礎(chǔ)，為沉浸式聲場的基礎(chǔ)構(gòu)建提供標準化依據(jù)，同時創(chuàng)新性地明確了6DoF音頻渲染核心技術(shù)指標，通過聲場插值算法實現(xiàn)全空間聲場平滑過渡，為VR/AR、全景視頻和體積視頻（Volumetric Video）等沉浸式環(huán)境應用場景提供標準支撐。上文中的標準體系如ISO/IEC 23090?4標準[3]、ITU?R BS.2051標準[26]和AES69?2020[33]等從多角度對沉浸式聲音領(lǐng)域的空間定位精度優(yōu)化進行了具體規(guī)定，聚焦聲場重建聲學參數(shù)適配要求，保障沉浸式環(huán)境的聲學真實性，其技術(shù)規(guī)范與具身認知的空間感知需求高度契合，為聲場物理屬性還原提供標準化依據(jù)。

多模態(tài)交互實現(xiàn)技術(shù)創(chuàng)新，以信號同步與設(shè)備兼容的標準化為核心，ITU?T F.748.63《基礎(chǔ)模型增強數(shù)字人系統(tǒng)的框架和一般技術(shù)要求》（Framework and general technical requirements of foundation model enhanced digital human systems）[35]包含交互協(xié)議核心要求，規(guī)范聲音與視覺、運動信號的同步機制，為多模態(tài)信號協(xié)同提供技術(shù)框架；SMPTE ST 2110?30:2025《專業(yè)媒體在受控IP網(wǎng)絡(luò)上傳輸：PCM數(shù)字音頻》（Professional Media over Managed IP Networks — PCM Digital Audio）[17]則再次規(guī)范了專業(yè)媒體IP化傳輸中的音頻信號傳輸要求，其技術(shù)指標與AES67標準規(guī)定[36]音頻接口、IPv4/IPv6傳輸協(xié)議相兼容，解決了聲音交互設(shè)備與虛擬場景系統(tǒng)的跨平臺兼容問題，為多模態(tài)協(xié)同技術(shù)的產(chǎn)業(yè)化落地提供標準化支撐。

具身認知優(yōu)化技術(shù)創(chuàng)新的核心是將人體感知與運動特性系統(tǒng)性融入視聽標準體系，沉浸式聲音相關(guān)標準明確了聲音空間定位需適配人體頭部運動特性的技術(shù)要求，通過HRTF個性化適配、人體運動狀態(tài)實時響應等規(guī)范，針對性優(yōu)化具身感知體驗；ISO/IEC 23090?4標準[3]則引入遮擋效應模擬、聲場動態(tài)適配等技術(shù)規(guī)范，基于射線追蹤算法實現(xiàn)聲音感知與人體、環(huán)境動態(tài)交互規(guī)律的匹配，為電影聲音具身化呈現(xiàn)的技術(shù)創(chuàng)新提供標準化依據(jù)。

我國電影聲音標準與裝備國產(chǎn)化路徑探索

4.1 我國電影聲音相關(guān)標準發(fā)展

我國已發(fā)布的電影聲音相關(guān)標準形成國家標準+行業(yè)標準的層級配套體系，覆蓋三維聲核心編碼、虛擬現(xiàn)實音頻、影院端設(shè)備應用等全場景，核心標準規(guī)范且與產(chǎn)業(yè)需求高度適配。GB/T 46271—2025《信息技術(shù) 三維聲技術(shù) 編碼、分發(fā)與呈現(xiàn)》[37]為我國自主研發(fā)的三維聲核心國家標準，2025年8月正式發(fā)布，由全國信息技術(shù)標準化技術(shù)委員會、全國廣播電視和網(wǎng)絡(luò)視聽標準化技術(shù)委員會聯(lián)合歸口。該標準以菁彩聲（Audio Vivid）為核心技術(shù)基底，是全球首個基于AI技術(shù)的音頻編解碼標準，支持多聲道聲床、音頻對象、Ambisonics聲場等多元呈現(xiàn)形式，可實現(xiàn)128軌音頻實時渲染。該技術(shù)體系通過國際電工委員會（IEC）音頻、視頻及多媒體系統(tǒng)與設(shè)備技術(shù)委員會（TC100）研制并正式發(fā)布數(shù)字音頻接口國際標準IEC 61937?17[38]，實現(xiàn)沉浸式聲場構(gòu)建方面的國際化突破，并被IEC、ITU、國際數(shù)字視頻廣播組織（DVB）三大國際組織采納，躋身全球四大三維聲音頻標準之列，成為國產(chǎn)沉浸式音頻裝備的核心標準支撐。

GB/T 44115.3標準[11]于2025年2月發(fā)布并于9月正式實施，由國家市場監(jiān)督管理總局、國家標準化管理委員會發(fā)布，全國信息技術(shù)標準化技術(shù)委員會歸口，清華大學、中國電子技術(shù)標準化研究院等單位聯(lián)合起草，是我國虛擬現(xiàn)實音頻領(lǐng)域的首個國家標準，規(guī)范了虛擬現(xiàn)實場景下音頻的內(nèi)容表達、技術(shù)要求與實現(xiàn)方式，為電影虛擬現(xiàn)實沉浸式音頻制作、呈現(xiàn)提供統(tǒng)一技術(shù)規(guī)范，填補了我國虛擬視聽音頻標準的空白。

T/UWA 038.3-1—2025《菁彩影院技術(shù) 第3-1部分：菁彩聲影院端音頻處理器技術(shù)要求和測量方法》[39]為團體標準，由中國電影科學技術(shù)研究所（中央宣傳部電影技術(shù)質(zhì)量檢測所）等單位起草并于2025年發(fā)布實施，聚焦影院端菁彩聲音頻處理器核心技術(shù)要求，明確影院端音頻處理器音頻通路動態(tài)范圍、總諧波失真等關(guān)鍵性能指標，規(guī)范沉浸式聲音播放設(shè)備的測量方法，適應國內(nèi)影院實際放映場景需求，為菁彩聲技術(shù)在影院場景的規(guī)模化落地提供行業(yè)支撐。

4.2 自主知識產(chǎn)權(quán)電影聲音裝備發(fā)展現(xiàn)狀和挑戰(zhàn)

電影聲音裝備國產(chǎn)化聚焦沉浸式音頻處理器、多模態(tài)交互終端、聲場渲染設(shè)備等核心品類的自主研發(fā)、生產(chǎn)與應用，目前在核心領(lǐng)域已取得階段性突破并形成梯度發(fā)展格局，中低端沉浸式音頻處理器已實現(xiàn)國產(chǎn)化并在國內(nèi)中小影院市場形成一定市場份額，聲場渲染設(shè)備可滿足常規(guī)電影制作需求并落地國內(nèi)部分影視制作場景，多模態(tài)交互終端則尚處研發(fā)起步階段，暫未形成成熟產(chǎn)品與規(guī)模化應用場景。

國產(chǎn)化裝備的核心優(yōu)勢集中于產(chǎn)業(yè)生態(tài)與本土場景適配層面，國內(nèi)已形成從芯片設(shè)計、設(shè)備制造到終端應用的完整產(chǎn)業(yè)鏈，成本控制能力較強且產(chǎn)品具備價格優(yōu)勢，同時裝備研發(fā)契合國內(nèi)影院放映、影視制作的實際需求，在兼容性、操作便捷性等方面更適配國內(nèi)用戶使用習慣，加之發(fā)展超高清視頻產(chǎn)業(yè)、建設(shè)電影強國等政策扶持，行業(yè)研發(fā)投入持續(xù)增加，產(chǎn)業(yè)化進程得以加速推進。

當前我國電影聲音裝備國產(chǎn)化發(fā)展仍面臨多重挑戰(zhàn)，受產(chǎn)業(yè)上下游配套及微電子產(chǎn)業(yè)發(fā)展環(huán)境制約，高端領(lǐng)域與國際先進水平存在明顯差距，核心問題體現(xiàn)在4方面：一是高端核心技術(shù)存在代差，6DoF音頻渲染、個性化HRTF建模、多模態(tài)協(xié)同處理等核心算法對外依賴度較高，高端裝備市場仍被國際品牌壟斷；二是具身感知類裝備研發(fā)滯后，缺乏適配具身認知導向的感知優(yōu)化裝備，難以滿足行業(yè)具身化聲音體驗的市場需求；三是部分產(chǎn)品標準符合性不足，技術(shù)指標與國際主流標準存在偏差，認證體系建設(shè)有待完善，導致產(chǎn)品出口受限，難以有效融入全球產(chǎn)業(yè)鏈；四是產(chǎn)業(yè)上下游配套支撐能力不足，微電子產(chǎn)業(yè)在高算力音頻處理芯片、高精度傳感器等核心硬件領(lǐng)域的發(fā)展短板，直接制約高端裝備的研發(fā)與生產(chǎn)，同時上游核心元器件對外采購比例較高，供應鏈穩(wěn)定性受外部環(huán)境影響，下游應用場景相對單一，高端市場突破難度較大。

4.3 我國電影聲音標準研制發(fā)展方向

回顧上述國產(chǎn)化發(fā)展面臨的核心挑戰(zhàn)，從國際標準對標視角進一步分析不難發(fā)現(xiàn)，我國電影聲音標準雖在沉浸式聲場編碼等基礎(chǔ)領(lǐng)域?qū)崿F(xiàn)與國際標準兼容，核心技術(shù)指標達到國際先進水平，但從整體來看，標準的系統(tǒng)性和前瞻性仍有待進一步提升。

在標準體系方面，當前我國正逐步構(gòu)建具身感知與多模態(tài)協(xié)同的標準框架，在人體運動適配、個性化感知優(yōu)化、多模態(tài)交互協(xié)議及信號同步機制等細分領(lǐng)域仍存在缺失。隨著標準與裝備研發(fā)協(xié)同機制的持續(xù)優(yōu)化，未來有望進一步發(fā)揮標準對技術(shù)創(chuàng)新的引領(lǐng)作用，推動裝備技術(shù)指標更加貼合實際應用需求，降低核心算法對外依存度，為構(gòu)建自主可控的技術(shù)體系奠定堅實基礎(chǔ)。

在技術(shù)內(nèi)容層面，國產(chǎn)標準在具身感知適配與多模態(tài)協(xié)同協(xié)議等關(guān)鍵方向上尚有提升空間，這反映出我們正處于關(guān)鍵技術(shù)快速追趕和突破的窗口期。通過加大研發(fā)投入與跨領(lǐng)域協(xié)同創(chuàng)新，國內(nèi)技術(shù)力量有望迅速補齊短板，實現(xiàn)具身化與多模態(tài)交互關(guān)鍵技術(shù)的本地化落地。伴隨核心性能指標不斷對標國際先進水平，國產(chǎn)裝備將顯著提升具身交互體驗質(zhì)量，拓展多模態(tài)技術(shù)在多元場景中的應用潛力，從而有力支撐國產(chǎn)化裝備加快邁向中高端市場。

在產(chǎn)業(yè)應用方面，盡管我國當前以傳統(tǒng)沉浸式音頻應用為主，具身感知與多模態(tài)交互的產(chǎn)業(yè)化仍處于探索和試點推廣階段，但這一現(xiàn)狀也預示了廣闊的發(fā)展前景與后發(fā)優(yōu)勢。隨著應用場景的不斷豐富與滲透率的穩(wěn)步提升，一個以“標準引領(lǐng)-裝備研發(fā)-場景應用”為主線的良性產(chǎn)業(yè)生態(tài)正在逐步形成。未來，依托豐富的應用實踐與持續(xù)優(yōu)化的標準體系，我國有望在具身智能和多模態(tài)交互領(lǐng)域打造具有全球影響力的產(chǎn)業(yè)高地，進一步增強國產(chǎn)裝備的國際競爭力和品牌影響力。

結(jié)語與展望

人工智能（AI）作為全球新一輪科技革命的關(guān)鍵驅(qū)動力，其產(chǎn)業(yè)特性決定了標準化能力對產(chǎn)業(yè)質(zhì)量提升的重要意義；具身智能作為國家戰(zhàn)略布局的未來產(chǎn)業(yè)新賽道，已正式納入“十五五”規(guī)劃，成為培育新質(zhì)生產(chǎn)力、推動經(jīng)濟發(fā)展的新引擎[40,41]，為我國電影聲音裝備國產(chǎn)化提供了重要發(fā)展契機與戰(zhàn)略指引。結(jié)合國際標準演進規(guī)律與我國國產(chǎn)化發(fā)展實際，電影聲音裝備國產(chǎn)化需跳出路徑依賴，堅守“標準引領(lǐng)、技術(shù)創(chuàng)新、協(xié)同發(fā)展、國際適配”核心原則，構(gòu)建差異化高質(zhì)量發(fā)展路徑，立足國內(nèi)產(chǎn)業(yè)需求、對接國際先進規(guī)范，破解高端短板、打通發(fā)展堵點，形成“技術(shù)自主-標準適配-產(chǎn)業(yè)落地-國際拓展”的良性循環(huán)。

我國電影行業(yè)可依托國際標準演進的技術(shù)導向，聚焦三大核心裝備領(lǐng)域，開展有針對性的精準突破：一是在沉浸式環(huán)境裝備領(lǐng)域，行業(yè)以國際相關(guān)標準為對標核心，重點攻克6DoF音頻渲染、聲場插值優(yōu)化、遮擋效應模擬等關(guān)鍵技術(shù)，著力構(gòu)建契合中國人群聽覺特性的個性化HRTF樣本數(shù)據(jù)庫，系統(tǒng)性填補國內(nèi)在該領(lǐng)域的技術(shù)空白，進一步強化國產(chǎn)裝備在具身感知適配方面的能力。二是在多模態(tài)交互裝備領(lǐng)域，科研機構(gòu)與企業(yè)共同借鑒國際多模態(tài)協(xié)同相關(guān)標準規(guī)范，重點研發(fā)支持多模態(tài)信號協(xié)同處理的核心器件，持續(xù)優(yōu)化跨模態(tài)信號的同步機制，開發(fā)兼具低成本和高適配性的交互終端產(chǎn)品，切實推動多模態(tài)交互技術(shù)的規(guī)模化應用與整體成本優(yōu)化。三是在具身認知導向感知優(yōu)化裝備領(lǐng)域，高校、研究院所及相關(guān)企業(yè)參考國際感知優(yōu)化標準的具體要求，聯(lián)合攻關(guān)人體運動與聲場動態(tài)匹配等感知適配技術(shù)，開發(fā)相應裝備。同時，構(gòu)建科學完善的具身化聲音評價體系與量化評估指標，為國產(chǎn)裝備性能驗證提供理論依據(jù)和技術(shù)支撐，確保其感知體驗能夠達到國際先進水平。

在標準體系構(gòu)建方面，我國電影行業(yè)應以國際標準為標桿，持續(xù)完善國產(chǎn)標準體系，強化標準對技術(shù)創(chuàng)新與產(chǎn)業(yè)發(fā)展的賦能效能，系統(tǒng)破解國產(chǎn)化發(fā)展過程中的標準瓶頸。一方面，加快補充具身認知導向的感知優(yōu)化、多模態(tài)交互協(xié)議等關(guān)鍵領(lǐng)域的規(guī)范內(nèi)容，實現(xiàn)國內(nèi)標準與國際標準的精準對接與協(xié)同發(fā)展；另一方面，注重增強不同層級、不同領(lǐng)域標準之間的協(xié)同性，構(gòu)建起覆蓋“感知-交互-裝備”全鏈條的完整標準體系，有效避免規(guī)范交叉與沖突。此外，應建立健全標準與技術(shù)創(chuàng)新間的聯(lián)動更新機制，縮短標準研制和修訂周期，確保標準具備良好的時效性與前瞻性，全面發(fā)揮標準對裝備研發(fā)方向的引領(lǐng)與工程實踐的支撐作用。

在推動國產(chǎn)化裝備國際化布局方面，我國電影行業(yè)應以核心標準的國際影響力為依托，引導和支持國產(chǎn)裝備積極通過國際標準認證，嚴格對標國際市場的技術(shù)準入門檻，穩(wěn)步拓展海外應用市場，實現(xiàn)從“跟標適配”向“對標引領(lǐng)”的戰(zhàn)略躍升。同時，鼓勵國內(nèi)產(chǎn)學研各界深度參與國際標準研制工作，主動將我國自主研發(fā)的關(guān)鍵技術(shù)和典型產(chǎn)業(yè)實踐經(jīng)驗融入國際標準體系，持續(xù)提升我國在電影聲音等標準領(lǐng)域的影響力和話語權(quán)，為國產(chǎn)裝備“走出去”營造更有利的制度環(huán)境。通過在國際市場開展試點示范應用，驗證國產(chǎn)技術(shù)與裝備的實用性與可靠性，進一步加快產(chǎn)業(yè)化推廣步伐，推動我國電影聲音裝備國產(chǎn)化邁入高質(zhì)量發(fā)展的新階段，為我國實現(xiàn)從電影大國向電影強國的邁進提供有力支撐。

參考文獻

（向下滑動閱讀）

[1] 張靖博.后電影聲景:數(shù)字聲音的具身性重構(gòu)[J/OL].未來傳播,1?9[2026?02?02].https://doi.org/10.13628/j.cnki.zjcmxb.20251219.004.

[2] MRóZ B, KABACI?SKI M, CIOTUCHA T, et al. Production of six?degrees?of?freedom (6DoF) navigable audio using 30 Ambisonic microphones[C]//IEEE 2021 Immersive and 3D Audio: from Architecture to Automotive (I3DA) , 2021:1?5.

[3] ISO. Information technology — Coded representation of immersive media — Part 4: MPEG-I immersive audio: ISO/IEC 23090-4:2025[S],2025

[4] WOODARD B, GELETA M, LAVIOLA J J, et al. AudioMiXR: Spatial audio object manipulation with 6D oF for sound design in augmented reality[C]//Proceedings of ACM Interact. Mob. Wearable Ubiquitous Technol, 2025, 9(3):1?41.

[5] 國家廣播電視總局. 三維聲編解碼及渲染：GY/T 363—2023[S]. 北京：中國標準出版社，2023.

[6] 陳巍,殷融,張靜.具身認知心理學：大腦、身體與心靈的對話[M]. 北京：科學出版社，2021.

[7] 張霞,鄒悅.光影之外的聲音魅力——評《電影聲音的故事建構(gòu)》[EB/OL].(2025?02?06)[2026?03?04].https://www.cflac.org.cn/xw/202502/t20250206_1338356.html.

[8] VARELA F J, THOMPSON E, ROSCH E. The embodied mind: Cognitive science and human experience[M]. Massachusetts: The MIT Press,1991.

[9] 杜鑫. 空間、具身、互動和引導：VR電影敘事的邏輯[J]. 電影新作, 2023(01): 92?101.

[10] 董強國. 數(shù)字電影沉浸式音頻渲染技術(shù)和評價方法研究[J]. 現(xiàn)代電影技術(shù), 2024(10): 37?43.

[11] 方捷新.標準化將促進沉浸式聲音技術(shù)健康有序發(fā)展[J].現(xiàn)代電影技術(shù),2017(05):63.

[12] ISO.Information technology — High efficiency coding and media delivery in heterogeneous environments — Part 3: 3D audio: ISO/IEC 23008?3:2026[S],2026.

[13] 信息技術(shù) 虛擬現(xiàn)實內(nèi)容表達第3部分: 音頻：GB/T 44115.3?2025[S],2025.

[14] 王豐. 電影沉浸式音頻碼流規(guī)范及功能特性研究[J]. 現(xiàn)代電影技術(shù), 2024(03): 39?45,52.

[15] 王豐. 數(shù)字電影沉浸式音頻元數(shù)據(jù)與聲場組相關(guān)技術(shù)標準解析[J]. 現(xiàn)代電影技術(shù), 2023(05): 41?46,40.

[16] 董強國, 龔波. 數(shù)字電影沉浸式音頻實時處理技術(shù)研究[J]. 現(xiàn)代電影技術(shù), 2024(04): 7?14,21.

[17] SMPTE. Professional Media Over Managed IP Networks — PCM Digital Audio: ST 2110?30:2025[EB/OL].(2025?10?01)[2026?03?04].https://drastic.tv/images/documentation/st2110-30-2025.pdf.

[18] 毛瀟涵,朱宸銘,王泰,等.M3Fusion:面向具身3D感知的統(tǒng)一多視角多模態(tài)融合框架[J].中國科學:信息科學,2026,56(02):312?326.

[19] 喻國明,張競文,李子元,等.從表征傳播到預測傳播：空間智能語境下具身傳播的新范式[J].學術(shù)探索,2025(11):49?59.

[20] International Telecommunication Union Radiocommunication Sector. Audio definition model: Rec. ITU?R BS.2076?3[S],2025.

[21] International Telecommunication Union Standardization Sector. Requirements of interactive immersive services: ITU?T H.430.7[S],2023.

[22] International Telecommunication Union Radiocommunication Sector. Collection of usage scenarios of advanced immersive sensory media systems: ITU?R BT.2420?8[S],2025.

[23] AGREVAL S, SIMON A, BECH S, et al. Defining Immersion: Literature Review and Implications for Research on Immersive Audiovisual Experiences[J].Journal of Audio Engineering Society, 2019,68(6), 404?417.

[24] DISCH S, TERENTIV L, KOPPENS J, et al. MPEG?I Immersive Audio – The Technology Of The New Standard For Virtual / Augmented Reality Audio[EB/OL].(2025?10?14)[2026?03?04].https://aes.org/publications/elibrary-page/?id=23078.

[25] 國際電信聯(lián)盟.ITU?R BS.775?4建議書帶有和無附圖的多聲道立體聲系統(tǒng)[EB/OL].(2023?03?07)[2026?03?04].https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.775-4-202212-I!!PDF-C.pdf.

[26] 國際電信聯(lián)盟.ITU?R BS.2051?3建議書用于節(jié)目制作的高級音響系統(tǒng)[EB/OL].(2023?05?02)[2026?03?04].https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.2051-3-202205-I!!PDF-C.pdf.

[27] International Telecommunication Union Radiocommunication Sector. Long?form file format for the international exchange of audio programme materials with metadata: ITU?R BS.2088?2[S],2025.

[28] 國際電信聯(lián)盟.ITU?R BS.2127?0建議書高級音響系統(tǒng)的音頻定義模型渲染器[EB/OL].(2023?11?03)[2026?03?04].https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.2127-0-201906-S!!PDF-C.pdf.

[29] International Telecommunication Union Radiocommunication Sector. Guidelines for the use of the ITU?R ADM Renderer[EB/OL].(2019?10?01)[2026?03?04].https://www.itu.int/pub/R-REP-BS.2466-2019.

[30] ISO/IEC 23090?2:2023：Information technology — Coded representation of immersive media Part 2: Omnidirectional media format[EB/OL].(2023?06?09)[2026?03?04].https://webstore.iec.ch/en/publication/86236.

[31] International Telecommunication Union Radiocommunication Sector. Multichannel sound technology in home and broadcasting applications: ITU?R BS.2159?9[S],2022.

[32] International Telecommunication Union Radiocommunication Sector. Production workflows for advanced sound system: ITU?R BS.2555?0[S],2025.

[33] Audio Engineering Society. AES standard for file exchange?Spatial acoustic data file format: AES69?2020[S],2020.

[34] International Telecommunication Union Standardization Sector.Guidelines for safe listening devices/systems: ITU?T H.870[S],2022.

[35] International Telecommunication Union Standardization Sector.Framework and general technical requirements of foundation model enhanced digital human systems: ITU?T F.748.63[S],2025.

[36] Audio Engineering Society. AES Standard for Audio Applications of Networks?High?performance streaming audio?over?IP interoperability: AES67?2023[S],2023.

[37] 全國信息技術(shù)標準化技術(shù)委員會，全國廣播電視和網(wǎng)絡(luò)視聽標準化技術(shù)委員會.信息技術(shù) 三維聲技術(shù) 編碼、分發(fā)與呈現(xiàn): GB/T 46271—2025[S], 2025.

[38] Digital audio ? Interface for non?linear PCM encoded audio bitstreams applying IEC 60958 ? Part 17: Non?linear PCM bitstreams according to the AVS3?P3 format: IEC 61937?17: 2025[S],2025.

[39] 世界超高清視頻產(chǎn)業(yè)聯(lián)盟.菁彩影院技術(shù) 第3-1部分：菁彩聲影院端音頻處理器技術(shù)要求和測量方法：T/UWA 038.3-1—2025[S/OL].(2025?10?15)[2026?03?04].https://www.theuwa.com//upload/ueditor/file/20251015/176048926 5169653/d6adb9139d5b2416c736c2747163a78e.pdf.

[40] 楊子怡，鄧聰.具身智能加速落地產(chǎn)業(yè)發(fā)展領(lǐng)跑全球[N].人民郵電,2026?01?21(001).DOI:10.28659/n.cnki.nrmyd.2026.000095.

[41] 李群.融智于身，賦形以慧：以具身智能擘畫中國現(xiàn)代化產(chǎn)業(yè)新圖景[J].中國科技論壇,2026(01):3.DOI:10.13580/j.cnki.fstc.2026.01.001.

期刊導讀 |《現(xiàn)代電影技術(shù)》2026年第3期

影視數(shù)字資產(chǎn)的智能構(gòu)建：基于Multi?SLAM+3DGS技術(shù)的三維數(shù)字重建方案研究

電影SDR與HDR映射結(jié)構(gòu)研究——基于ASC StEM2技術(shù)測試片的實證分析

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數(shù)碼

房產(chǎn) / 家居

《現(xiàn)代電影技術(shù)》｜袁邈桐：具身認知導向下電影聲音國際技術(shù)標準演進及裝備國產(chǎn)化啟示