![]()
本文刊發(fā)于《現(xiàn)代電影技術(shù)》2026年第3期
專家點評
王 玨
教授
北京電影學院研究生院院長、博士生導師
電影聲音技術(shù)正從多聲道環(huán)繞聲向沉浸式空間音頻加速演進,電影聲音國際技術(shù)標準體系持續(xù)迭代升級,具身認知、多模態(tài)交互、智能感知已成為下一代電影聲音技術(shù)的核心發(fā)展趨勢。技術(shù)標準主導權(quán)與核心裝備自主化成為產(chǎn)業(yè)競爭的基礎(chǔ)和關(guān)鍵,我國正處于技術(shù)跟跑、標準并跑向自主領(lǐng)跑轉(zhuǎn)型的重要階段。《具身認知導向下電影聲音國際技術(shù)標準演進及裝備國產(chǎn)化啟示》一文針對電影沉浸式音頻技術(shù)發(fā)展前沿,指出具身認知是電影聲音感知的核心導向,多模態(tài)具身智能是電影聲音的進階方向。該論文對標電影聲音國際標準制定與聲音裝備革新,分析了我國電影聲音相關(guān)標準制定和裝備發(fā)展上取得的成果和存在的短板,以及如何從國際標準的演進趨勢中抓住國產(chǎn)電影音頻設(shè)備的研發(fā)方向,在具身智能和多模態(tài)交互領(lǐng)域打造具有全球影響力的產(chǎn)業(yè)高地。論文對電影聲音標準制定的體系性和前瞻性的分析以及對“技術(shù)突破-標準支撐-產(chǎn)業(yè)協(xié)同”的研發(fā)路徑研判,為我國電影聲音標準制定和裝備研發(fā)提供了邏輯清晰的思路,為實現(xiàn)標準引領(lǐng)、技術(shù)自主、市場突圍提供了理論支撐和實踐參考。
項目信息
北京高校虛擬教研室試點建設(shè)項目“數(shù)字媒體聲音交互教研室”(XNJYS2023004)。
作者簡介
![]()
袁邈桐
博士,中國傳媒大學音樂與錄音藝術(shù)學院教授,主要研究方向:聲音科學與藝術(shù)、數(shù)字媒體與數(shù)字人文。
摘要
本文立足媒介技術(shù)與國際技術(shù)標準研究的交叉視角,結(jié)合比對標準演進與裝備革新前沿進展,系統(tǒng)剖析“沉浸式環(huán)境-多模態(tài)交互-具身認知”的協(xié)同邏輯,梳理了電影聲音領(lǐng)域具身智能(Embodied Intelligence)關(guān)聯(lián)技術(shù)的演進路徑,分析具代表性國際技術(shù)標準發(fā)展態(tài)勢及國內(nèi)外技術(shù)標準對標現(xiàn)狀,探討我國電影聲音新技術(shù)裝備國產(chǎn)化進程的優(yōu)勢與挑戰(zhàn)。研究發(fā)現(xiàn),電影聲音國際技術(shù)標準建設(shè)已形成“人工智能引領(lǐng)-技術(shù)協(xié)同支撐-標準加速迭代”的演進趨勢,我國在具身認知(Embodied Cognition)算法優(yōu)化、多模態(tài)交互技術(shù)應用及標準體系銜接方面仍存在較大發(fā)展空間。基于此,本文提出“技術(shù)突破-標準支撐-產(chǎn)業(yè)協(xié)同”的路徑思考,旨在為我國電影聲音技術(shù)實現(xiàn)標準引領(lǐng)、技術(shù)自主、市場突圍提供理論支撐與實踐參考。
關(guān)鍵詞
具身智能;具身認知;沉浸式環(huán)境;多模態(tài)交互;裝備國產(chǎn)化
1
引言
在新一輪科技革命與產(chǎn)業(yè)變革縱深演進的背景下,具身智能(Embodied Intelligence)以“認知源于身體與環(huán)境的動態(tài)交互”為核心邏輯,強調(diào)智能體(Agent)通過傳感器運動與環(huán)境交互產(chǎn)生認知,其技術(shù)演進圍繞理解、生成與交互三大核心展開,不僅為電影技術(shù)突破提供了系統(tǒng)性方法論支撐,更激勵著電影聲音技術(shù)從“被動呈現(xiàn)”向“主動交互”、由“感官刺激”向“具身沉浸”的雙重轉(zhuǎn)型。這一轉(zhuǎn)型既深度回應了觀眾對沉浸式體驗的核心需求,重構(gòu)了電影聲音技術(shù)的研發(fā)邏輯、標準體系與產(chǎn)業(yè)生態(tài),更體現(xiàn)為突破傳統(tǒng)聲畫關(guān)系束縛,通過高精度、對象化的聲音空間渲染,將觀眾置于一個可被觸覺化、運動化感知的聲學環(huán)境中,從而極大豐富身體體驗并重塑聽覺主體的存在狀態(tài)[1],使聲音不再單純是被人耳接收的客觀信號,更能通過其物理屬性直接作用于觀眾的身體感知,引發(fā)生理與心理的協(xié)同反應。
當前,電影聲音前沿領(lǐng)域正面臨從立體聲向六自由度(6DoF)沉浸式音頻[2—4]、從單一聽覺向多模態(tài)協(xié)同的關(guān)鍵升級,而傳統(tǒng)技術(shù)在感知優(yōu)化實時性、交互邏輯適應性、制作流程可追溯性上存在明顯短板,具身智能技術(shù)恰好為這一升級提供了從數(shù)字資產(chǎn)生成到交互實現(xiàn)、從流程管控到體驗校準的全鏈條解決方案。
在技術(shù)層面,當前核心發(fā)展趨勢聚焦于3大方向:一是生成式3D資產(chǎn)構(gòu)建技術(shù)成熟化,能夠根據(jù)文本或圖像輸入高效生成具備真實物理屬性、精準尺度與完整幾何結(jié)構(gòu)的三維場景與物體,為聲音空間定位、聲場模擬提供高精度底層基礎(chǔ);二是人機共融的具身交互(Embodied Interaction)技術(shù)落地,通過多模態(tài)智能體與沉浸式穿戴設(shè)備的融合,可實現(xiàn)物理場景的實時感知、流程追蹤、誤差校正與自適應指導,為聲音多模態(tài)協(xié)同、實時交互反饋提供全新工具鏈;三是數(shù)字場景生成的精細化與自動化,依托層級化架構(gòu)與智能校驗機制,批量生成多樣化、高保真且具備物理合理性與功能完整性的交互場景,為虛擬攝制中的聲場環(huán)境建模、多區(qū)域聲音交互邏輯設(shè)計提供可實現(xiàn)的技術(shù)支撐。
在標準與產(chǎn)業(yè)層面,全球電影聲音技術(shù)呈現(xiàn)“技術(shù)創(chuàng)新引領(lǐng)標準演進,標準規(guī)范推動產(chǎn)業(yè)升級”的清晰格局。國際標準化組織(ISO)、國際電信聯(lián)盟(ITU)、美國電影電視工程師協(xié)會(SMPTE)等組織已開始關(guān)注具身認知(Embodied Cognition)導向的感知優(yōu)化需求,在沉浸式聲音空間定位、多模態(tài)交互協(xié)議等關(guān)聯(lián)領(lǐng)域啟動相關(guān)標準研制,其制定邏輯與具身智能的3D場景交互、物理屬性還原等技術(shù)趨勢高度契合。國內(nèi)則以沉浸式音頻技術(shù)標準為核心,積極推動國產(chǎn)化技術(shù)場景落地;然而,當前具身認知相關(guān)的核心技術(shù)研發(fā)與標準制定方面仍存在差距,尤其缺乏針對空間關(guān)系建模、物理交互適配、多模態(tài)協(xié)同等具身化需求的成熟技術(shù)規(guī)范。我國電影產(chǎn)業(yè)正處于高質(zhì)量發(fā)展關(guān)鍵期,裝備國產(chǎn)化需求日益迫切,如何將具身智能領(lǐng)域的核心技術(shù)成果轉(zhuǎn)化為電影聲音技術(shù)創(chuàng)新動力,如何依托國際標準演進趨勢構(gòu)建本土化技術(shù)生態(tài)與標準體系,成為當前亟待解決的重要課題。
2
電影聲音的具身性
2.1 聲音的具身認知基礎(chǔ)
電影聲音體驗的沉浸式本質(zhì),根植于人類自然聽覺具身認知的生理與心理本源。從生理來看,人類聽覺系統(tǒng)的先天具身性是技術(shù)設(shè)計的物理前提,雙耳時間差/強度差、頭相關(guān)傳輸函數(shù)(HRTF)等生理機制,決定了空間音頻的三維定位邏輯,而人體聽覺頻率閾值、動態(tài)范圍等特征,也規(guī)范了相關(guān)技術(shù)標準的量化指標[5];從具身認知建構(gòu)來看,電影聲音的沉浸感源于對人類后天具身記憶(Embodied Memory)的精準觸發(fā),通過空間、動作、情緒3類具身記憶的喚醒與匹配,實現(xiàn)“以聲傳情”的心理沉浸,這一認知邏輯呼應了具身認知心理學“認知源于身體與環(huán)境動態(tài)交互、具身記憶是認知喚醒核心”的核心論述[6]。究其本質(zhì),電影聲音并非創(chuàng)造全新具身認知,而是在人體生理具身框架內(nèi),對自然具身認知記憶的技術(shù)化篩選與重構(gòu),無法脫離自然具身的生理與認知本源,這正是“有限模擬”的核心合理性所在[7]。
2.2 電影聲音領(lǐng)域具身認知理論的核心聚焦
具身認知理論的核心內(nèi)涵聚焦“認知源于身體、大腦與環(huán)境的動態(tài)交互閉環(huán)”,其本質(zhì)是反對將認知視為脫離具體身體與場景的抽象計算,強調(diào)認知過程深植于人體生理結(jié)構(gòu)、感官體驗與環(huán)境交互的耦合關(guān)系中[6]。在電影聲音領(lǐng)域,智能空間環(huán)境中的聲音感知絕非聽覺器官對聲學信號的被動接收,而是人體運動狀態(tài)(如頭部轉(zhuǎn)動、位置移動、肢體動作)、空間體驗、情感預期與聲學信號的多維度協(xié)同作用結(jié)果[8]。
電影聲音的具身認知應用邏輯可系統(tǒng)歸納為3方面:首先是聲音設(shè)計貼合人體聽覺生理特性,如基于HRTF的個性化適配:通過采集不同人群的聽覺生理數(shù)據(jù),優(yōu)化聲音在三維空間中的定位精度,解決傳統(tǒng)標準化HRTF導致的個體適配偏差問題[9];其次是聲場構(gòu)建匹配用戶空間運動軌跡,例如針對用戶的平移、旋轉(zhuǎn)等六自由度運動,通過動態(tài)調(diào)整聲場參數(shù)確保聲音定位與空間位置的實時同步[10];最后是聲音反饋響應人體交互行為,如用戶通過手勢、語音指令觸發(fā)音效變化,或系統(tǒng)根據(jù)用戶面部微表情自適應調(diào)整聲音的響度、混響與頻率特性[9],三者共同構(gòu)成電影聲音具身化優(yōu)化的理論與技術(shù)支撐框架。
音頻作為電影聲音科技的核心載體,其具身體驗呈現(xiàn)由淺入深的三級遞進邏輯,每一層均貼合“有限模擬”核心且存在明確邊界。生理層具身感知通過多聲道布局、HRTF算法等技術(shù),復刻自然聲音的物理傳播特征,實現(xiàn)聽覺信號與人體生理感知規(guī)律的匹配,這一技術(shù)路徑契合三維聲編解碼及渲染的行業(yè)標準要求[5],但僅能完成單感官信號級模擬,無身體與環(huán)境的物理交互;心理層具身喚醒依托三維動態(tài)聲場,觸發(fā)觀眾的自然具身認知記憶,形成心理層面的空間沉浸,該層面僅能實現(xiàn)記憶喚醒而非全新認知建構(gòu),且記憶呈現(xiàn)碎片化特征;行為層具身反饋通過頭部追蹤、體感聯(lián)動等技術(shù),構(gòu)建“聲音感知-身體微行為”的簡易閉環(huán),推動身體從被動接收到輕度主動參與,但無法實現(xiàn)全身自主空間行動與全雙向“感知-行動”閉環(huán)。三級層次技術(shù)雖能不斷逼近自然具身體驗,卻始終受限于媒介虛擬性與身體物理性,無法復刻自然具身“生理-認知-行為”的全維度耦合[6]。
2.3 沉浸式音頻:電影聲音具身沉浸感的實現(xiàn)基礎(chǔ)
在空間智能和具身感知理論影響下,電影聲音系統(tǒng)可被認為是空間智能環(huán)境中具身認知導向的聲音感知與交互網(wǎng)絡(luò)系統(tǒng)。該系統(tǒng)以具身認知理論為核心,強調(diào)聲音感知源于人體與智能機制及聲場環(huán)境的動態(tài)交互,智能體通過整合空間定位、運動狀態(tài)、情感反饋等多模態(tài)信息,實現(xiàn)符合特定人體感知規(guī)律的聲音體驗優(yōu)化,以此構(gòu)成電影聲音具身化呈現(xiàn)的核心目標。
沉浸式聲音(Immersive Sound)環(huán)境作為具備三維空間屬性、真實物理聲學特性的聲場載體,能通過多聲道布局、聲場重建技術(shù)模擬各類真實空間的混響、反射等聲學效果,為具身認知提供了基礎(chǔ)場景支撐,其核心特征包括空間連續(xù)性、聲學真實性與用戶適配性[11]。而多模態(tài)交互則是融合聽覺、視覺、運動感知、面部表情識別等多模態(tài)信號的交互方式,通過聲音與畫面、用戶動作的實時聯(lián)動(如頭部姿態(tài)與聲音定位適配、交互指令與音效反饋協(xié)同),強化電影聲音的主動性與參與感。ISO/IEC 23090?4:2025《信息技術(shù)—沉浸式媒體的編碼表示 第4部分:MPEG-I沉浸式音頻》(Information technology — Coded representation of immersive media — Part 4: MPEG-I immersive audio[3],以下簡稱“ISO/IEC 23090?4標準”)、ISO/IEC 23008?3:2026《信息技術(shù)—異構(gòu)環(huán)境中的高效編碼和媒體傳輸 第3部分:3D音頻》(Information technology — High efficiency coding and media delivery in heterogeneous environments — Part 3: 3D audio[12],以下簡稱“ISO/IEC 23008-3標準”)以及我國的GB/T 44115.3-2025《信息技術(shù) 虛擬現(xiàn)實內(nèi)容表達 第3部分: 音頻》[13](以下簡稱“GB/T 44115.3標準”)等當前生效或最新修訂的權(quán)威標準,共同構(gòu)成全球電影行業(yè)沉浸式音頻技術(shù)落地與產(chǎn)業(yè)協(xié)同的核心依據(jù)。沉浸式聲音技術(shù)理論以三維聲場重建為核心,旨在通過技術(shù)手段模擬自然聲場的物理特性與交互邏輯,為具身認知的落地提供底層支撐[14]。其關(guān)鍵技術(shù)體系涵蓋3大維度:一是空間定位技術(shù),包括高階Ambisonics HOA編碼、6DoF音頻渲染等,其中6DoF音頻渲染技術(shù)的核心原理為通過對象化編碼將聲源獨立封裝為帶元數(shù)據(jù)的音頻對象,結(jié)合稀疏平面波插值等算法實現(xiàn)不同空間位置的聲場連續(xù)渲染,確保用戶在±10 m位移范圍內(nèi)聲音無斷層、無失真[15],該技術(shù)已在ISO/IEC 23090?4標準中形成標準化規(guī)范[3];二是聲學環(huán)境模擬技術(shù),通過麥克風陣列采集真實空間(如影院、古建筑、戶外場景)的聲學脈沖響應(Acoustic Impulse Response, AIR),基于卷積混響算法精準還原不同空間的混響時間、早期反射系數(shù)等聲學特性,實現(xiàn)“聲”臨其境的環(huán)境感知[16];三是多模態(tài)協(xié)同技術(shù),通過網(wǎng)絡(luò)時間協(xié)議(Network Time Protocol, NTP)或精確時間協(xié)議(Precision Time Protocol, PTP)實現(xiàn)聲音與視覺、運動信號的時間戳對齊,將多模態(tài)信號同步誤差控制在≤5 ms,滿足具身交互的實時性要求[17]。
2.4 多模態(tài)具身智能:電影聲音進階方向
多模態(tài)具身智能是電影聲音、空間音頻單/弱多模態(tài)具身模擬的進階方向,其實現(xiàn)條件、核心接口與推進路徑均圍繞“貼合自然具身認知、突破模擬邊界”展開,聚焦生理、認知、行為三大維度,要求多模態(tài)感知匹配人體跨模態(tài)生理特征、算法模型契合自然具身跨模態(tài)認知關(guān)聯(lián)、具備“多模態(tài)感知-身體動作-環(huán)境反饋”的閉環(huán)能力[6,7],其本質(zhì)是“有限模擬”框架內(nèi)的技術(shù)進階,最終逼近甚至超越自然具身認知特征[18,19]。
具身認知-沉浸式環(huán)境-多模態(tài)交互邏輯關(guān)系圖如圖1所示。具身認知作為核心導向,明確聲音感知的優(yōu)化方向,直接決定沉浸式環(huán)境的構(gòu)建邏輯與多模態(tài)交互的設(shè)計目標,例如ITU?R BS.2076?3《音頻定義模型》(Audio Definition Model,以下簡稱“ITU?R BS.2076標準”)[20]、ITU?T H.430.7《交互沉浸式服務要求》(Requirements of Interactive Immersive Services,以下簡稱“ITU?T H.430.7標準”)[21],以及ITU?R BT.2420?8《高級沉浸式感官媒體系統(tǒng)使用場景集錦》(Collection of usage scenarios of advanced immersive sensory media systems,以下簡稱“ITU?R BT.2420標準”)[22]中關(guān)于“聲音空間定位需適配人體頭部運動特性”的規(guī)范,均是具身認知導向的直接體現(xiàn)。沉浸式環(huán)境作為物理載體,為具身認知的落地提供空間聲場基礎(chǔ),其聲學特性直接影響感知體驗質(zhì)量,ISO/IEC 23008?3標準[12]和ISO/IEC 23090?4標準[3]中對聲場重建聲學參數(shù)的嚴格要求本質(zhì)就是為了保障沉浸式環(huán)境的真實性與適配性。多模態(tài)交互作為實現(xiàn)路徑,通過多信號協(xié)同聯(lián)動,將具身認知的需求轉(zhuǎn)化為可感知的聲音反饋[23,24]。
![]()
圖1 具身認知-沉浸式環(huán)境-多模態(tài)交互協(xié)同邏輯關(guān)系圖
3
電影聲音國際標準演進
3.1 電影聲音標準演進總體脈絡(luò)
電影聲音國際標準的演進遵循從通道固定到元數(shù)據(jù)驅(qū)動、從靜態(tài)呈現(xiàn)到動態(tài)交互的核心邏輯,可劃分為3大階段,各階段技術(shù)導向與核心規(guī)范明確且銜接遞進。多聲道環(huán)繞聲階段(20世紀90年代—2010年)技術(shù)發(fā)展以固定揚聲器布局為核心,聚焦水平面環(huán)繞聲實現(xiàn),標準僅規(guī)范聲道定位、電平匹配等基礎(chǔ)參數(shù),確立了5.1/7.1多聲道系統(tǒng)的技術(shù)框架,其中ITU?R BS.775《帶有和無附圖的多聲道立體聲系統(tǒng)》(Multichannel stereophonic sound system with and without accompanying picture,現(xiàn)ITU?R BS.775?4)[25]系列成為5.1/7.1多聲道揚聲器布局的核心規(guī)范,杜比數(shù)字(Dolby Digital)與DTS等專有標準則奠定了影院早期環(huán)繞聲的技術(shù)基礎(chǔ),成為該階段的核心依據(jù)。
高級三維聲階段(2012年—2018年),技術(shù)發(fā)展邁向下一代音頻(Next Generation Audio, NGA)體系,核心突破為引入Z軸垂直高度聲道與對象化音頻技術(shù),標準設(shè)計從固定揚聲器布局轉(zhuǎn)向元數(shù)據(jù)驅(qū)動的自適應布局,實現(xiàn)三維空間聲場的編碼與解碼,為3D音頻標準化傳輸?shù)於ɑA(chǔ)。這一階段以ITU?R系列標準為核心,2014年發(fā)布的 ITU?R BS.2051?0 《節(jié)目制作用高級音響系統(tǒng)》(Advanced sound system for programme production,現(xiàn)ITU?R BS.2051?3[26],以下簡稱“ITU?R BS.2051標準”)首次定義了高級音響系統(tǒng)制作規(guī)范,率先引入4.0.4、5.0.4、9.1.4等基于聲道的3D布局,支持頂置揚聲器與對象化元數(shù)據(jù),成為三維聲布局的基礎(chǔ)準則;2017年推出的ITU?R BS.2076?1標準(現(xiàn)ITU?R BS.2076?3)[20]搭建了HRTF渲染所需的音頻定義模型(ADM)元數(shù)據(jù)框架,首次實現(xiàn)音頻對象三維空間描述體系的標準化,為后續(xù)元數(shù)據(jù)驅(qū)動的音頻技術(shù)發(fā)展奠定了基礎(chǔ)。同時,ISO/IEC系列編碼標準形成早期技術(shù)支撐,杜比全景聲(Dolby Atmos)相關(guān)技術(shù)規(guī)范則率先推動了對象化三維聲在影院場景的商業(yè)化落地,讓三維聲技術(shù)從標準定義走向?qū)嶋H應用,共同構(gòu)建起高級三維聲的基礎(chǔ)技術(shù)體系。
2018年至今,耳機正式進入沉浸式音頻的核心呈現(xiàn)載體領(lǐng)域,高級三維聲技術(shù)向更具沉浸感、更具交互性深度發(fā)展,開啟了雙耳交互階段。標準體系同步將基于HRTF的實時空間音頻渲染技術(shù)納入規(guī)范,新增虛擬現(xiàn)實/增強現(xiàn)實(VR/AR)高級沉浸式音視頻(AIAV)的交互技術(shù)要求,核心聚焦6DoF音頻渲染、多模態(tài)交互協(xié)議與具身感知適配,實現(xiàn)了用戶動態(tài)運動下低延遲、高同步的具身化聲音體驗,相關(guān)標準也在前期基礎(chǔ)上完成了全體系的迭代與完善。在元數(shù)據(jù)與渲染規(guī)范層面,2019年ITU?R BS.2076標準[20]迭代成為ADM元數(shù)據(jù)模型的成熟版本,清晰定義了音頻對象在三維空間中的位置、移動軌跡及屬性描述規(guī)范,同年發(fā)布ITU?R BS.2088?1建議書《帶有元數(shù)據(jù)的音頻節(jié)目素材國際交換的長文件格式》(Long?form file format for the international exchange of audio programme materials with metadata,以下簡稱“ITU?R BS.2088標準”)[27]規(guī)定了BW64文件格式,實現(xiàn)ADM元數(shù)據(jù)在音頻文件中的標準化封裝,ITU?R BS.2127?0建議書《高級音響系統(tǒng)的音頻定義模型渲染器》[28]則定義了ADM參考渲染算法,確保VR頭顯、揚聲器陣列等不同設(shè)備的渲染效果一致性;而ITU?R BS.2466?0《音頻定義模型操作實踐》(Guidelines for the use of the ITU?R ADM Renderer)[29]則成為ADM元數(shù)據(jù)的實操手冊,指導電影、VR場景中的元數(shù)據(jù)標簽設(shè)置問題,與ITU?R BS.2076標準[20]形成“定義+應用”的完整體系。在編碼與場景應用層面,2019年發(fā)布的ISO/IEC 23090?2:2019《信息技術(shù)—沉浸式媒體的編碼表示—第 2 部分:全向媒體格式》(Information technology — Coded representation of immersive media Part 2: Omnidirectional media format,現(xiàn)ISO/IEC 23090?2:2023[30])完善了3D音頻標準化壓縮與傳輸技術(shù);2022年11月的ITU?R BT.2420?5標準(現(xiàn)ITU?R BT.2420?8)[22]明確了沉浸式廣播中耳機與雙耳元數(shù)據(jù)的應用規(guī)范,覆蓋影院、移動端VR等多場景需求,ITU?T H.430.7標準[21]規(guī)范了交互服務的音頻技術(shù)要求,保障頭部運動時3D音頻的穩(wěn)定性與低延遲。在前沿技術(shù)與實操規(guī)范層面,2022年3月更新的ITU?R BS.2159《家庭和廣播應用中的多聲道聲音技術(shù)》(Multichannel sound technology in home and broadcasting applications)[31]詳細描述了3D音頻在電影級制作中的實際應用,包含耳機虛擬化、輔助音頻等關(guān)鍵細節(jié);2025年9月推出的ITU?R BS.2555?0《高級聲音系統(tǒng)制作工作流》(Production workflows for advanced sound system)[32]規(guī)范了從錄制到母帶處理的端到端全流程,指導核心標準的實際落地,2025年發(fā)布的ISO/IEC 23090?4標準更成為全球首個6DoF沉浸式音頻標準,填補了動態(tài)交互場景標準化編碼的空白。此外,AES69?2020[33]制定了HRTF數(shù)據(jù)的跨平臺存儲與交換標準,ITU?T H.870[34]對耳機音量進行了規(guī)范,為沉浸式音頻提供了技術(shù)共享與安全基礎(chǔ)。這一階段的標準形成了從基礎(chǔ)框架、元數(shù)據(jù)描述、文件封裝到渲染實現(xiàn)、場景應用、全流程制作的完整閉環(huán),推動電影聲音實現(xiàn)了從靜態(tài)三維聲到動態(tài)交互沉浸式音頻的技術(shù)跨越。
演進核心特征呈現(xiàn)3大明確轉(zhuǎn)型:一是從“技術(shù)參數(shù)規(guī)范”向“感知體驗優(yōu)化”延伸,標準不再局限于設(shè)備接口、信號格式等硬性參數(shù),逐步納入人體聽覺感知適配、交互體驗一致性等軟性要求;二是從“單一技術(shù)標準”向“多技術(shù)協(xié)同標準”發(fā)展,整合聲場編碼、多模態(tài)交互、物理屬性還原等跨領(lǐng)域技術(shù)要求,形成系統(tǒng)性標準體系;三是從“固定視角適配” 向“動態(tài)交互適配”轉(zhuǎn)型,支持用戶平移、旋轉(zhuǎn)等6DoF運動狀態(tài)下的聲音實時適配,強化聲音與用戶行為的聯(lián)動性。
3.2 行業(yè)技術(shù)革新與電影聲音標準演進
電影聲音國際標準的演進與行業(yè)技術(shù)革新呈現(xiàn)出互促共生的緊密關(guān)系:技術(shù)突破為標準升級提供核心動力,而標準則通過統(tǒng)一技術(shù)接口與感知指標,掃清技術(shù)規(guī)模化應用的障礙,推動標準體系從單純的技術(shù)參數(shù)規(guī)范向感知體驗優(yōu)化迭代,從單一技術(shù)要求向跨領(lǐng)域協(xié)同適配升級。其核心創(chuàng)新圍繞沉浸式環(huán)境構(gòu)建、多模態(tài)交互實現(xiàn)和具身感知優(yōu)化3大技術(shù)方向展開,并與前沿技術(shù)形成精準的落地適配。
這一演進過程的核心驅(qū)動因素多元:6DoF音頻渲染、多模態(tài)協(xié)同、具身感知建模等關(guān)鍵技術(shù)的成熟落地,為標準升級筑牢核心技術(shù)支撐;觀眾對沉浸式、交互化、具身化聲音體驗的持續(xù)升級需求,推動標準從“被動呈現(xiàn)”向“主動交互”轉(zhuǎn)型;全球電影制作、放映設(shè)備廠商的技術(shù)協(xié)同訴求,要求標準統(tǒng)一技術(shù)接口與感知指標,以增強互操作性,進一步降低產(chǎn)業(yè)協(xié)作成本;而國家產(chǎn)業(yè)結(jié)構(gòu)調(diào)整的政策導向以及配套金融市場服務的資源支撐,更成為標準與技術(shù)協(xié)同升級的重要抓手。同時,日趨激烈的全球競爭態(tài)勢推動行業(yè)加速技術(shù)與標準的雙重升級,破壞式創(chuàng)新帶來的技術(shù)迭代與模式重構(gòu),也對企業(yè)的技術(shù)研發(fā)、標準適配、產(chǎn)業(yè)布局能力形成全方位挑戰(zhàn)。
在此背景下,電影聲音技術(shù)領(lǐng)域整體演進呈現(xiàn)出顯著規(guī)律:一是技術(shù)趨勢引領(lǐng)標準迭代,具身認知、沉浸式、多模態(tài)等核心技術(shù)趨勢直接決定標準升級方向,技術(shù)成熟度把控標準落地節(jié)奏;二是標準與產(chǎn)業(yè)形成雙向支撐,標準通過統(tǒng)一技術(shù)規(guī)范降低產(chǎn)業(yè)協(xié)作成本,產(chǎn)業(yè)端的應用反饋又為標準修訂提供關(guān)鍵實踐依據(jù);三是多組織協(xié)同制定標準,SMPTE、ITU、ISO等組織分工明確、協(xié)同配合,分別聚焦制作、傳輸、應用等產(chǎn)業(yè)鏈環(huán)節(jié),構(gòu)建起覆蓋全產(chǎn)業(yè)鏈的標準體系,既保障了標準的全面性與適用性,也助力行業(yè)在全球競爭中筑牢核心技術(shù)與標準優(yōu)勢。
3.3 當前電影聲音標準演進的重點方向
在行業(yè)科技創(chuàng)新和產(chǎn)業(yè)模式發(fā)展的推動下,標準的演進主要聚焦沉浸式環(huán)境構(gòu)建技術(shù)、多模態(tài)交互實現(xiàn)技術(shù)和具身認知優(yōu)化技術(shù)3個方面。
沉浸式環(huán)境構(gòu)建技術(shù)創(chuàng)新依托ISO/IEC 23008?3標準[12]與ISO/IEC 23090?4標準[3]兩大核心標準的技術(shù)支撐,二者共同奠定了三維聲對象化編碼的技術(shù)基礎(chǔ),為沉浸式聲場的基礎(chǔ)構(gòu)建提供標準化依據(jù),同時創(chuàng)新性地明確了6DoF音頻渲染核心技術(shù)指標,通過聲場插值算法實現(xiàn)全空間聲場平滑過渡,為VR/AR、全景視頻和體積視頻(Volumetric Video)等沉浸式環(huán)境應用場景提供標準支撐。上文中的標準體系如ISO/IEC 23090?4標準[3]、ITU?R BS.2051標準[26]和AES69?2020[33]等從多角度對沉浸式聲音領(lǐng)域的空間定位精度優(yōu)化進行了具體規(guī)定,聚焦聲場重建聲學參數(shù)適配要求,保障沉浸式環(huán)境的聲學真實性,其技術(shù)規(guī)范與具身認知的空間感知需求高度契合,為聲場物理屬性還原提供標準化依據(jù)。
多模態(tài)交互實現(xiàn)技術(shù)創(chuàng)新,以信號同步與設(shè)備兼容的標準化為核心,ITU?T F.748.63《基礎(chǔ)模型增強數(shù)字人系統(tǒng)的框架和一般技術(shù)要求》(Framework and general technical requirements of foundation model enhanced digital human systems)[35]包含交互協(xié)議核心要求,規(guī)范聲音與視覺、運動信號的同步機制,為多模態(tài)信號協(xié)同提供技術(shù)框架;SMPTE ST 2110?30:2025《專業(yè)媒體在受控IP網(wǎng)絡(luò)上傳輸:PCM數(shù)字音頻》(Professional Media over Managed IP Networks — PCM Digital Audio)[17]則再次規(guī)范了專業(yè)媒體IP化傳輸中的音頻信號傳輸要求,其技術(shù)指標與AES67標準規(guī)定[36]音頻接口、IPv4/IPv6傳輸協(xié)議相兼容,解決了聲音交互設(shè)備與虛擬場景系統(tǒng)的跨平臺兼容問題,為多模態(tài)協(xié)同技術(shù)的產(chǎn)業(yè)化落地提供標準化支撐。
具身認知優(yōu)化技術(shù)創(chuàng)新的核心是將人體感知與運動特性系統(tǒng)性融入視聽標準體系,沉浸式聲音相關(guān)標準明確了聲音空間定位需適配人體頭部運動特性的技術(shù)要求,通過HRTF個性化適配、人體運動狀態(tài)實時響應等規(guī)范,針對性優(yōu)化具身感知體驗;ISO/IEC 23090?4標準[3]則引入遮擋效應模擬、聲場動態(tài)適配等技術(shù)規(guī)范,基于射線追蹤算法實現(xiàn)聲音感知與人體、環(huán)境動態(tài)交互規(guī)律的匹配,為電影聲音具身化呈現(xiàn)的技術(shù)創(chuàng)新提供標準化依據(jù)。
4
我國電影聲音標準與裝備國產(chǎn)化路徑探索
4.1 我國電影聲音相關(guān)標準發(fā)展
我國已發(fā)布的電影聲音相關(guān)標準形成國家標準+行業(yè)標準的層級配套體系,覆蓋三維聲核心編碼、虛擬現(xiàn)實音頻、影院端設(shè)備應用等全場景,核心標準規(guī)范且與產(chǎn)業(yè)需求高度適配。GB/T 46271—2025《信息技術(shù) 三維聲技術(shù) 編碼、分發(fā)與呈現(xiàn)》[37]為我國自主研發(fā)的三維聲核心國家標準,2025年8月正式發(fā)布,由全國信息技術(shù)標準化技術(shù)委員會、全國廣播電視和網(wǎng)絡(luò)視聽標準化技術(shù)委員會聯(lián)合歸口。該標準以菁彩聲(Audio Vivid)為核心技術(shù)基底,是全球首個基于AI技術(shù)的音頻編解碼標準,支持多聲道聲床、音頻對象、Ambisonics聲場等多元呈現(xiàn)形式,可實現(xiàn)128軌音頻實時渲染。該技術(shù)體系通過國際電工委員會(IEC)音頻、視頻及多媒體系統(tǒng)與設(shè)備技術(shù)委員會(TC100)研制并正式發(fā)布數(shù)字音頻接口國際標準IEC 61937?17[38],實現(xiàn)沉浸式聲場構(gòu)建方面的國際化突破,并被IEC、ITU、國際數(shù)字視頻廣播組織(DVB)三大國際組織采納,躋身全球四大三維聲音頻標準之列,成為國產(chǎn)沉浸式音頻裝備的核心標準支撐。
GB/T 44115.3標準[11]于2025年2月發(fā)布并于9月正式實施,由國家市場監(jiān)督管理總局、國家標準化管理委員會發(fā)布,全國信息技術(shù)標準化技術(shù)委員會歸口,清華大學、中國電子技術(shù)標準化研究院等單位聯(lián)合起草,是我國虛擬現(xiàn)實音頻領(lǐng)域的首個國家標準,規(guī)范了虛擬現(xiàn)實場景下音頻的內(nèi)容表達、技術(shù)要求與實現(xiàn)方式,為電影虛擬現(xiàn)實沉浸式音頻制作、呈現(xiàn)提供統(tǒng)一技術(shù)規(guī)范,填補了我國虛擬視聽音頻標準的空白。
T/UWA 038.3-1—2025《菁彩影院技術(shù) 第3-1部分:菁彩聲影院端音頻處理器技術(shù)要求和測量方法》[39]為團體標準,由中國電影科學技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測所)等單位起草并于2025年發(fā)布實施,聚焦影院端菁彩聲音頻處理器核心技術(shù)要求,明確影院端音頻處理器音頻通路動態(tài)范圍、總諧波失真等關(guān)鍵性能指標,規(guī)范沉浸式聲音播放設(shè)備的測量方法,適應國內(nèi)影院實際放映場景需求,為菁彩聲技術(shù)在影院場景的規(guī)模化落地提供行業(yè)支撐。
4.2 自主知識產(chǎn)權(quán)電影聲音裝備發(fā)展現(xiàn)狀和挑戰(zhàn)
電影聲音裝備國產(chǎn)化聚焦沉浸式音頻處理器、多模態(tài)交互終端、聲場渲染設(shè)備等核心品類的自主研發(fā)、生產(chǎn)與應用,目前在核心領(lǐng)域已取得階段性突破并形成梯度發(fā)展格局,中低端沉浸式音頻處理器已實現(xiàn)國產(chǎn)化并在國內(nèi)中小影院市場形成一定市場份額,聲場渲染設(shè)備可滿足常規(guī)電影制作需求并落地國內(nèi)部分影視制作場景,多模態(tài)交互終端則尚處研發(fā)起步階段,暫未形成成熟產(chǎn)品與規(guī)模化應用場景。
國產(chǎn)化裝備的核心優(yōu)勢集中于產(chǎn)業(yè)生態(tài)與本土場景適配層面,國內(nèi)已形成從芯片設(shè)計、設(shè)備制造到終端應用的完整產(chǎn)業(yè)鏈,成本控制能力較強且產(chǎn)品具備價格優(yōu)勢,同時裝備研發(fā)契合國內(nèi)影院放映、影視制作的實際需求,在兼容性、操作便捷性等方面更適配國內(nèi)用戶使用習慣,加之發(fā)展超高清視頻產(chǎn)業(yè)、建設(shè)電影強國等政策扶持,行業(yè)研發(fā)投入持續(xù)增加,產(chǎn)業(yè)化進程得以加速推進。
當前我國電影聲音裝備國產(chǎn)化發(fā)展仍面臨多重挑戰(zhàn),受產(chǎn)業(yè)上下游配套及微電子產(chǎn)業(yè)發(fā)展環(huán)境制約,高端領(lǐng)域與國際先進水平存在明顯差距,核心問題體現(xiàn)在4方面:一是高端核心技術(shù)存在代差,6DoF音頻渲染、個性化HRTF建模、多模態(tài)協(xié)同處理等核心算法對外依賴度較高,高端裝備市場仍被國際品牌壟斷;二是具身感知類裝備研發(fā)滯后,缺乏適配具身認知導向的感知優(yōu)化裝備,難以滿足行業(yè)具身化聲音體驗的市場需求;三是部分產(chǎn)品標準符合性不足,技術(shù)指標與國際主流標準存在偏差,認證體系建設(shè)有待完善,導致產(chǎn)品出口受限,難以有效融入全球產(chǎn)業(yè)鏈;四是產(chǎn)業(yè)上下游配套支撐能力不足,微電子產(chǎn)業(yè)在高算力音頻處理芯片、高精度傳感器等核心硬件領(lǐng)域的發(fā)展短板,直接制約高端裝備的研發(fā)與生產(chǎn),同時上游核心元器件對外采購比例較高,供應鏈穩(wěn)定性受外部環(huán)境影響,下游應用場景相對單一,高端市場突破難度較大。
4.3 我國電影聲音標準研制發(fā)展方向
回顧上述國產(chǎn)化發(fā)展面臨的核心挑戰(zhàn),從國際標準對標視角進一步分析不難發(fā)現(xiàn),我國電影聲音標準雖在沉浸式聲場編碼等基礎(chǔ)領(lǐng)域?qū)崿F(xiàn)與國際標準兼容,核心技術(shù)指標達到國際先進水平,但從整體來看,標準的系統(tǒng)性和前瞻性仍有待進一步提升。
在標準體系方面,當前我國正逐步構(gòu)建具身感知與多模態(tài)協(xié)同的標準框架,在人體運動適配、個性化感知優(yōu)化、多模態(tài)交互協(xié)議及信號同步機制等細分領(lǐng)域仍存在缺失。隨著標準與裝備研發(fā)協(xié)同機制的持續(xù)優(yōu)化,未來有望進一步發(fā)揮標準對技術(shù)創(chuàng)新的引領(lǐng)作用,推動裝備技術(shù)指標更加貼合實際應用需求,降低核心算法對外依存度,為構(gòu)建自主可控的技術(shù)體系奠定堅實基礎(chǔ)。
在技術(shù)內(nèi)容層面,國產(chǎn)標準在具身感知適配與多模態(tài)協(xié)同協(xié)議等關(guān)鍵方向上尚有提升空間,這反映出我們正處于關(guān)鍵技術(shù)快速追趕和突破的窗口期。通過加大研發(fā)投入與跨領(lǐng)域協(xié)同創(chuàng)新,國內(nèi)技術(shù)力量有望迅速補齊短板,實現(xiàn)具身化與多模態(tài)交互關(guān)鍵技術(shù)的本地化落地。伴隨核心性能指標不斷對標國際先進水平,國產(chǎn)裝備將顯著提升具身交互體驗質(zhì)量,拓展多模態(tài)技術(shù)在多元場景中的應用潛力,從而有力支撐國產(chǎn)化裝備加快邁向中高端市場。
在產(chǎn)業(yè)應用方面,盡管我國當前以傳統(tǒng)沉浸式音頻應用為主,具身感知與多模態(tài)交互的產(chǎn)業(yè)化仍處于探索和試點推廣階段,但這一現(xiàn)狀也預示了廣闊的發(fā)展前景與后發(fā)優(yōu)勢。隨著應用場景的不斷豐富與滲透率的穩(wěn)步提升,一個以“標準引領(lǐng)-裝備研發(fā)-場景應用”為主線的良性產(chǎn)業(yè)生態(tài)正在逐步形成。未來,依托豐富的應用實踐與持續(xù)優(yōu)化的標準體系,我國有望在具身智能和多模態(tài)交互領(lǐng)域打造具有全球影響力的產(chǎn)業(yè)高地,進一步增強國產(chǎn)裝備的國際競爭力和品牌影響力。
5
結(jié)語與展望
人工智能(AI)作為全球新一輪科技革命的關(guān)鍵驅(qū)動力,其產(chǎn)業(yè)特性決定了標準化能力對產(chǎn)業(yè)質(zhì)量提升的重要意義;具身智能作為國家戰(zhàn)略布局的未來產(chǎn)業(yè)新賽道,已正式納入“十五五”規(guī)劃,成為培育新質(zhì)生產(chǎn)力、推動經(jīng)濟發(fā)展的新引擎[40,41],為我國電影聲音裝備國產(chǎn)化提供了重要發(fā)展契機與戰(zhàn)略指引。結(jié)合國際標準演進規(guī)律與我國國產(chǎn)化發(fā)展實際,電影聲音裝備國產(chǎn)化需跳出路徑依賴,堅守“標準引領(lǐng)、技術(shù)創(chuàng)新、協(xié)同發(fā)展、國際適配”核心原則,構(gòu)建差異化高質(zhì)量發(fā)展路徑,立足國內(nèi)產(chǎn)業(yè)需求、對接國際先進規(guī)范,破解高端短板、打通發(fā)展堵點,形成“技術(shù)自主-標準適配-產(chǎn)業(yè)落地-國際拓展”的良性循環(huán)。
我國電影行業(yè)可依托國際標準演進的技術(shù)導向,聚焦三大核心裝備領(lǐng)域,開展有針對性的精準突破:一是在沉浸式環(huán)境裝備領(lǐng)域,行業(yè)以國際相關(guān)標準為對標核心,重點攻克6DoF音頻渲染、聲場插值優(yōu)化、遮擋效應模擬等關(guān)鍵技術(shù),著力構(gòu)建契合中國人群聽覺特性的個性化HRTF樣本數(shù)據(jù)庫,系統(tǒng)性填補國內(nèi)在該領(lǐng)域的技術(shù)空白,進一步強化國產(chǎn)裝備在具身感知適配方面的能力。二是在多模態(tài)交互裝備領(lǐng)域,科研機構(gòu)與企業(yè)共同借鑒國際多模態(tài)協(xié)同相關(guān)標準規(guī)范,重點研發(fā)支持多模態(tài)信號協(xié)同處理的核心器件,持續(xù)優(yōu)化跨模態(tài)信號的同步機制,開發(fā)兼具低成本和高適配性的交互終端產(chǎn)品,切實推動多模態(tài)交互技術(shù)的規(guī)模化應用與整體成本優(yōu)化。三是在具身認知導向感知優(yōu)化裝備領(lǐng)域,高校、研究院所及相關(guān)企業(yè)參考國際感知優(yōu)化標準的具體要求,聯(lián)合攻關(guān)人體運動與聲場動態(tài)匹配等感知適配技術(shù),開發(fā)相應裝備。同時,構(gòu)建科學完善的具身化聲音評價體系與量化評估指標,為國產(chǎn)裝備性能驗證提供理論依據(jù)和技術(shù)支撐,確保其感知體驗能夠達到國際先進水平。
在標準體系構(gòu)建方面,我國電影行業(yè)應以國際標準為標桿,持續(xù)完善國產(chǎn)標準體系,強化標準對技術(shù)創(chuàng)新與產(chǎn)業(yè)發(fā)展的賦能效能,系統(tǒng)破解國產(chǎn)化發(fā)展過程中的標準瓶頸。一方面,加快補充具身認知導向的感知優(yōu)化、多模態(tài)交互協(xié)議等關(guān)鍵領(lǐng)域的規(guī)范內(nèi)容,實現(xiàn)國內(nèi)標準與國際標準的精準對接與協(xié)同發(fā)展;另一方面,注重增強不同層級、不同領(lǐng)域標準之間的協(xié)同性,構(gòu)建起覆蓋“感知-交互-裝備”全鏈條的完整標準體系,有效避免規(guī)范交叉與沖突。此外,應建立健全標準與技術(shù)創(chuàng)新間的聯(lián)動更新機制,縮短標準研制和修訂周期,確保標準具備良好的時效性與前瞻性,全面發(fā)揮標準對裝備研發(fā)方向的引領(lǐng)與工程實踐的支撐作用。
在推動國產(chǎn)化裝備國際化布局方面,我國電影行業(yè)應以核心標準的國際影響力為依托,引導和支持國產(chǎn)裝備積極通過國際標準認證,嚴格對標國際市場的技術(shù)準入門檻,穩(wěn)步拓展海外應用市場,實現(xiàn)從“跟標適配”向“對標引領(lǐng)”的戰(zhàn)略躍升。同時,鼓勵國內(nèi)產(chǎn)學研各界深度參與國際標準研制工作,主動將我國自主研發(fā)的關(guān)鍵技術(shù)和典型產(chǎn)業(yè)實踐經(jīng)驗融入國際標準體系,持續(xù)提升我國在電影聲音等標準領(lǐng)域的影響力和話語權(quán),為國產(chǎn)裝備“走出去”營造更有利的制度環(huán)境。通過在國際市場開展試點示范應用,驗證國產(chǎn)技術(shù)與裝備的實用性與可靠性,進一步加快產(chǎn)業(yè)化推廣步伐,推動我國電影聲音裝備國產(chǎn)化邁入高質(zhì)量發(fā)展的新階段,為我國實現(xiàn)從電影大國向電影強國的邁進提供有力支撐。
參考文獻
(向下滑動閱讀)
[1] 張靖博.后電影聲景:數(shù)字聲音的具身性重構(gòu)[J/OL].未來傳播,1?9[2026?02?02].https://doi.org/10.13628/j.cnki.zjcmxb.20251219.004.
[2] MRóZ B, KABACI?SKI M, CIOTUCHA T, et al. Production of six?degrees?of?freedom (6DoF) navigable audio using 30 Ambisonic microphones[C]//IEEE 2021 Immersive and 3D Audio: from Architecture to Automotive (I3DA) , 2021:1?5.
[3] ISO. Information technology — Coded representation of immersive media — Part 4: MPEG-I immersive audio: ISO/IEC 23090-4:2025[S],2025
[4] WOODARD B, GELETA M, LAVIOLA J J, et al. AudioMiXR: Spatial audio object manipulation with 6D oF for sound design in augmented reality[C]//Proceedings of ACM Interact. Mob. Wearable Ubiquitous Technol, 2025, 9(3):1?41.
[5] 國家廣播電視總局. 三維聲編解碼及渲染:GY/T 363—2023[S]. 北京:中國標準出版社,2023.
[6] 陳巍,殷融,張靜.具身認知心理學:大腦、身體與心靈的對話[M]. 北京:科學出版社,2021.
[7] 張霞,鄒悅.光影之外的聲音魅力——評《電影聲音的故事建構(gòu)》[EB/OL].(2025?02?06)[2026?03?04].https://www.cflac.org.cn/xw/202502/t20250206_1338356.html.
[8] VARELA F J, THOMPSON E, ROSCH E. The embodied mind: Cognitive science and human experience[M]. Massachusetts: The MIT Press,1991.
[9] 杜鑫. 空間、具身、互動和引導:VR電影敘事的邏輯[J]. 電影新作, 2023(01): 92?101.
[10] 董強國. 數(shù)字電影沉浸式音頻渲染技術(shù)和評價方法研究[J]. 現(xiàn)代電影技術(shù), 2024(10): 37?43.
[11] 方捷新.標準化將促進沉浸式聲音技術(shù)健康有序發(fā)展[J].現(xiàn)代電影技術(shù),2017(05):63.
[12] ISO.Information technology — High efficiency coding and media delivery in heterogeneous environments — Part 3: 3D audio: ISO/IEC 23008?3:2026[S],2026.
[13] 信息技術(shù) 虛擬現(xiàn)實內(nèi)容表達 第3部分: 音頻:GB/T 44115.3?2025[S],2025.
[14] 王豐. 電影沉浸式音頻碼流規(guī)范及功能特性研究[J]. 現(xiàn)代電影技術(shù), 2024(03): 39?45,52.
[15] 王豐. 數(shù)字電影沉浸式音頻元數(shù)據(jù)與聲場組相關(guān)技術(shù)標準解析[J]. 現(xiàn)代電影技術(shù), 2023(05): 41?46,40.
[16] 董強國, 龔波. 數(shù)字電影沉浸式音頻實時處理技術(shù)研究[J]. 現(xiàn)代電影技術(shù), 2024(04): 7?14,21.
[17] SMPTE. Professional Media Over Managed IP Networks — PCM Digital Audio: ST 2110?30:2025[EB/OL].(2025?10?01)[2026?03?04].https://drastic.tv/images/documentation/st2110-30-2025.pdf.
[18] 毛瀟涵,朱宸銘,王泰,等.M3Fusion:面向具身3D感知的統(tǒng)一多視角多模態(tài)融合框架[J].中國科學:信息科學,2026,56(02):312?326.
[19] 喻國明,張競文,李子元,等.從表征傳播到預測傳播:空間智能語境下具身傳播的新范式[J].學術(shù)探索,2025(11):49?59.
[20] International Telecommunication Union Radiocommunication Sector. Audio definition model: Rec. ITU?R BS.2076?3[S],2025.
[21] International Telecommunication Union Standardization Sector. Requirements of interactive immersive services: ITU?T H.430.7[S],2023.
[22] International Telecommunication Union Radiocommunication Sector. Collection of usage scenarios of advanced immersive sensory media systems: ITU?R BT.2420?8[S],2025.
[23] AGREVAL S, SIMON A, BECH S, et al. Defining Immersion: Literature Review and Implications for Research on Immersive Audiovisual Experiences[J].Journal of Audio Engineering Society, 2019,68(6), 404?417.
[24] DISCH S, TERENTIV L, KOPPENS J, et al. MPEG?I Immersive Audio – The Technology Of The New Standard For Virtual / Augmented Reality Audio[EB/OL].(2025?10?14)[2026?03?04].https://aes.org/publications/elibrary-page/?id=23078.
[25] 國際電信聯(lián)盟.ITU?R BS.775?4建議書 帶有和無附圖的多聲道立體聲系統(tǒng)[EB/OL].(2023?03?07)[2026?03?04].https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.775-4-202212-I!!PDF-C.pdf.
[26] 國際電信聯(lián)盟.ITU?R BS.2051?3建議書 用于節(jié)目制作的高級音響系統(tǒng)[EB/OL].(2023?05?02)[2026?03?04].https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.2051-3-202205-I!!PDF-C.pdf.
[27] International Telecommunication Union Radiocommunication Sector. Long?form file format for the international exchange of audio programme materials with metadata: ITU?R BS.2088?2[S],2025.
[28] 國際電信聯(lián)盟.ITU?R BS.2127?0建議書 高級音響系統(tǒng)的音頻定義模型渲染器[EB/OL].(2023?11?03)[2026?03?04].https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.2127-0-201906-S!!PDF-C.pdf.
[29] International Telecommunication Union Radiocommunication Sector. Guidelines for the use of the ITU?R ADM Renderer[EB/OL].(2019?10?01)[2026?03?04].https://www.itu.int/pub/R-REP-BS.2466-2019.
[30] ISO/IEC 23090?2:2023:Information technology — Coded representation of immersive media Part 2: Omnidirectional media format[EB/OL].(2023?06?09)[2026?03?04].https://webstore.iec.ch/en/publication/86236.
[31] International Telecommunication Union Radiocommunication Sector. Multichannel sound technology in home and broadcasting applications: ITU?R BS.2159?9[S],2022.
[32] International Telecommunication Union Radiocommunication Sector. Production workflows for advanced sound system: ITU?R BS.2555?0[S],2025.
[33] Audio Engineering Society. AES standard for file exchange?Spatial acoustic data file format: AES69?2020[S],2020.
[34] International Telecommunication Union Standardization Sector.Guidelines for safe listening devices/systems: ITU?T H.870[S],2022.
[35] International Telecommunication Union Standardization Sector.Framework and general technical requirements of foundation model enhanced digital human systems: ITU?T F.748.63[S],2025.
[36] Audio Engineering Society. AES Standard for Audio Applications of Networks?High?performance streaming audio?over?IP interoperability: AES67?2023[S],2023.
[37] 全國信息技術(shù)標準化技術(shù)委員會,全國廣播電視和網(wǎng)絡(luò)視聽標準化技術(shù)委員會.信息技術(shù) 三維聲技術(shù) 編碼、分發(fā)與呈現(xiàn): GB/T 46271—2025[S], 2025.
[38] Digital audio ? Interface for non?linear PCM encoded audio bitstreams applying IEC 60958 ? Part 17: Non?linear PCM bitstreams according to the AVS3?P3 format: IEC 61937?17: 2025[S],2025.
[39] 世界超高清視頻產(chǎn)業(yè)聯(lián)盟.菁彩影院技術(shù) 第3-1部分:菁彩聲影院端音頻處理器技術(shù)要求和測量方法:T/UWA 038.3-1—2025[S/OL].(2025?10?15)[2026?03?04].https://www.theuwa.com//upload/ueditor/file/20251015/176048926 5169653/d6adb9139d5b2416c736c2747163a78e.pdf.
[40] 楊子怡,鄧聰.具身智能加速落地產(chǎn)業(yè)發(fā)展領(lǐng)跑全球[N].人民郵電,2026?01?21(001).DOI:10.28659/n.cnki.nrmyd.2026.000095.
[41] 李群.融智于身,賦形以慧:以具身智能擘畫中國現(xiàn)代化產(chǎn)業(yè)新圖景[J].中國科技論壇,2026(01):3.DOI:10.13580/j.cnki.fstc.2026.01.001.
期刊導讀 |《現(xiàn)代電影技術(shù)》2026年第3期
影視數(shù)字資產(chǎn)的智能構(gòu)建:基于Multi?SLAM+3DGS技術(shù)的三維數(shù)字重建方案研究
電影SDR與HDR映射結(jié)構(gòu)研究——基于ASC StEM2技術(shù)測試片的實證分析
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.