本文精選自《廣播與電視技術(shù)》2025第11期,閱讀原文請(qǐng)?jiān)L問“廣電獵酷”小程序“”。

近年來,人工智能生成內(nèi)容(AIGC)技術(shù)的迅猛發(fā)展,為數(shù)字人制作提供了新路徑。針對(duì)廣電行業(yè)對(duì)高頻次、低成本數(shù)字人內(nèi)容的迫切需求,本研究提出了一條基于AIGC的輕量化廣電數(shù)字人生成路徑。該路徑通過充分運(yùn)用各類AIGC技術(shù),摒棄了依賴專業(yè)硬件與復(fù)雜工藝的“重”制作模式,轉(zhuǎn)向以智能化、自動(dòng)化為核心的“輕”生成范式,通過流程整合與資源協(xié)同,實(shí)現(xiàn)生成效率與內(nèi)容質(zhì)量的最優(yōu)平衡。
本文作者:
呂晨,任海全 北京廣播電視臺(tái)
第一作者簡(jiǎn)介:
呂晨(1989—),女,北京廣播電視臺(tái)高級(jí)工程師,碩士。主要從事廣播播出系統(tǒng)的研究、AIGC及其在廣播電視行業(yè)的應(yīng)用研究。
NO.1
輕量化廣電數(shù)字人生成路徑的整體設(shè)計(jì)
1.1設(shè)計(jì)目標(biāo)與核心原則
本路徑的設(shè)計(jì)整合多種 AIGC 技術(shù),確立了明確的輕量化目標(biāo):實(shí)現(xiàn)高頻生產(chǎn),支持日更級(jí)內(nèi)容輸出;確保成本可控,顯著降低專業(yè)設(shè)備與人員依賴 ;保障質(zhì)量達(dá)標(biāo),滿足廣電播出基本要求。
為實(shí)現(xiàn)這些目標(biāo),路徑構(gòu)建了三大核心原則 :并行發(fā)起,在流程設(shè)計(jì)上實(shí)現(xiàn)視覺與語音支路的同步啟動(dòng);串行依賴,在各支路內(nèi)部基于 AIGC 技術(shù)特性建立穩(wěn)定處理序列 ;審核閉環(huán),在 AIGC 生成關(guān)鍵節(jié)點(diǎn)嵌入人工審核,確保內(nèi)容安全與質(zhì)量。
1.2生成路徑的流程剖析
基于 AIGC 技術(shù)構(gòu)建的輕量化廣電數(shù)字人生成路徑,包含了視覺與語音兩條并行生成支路及最終合成環(huán)節(jié)(如圖1所示),各環(huán)節(jié)通過 AIGC 技術(shù)的輸入輸出關(guān)系緊密銜接,并在關(guān)鍵節(jié)點(diǎn)設(shè)有審核機(jī)制以確保內(nèi)容質(zhì)量。
![]()
圖1 輕量化數(shù)字人生成路徑示意圖
該路徑具體流程充分體現(xiàn)了多種 AIGC 技術(shù)的協(xié)同應(yīng)用:視覺支路通過 AIGC 文生圖 / 圖生圖模型將文本或圖像輸入轉(zhuǎn)化為數(shù)字人靜態(tài)形象 ;語音支路借助 AIGC 大語言模型生成播報(bào)文案,再通過 AIGC 語音合成技術(shù)轉(zhuǎn)化為語音音頻。在合成環(huán)節(jié),基于 AIGC 音頻驅(qū)動(dòng)技術(shù)將靜態(tài)形象與語音音頻融合,生成口型精準(zhǔn)匹配的廣電數(shù)字人播報(bào)視頻。最終輸出前需經(jīng)過成品質(zhì)量審核,確保內(nèi)容符合播出標(biāo)準(zhǔn)。
整個(gè)流程通過合理的并行設(shè)計(jì)提升效率,基于 AIGC 技術(shù)邏輯的串行執(zhí)行保證可靠性,并結(jié)合多重審核機(jī)制確保內(nèi)容質(zhì)量與安全。
1.3“輕量化”在路徑中的體現(xiàn)
本路徑的“輕量化”特質(zhì)源于 AIGC技術(shù)的全方位賦能,具體體現(xiàn)在三個(gè)層面:
1.流程輕便:通過科學(xué)的流程設(shè)計(jì)實(shí)現(xiàn)多支路并行執(zhí)行,充分發(fā)揮不同 AIGC技術(shù)的獨(dú)立處理能力,大幅壓縮生產(chǎn)周期。
2.資產(chǎn)輕盈:通過 AIGC 生成技術(shù)直接輸出標(biāo)準(zhǔn)化視頻文件,摒棄了龐大的三維模型數(shù)據(jù),極大降低了存儲(chǔ)與傳輸需求。
3.操作輕捷:依托 AIGC 技術(shù)的友好交互特性,內(nèi)容創(chuàng)作者無需專業(yè)三維軟件技能,即可實(shí)現(xiàn)高效的數(shù)字人內(nèi)容創(chuàng)作。
該路徑通過多種 AIGC 技術(shù)在流程中的有機(jī)組合,構(gòu)建了真正意義上的輕量化廣電數(shù)字人生產(chǎn)解決方案,為行業(yè)規(guī)模化應(yīng)用提供了可靠路徑。
NO.2
關(guān)鍵技術(shù)與實(shí)現(xiàn)
本章將系統(tǒng)闡述輕量化廣電數(shù)字人生成路徑中各環(huán)節(jié)所依托的核心 AIGC 技術(shù)。這些技術(shù)共同構(gòu)成了從文本描述到最終視頻內(nèi)容的自動(dòng)化生成基礎(chǔ),是實(shí)現(xiàn)輕量化生產(chǎn)目標(biāo)的技術(shù)保障。
2.1視覺資產(chǎn)生成環(huán)節(jié)的關(guān)鍵技術(shù)
視覺資產(chǎn)生成環(huán)節(jié)主要依托 AIGC 領(lǐng)域的圖像生成技術(shù),具體包括文生圖與圖生圖兩類生成方式。通過 AIGC 模型對(duì)輸入信息的深度語義理解與視覺重構(gòu),能夠高效生成符合要求的廣電數(shù)字人靜態(tài)形象。
國(guó)內(nèi)主流平臺(tái)如文心一言、通義萬相和即夢(mèng) AI 等在中文語境理解和文化特征表現(xiàn)方面具有顯著優(yōu)勢(shì),能夠準(zhǔn)確解析包含特定文化元素的描述詞,更好地適配廣電行業(yè)需求。提示詞工程對(duì)生成質(zhì)量至關(guān)重要,采用涵蓋主體、細(xì)節(jié)、環(huán)境與風(fēng)格的結(jié)構(gòu)化提示策略可有效改善輸出效果。技術(shù)選型應(yīng)兼顧生成質(zhì)量、計(jì)算效率與文化適配性,上述國(guó)產(chǎn) AIGC 模型在這些方面的綜合優(yōu)勢(shì)明顯,更適合廣電行業(yè)的輕量化應(yīng)用場(chǎng)景。
2.2語音資產(chǎn)生成環(huán)節(jié)的關(guān)鍵技術(shù)
語音資產(chǎn)生成環(huán)節(jié)充分利用 AIGC 技術(shù)在自然語言處理與語音合成方面的能力。在文案生成方面,DeepSeek、通義千問、文心一言等國(guó)產(chǎn)大語言模型能夠依據(jù)主題快速生成結(jié)構(gòu)嚴(yán)謹(jǐn)、表達(dá)準(zhǔn)確且符合中文語境和文化習(xí)慣的播報(bào)文案。
語音合成環(huán)節(jié)優(yōu)先選用國(guó)內(nèi)技術(shù)方案,MiniMax Speech-02 等商用 AIGC 語音合成方案可以提供高質(zhì)量的云端 API 服務(wù),支持高質(zhì)量聲音復(fù)刻與多情感語音合成,適合廣電行業(yè)快速集成與應(yīng)用。另一方面,IndexTTS2、VibeVoice 等開源AIGC 語音合成技術(shù)支持本地化部署,雖需自行配置推理環(huán)境,但具備更高的數(shù)據(jù)安全性和定制靈活性。
實(shí)際系統(tǒng)構(gòu)建中,可通過靈活調(diào)用云端 API 或部署本地TTS 引擎,將大語言模型與語音合成服務(wù)高效集成,形成端到端的自動(dòng)化語音生產(chǎn)流程,為廣電行業(yè)提供高質(zhì)量、高效率的語音生成解決方案。
2.3音頻驅(qū)動(dòng)與視頻輸出環(huán)節(jié)的關(guān)鍵技術(shù)
音頻驅(qū)動(dòng)與視頻輸出環(huán)節(jié)是廣電數(shù)字人生產(chǎn)流程中的核心技術(shù)階段,承擔(dān)著通過輸入音頻驅(qū)動(dòng)靜態(tài)數(shù)字人圖像生成最終播出視頻的關(guān)鍵任務(wù),其性能直接決定數(shù)字人內(nèi)容的音畫同步質(zhì)量與視覺表現(xiàn)力。
目前,已有多種成熟可靠的 AIGC 技術(shù)能夠?yàn)檫@一環(huán)節(jié)的實(shí)現(xiàn)提供有力支持。Wan2.2-S2V 基于擴(kuò)散模型實(shí)現(xiàn)高精度口型同步與電影級(jí)視頻生成,在單人播報(bào)場(chǎng)景中表現(xiàn)優(yōu)異。MultiTalk 通過創(chuàng)新的標(biāo)簽旋轉(zhuǎn)位置嵌入技術(shù),有效解決多角色對(duì)話場(chǎng)景中的音畫綁定難題,適用于訪談、節(jié)目等多人群場(chǎng)景。InfiniteTalk 采用稀疏幀視頻配音和流式生成架構(gòu),在確保口型同步精度的同時(shí)實(shí)現(xiàn)長(zhǎng)視頻生成與全身動(dòng)作的連貫性。
上述 AIGC 技術(shù)均以開源形式提供,支持本地化部署,便于依據(jù)廣播電視業(yè)務(wù)的具體需求進(jìn)行靈活選擇與適配,為廣電數(shù)字人技術(shù)的大規(guī)模應(yīng)用提供可靠的技術(shù)支持。
2.4技術(shù)集成與實(shí)現(xiàn)考量
在輕量化廣電數(shù)字人生成路徑的整體實(shí)現(xiàn)中,需要基于AIGC 技術(shù)特點(diǎn)統(tǒng)籌以下關(guān)鍵要素 :
1. 效果與效率的協(xié)同 :平衡 AIGC 生成質(zhì)量與推理速度,優(yōu)先采用高效且支持分布式部署的模型,在滿足口型同步度、畫面真實(shí)感等基本播出要求的同時(shí)保障時(shí)效性。
2. 資源優(yōu)化與成本控制 :通過模型量化、顯存優(yōu)化與多任務(wù)調(diào)度降低 AIGC 模型資源開銷,積極利用國(guó)產(chǎn)化推理框架與硬件適配控制成本,支撐大規(guī)模應(yīng)用。
3. 可擴(kuò)展性與質(zhì)量保障 :保持技術(shù)架構(gòu)的模塊化和開放性,為后續(xù) AIGC 算法迭代和多風(fēng)格擴(kuò)展預(yù)留能力。建立全流程質(zhì)量校驗(yàn)機(jī)制,對(duì)生成結(jié)果的音畫同步、語義一致性等關(guān)鍵指標(biāo)進(jìn)行監(jiān)測(cè)與篩選。
通過以上維度的統(tǒng)籌設(shè)計(jì),能夠構(gòu)建既滿足輕量化要求,又兼顧業(yè)務(wù)適應(yīng)性的廣電數(shù)字人生成路徑,為 AIGC 技術(shù)在廣電行業(yè)的深度應(yīng)用提供實(shí)踐基礎(chǔ)。
NO.3
實(shí)踐成果與流程驗(yàn)證
為驗(yàn)證技術(shù)路徑的可行性,前述基于 AIGC 的輕量化廣電數(shù)字人生成路徑在典型廣電場(chǎng)景中完成了全流程驗(yàn)證,積累了實(shí)踐經(jīng)驗(yàn)并取得了階段性成果。
3.1典型場(chǎng)景的流程驗(yàn)證與初步成果
該技術(shù)路徑已在以下三類典型場(chǎng)景中完成應(yīng)用驗(yàn)證 :
1.應(yīng)急預(yù)警播報(bào)場(chǎng)景:通過大雨紅色預(yù)警播報(bào)的實(shí)踐(如圖 2 所示),驗(yàn)證了基于 AIGC 的輕量化廣電數(shù)字人在緊急信息發(fā)布方面的快速響應(yīng)能力。
![]()
圖2 廣電數(shù)字人在應(yīng)急預(yù)警播報(bào)場(chǎng)景中的應(yīng)用
2.重大活動(dòng)播報(bào)場(chǎng)景:圍繞 2025 年北京文化論壇、服貿(mào)會(huì)等重大活動(dòng),開展了即時(shí)新聞播報(bào)驗(yàn)證(如圖 3 所示)。
![]()
圖3 廣電數(shù)字人在重大活動(dòng)播報(bào)場(chǎng)景中的應(yīng)用
3.生活服務(wù)類播報(bào)場(chǎng)景:以二十四節(jié)氣介紹為代表,驗(yàn)證了廣電數(shù)字人在生活資訊領(lǐng)域的適用性。通過 AIGC 技術(shù)將傳統(tǒng)文化知識(shí)轉(zhuǎn)化為親切易懂的短視頻,單期制作時(shí)間約 5 小時(shí),展現(xiàn)了輕量化廣電數(shù)字人在日常節(jié)目制作中的便捷性與親和力,為生活服務(wù)類內(nèi)容創(chuàng)新提供了新的技術(shù)路徑。
3.2當(dāng)前應(yīng)用效能的階段性評(píng)估
通過多場(chǎng)景實(shí)踐驗(yàn)證,基于 AIGC 的輕量化廣電數(shù)字人生成路徑在應(yīng)用效能上展現(xiàn)出三方面優(yōu)勢(shì) :制作效率顯著提升,時(shí)政類內(nèi)容生產(chǎn)周期從數(shù)天縮短至小時(shí)級(jí);成本控制效果明顯,減少了對(duì)專業(yè)攝像、后期人員的依賴 ;內(nèi)容質(zhì)量基本達(dá)標(biāo),口型同步與畫面質(zhì)量滿足新媒體端播出要求。特別是在政務(wù)與應(yīng)急場(chǎng)景中,技術(shù)路徑展現(xiàn)出快速響應(yīng)、靈活生產(chǎn)的特點(diǎn),為構(gòu)建現(xiàn)代化公共服務(wù)體系提供了技術(shù)支撐。
3.3實(shí)踐過程中暴露的局限性
在取得初步成果的同時(shí),實(shí)踐過程中也發(fā)現(xiàn)當(dāng)前技術(shù)路徑在廣電高標(biāo)準(zhǔn)場(chǎng)景下存在的局限性 :數(shù)字人表現(xiàn)力仍顯不足,面部表情單一,缺乏細(xì)膩情感變化,影響內(nèi)容感染力;動(dòng)作自然度有待提升,除口型同步外,頭部與身體的自然微動(dòng)作缺失,觀感略顯生硬 ;系統(tǒng)集成度較低,各技術(shù)環(huán)節(jié)仍為獨(dú)立工具,未與制播系統(tǒng)深度打通,文件傳遞依賴人工操作,影響工作效率。
NO.4
應(yīng)用展望與后續(xù)工作設(shè)想
基于實(shí)踐驗(yàn)證中發(fā)現(xiàn)的技術(shù)局限,后續(xù)工作將重點(diǎn)圍繞技術(shù)深化與流程優(yōu)化兩個(gè)維度展開,進(jìn)一步提升輕量化廣電數(shù)字人的實(shí)用性與易用性。
4.1 技術(shù)深化
在數(shù)字人表現(xiàn)力方面,通過引入更先進(jìn)的 AIGC 情感化語音合成模型,提升語音播報(bào)的情感豐富度 ;同時(shí)優(yōu)化 AIGC 提示詞工程,增強(qiáng)面部微表情與肢體動(dòng)作的自然度,著力提升廣電數(shù)字人的視覺表現(xiàn)力與內(nèi)容感染力。
在流程集成方面,致力于構(gòu)建一體化的輕量化廣電數(shù)字人生產(chǎn)工作流。通過開發(fā)統(tǒng)一的 AIGC 技術(shù)調(diào)度平臺(tái),打通從文案生成到視頻輸出的各個(gè)環(huán)節(jié),減少人工干預(yù) ;同時(shí)推動(dòng)與現(xiàn)有制播系統(tǒng)的 API 對(duì)接,實(shí)現(xiàn)廣電數(shù)字人內(nèi)容的自動(dòng)化歸檔與發(fā)布,全面提升生產(chǎn)效率。
4.2 應(yīng)用優(yōu)化
針對(duì)已驗(yàn)證的典型場(chǎng)景,將進(jìn)一步固化生產(chǎn)流程,開發(fā)適用于不同場(chǎng)景的專用模板。通過優(yōu)化提示詞工程與參數(shù)配置,提升內(nèi)容生成的質(zhì)量穩(wěn)定性。同時(shí),建立常態(tài)化的質(zhì)量監(jiān)測(cè)機(jī)制,對(duì)生成內(nèi)容的音畫同步、語義一致性等關(guān)鍵指標(biāo)進(jìn)行持續(xù)優(yōu)化,確保播出質(zhì)量。
通過以上技術(shù)路徑的持續(xù)完善,基于 AIGC 的輕量化廣電數(shù)字人將在廣電行業(yè)的數(shù)字化轉(zhuǎn)型中發(fā)揮更重要的作用,為高頻次、高質(zhì)量的內(nèi)容生產(chǎn)提供可靠的技術(shù)支撐。
NO.5
結(jié)束語
本研究成功構(gòu)建并實(shí)踐驗(yàn)證了一套基于 AIGC 的輕量化廣電數(shù)字人生成路徑。該路徑通過創(chuàng)新的流程設(shè)計(jì)與技術(shù)整合,在應(yīng)急預(yù)警、重大活動(dòng)報(bào)道等典型場(chǎng)景中展現(xiàn)出顯著的應(yīng)用價(jià)值,有力推動(dòng)了數(shù)字人技術(shù)在廣電領(lǐng)域的規(guī)模化落地。當(dāng)前技術(shù)雖然在效率與成本方面取得突破,但在廣電數(shù)字人情感自然度、動(dòng)作表現(xiàn)力與系統(tǒng)集成度方面仍存在提升空間。未來研究將聚焦于多模態(tài) AIGC 技術(shù)的深度融合,重點(diǎn)突破自然動(dòng)作生成等關(guān)鍵技術(shù)瓶頸,進(jìn)一步提升廣電數(shù)字人的智能水平與藝術(shù)表現(xiàn)力,拓展其在智慧廣電生態(tài)中的創(chuàng)新應(yīng)用,為媒體深度融合發(fā)展提供持續(xù)技術(shù)支撐。
end
參考文獻(xiàn)
[1] 謝婧, 寧金輝, 孫琳, 于明. 虛擬數(shù)字資產(chǎn)在視聽行業(yè)的生產(chǎn)與應(yīng)用研究[J]. 北京: 影視制作, 2024, 30(7): 41-45.
[2] 孫德萊. 城市臺(tái)虛擬數(shù)字人的研究與實(shí)踐[J]. 北京: 廣播與電視技術(shù), 2024, 51(10): 15-19.
[3] 郝洺, 張翀, 馮海亮, 施玉海. 基于語音驅(qū)動(dòng)的風(fēng)格化數(shù)字人關(guān)鍵技術(shù)研究與應(yīng)用示范[J]. 北京: 廣播與電視技術(shù), 2024, 51(10): 20-23.
《廣播與電視技術(shù)》、“廣電獵酷”廣告經(jīng)營(yíng)與商務(wù)合作代理:
北京中廣信通文化傳媒有限公司
聯(lián)系人:李聰
聯(lián)系電話:18518221868
好文共賞請(qǐng)轉(zhuǎn)發(fā) 有話要說請(qǐng)留言
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.