AI視頻大模型：重塑廣播電視生產(chǎn)力新范式

2026-01-14 14:05:36　來源: 廣電獵酷

北京舉報

分享至

來源：國家廣電智庫

導(dǎo)讀

隨著人工智能在多模態(tài)生成領(lǐng)域的持續(xù)突破，谷歌DeepMind推出Genie 3與Veo 3.1，OpenAI發(fā)布Sora 2，實現(xiàn)了從實時交互世界建模到聲畫原生同步的跨越。與此同時，國產(chǎn)模型即夢3.5 PRO與Kling 2.6在鏡頭控制與物理模擬上快速迭代，展現(xiàn)出強勁競爭力。這些技術(shù)合力推動廣播電視及網(wǎng)絡(luò)視聽行業(yè)在生產(chǎn)模式、節(jié)目形態(tài)與商業(yè)范式上的深層變革。

谷歌DeepMind團(tuán)隊長期在強化學(xué)習(xí)、深度網(wǎng)絡(luò)與多模態(tài)生成方面處于前沿：從GameNGen的純神經(jīng)引擎，到Genie 3實現(xiàn)的分辨率為720p、幀率為24fps且具備分鐘級一致性的可交互世界，再到Veo系列實現(xiàn)的從文本或圖像到視頻及原生音頻的生成，逐步形成了涵蓋世界搭建、鏡頭表達(dá)以及聲畫一體成片的完整技術(shù)棧。OpenAI推出的Sora 2通過強化物理角色一致性與鏡頭可控性，將聲畫同步生成能力推向播出標(biāo)準(zhǔn)片段的新高度。與此同時，國產(chǎn)模型即夢3.5 PRO在復(fù)雜敘事理解與本土化內(nèi)容創(chuàng)作流上深耕，快手可靈2.6則在物理運動解算與超高清畫面產(chǎn)出上快速迭代。國內(nèi)外這些頂尖視頻生成技術(shù)相互交織，共同構(gòu)筑了從虛擬場景仿真到高質(zhì)量視聽成片的智能生產(chǎn)矩陣。

一、Genie 3與Veo 3的技術(shù)沿革、技術(shù)原理與核心特征

（一）技術(shù)沿革

1. Genie系列：GameNGen是由谷歌DeepMind與以色列特拉維夫大學(xué)合作研發(fā)，旨在用擴散模型替代傳統(tǒng)游戲引擎，通過歷史幀+動作輸入預(yù)測下一幀畫面。在此基礎(chǔ)上，DeepMind發(fā)布Genie 2，能接收圖像提示自動生成可交互的三維虛擬環(huán)境。2025年8月5日，DeepMind發(fā)布Genie 3，能以24幀/秒、720p的規(guī)格生成可交互的世界環(huán)境，并可持續(xù)運行數(shù)分鐘，用戶在交互過程中還能夠用自然語言觸發(fā)“世界事件”，如改變天氣、加入角色、重構(gòu)環(huán)境等，標(biāo)志著AI世界建模向通用化與應(yīng)用化邁出了重要一步。

2. Veo系列：2024年5月，DeepMind首次公布Veo；同年12月Veo 2上線，支持4K視頻生成。2025年5月，Veo 3發(fā)布，能夠原生生成對白、環(huán)境聲與音效。2025年10月15日Veo 3.1發(fā)布，新增多圖到視頻、首尾幀過渡、視頻延展到1分鐘、全功能模塊音頻支持、對象移除與更精細(xì)編輯等，為影視、廣告和網(wǎng)絡(luò)視頻的專業(yè)生產(chǎn)提供了新的工具。

3. Sora系列：OpenAI在2025年9月30日發(fā)布Sora 2，這是該系列的重大升級：顯著增強物理模擬精度、風(fēng)格控制與用戶可控性，并首次引入對白/音效/場景音頻的同步生成，使視頻與聲音在時間與語義上更緊密貼合；同時推出獨立應(yīng)用并逐步擴大可用時長，進(jìn)一步靠近“可播出級片段”的制作門檻。

（二）Genie 3與Veo 3.1和Sora 2的技術(shù)原理與核心特征

Genie 3：實時可交互的通用世界模型 Genie 3的底層是一個“動作/文本條件的世界模型”，核心架構(gòu)包含時空視頻編碼器、自回歸動態(tài)模型和潛在動作模型。其工作機理是：首先將文本或圖像提示編碼為條件，生成首批視頻潛表示；隨后采用逐幀自回歸的動力學(xué)建模，每一步都把歷史幀與用戶的操控輸入作為上下文來預(yù)測下一幀。Genie 3能記住已走過的路徑，即使離開后再回來，仍能保持先前狀態(tài)。其核心特征包括：一是將“可玩”推進(jìn)至實時可玩，24fps、720p的連續(xù)導(dǎo)航與操作成為默認(rèn)能力；二是時間跨度更長，能夠維持?jǐn)?shù)分鐘的環(huán)境一致性與物體持久性；三是支持運行時文本觸發(fā)事件，使其更像一臺“神經(jīng)實時引擎”。

Veo 3/3.1：聲畫同步的統(tǒng)一生成 Veo 3系列核心基于統(tǒng)一的潛在擴散模型（Latent Diffusion Model）。在同一生成鏈路中，視頻與音頻通過協(xié)同機制同步生成。Veo 3.1在編輯能力、音頻支持與提示控制等方面顯著增強，引入對光照/陰影的可控編輯，并允許用戶在視頻中進(jìn)行對象移除、場景重構(gòu)等操作。它支持從三張參考圖生成視頻與音頻，支持首幀到末幀之間的過渡視頻與音頻，并可將已有片段延展至約1分鐘。Veo 3.1的定位由“短片生成”走向更完整的“視頻創(chuàng)作平臺”。

Sora 2：物理一致性與原生音頻升級 Sora 2采用“擴散+變換器（Transformer）”的混合結(jié)構(gòu)。音頻是Sora 2的一大升級：它整合對白、音效與環(huán)境音的同步生成能力，使音畫在時間與語義層面更緊密對應(yīng)。此外，Sora 2還支持用戶上傳自有短片/音視頻素材，模型在學(xué)習(xí)人物形象與聲音后可將其嵌入生成視頻中。在安全性上，Sora 2設(shè)計了多重限制與防護(hù)機制，包括加入可追溯水印、限制敏感提示等。

（三）Genie 3與Veo 3.1/Sora2與我國主流同類型模型比較

在國際模型不斷突破的同時，我國視頻生成模型也在快速迭代。以即夢3.5 PRO和Kling 2.6為代表的國產(chǎn)模型，在鏡頭控制、語義理解及本土化工作流方面展現(xiàn)出強大的競爭力。

即夢3.5 PRO：字節(jié)跳動旗下的即夢AI迭代至3.5 PRO版本，在延續(xù)3.0版本鏡頭語言優(yōu)勢的基礎(chǔ)上，重點強化了語義級編輯與長視頻邏輯性。與Veo 3.1相比，即夢3.5 PRO的特色在于對復(fù)雜敘事邏輯的理解能力，支持多鏡頭腳本的一鍵生成與一致性串聯(lián)，單次生成時長上限提升至15秒，并可通過拼接維持近2分鐘的角色與場景高度一致。在音頻方面，3.5 PRO引入了智能聲場匹配技術(shù)，能根據(jù)視頻畫面自動生成高契合度的背景音與擬音，提供了更加符合國內(nèi)運營習(xí)慣的模板化與參數(shù)化控制。

可靈2.6：快手可靈（Kling）發(fā)布的2.6版本，則在物理世界模擬與超高清畫質(zhì)上向Sora 2看齊。Kling 2.6采用了優(yōu)化后的DiT架構(gòu)，顯著提升了復(fù)雜物理運動（如流體、布料解算）的真實感，并支持1080p/60fps的原生輸出。該版本最大的突破是增強了首尾幀控制與運動筆刷的精準(zhǔn)度，允許創(chuàng)作者對視頻內(nèi)的特定元素進(jìn)行軌跡規(guī)劃，通過與國內(nèi)語音大模型的接口打通，實現(xiàn)了高精度的口型同步率。

二、未來影響及對我國廣播電視網(wǎng)絡(luò)視聽行業(yè)的啟示

Genie 3與Veo 3.1/Sora 2，以及國產(chǎn)即夢、可靈技術(shù)的融合應(yīng)用，或?qū)纳a(chǎn)范式、節(jié)目形態(tài)到商業(yè)模式三個維度重構(gòu)行業(yè)。在生產(chǎn)上，行業(yè)正從拍攝與后期結(jié)合的傳統(tǒng)模式轉(zhuǎn)向世界構(gòu)建與虛擬運鏡的新范式，Genie 3實現(xiàn)的實時交互環(huán)境配合Veo 3.1與Sora 2的聲畫合一能力，極大壓縮了從創(chuàng)意到播出的周期與成本。在形態(tài)上，技術(shù)催生了具備原生互動特征的內(nèi)容新物種，節(jié)目轉(zhuǎn)變?yōu)橛^眾可介入的平行時空，實現(xiàn)了從觀看電視到參與體驗電視的躍升。在商業(yè)模式上，單一收入結(jié)構(gòu)向互動資產(chǎn)運營模式擴展，核心虛擬資產(chǎn)可低成本衍生為游戲、文旅體驗或教育課件，通過單一資源多場景使用以及跨屏幕變現(xiàn)的方式，為廣電行業(yè)挖掘存量市場中的新增長點。

面對國際技術(shù)迭代，我國廣電行業(yè)應(yīng)在技術(shù)跟蹤、生態(tài)建設(shè)與安全治理三方面同步發(fā)力。首先，保持敏銳的評估機制，密切跟蹤前沿模型進(jìn)展并科學(xué)評估其在新聞、綜藝等品類的適配性，確立符合國情的應(yīng)用優(yōu)先級。其次，加速構(gòu)建自主可控的智能生態(tài)，共建廣電級視聽素材庫與提示工程標(biāo)準(zhǔn)，打通數(shù)據(jù)與工具鏈堵點，實現(xiàn)全流程深度嵌入以縮小國際代差。最后，筑牢安全治理防線，建立全生命周期監(jiān)管體系，完善生成式內(nèi)容標(biāo)識、素材溯源與版權(quán)授權(quán)機制，確保技術(shù)紅利在安全、可控、合規(guī)的軌道上釋放，推動行業(yè)向智能化、高質(zhì)化邁進(jìn)。

好文共賞請轉(zhuǎn)發(fā) 有話要說請留言

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.