來源:國家廣電智庫

導(dǎo)讀
隨著人工智能在多模態(tài)生成領(lǐng)域的持續(xù)突破,谷歌DeepMind推出Genie 3與Veo 3.1,OpenAI發(fā)布Sora 2,實現(xiàn)了從實時交互世界建模到聲畫原生同步的跨越。與此同時,國產(chǎn)模型即夢3.5 PRO與Kling 2.6在鏡頭控制與物理模擬上快速迭代,展現(xiàn)出強勁競爭力。這些技術(shù)合力推動廣播電視及網(wǎng)絡(luò)視聽行業(yè)在生產(chǎn)模式、節(jié)目形態(tài)與商業(yè)范式上的深層變革。
![]()
谷歌DeepMind團(tuán)隊長期在強化學(xué)習(xí)、深度網(wǎng)絡(luò)與多模態(tài)生成方面處于前沿:從GameNGen的純神經(jīng)引擎,到Genie 3實現(xiàn)的分辨率為720p、幀率為24fps且具備分鐘級一致性的可交互世界,再到Veo系列實現(xiàn)的從文本或圖像到視頻及原生音頻的生成,逐步形成了涵蓋世界搭建、鏡頭表達(dá)以及聲畫一體成片的完整技術(shù)棧。OpenAI推出的Sora 2通過強化物理角色一致性與鏡頭可控性,將聲畫同步生成能力推向播出標(biāo)準(zhǔn)片段的新高度。與此同時,國產(chǎn)模型即夢3.5 PRO在復(fù)雜敘事理解與本土化內(nèi)容創(chuàng)作流上深耕,快手可靈2.6則在物理運動解算與超高清畫面產(chǎn)出上快速迭代。國內(nèi)外這些頂尖視頻生成技術(shù)相互交織,共同構(gòu)筑了從虛擬場景仿真到高質(zhì)量視聽成片的智能生產(chǎn)矩陣。
一、Genie 3與Veo 3的技術(shù)沿革、技術(shù)原理與核心特征
(一)技術(shù)沿革
1. Genie系列:GameNGen是由谷歌DeepMind與以色列特拉維夫大學(xué)合作研發(fā),旨在用擴散模型替代傳統(tǒng)游戲引擎,通過歷史幀+動作輸入預(yù)測下一幀畫面。在此基礎(chǔ)上,DeepMind發(fā)布Genie 2,能接收圖像提示自動生成可交互的三維虛擬環(huán)境。2025年8月5日,DeepMind發(fā)布Genie 3,能以24幀/秒、720p的規(guī)格生成可交互的世界環(huán)境,并可持續(xù)運行數(shù)分鐘,用戶在交互過程中還能夠用自然語言觸發(fā)“世界事件”,如改變天氣、加入角色、重構(gòu)環(huán)境等,標(biāo)志著AI世界建模向通用化與應(yīng)用化邁出了重要一步。
2. Veo系列:2024年5月,DeepMind首次公布Veo;同年12月Veo 2上線,支持4K視頻生成。2025年5月,Veo 3發(fā)布,能夠原生生成對白、環(huán)境聲與音效。2025年10月15日Veo 3.1發(fā)布,新增多圖到視頻、首尾幀過渡、視頻延展到1分鐘、全功能模塊音頻支持、對象移除與更精細(xì)編輯等,為影視、廣告和網(wǎng)絡(luò)視頻的專業(yè)生產(chǎn)提供了新的工具。
3. Sora系列:OpenAI在2025年9月30日發(fā)布Sora 2,這是該系列的重大升級:顯著增強物理模擬精度、風(fēng)格控制與用戶可控性,并首次引入對白/音效/場景音頻的同步生成,使視頻與聲音在時間與語義上更緊密貼合;同時推出獨立應(yīng)用并逐步擴大可用時長,進(jìn)一步靠近“可播出級片段”的制作門檻。
(二)Genie 3與Veo 3.1和Sora 2的技術(shù)原理與核心特征
Genie 3:實時可交互的通用世界模型 Genie 3的底層是一個“動作/文本條件的世界模型”,核心架構(gòu)包含時空視頻編碼器、自回歸動態(tài)模型和潛在動作模型。其工作機理是:首先將文本或圖像提示編碼為條件,生成首批視頻潛表示;隨后采用逐幀自回歸的動力學(xué)建模,每一步都把歷史幀與用戶的操控輸入作為上下文來預(yù)測下一幀。Genie 3能記住已走過的路徑,即使離開后再回來,仍能保持先前狀態(tài)。其核心特征包括:一是將“可玩”推進(jìn)至實時可玩,24fps、720p的連續(xù)導(dǎo)航與操作成為默認(rèn)能力;二是時間跨度更長,能夠維持?jǐn)?shù)分鐘的環(huán)境一致性與物體持久性;三是支持運行時文本觸發(fā)事件,使其更像一臺“神經(jīng)實時引擎”。
Veo 3/3.1:聲畫同步的統(tǒng)一生成 Veo 3系列核心基于統(tǒng)一的潛在擴散模型(Latent Diffusion Model)。在同一生成鏈路中,視頻與音頻通過協(xié)同機制同步生成。Veo 3.1在編輯能力、音頻支持與提示控制等方面顯著增強,引入對光照/陰影的可控編輯,并允許用戶在視頻中進(jìn)行對象移除、場景重構(gòu)等操作。它支持從三張參考圖生成視頻與音頻,支持首幀到末幀之間的過渡視頻與音頻,并可將已有片段延展至約1分鐘。Veo 3.1的定位由“短片生成”走向更完整的“視頻創(chuàng)作平臺”。
Sora 2:物理一致性與原生音頻升級 Sora 2采用“擴散+變換器(Transformer)”的混合結(jié)構(gòu)。音頻是Sora 2的一大升級:它整合對白、音效與環(huán)境音的同步生成能力,使音畫在時間與語義層面更緊密對應(yīng)。此外,Sora 2還支持用戶上傳自有短片/音視頻素材,模型在學(xué)習(xí)人物形象與聲音后可將其嵌入生成視頻中。在安全性上,Sora 2設(shè)計了多重限制與防護(hù)機制,包括加入可追溯水印、限制敏感提示等。
(三)Genie 3與Veo 3.1/Sora2與我國主流同類型模型比較
在國際模型不斷突破的同時,我國視頻生成模型也在快速迭代。以即夢3.5 PRO和Kling 2.6為代表的國產(chǎn)模型,在鏡頭控制、語義理解及本土化工作流方面展現(xiàn)出強大的競爭力。
即夢3.5 PRO:字節(jié)跳動旗下的即夢AI迭代至3.5 PRO版本,在延續(xù)3.0版本鏡頭語言優(yōu)勢的基礎(chǔ)上,重點強化了語義級編輯與長視頻邏輯性。與Veo 3.1相比,即夢3.5 PRO的特色在于對復(fù)雜敘事邏輯的理解能力,支持多鏡頭腳本的一鍵生成與一致性串聯(lián),單次生成時長上限提升至15秒,并可通過拼接維持近2分鐘的角色與場景高度一致。在音頻方面,3.5 PRO引入了智能聲場匹配技術(shù),能根據(jù)視頻畫面自動生成高契合度的背景音與擬音,提供了更加符合國內(nèi)運營習(xí)慣的模板化與參數(shù)化控制。
可靈2.6:快手可靈(Kling)發(fā)布的2.6版本,則在物理世界模擬與超高清畫質(zhì)上向Sora 2看齊。Kling 2.6采用了優(yōu)化后的DiT架構(gòu),顯著提升了復(fù)雜物理運動(如流體、布料解算)的真實感,并支持1080p/60fps的原生輸出。該版本最大的突破是增強了首尾幀控制與運動筆刷的精準(zhǔn)度,允許創(chuàng)作者對視頻內(nèi)的特定元素進(jìn)行軌跡規(guī)劃,通過與國內(nèi)語音大模型的接口打通,實現(xiàn)了高精度的口型同步率。
二、未來影響及對我國廣播電視網(wǎng)絡(luò)視聽行業(yè)的啟示
Genie 3與Veo 3.1/Sora 2,以及國產(chǎn)即夢、可靈技術(shù)的融合應(yīng)用,或?qū)纳a(chǎn)范式、節(jié)目形態(tài)到商業(yè)模式三個維度重構(gòu)行業(yè)。在生產(chǎn)上,行業(yè)正從拍攝與后期結(jié)合的傳統(tǒng)模式轉(zhuǎn)向世界構(gòu)建與虛擬運鏡的新范式,Genie 3實現(xiàn)的實時交互環(huán)境配合Veo 3.1與Sora 2的聲畫合一能力,極大壓縮了從創(chuàng)意到播出的周期與成本。在形態(tài)上,技術(shù)催生了具備原生互動特征的內(nèi)容新物種,節(jié)目轉(zhuǎn)變?yōu)橛^眾可介入的平行時空,實現(xiàn)了從觀看電視到參與體驗電視的躍升。在商業(yè)模式上,單一收入結(jié)構(gòu)向互動資產(chǎn)運營模式擴展,核心虛擬資產(chǎn)可低成本衍生為游戲、文旅體驗或教育課件,通過單一資源多場景使用以及跨屏幕變現(xiàn)的方式,為廣電行業(yè)挖掘存量市場中的新增長點。
面對國際技術(shù)迭代,我國廣電行業(yè)應(yīng)在技術(shù)跟蹤、生態(tài)建設(shè)與安全治理三方面同步發(fā)力。首先,保持敏銳的評估機制,密切跟蹤前沿模型進(jìn)展并科學(xué)評估其在新聞、綜藝等品類的適配性,確立符合國情的應(yīng)用優(yōu)先級。其次,加速構(gòu)建自主可控的智能生態(tài),共建廣電級視聽素材庫與提示工程標(biāo)準(zhǔn),打通數(shù)據(jù)與工具鏈堵點,實現(xiàn)全流程深度嵌入以縮小國際代差。最后,筑牢安全治理防線,建立全生命周期監(jiān)管體系,完善生成式內(nèi)容標(biāo)識、素材溯源與版權(quán)授權(quán)機制,確保技術(shù)紅利在安全、可控、合規(guī)的軌道上釋放,推動行業(yè)向智能化、高質(zhì)化邁進(jìn)。
好文共賞請轉(zhuǎn)發(fā) 有話要說請留言
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.