<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      CineTrans: 首個(gè)轉(zhuǎn)場(chǎng)可控多鏡頭視頻生成模型,打破閉源技術(shù)壁壘

      0
      分享至



      本文一作吳曉雪目前是復(fù)旦-上海人工智能實(shí)驗(yàn)室的聯(lián)培博士生,目前的研究方向是可控多鏡頭生成、長(zhǎng)視頻生成。

      隨著視頻生成模型的快速發(fā)展,其在畫面質(zhì)量、條件控制、美學(xué)表現(xiàn)上都已表現(xiàn)出影視級(jí)效果。然而,影視級(jí)長(zhǎng)視頻往往并非為單個(gè)鏡頭的無限延續(xù),而是具有轉(zhuǎn)場(chǎng)的多鏡頭序列(Multi-shot Sequence)。閉源模型 Sora2、Veo3 中多鏡頭視頻已經(jīng)能夠表現(xiàn)出驚艷的效果。

      如何使生成的視頻帶有自然的轉(zhuǎn)場(chǎng),如何指定轉(zhuǎn)場(chǎng)的位置,如何令多個(gè)鏡頭形成豐富的語義流信號(hào),是視頻生成模型在未來所面臨的新挑戰(zhàn)。

      針對(duì)這些問題,來自上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了一種基于掩碼機(jī)制的全新方法 CineTrans。

      基于對(duì)注意力特性的觀察,CineTrans 提出塊對(duì)角掩碼的通用機(jī)制,使視頻生成模型能高效地自動(dòng)化轉(zhuǎn)場(chǎng)。為了進(jìn)一步提升轉(zhuǎn)場(chǎng)模型的效果和準(zhǔn)確性,作者設(shè)計(jì)了詳細(xì)的多鏡頭視頻生產(chǎn)管線,并收集了一個(gè)高質(zhì)量、多鏡頭數(shù)據(jù)集 Cine250K,大幅提升多鏡頭轉(zhuǎn)場(chǎng)視頻生成的效果。作為首個(gè)時(shí)間級(jí)可控的自動(dòng)化轉(zhuǎn)場(chǎng)模型,CineTrans 為這一領(lǐng)域的眾多后續(xù)方法提供了關(guān)鍵技術(shù)。

      本文將深入介紹這篇被 ICLR 2026 接收的工作。



      • 論文標(biāo)題:CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models
      • 論文鏈接:https://arxiv.org/pdf/2508.11484
      • 項(xiàng)目鏈接:https://uknowsth.github.io/CineTrans/
      • 代碼鏈接:https://github.com/Vchitect/CineTrans
      • 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/NumlockUknowSth/Cine250K

      來看看 CineTrans 的效果:







      Multi-Shot Case 觀測(cè):

      擴(kuò)散模型是如何理解多鏡頭的

      首先思考:在鏡頭轉(zhuǎn)場(chǎng)情境中,相比于單鏡頭視頻,模型在處理多鏡頭序列時(shí)有何不同。對(duì)于這點(diǎn),作者假設(shè),對(duì)于兩個(gè)相鄰幀之間的相關(guān)性,過渡點(diǎn)與非過渡點(diǎn)之間存在顯著差異,前者需要在像素級(jí)(pixel-level)差異的前提下保證語義級(jí)(semantic-level)的一致性,后者則需要實(shí)現(xiàn)視覺連貫性。

      而在 Attention Layer 中,所有 visual token 的交互是平等的,但 Q 對(duì)于不同 K、V 的關(guān)注度則會(huì)有所不同,這表明了使用 Attention Map 作為重要觀測(cè)工具的可能性。

      作者對(duì)大規(guī)模預(yù)訓(xùn)練模型中概率出現(xiàn)的 Multi-Shot Case 進(jìn)行觀測(cè),如預(yù)期地發(fā)現(xiàn),某些 Layer 表現(xiàn)出較強(qiáng)的鏡頭內(nèi)關(guān)聯(lián)(Intra-shot)和較弱的鏡頭間關(guān)聯(lián)(Inter-shot)。更具體地說,Attention Map 矩陣呈現(xiàn)塊對(duì)角結(jié)構(gòu)。經(jīng)過量化(intra-shot vs. inter-shot probability 26.88, r=0.71),這一點(diǎn)被進(jìn)一步證實(shí)。



      此外,作者還在某些 Layer 發(fā)現(xiàn)了所有 visual token 對(duì)第一幀信息的高度關(guān)注。這啟發(fā)了利用 Attention 內(nèi)部隱式理解達(dá)成外部條件顯式轉(zhuǎn)場(chǎng)控制的方法設(shè)計(jì)。



      CineTrans:

      基于掩碼的控制方法

      基于前文的觀察,作者提出了塊對(duì)角掩碼架構(gòu)(Block-Diagonal Mask Mechanism),并將第一幀作為錨點(diǎn)(Anchor),符合 Diffusion Model 本身的特性,意圖在不破壞模型本身結(jié)構(gòu)和先驗(yàn)知識(shí)的前提下實(shí)現(xiàn)預(yù)定義的轉(zhuǎn)場(chǎng)時(shí)間控制。

      將該掩碼應(yīng)用在部分 Attention Layer 中,作者發(fā)現(xiàn),即使在未經(jīng)訓(xùn)練(training-free)的情況下,模型也能在保持視覺質(zhì)量的同時(shí)實(shí)現(xiàn)較強(qiáng)的時(shí)間級(jí)控制效果。





      包括逐鏡頭生成(Shot-by-Shot)與端到端生成(End-to-End)的以往工作都可視作從兩個(gè)維度解決多鏡頭問題:

      • 轉(zhuǎn)場(chǎng)的發(fā)生:確保視頻中的兩幀發(fā)生明顯的像素級(jí)跳變,鏡頭邊界不出現(xiàn)局部崩壞、粘連的情況。
      • 轉(zhuǎn)場(chǎng)前后的一致性維持:確保發(fā)生轉(zhuǎn)場(chǎng)前后的畫面內(nèi)容在語義上呈現(xiàn)強(qiáng)關(guān)聯(lián),令畫面的切換不會(huì)打斷觀看者的體驗(yàn)。

      逐鏡頭的生成通過分別合成每個(gè)鏡頭自然保證的轉(zhuǎn)場(chǎng)的發(fā)生,但將一致性的依賴至于模型外部(external),例如條件注入(conditioning)、關(guān)鍵幀生成(keyframe);端到端的生成通過 visual token 在前向過程中完全交互來維持整體一致性,但并不顯式區(qū)分鏡頭間與鏡頭內(nèi),從而需要大規(guī)模訓(xùn)練才能讓模型學(xué)會(huì) multi-shot 的概念,且缺乏明確的時(shí)間級(jí)控制手段。

      相比之下,CineTrans 通過選擇性的掩碼策略在這兩個(gè)維度實(shí)現(xiàn)了一種平衡方案:

      • 全局信息交互:通過第一幀的 anchor 與未經(jīng)掩碼的 full attention,visual token 進(jìn)行全局交互,實(shí)現(xiàn)來自模型內(nèi)部(internal)的一致性保證。
      • 鏡頭內(nèi)局部交互:在塊對(duì)角掩碼的作用下,鏡頭間的交互被限制,相鄰鏡頭之間的像素信息自然形成跳變,在保持全局一致性的前提下形成穩(wěn)定的轉(zhuǎn)場(chǎng)。

      進(jìn)一步地,在通過多鏡頭視頻數(shù)據(jù)集微調(diào)以后,CineTrans 也具備了電影級(jí)剪輯的先驗(yàn)知識(shí),將轉(zhuǎn)場(chǎng)前后的鏡頭關(guān)聯(lián)理解內(nèi)化在模型參數(shù)中,實(shí)現(xiàn)更具備電影美學(xué)的轉(zhuǎn)場(chǎng)效果。此外,為了更豐富的內(nèi)容表現(xiàn),CineTrans 也在 video-text cross attention 結(jié)構(gòu)中使用了 shot-level 的掩碼機(jī)制,實(shí)現(xiàn)內(nèi)容上的細(xì)粒度控制。



      Cine250K:

      豐富的多鏡頭數(shù)據(jù)集

      文章還提出了 Cine250K,這也是 CineTrans 微調(diào)所采用的多鏡頭數(shù)據(jù)。Cine250K 經(jīng)過了精細(xì)的設(shè)計(jì),捕捉人類剪輯序列中的先驗(yàn)知識(shí),提供優(yōu)秀美學(xué)表現(xiàn)、精確鏡頭標(biāo)簽、層級(jí)細(xì)節(jié)標(biāo)注的視頻數(shù)據(jù)。其構(gòu)建過程主要由三個(gè)階段構(gòu)成:

      • 分割縫合階段(Split & Stitch):經(jīng)過鏡頭切換識(shí)別后,基于鏡頭間相鄰幀之間的語義相似性將視頻縫合起來,并刪除軟過渡的幀,明確鏡頭界限,奠定模型間鏡頭一致性的基調(diào),提供時(shí)間級(jí)鏡頭標(biāo)注。
      • 篩選階段(Selection):基于鏡頭數(shù)量、視頻基本信息、美學(xué)表現(xiàn)等進(jìn)行篩選。
      • 多層級(jí)標(biāo)注(Caption):為了細(xì)粒度語義控制,對(duì)逐個(gè)鏡頭進(jìn)行內(nèi)容、風(fēng)格、氛圍多個(gè)維度的標(biāo)注,同時(shí)得到總體信息,為多粒度控制提供可能。

      經(jīng)過處理,最后得到了約 25 萬個(gè)經(jīng)過精細(xì)處理的多鏡頭視頻-文本對(duì),它提供了豐富的剪輯藝術(shù)先驗(yàn)信息,對(duì)多鏡頭生成任務(wù)來說,具有重要意義。

      實(shí)驗(yàn)結(jié)果評(píng)估與分析

      文中將 CineTrans 的轉(zhuǎn)場(chǎng)效果與多種 Multi-shot 生成方法進(jìn)行對(duì)比,包括逐鏡頭生成方法(StoryDiffusion + CogVideoXI2V)、大規(guī)模預(yù)訓(xùn)練方法(HunyuanVideo)和定制化方法(Cinematron LoRA)。結(jié)果表現(xiàn)出了大幅度超過基線的轉(zhuǎn)場(chǎng)控制得分(Transition Control Score),以及在 Unet 和 DiT 架構(gòu)上的泛化性。



      此外,為了更好地比較鏡頭間一致性,作者還提出了基于 JS 散度的新指標(biāo),以衡量真實(shí)剪輯的數(shù)據(jù)與生成數(shù)據(jù)的分布差異。經(jīng)過可視化,CineTrans 生成的視頻在一致性分布也最接近人類剪輯的視頻數(shù)據(jù),表現(xiàn)出了貼近人類剪輯習(xí)慣的多鏡頭生成能力。



      總結(jié)與展望

      利用擴(kuò)散模型本身對(duì)多鏡頭序列的理解構(gòu)建掩碼,CineTrans 實(shí)現(xiàn)了符合模型先驗(yàn)的時(shí)間級(jí)轉(zhuǎn)場(chǎng)控制,同時(shí)保持了鏡頭間一致性與視頻質(zhì)量。作為從逐鏡頭生成轉(zhuǎn)向端到端生成的重要工作,它在轉(zhuǎn)場(chǎng)與一致性之間的權(quán)衡問題上給出了一個(gè)行之有效的答案,為未來針對(duì)鏡頭設(shè)計(jì)、更多剪輯藝術(shù)先驗(yàn)的多鏡頭視頻探索打下了堅(jiān)實(shí)的基礎(chǔ)。

      目前,CineTrans 的代碼、模型權(quán)重、數(shù)據(jù)集已在 GitHub 開源,歡迎社區(qū)進(jìn)一步研究與使用。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      沒想到!在背后為趙薇抗下一切的,不是黃曉明也不是馬云,竟是他

      沒想到!在背后為趙薇抗下一切的,不是黃曉明也不是馬云,竟是他

      青橘罐頭
      2026-02-06 09:11:01
      57位開國(guó)上將中,為何宋時(shí)輪爭(zhēng)議最大,甚至被認(rèn)為“過大于功”?

      57位開國(guó)上將中,為何宋時(shí)輪爭(zhēng)議最大,甚至被認(rèn)為“過大于功”?

      阿器談史
      2026-02-23 22:08:10
      42歲王濛再破天花板!退役12年,再次讓李琰和整個(gè)冰壇“沉默”了

      42歲王濛再破天花板!退役12年,再次讓李琰和整個(gè)冰壇“沉默”了

      翰飛觀事
      2026-02-16 11:29:39
      杜蘭特:我們要成為一支完美的球隊(duì),失誤過多的問題需要解決

      杜蘭特:我們要成為一支完美的球隊(duì),失誤過多的問題需要解決

      懂球帝
      2026-02-24 13:41:12
      日本首相退休后,每月的養(yǎng)老金是多少

      日本首相退休后,每月的養(yǎng)老金是多少

      徐靜波靜說日本
      2025-12-06 09:15:21
      一家3口移民新加坡,回國(guó)探親發(fā)現(xiàn)戶籍被注銷,全家大鬧派出所

      一家3口移民新加坡,回國(guó)探親發(fā)現(xiàn)戶籍被注銷,全家大鬧派出所

      小秋情感說
      2026-02-23 09:41:30
      孫越訪談坦白:和岳云鵬私下不怎么聯(lián)系,成就如今的“德云一哥”

      孫越訪談坦白:和岳云鵬私下不怎么聯(lián)系,成就如今的“德云一哥”

      離離言幾許
      2026-02-21 09:26:48
      固始新娘結(jié)局:老師身份被曝光,面相看著就不簡(jiǎn)單,黑歷史太多

      固始新娘結(jié)局:老師身份被曝光,面相看著就不簡(jiǎn)單,黑歷史太多

      秋姐居
      2026-02-05 11:36:37
      普雷斯蒂安尼被禁賽,展現(xiàn)出皇馬的歐冠十五冠底蘊(yùn)

      普雷斯蒂安尼被禁賽,展現(xiàn)出皇馬的歐冠十五冠底蘊(yùn)

      米奇兔
      2026-02-24 14:40:29
      為何越南人認(rèn)為,廣州是他們失去的國(guó)都?廣東對(duì)越南意味著什么?

      為何越南人認(rèn)為,廣州是他們失去的國(guó)都?廣東對(duì)越南意味著什么?

      獨(dú)坐山巔前
      2026-02-24 03:08:09
      高市得瑟不下去了,罕見給中國(guó)“特殊待遇”,但中方懶得搭理

      高市得瑟不下去了,罕見給中國(guó)“特殊待遇”,但中方懶得搭理

      愛意隨風(fēng)起呀
      2026-02-24 13:40:47
      經(jīng)常運(yùn)動(dòng)是錯(cuò)的?醫(yī)生直言:過了50歲,盡量保持6個(gè)好習(xí)慣

      經(jīng)常運(yùn)動(dòng)是錯(cuò)的?醫(yī)生直言:過了50歲,盡量保持6個(gè)好習(xí)慣

      寶哥精彩賽事
      2026-02-24 10:53:16
      王毅親自坐鎮(zhèn)APEC,臺(tái)當(dāng)局也派人到場(chǎng),看見大陸4個(gè)字,認(rèn)清現(xiàn)實(shí)

      王毅親自坐鎮(zhèn)APEC,臺(tái)當(dāng)局也派人到場(chǎng),看見大陸4個(gè)字,認(rèn)清現(xiàn)實(shí)

      通文知史
      2026-02-24 13:55:05
      俺們村里的娜娜

      俺們村里的娜娜

      細(xì)雨中的呼喊
      2026-02-24 07:05:54
      可悲!已經(jīng)脫離中華百年的外蒙古,正在把中國(guó)人40年的努力毀掉!

      可悲!已經(jīng)脫離中華百年的外蒙古,正在把中國(guó)人40年的努力毀掉!

      林子說事
      2026-02-24 12:53:29
      朝鮮戰(zhàn)爭(zhēng)結(jié)束,全世界都對(duì)志愿軍進(jìn)行研究,英國(guó)人的評(píng)價(jià)簡(jiǎn)直絕了

      朝鮮戰(zhàn)爭(zhēng)結(jié)束,全世界都對(duì)志愿軍進(jìn)行研究,英國(guó)人的評(píng)價(jià)簡(jiǎn)直絕了

      芊芊子吟
      2026-02-23 15:25:03
      三只羊上市成功,反轉(zhuǎn)炸懵全網(wǎng)!

      三只羊上市成功,反轉(zhuǎn)炸懵全網(wǎng)!

      互聯(lián)網(wǎng)品牌官
      2026-02-24 14:46:17
      沖刺“開門紅”!北京地鐵19號(hào)線二期工程全面開工

      沖刺“開門紅”!北京地鐵19號(hào)線二期工程全面開工

      北青網(wǎng)-北京青年報(bào)
      2026-02-24 11:12:03
      24歲離異女與男網(wǎng)友車震,事后索要一千塊補(bǔ)償,結(jié)果慘遭殺害

      24歲離異女與男網(wǎng)友車震,事后索要一千塊補(bǔ)償,結(jié)果慘遭殺害

      胖胖侃咖
      2024-08-24 08:00:08
      救救美國(guó)的中產(chǎn)吧,他們都快要餓死了!

      救救美國(guó)的中產(chǎn)吧,他們都快要餓死了!

      走讀新生
      2026-01-27 21:49:52
      2026-02-24 15:24:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12338文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      AI顛覆發(fā)展最新犧牲品!IBM跳水重挫超13%

      頭條要聞

      牛彈琴:白宮突然發(fā)了張圖 傷害性不大侮辱性極強(qiáng)

      頭條要聞

      牛彈琴:白宮突然發(fā)了張圖 傷害性不大侮辱性極強(qiáng)

      體育要聞

      蘇翊鳴總結(jié)米蘭征程:我仍是那個(gè)熱愛單板滑雪的少年

      娛樂要聞

      楊洋傳遇上緬北劇組 開機(jī)就離開劇組?

      財(cái)經(jīng)要聞

      縣城消費(fèi)「限時(shí)繁榮」了十天

      汽車要聞

      入門即滿配 威蘭達(dá)AIR版上市 13.78萬元起

      態(tài)度原創(chuàng)

      旅游
      親子
      游戲
      本地
      公開課

      旅游要聞

      “這里是章丘!”春節(jié)文旅創(chuàng)佳績(jī),策馬揚(yáng)鞭啟新程

      親子要聞

      護(hù)航“馬寶寶”!春節(jié)期間,威海市婦幼保健院產(chǎn)科溫暖守護(hù)不打烊

      畫質(zhì)拉胯惹怒玩家!NS2《異度之刃X》升級(jí)遭集體退款

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版