<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      西湖大學張馳團隊:不重訓,也能讓視頻生成更長更穩丨CVPR 2026

      0
      分享至


      FreeLOC:一種面向長視頻生成的分層自適應推理校正方法。

      作者丨鄭佳美

      編輯丨岑 峰

      過去一段時間,AI 視頻最讓人驚艷的,往往都是前幾秒。人物狀態自然,光影氛圍到位,動作也足夠流暢,很容易讓人產生一種感覺,視頻生成已經離真正可用不遠了。

      但行業越往前走,問題也越清楚,真正難的從來不是做出一小段漂亮畫面,而是能不能把這種質量穩定地延續下去。一旦視頻時長被拉長,很多模型就會開始慢慢失穩,人物、場景和動作表面上還在延續,內部卻已經出現細節漂移和時序松動。

      這也是為什么,今天 AI 視頻行業真正卡住的地方,已經不只是能不能生成片段,而是能不能生成連續、穩定、可以承載完整情境的內容。

      比如一段廚房視頻里,鏡頭從備菜推進到下鍋,再切到擺盤,觀眾期待看到的是同一個空間、同一套器具和同一份食材被自然地串聯起來。再比如一段城市通勤視頻里,人物從地鐵口走到街邊店鋪,鏡頭可以變化,但人物狀態、環境關系和動作邏輯不能越走越散。

      只有解決這種長時間穩定性問題,AI 視頻才真正有機會從展示走向創作和生產。也正是在這樣的背景下,西湖大學的張馳團隊提出了《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》。

      這項研究關注的,不是怎樣把某一幀做得更亮眼,而是為什么模型在短視頻里表現很好,一旦進入長視頻生成,質量就會越來越難維持。也正因為它抓住了這個行業里越來越核心的問題,所以這項研究不只是一次常規優化,而更像是在回答,AI 視頻從短片段走向長內容時,究竟卡在了哪里。


      論文地址:https://arxiv.org/pdf/2603.25209

      01


      更長的視頻,更明顯的優勢

      在 Wan2.1-T2V-1.3B 上,研究人員把視頻長度擴展到 2 倍和 4 倍之后,發現 FreeLOC 的優勢非常穩定,而且視頻越長,這種優勢越明顯。

      先看 2 倍長度,也就是 161 幀的結果。主體一致性達到 98.06,背景一致性達到 97.49,運動平滑達到 98.98,說明在人物、場景和動作連續性上,它都已經處在最好或接近最好的水平。

      更突出的部分在畫質相關指標上。圖像質量達到 68.31,明顯高于 Direct 的 60.34,也高于 Sliding Window 的 64.64 和 FreeNoise 的 67.19。美學質量達到 62.33,而其他方法大多只在 52 到 56 之間,所以這一項的領先尤其明顯。

      動態程度也達到 39.41,已經接近最佳。換句話說,在 2 倍長度下,FreeLOC 不是只在某一個指標上占優,而是在穩定性、清晰度和整體觀感上都表現更強。

      到了 4 倍長度,也就是 321 幀,長視頻生成的難度會明顯上升,因為模型更容易出現內容漂移、畫面變糊或者動作失真。但研究結果表明,FreeLOC 在這種更苛刻的設定下仍然能保持很強的表現。

      主體一致性達到 98.44,仍然幾乎是最高水平。圖像質量達到 67.44,而 Direct 已經掉到 59.21,差距達到 8.2。美學質量達到 61.21,Direct 只有 49.43,差距進一步擴大到 11.8。動態程度達到 36.27,而 Direct 只有 4.32,差不多已經是數量級上的差別。

      這個結果說明,隨著視頻長度繼續增加,很多方法會越來越難維持質量,但 FreeLOC 仍然能把畫面質量和動態表現保持在較高水平,所以它的優勢不是偶然,而是在高難度長視頻場景里依然成立。


      這種提升并不只出現在一個模型上。研究團隊又在 HunyuanVideo 上做了同樣的測試,結果趨勢依然一致。2 倍長度,也就是 253 幀時,圖像質量達到 68.92,美學質量達到 62.38,都是最高,主體一致性也有 97.92,優于大多數方法。

      到了 4 倍長度,也就是 509 幀,圖像質量仍有 67.92,美學質量仍有 61.09,動態程度達到 39.28,也接近最佳。也就是說,FreeLOC 的效果并不是只在 Wan2.1-T2V-1.3B 上成立,而是在另一套視頻生成模型上也能復現出相同趨勢,這就說明研究提出的方法具有比較明顯的跨模型通用性。

      為了進一步說明這種提升到底來自哪里,研究團隊還做了消融實驗,把方法拆開來看。只使用 TSA 時,圖像質量是 65.87,美學質量是 57.05,說明單獨處理長上下文問題已經能帶來可見提升。

      只使用 VRPR 時,圖像質量是 61.88,美學質量是 54.13,說明單獨修正位置問題也有效,但作用還不夠強。假如把 TSA 和 VRPR 一起加上去,卻對所有層統一處理,圖像質量是 65.19,美學質量是 56.34,雖然比只用一個模塊更好,但仍然不是最佳結果。

      更關鍵的是,研究人員還測試了隨機分配到不同層的做法,結果圖像質量反而掉到 63.90,這說明模塊本身并不是隨便放在哪里都行,真正重要的是放在哪些層上。按層選擇之后,也就是 FreeLOC 的做法,圖像質量達到 67.44,美學質量達到 61.21,都是最高。

      這一部分實驗最想說明的是,性能提升不只是因為多加了兩個模塊,而是因為研究人員發現不同層對不同問題的敏感程度并不一樣,所以必須做分層處理,而這正是 FreeLOC 最核心的創新點之一。


      研究人員還進一步比較了不同的位置處理方式和不同的注意力機制。在位置處理上,他們比較了 Clipping、Grouping 和 VRPR,最后發現 VRPR 的效果最好,圖像質量達到 68.84,美學質量達到 61.21,都明顯領先。這說明多粒度的位置重編碼確實比簡單截斷或者簡單分組更有效。

      在注意力機制上,研究又比較了 Sliding Window、Selected Frame Attention 和 TSA,結果 TSA 依然最好,圖像質量達到 68.84,美學質量達到 61.21。這意味著,單純用滑動窗口雖然能縮小注意力范圍,但會損失一部分長程信息,而 TSA 能在控制上下文長度的同時,盡量保留長距離時序關聯,所以整體表現更強。


      把這些實驗合在一起看,研究團隊實際上是在證明一件事,FreeLOC 的優勢不是只體現在某一個局部技巧上,而是來自一整套更合理的設計,包括位置重編碼、注意力控制,以及最關鍵的分層使用策略。

      整體來看,這組實驗傳遞出的結論非常清楚。無論是在 Wan2.1-T2V-1.3B 還是 HunyuanVideo 上,無論是在 2 倍長度還是 4 倍長度設置下,FreeLOC 都能同時提升視頻的穩定性、清晰度、美感和動態表現,而且越到更長、更難的生成場景,這種優勢越明顯。


      02


      從設置到機制,一步步驗證

      在實驗設置上,研究團隊選用了兩個公開可用的視頻生成模型,分別是 Wan2.1-T2V-1.3B 和 HunyuanVideo,用來驗證 FreeLOC 是否具有跨模型的適用性。

      視頻生成時,研究人員把輸出分辨率統一設為 480p,也就是 832 × 480,并且重點測試了把視頻長度擴展到 2 倍和 4 倍之后的生成效果。這樣做的目的很明確,就是看模型在視頻明顯變長之后,是否還能維持原本的畫面質量和時序穩定性。

      為了證明 FreeLOC 的效果不是偶然,研究還設置了多組對比方法,包括 Direct Sampling,也就是直接生成,Sliding Window,也就是滑動窗口,以及 FreeNoise、FreeLong、RIFLEx 和 FreeLOC。

      這樣的對比覆蓋了目前比較常見的長視頻生成思路,有的是最直接的基線方法,有的是通過局部窗口維持連續性,也有的是已有的訓練免費方法,所以能夠比較全面地看出 FreeLOC 相比其他方案到底強在哪里。


      在評價方式上,研究人員采用的是 VBench 標準,并且把指標分成了一致性和質量兩大類。一致性方面主要看 Subject Consistency,也就是人物在長視頻里會不會變形或漂移,Background Consistency,也就是背景是否穩定,以及 Motion Smoothness,也就是動作和運動過程是否連續自然。

      質量方面主要看 Imaging Quality,也就是畫面清晰度,Aesthetic Quality,也就是整體視覺美感,以及 Dynamic Degree,也就是視頻的動態表現強不強。這樣一來,研究考察的就不只是單純的清晰度,而是把人物穩定、背景穩定、動作連續、畫面質量和觀感都納入了評估范圍。


      除了常規的對比實驗,研究團隊還做了一個很關鍵的探測實驗,也就是逐層分析 Transformer。具體來說,研究人員會對每一層施加擾動,然后觀察兩個結果,一是視覺質量到底下降了多少,二是 attention 的變化到底有多大。

      通過這種方法,他們發現不同層對問題的敏感性并不一樣,有的層更容易受到位置變化的影響,有的層更容易受到長上下文擴展的影響。這個發現非常重要,因為它直接支持了 FreeLOC 后面的分層處理思路,也就是不是所有層都一視同仁,而是要針對不同層采用不同修正方式。

      研究還專門驗證了兩類核心的 O.O.D 問題。第一類是位置 O.O.D,做法是改變幀之間的相對位置關系,然后觀察生成質量會不會下降。第二類是長度 O.O.D,做法是直接增加視頻長度,再計算 attention entropy,也就是注意力分散程度。

      實驗結果表明,視頻長度一旦增加,attention 就會變得更分散,而注意力越分散,生成質量往往越差。也正是基于這兩類問題的驗證,研究團隊才進一步提出了后面的 VRPR、TSA 和分層適配策略。整體來看,這一部分實驗經過的意義就在于,研究并不是只做結果對比,而是先把問題來源拆清楚,再針對性地設計解決辦法。


      03


      從「能生成」走向「能使用」

      這項研究的意義,不只是把長視頻生成的結果做得更好,而是把問題背后的原因說清楚了。研究團隊指出,長視頻之所以容易出現畫面變糊、動作不連貫、人物不穩定這些問題,核心來自兩類 O.O.D,也就是位置 O.O.D 和上下文 O.O.D。

      這個判斷很重要,因為它說明過去很多方法更像是在不斷試技巧、調參數,而這項研究開始把問題推進到機制解釋的層面。也就是說,研究人員不僅提出了一個更有效的方案,還解釋了為什么以前的方法容易失效,為什么視頻一變長,模型就會更容易出問題。

      這項研究還有一個很實際的意義,就是證明了訓練并不是唯一辦法。以前一說到長視頻生成,很多人會默認要重新訓練模型,或者至少做一次很重的額外訓練,因為短視頻模型通常很難直接應對更長的時序范圍。

      研究團隊這次證明,只在推理階段做更精細的修正,也能明顯改善生成效果。這一點很關鍵,因為它意味著算力成本會更低,現有模型也更容易直接使用,對技術落地和實際部署都更有幫助。

      另外,研究人員還重新揭示了 Transformer 不同層的作用差異。他們發現,不同層并不是在做同一件事,有些層更容易受到位置問題影響,有些層更容易受到長上下文問題影響。

      所以真正有效的方法,不是一刀切地改所有層,而是先找出問題主要集中在哪些層,再做針對性修復。這個認識很有價值,因為它不只適用于視頻生成,對長上下文的 LLM、圖像生成模型的推理優化,其實也都有啟發。

      換句話說,這項研究提出的不只是一個技巧,更是一種更通用的思路,也就是先識別問題,再定位到層,最后做局部修復。

      如果從普通人的角度來看,這項研究的影響其實也很直接。未來大家用 AI 生成稍微長一點的視頻時,人物突然變臉、衣服亂變、背景亂跳、動作接不上的情況,有望明顯減少。

      對普通用戶來說,這意味著做故事短片、教學視頻、產品展示視頻時,成片會更穩定,也更接近真正能用的內容。對內容創作者來說,這意味著返工會更少,制作成本會更低,小團隊和個人創作者也更有機會用現成模型做出更長、更連貫的視頻內容。

      所以這項研究真正推動的,不只是技術指標的提升,而是讓 AI 長視頻生成離日??捎谩⑸虡I可用又近了一步。

      04


      FreeLOC 的創建者

      論文一作田佳豪,目前是西湖大學 AGI Lab 的科研助理,師從張馳教授。主要從事計算機視覺方面的研究。他當前的研究重點集中在擴散生成模型,視頻生成,世界模型等方向。

      就學術成果來看,他已發表或參與多項工作,包括以第一作者發表在 CVPR 2026 的FreeLOC,以及投遞于 ECCV 2026 的 HeadForcing,此外還發表了 DCCM,Loss-Guided Diffusion For General Controllable Generation 等工作,整體研究路徑體現出從圖像級擴散模型理論、視頻時序建模到自回歸長視頻生成與交互式視頻合成的持續推進。


      通訊作者張馳,西湖大學助理教授、獨立PI,同時擔任 AGI Lab負責人,在生成式人工智能和多模態智能方向開展研究工作。在

      此之前,他曾在騰訊擔任研究科學家,并于新加坡南洋理工大學獲得博士學位,師從林國盛教授,同時與沈春華等學者保持長期合作關系。在學術影響力方面,他連續入選斯坦福大學發布的全球前 2% 科學家榜單,并擔任多個頂級會議和期刊的重要學術服務角色,包括 ICML、ICLR、CVPR 等會議的 Area Chair,以及 IEEE T-CSVT 的副編輯。

      在學術成果與研究產出方面,他長期深耕生成式人工智能領域,研究方向涵蓋擴散模型、多模態生成建模以及智能體系統,近年來帶領團隊在 CVPR、ICCV、ICLR、NeurIPS 等頂級會議上持續發表成果,例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。

      這些研究從圖像生成、視頻生成延伸到 3D/4D 場景建模以及多模態智能體,形成了一條從視覺理解到世界建模的系統性研究路線。

      從整體研究特點來看,張馳的工作強調生成模型的可控性、多模態融合能力以及向真實世界建模能力的拓展,既關注模型基礎理論,也注重實際系統構建與應用落地。例如在視頻生成與3D建模方向,他推動從單純生成內容向可控相機運動和空間理解發展,在智能體方向,他探索多模態大模型在真實交互環境中的應用。

      這種研究路徑體現出從傳統計算機視覺向通用人工智能過渡的趨勢,也使其工作處于當前人工智能領域較為前沿的位置。


      參考鏈接:https://icoz69.github.io/


      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      死亡之瞳感染全隊!41歲勒布朗19+13+8創六紀錄 經受住單核考驗

      死亡之瞳感染全隊!41歲勒布朗19+13+8創六紀錄 經受住單核考驗

      顏小白的籃球夢
      2026-04-19 11:21:33
      蘇超一家獨大,多少地方文旅成了陪跑?

      蘇超一家獨大,多少地方文旅成了陪跑?

      環球旅訊
      2026-04-17 08:08:52
      59歲葉子楣自爆:曾被黑社會恐嚇要求露點,單身多年依然向往愛情

      59歲葉子楣自爆:曾被黑社會恐嚇要求露點,單身多年依然向往愛情

      她時尚丫
      2026-03-13 21:03:06
      CBA最差教練?6名新老國手在他手中淪為平庸,數據為證斷崖式下滑

      CBA最差教練?6名新老國手在他手中淪為平庸,數據為證斷崖式下滑

      南海浪花
      2026-04-19 14:01:47
      雙色球第043期2026年4月19日(僅供參考,祝?中獎)

      雙色球第043期2026年4月19日(僅供參考,祝?中獎)

      芭比衣櫥
      2026-04-19 12:19:33
      樊振東國家隊旅程或將謝幕!日媒感嘆可惜,王勵勤也無能為力

      樊振東國家隊旅程或將謝幕!日媒感嘆可惜,王勵勤也無能為力

      豬豬愛影視
      2026-04-19 08:15:00
      新鳳霞怒批張少華:66年帶人砸斷了她的半月板,拿走齊白石名畫

      新鳳霞怒批張少華:66年帶人砸斷了她的半月板,拿走齊白石名畫

      元哥說歷史
      2026-04-16 08:35:03
      何潤東翻紅后,一博主怒問為什么要捧一個美國人?網友的評論絕了

      何潤東翻紅后,一博主怒問為什么要捧一個美國人?網友的評論絕了

      談史論天地
      2026-04-16 11:05:48
      英海上貿易行動辦公室:霍爾木茲海峽附近發生多起船只遇襲事件

      英海上貿易行動辦公室:霍爾木茲海峽附近發生多起船只遇襲事件

      界面新聞
      2026-04-18 22:59:17
      醫生:肝癌最危險信號,不是腹痛,而是頻繁出現這幾種異常

      醫生:肝癌最危險信號,不是腹痛,而是頻繁出現這幾種異常

      芹姐說生活
      2026-04-19 12:20:30
      斯諾克世錦賽:4月19日賽程公布!丁俊暉首秀戰苦主,趙心童晉16強

      斯諾克世錦賽:4月19日賽程公布!丁俊暉首秀戰苦主,趙心童晉16強

      曹說體育
      2026-04-19 12:07:30
      上海偶遇李晨吃包子,看著挺壯實一人,晚飯居然就吃三個包子

      上海偶遇李晨吃包子,看著挺壯實一人,晚飯居然就吃三個包子

      悅君兮君不知
      2026-04-19 13:21:45
      全體車主!4月30日前辦完,5月1日開始扣分罰款

      全體車主!4月30日前辦完,5月1日開始扣分罰款

      三農老歷
      2026-04-19 12:13:01
      瘋狂!種馬男星沃倫睡過12775名女友,性欲成癮纏著女友不讓下床

      瘋狂!種馬男星沃倫睡過12775名女友,性欲成癮纏著女友不讓下床

      錢小刀娛樂
      2026-04-14 10:39:13
      火箭G1怎么輸的?湖人2將打服烏度卡并不滿機會球,阿門點尺度

      火箭G1怎么輸的?湖人2將打服烏度卡并不滿機會球,阿門點尺度

      籃球資訊達人
      2026-04-19 13:32:53
      老美為什么寧愿熊貓做大,也不愿意扶持三哥工業化來制衡熊貓

      老美為什么寧愿熊貓做大,也不愿意扶持三哥工業化來制衡熊貓

      步論天下事
      2026-04-17 15:29:16
      搭載40名中國游客大巴在俄羅斯翻車,或因司機打盹兒致車輛失控

      搭載40名中國游客大巴在俄羅斯翻車,或因司機打盹兒致車輛失控

      紅星新聞
      2026-04-18 19:08:29
      奢靡淫逸的白馬會所:性交易泛濫,讓富婆揮金如土,最終一夜覆滅

      奢靡淫逸的白馬會所:性交易泛濫,讓富婆揮金如土,最終一夜覆滅

      浮光驚掠影
      2026-02-20 23:15:25
      佟麗婭真人被偶遇!網友:陳思誠你眼酸不?

      佟麗婭真人被偶遇!網友:陳思誠你眼酸不?

      民宿體驗志
      2026-04-17 13:39:04
      蘇超南通泰州都被封零!南通網友氣瘋:怎么倒數第一也要跟我們搶

      蘇超南通泰州都被封零!南通網友氣瘋:怎么倒數第一也要跟我們搶

      墨印齋
      2026-04-19 11:37:29
      2026-04-19 15:23:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7200文章數 20744關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結果印度遭了殃

      頭條要聞

      牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結果印度遭了殃

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      張天愛評論區淪陷!被曝卷入小三風波

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      手機
      藝術
      本地
      公開課
      軍事航空

      手機要聞

      好消息:iPhone18/18e產線啟動!壞消息:標準版要降級!

      藝術要聞

      當代著名畫家 | 全山石人物油畫23幅

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗逼退美掃雷艇:美方求給15分鐘撤退

      無障礙瀏覽 進入關懷版