<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      港中文薛天帆團隊:實現 4K 全景視頻生成,普通視頻也能「長出空間」丨CVPR 2026

      0
      分享至

      很多人都經歷過這樣一種落差。現實里的空間是立體的,是包圍人的,是可以轉身、抬頭、回望的,可一旦被手機或相機拍成視頻,世界立刻被壓縮成一個窄窄的取景框。

      暴雨來臨前的天空并不只在鏡頭正前方,深夜街區的壓迫感也不只來自路面,商場中庭、地下車站、展館大廳、建筑內部,這些真正讓人產生現場感的東西,往往恰恰存在于鏡頭之外。我們記錄下了事件,卻沒有真正留住空間,保存了畫面,卻沒有保存身處其中的感覺。

      這也是今天沉浸式內容產業最真實的困境之一。大家已經越來越明確地意識到,未來的視頻不只是給人看,更是給人進入、環視和停留的。VR、數字展陳、虛擬空間、文旅體驗、游戲場景、線上看房、遠程教育,這些領域真正需要的都不是普通平面視頻,而是能夠承載空間感、方向感和臨場感的全景內容。

      問題在于,需求已經跑在前面,生產方式卻還停在后面。要拍攝高質量 360° 視頻,往往仍要依賴專門設備、多機位系統、復雜拼接流程和高昂成本,真正能穩定產出的人和機構始終有限。也就是說,沉浸式內容的想象已經很豐富,但它的供給能力并沒有跟上。

      這也是沉浸式內容行業一直沒有被真正做大的關鍵原因。市場越來越需要 360° 視頻,VR、虛擬空間、數字展陳、互動體驗都在等更豐富的內容供給,可現實生產仍然依賴昂貴設備、復雜流程和高成本制作。大家都知道普通視頻是最豐富、最便宜、最容易獲取的素材,但怎樣把它真正擴展成高質量全景視頻,始終是行業里最難啃的問題之一。

      正是在這樣的背景下,香港中文大學的薛天帆團隊提出了 CubeComposer,并在論文《CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video》中,試圖回答一個真正有行業分量的問題,也就是普通視角視頻能否被直接擴展成原生 4K 的 360° 視頻,而且這種擴展不是表面上的放大,不是看起來清楚一點,而是能夠在空間連續性、時間穩定性和整體真實感上都站得住。

      這件事可以想得更具體一點。以后一個商場空間的宣傳視頻,也許不必再靠專門全景設備拍攝;一段城市夜景素材,也不只是單一方向的記錄,而可能被擴展成可以環視的沉浸式場景;很多原本只能平面觀看的內容,未來都有機會變成能讓人重新進入其中的空間體驗。

      CubeComposer 的價值,也正是在這里。它不是單純把模型性能往上推了一點,而是在普通視頻如何變成沉浸式內容這件事上,給出了一條更接近現實應用的路。


      論文鏈接:https://arxiv.org/pdf/2603.04291

      真正拉開差距的,不只是分辨率

      研究團隊在兩個數據集上對方法進行了測試,分別是自建的 4K360Vid 和公開數據集 ODV360。評價指標包括 LPIPS,數值越低表示結果越接近真實;CLIP,數值越高表示語義一致性越強;FID 和 FVD,用于衡量生成質量;以及 VBench 中的美觀度、清晰度和一致性。

      在 4K360Vid 上,與最強基線 Argus 相比,CubeComposer 的 LPIPS 從 0.4074 降到 0.3696,CLIP 從 0.8858 提高到 0.9234,FID 從 141 降到 119,FVD 從 4.07 降到 3.90,說明生成結果在感知質量、語義一致性以及視頻穩定性上都有明顯提升。雷峰網

      進一步看最關鍵的 4K 版本,FVD 繼續降到 2.22,清晰度指標 I.Q. 提升到 0.56 以上,美觀度指標 A.Q. 提升到 0.40 以上,這說明分辨率更高的同時,質量不但沒有下降,反而進一步提升。

      在 ODV360 上也呈現出同樣趨勢。LPIPS 大約從 0.43 降到 0.42,CLIP 從大約 0.88 提升到 0.90 以上,FID 從大約 140 降到 123,FVD 更是從 Argus 的 12 以上降到 CubeComposer 的 3.5。這里尤其值得注意的是,FVD 從 12 降到 3.5,反映出視頻時序穩定性和整體連貫性出現了非常顯著的提升。


      研究人員還比較了這種方法與超分辨率方案之間的差別。以往常見做法是先生成 1K 視頻,再用 VEnhancer 放大到 2K,但這種方式并沒有真正帶來更高質量的結果。例如 FID 會從 141 上升到 168,指標反而變差,視覺效果也更不自然。這說明后處理放大并不等于真正的高分辨率生成,CubeComposer體現的是原生高質量,而不是放大之后形成的表面清晰。

      除了定量結果,研究還給出了定性對比。傳統方法普遍存在遠處細節模糊的問題,例如樹木和建筑不夠清晰,運動過程中容易出現畫面抖動,拼接區域會出現斷裂,經過超分辨率處理之后還會產生明顯的“涂抹感”。

      相比之下,CubeComposer 生成的結果在遠景區域依然保持較高銳度,畫面運動更加連續,沒有明顯的拼接縫,整體觀感也更接近真實的 360° 視頻。這說明這種提升不僅體現在指標上,也能在視覺上直接感受到更強的真實性。


      研究團隊還通過消融實驗驗證了核心機制的作用。對于上下文機制,研究人員比較了三種設置,分別是完整方法 Ours、去掉未來信息的 w/o future tokens,以及使用全量上下文的 Full tokens。

      結果表明,一旦去掉未來信息,FVD 會從 4.25 上升到 6.03,性能明顯變差;而 Full tokens 的性能雖然與完整方法接近,但計算開銷更高。這說明未來信息對視頻生成非常關鍵,不過并不需要把所有未來信息全部輸入,只需要保留關鍵片段,就可以在性能和效率之間取得更好的平衡。


      在連續性設計,也就是防止拼接痕跡的實驗中,研究人員同樣比較了三種版本,分別是去掉位置編碼、去掉 padding 和 blending,以及完整模型。結果顯示,只要去掉其中任意一個組件,FID 就會從 157 上升到 190 以上,同時 LPIPS 也會變差,生成結果顯得更不真實。雷峰網

      從可視化現象來看,最直接的問題就是邊界位置出現明顯裂縫。由此可以看出,連續性設計是 360° 視頻生成中非常關鍵的一部分,對于保證不同區域之間的自然銜接具有決定性作用。


      一套不止于模型的完整打法

      在數據集構建方面,研究團隊首先建立了 4K360Vid 數據集。這一數據集包含 11,832 段視頻,分辨率均達到 4K 及以上,來源是在 Argus 數據集基礎上進一步擴展得到。

      為提升數據可用性,研究人員使用 Qwen-VL 自動生成視頻描述,并對低質量視頻進行了過濾,因此這個數據集具有高質量、有語義標注、適合生成模型訓練等特點。除 4K360Vid 之外,研究中還使用了 ODV360 數據集,這是一套標準的 360° 視頻數據集,主要用于訓練和測試。

      在訓練設置方面,研究團隊首先從 360° 視頻中構造輸入數據。每個訓練樣本都經歷了幾個步驟:先從原始 360° 視頻中隨機生成相機軌跡,再據此生成普通視角視頻,用來模擬手機或常規相機拍攝的效果,之后再把這種普通視角視頻轉換成帶缺失區域的 360° 視頻。

      于是,模型面對的任務就變成了對缺失區域進行補全,同時還要保證時間上的一致性和空間上的一致性。為了更貼近真實拍攝場景,研究中將相機視角范圍設置為 60° 到 120°,軌跡由 3 到 5 個關鍵點構成。


      在訓練方法上,研究人員以 Wan 2.2 5B 視頻模型作為基礎模型。在具體訓練過程中,系統會隨機選擇一個時間窗口以及 cubemap 中的某一個面,然后圍繞這一目標構建上下文信息,上下文由歷史信息、當前信息和未來信息共同組成,在這種條件下訓練模型去預測視頻內容。

      在推理,也就是生成階段,研究團隊采用分步生成策略。首先把整段視頻劃分成多個時間窗口,然后在每個時間窗口內,按照 F、R、B、L、U、D 六個面的順序逐步生成內容。

      每一次生成時,系統都會利用上下文信息,尤其是歷史信息和未來信息,最后再把六個面重新拼接起來,形成完整的 360° 視頻。從本質上看,這個過程就是把整個球形視頻一點一點補全出來。


      在對比實驗設計上,研究團隊選擇了 Argus、Imagine360 和 ViewPoint 作為主要比較對象。為了保證對比公平,所有方法都使用相同的輸入視頻,并盡量控制在相同視角范圍,也就是 90°×45° 的設置下進行比較。由于 ViewPoint 只能處理 90°×90° 的輸入,因此研究人員針對這一方法單獨采用了相應設置。

      在評測方式上,研究使用了三類指標。第一類是參考指標,包括 LPIPS 和 CLIP;第二類是分布指標,包括圖像層面的 FID 和視頻層面的 FVD;第三類是主觀質量指標,也就是 VBench,其中包括美觀度 A.Q.、清晰度 I.Q. 和一致性 O.C.。研究人員還特別說明,為了避免比較不公平,每個模型都按照自身支持的分辨率進行評測。


      從少數人能做,到更多人能用

      回到實驗意義層面,這項研究并不只是把分辨率從 1K 提高到 4K,更重要的是研究團隊真正突破了 360° 視頻生成長期卡住的技術上限。

      過去的擴散模型往往要一次性生成整段 360° 視頻,計算量非常大,顯存和算力壓力也極高,所以結果通常只能停留在較低分辨率,畫面細節不足,離真正可用還有明顯距離。

      研究人員把原本整體生成的任務拆開,在空間上分成 6 個面,在時間上分成多個窗口,再按照順序逐步完成生成,這樣一來,原本難以承受的計算壓力就被分散了,高分辨率生成也從理論上的困難問題變成了實際可落地的方案。也就是說,這項研究的價值不只是生成得更清楚,而是證明了高質量 360° 視頻生成這件事終于可以做成。

      從研究方法來看,這項工作也提出了一種很有代表性的思路。以往很多生成模型追求一次性把完整內容做出來,而研究團隊轉向了時空自回歸方式,把視頻生成理解為一個逐步推進、不斷補全的過程。

      這種變化非常重要,因為它說明復雜的視頻生成任務未必一定要整體完成,也可以像寫文章、拼地圖一樣,一部分一部分地構建起來。這樣的思路對未來的視頻生成、3D 生成,甚至世界模型研究都有啟發意義,因為很多更復雜的生成任務,本質上都可能受益于這種分步驟、分區域、分時段的處理方式。

      對于 360° 視頻本身,這項研究還真正碰到了最難的幾個核心問題,并且給出了比較完整的解決路徑。普通視頻只能拍到局部視野,所以生成 360° 內容時最先遇到的問題就是看不見的區域怎么補。

      不同方向上的內容又必須彼此連貫,否則用戶一轉頭就會感覺場景是假的。再往下,多個區域拼接在一起時還很容易在邊界位置出現裂縫、錯位和跳變。研究團隊分別用上下文機制、未來信息、生成順序設計和連續性設計去處理這些問題,說明這項工作不是只在單一指標上提升,而是在朝著真正可觀看、可使用、可沉浸的 360° 視頻邁進。

      更值得強調的是,這項研究對普通人的影響其實很直接。過去如果想做 360° 視頻,通常需要專門的 360° 相機或者復雜的多機位設備,成本高,操作門檻也高,真正能用的人并不多。現在按照這項研究展示出來的方向,未來普通人拿著手機、運動相機,或者一臺普通攝像設備拍下來的視角視頻,就有可能被自動擴展成 360° 內容。

      這意味著很多原本只有專業團隊才能完成的事情,以后普通用戶也可能做到。比如旅行時拍的一段風景視頻,未來不只是平面的記錄,而可能被做成可以自由轉動視角的沉浸式回憶;家里的日常生活、聚會、演出、婚禮,也有機會被保存成更有現場感的內容;老師、博物館、景區、創作者和小型工作室,也不一定非要購買昂貴設備,照樣有可能制作出更有沉浸感的展示材料。

      從應用層面看,這項研究會影響的不只是實驗室里的模型性能,還會影響普通人接觸內容的方式。對于 VR 內容制作來說,它降低了制作門檻,讓更多內容來源不再依賴專業拍攝設備。對于游戲和虛擬場景生成來說,它意味著環境構建可能更快、更便宜。對于數字孿生和虛擬旅游來說,它意味著現實世界中的一個普通視頻片段,未來就有機會被擴展成更完整、更可交互的空間體驗。

      換句話說,這項研究推動的不是單純的算法升級,而是讓沉浸式內容從少數專業機構手里,逐漸走向更多普通人可用、可看、可創作的方向。

      從更深一層看,研究真正重要的地方在于三個關鍵設計被結合到了一起,也就是時空自回歸、包含未來信息的上下文機制,以及用來降低計算復雜度的稀疏注意力。單獨看其中任何一個設計,都很難徹底解決問題,但三者合在一起,才讓 4K 360° 視頻生成第一次真正具備了現實可行性。

      所以,這項研究的意義不僅在于做出了一個效果更好的模型,更在于它給未來高分辨率沉浸式視頻生成提供了一條清晰可行的技術路線。

      CubeComposer 背后的人

      這篇文章的通訊錄作者為薛天帆,目前任職于香港中文大學信息工程系助理教授。他的研究主要集中在計算攝影、計算機視覺、機器學習以及計算機圖形學等方向,長期關注如何讓機器更好地理解和重建視覺世界。

      在學術經歷上,薛天帆本科畢業于清華大學,隨后在香港中文大學獲得碩士學位,并在麻省理工學院計算機科學與人工智能實驗室完成博士研究,師從計算機視覺領域知名學者 William T. Freeman。

      在進入高校任教之前,他曾在 Google Research 工作多年,從事圖像與視頻處理相關研究,并參與多項實際落地的影像算法開發,例如移動設備夜景成像、圖像增強和編輯系統等,這些技術已經被應用在真實產品中。

      在科研成果方面,他在計算機視覺與圖形學頂級會議和期刊上發表了大量論文,研究方向覆蓋視頻生成、3D 重建、圖像增強等多個領域,累計被引用超過一萬次。同時,其團隊近年來在多個國際頂級會議中獲得重要認可,例如 SIGGRAPH、CVPR、NeurIPS 等會議的論文獎項和展示榮譽,體現出持續的研究影響力。


      參考鏈接:https://tianfan.info/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      趙公山發現一男性遺體?救援人員:屬實,還未確認身份,已送往殯儀館

      趙公山發現一男性遺體?救援人員:屬實,還未確認身份,已送往殯儀館

      紅星新聞
      2026-04-12 11:53:24
      經濟學家賈康:年輕人可以考慮購買住房了

      經濟學家賈康:年輕人可以考慮購買住房了

      大象新聞
      2026-03-27 14:45:03
      2換1神級交易!狂攬31助攻5失誤!詹姆斯等來頂級控衛

      2換1神級交易!狂攬31助攻5失誤!詹姆斯等來頂級控衛

      籃球教學論壇
      2026-04-12 13:27:10
      3人同日發聲!特朗普:美國“贏了”;佩澤希齊揚:以勇敢的態度進行談判;內塔尼亞胡:對伊打擊尚未結束

      3人同日發聲!特朗普:美國“贏了”;佩澤希齊揚:以勇敢的態度進行談判;內塔尼亞胡:對伊打擊尚未結束

      大象新聞
      2026-04-12 09:45:02
      霍爾木茲海峽,突傳大消息!特朗普,最新發聲!比特幣直線跳水

      霍爾木茲海峽,突傳大消息!特朗普,最新發聲!比特幣直線跳水

      證券時報e公司
      2026-04-11 21:48:29
      如何優雅地謀殺一座城:陳麗華的推土機與華新民的廢紙

      如何優雅地謀殺一座城:陳麗華的推土機與華新民的廢紙

      有戲
      2026-04-11 09:21:04
      美國記者直言:以色列是種族滅絕、滿嘴謊言的法西斯國家

      美國記者直言:以色列是種族滅絕、滿嘴謊言的法西斯國家

      不掉線電波
      2026-04-12 08:37:37
      天津超算中心10PB數據被盜:黑客用6個月搬空"國之重器"

      天津超算中心10PB數據被盜:黑客用6個月搬空"國之重器"

      碼上閑敘
      2026-04-12 08:06:17
      損傷閨蜜6.8萬紫貂大衣女子發聲:她工作丟了,要把閨蜜送進去

      損傷閨蜜6.8萬紫貂大衣女子發聲:她工作丟了,要把閨蜜送進去

      江山揮筆
      2026-04-12 09:32:03
      人不是慢慢變老的!研究發現:2個“斷崖式”衰老節點,很多人沒躲過

      人不是慢慢變老的!研究發現:2個“斷崖式”衰老節點,很多人沒躲過

      人民日報健康客戶端
      2026-04-11 15:08:59
      “教育系統混進敵人了?”6歲男孩崇洋媚外發言,令家長看清現實

      “教育系統混進敵人了?”6歲男孩崇洋媚外發言,令家長看清現實

      妍妍教育日記
      2026-04-12 07:50:03
      男子用透明文件夾裝著147.4萬港幣現金帶出境,被海關發現異常并進行攔截,海關提醒:攜帶超額現鈔不予放行

      男子用透明文件夾裝著147.4萬港幣現金帶出境,被海關發現異常并進行攔截,海關提醒:攜帶超額現鈔不予放行

      環球網資訊
      2026-04-12 11:07:45
      伊朗消息人士:美國尋找借口退出談判,伊方暫無下一輪談判計劃

      伊朗消息人士:美國尋找借口退出談判,伊方暫無下一輪談判計劃

      界面新聞
      2026-04-12 11:42:11
      男子半年花300萬,嫖了160個小姐,2015年小姐:最高一次收費15萬

      男子半年花300萬,嫖了160個小姐,2015年小姐:最高一次收費15萬

      漢史趣聞
      2026-04-11 15:02:54
      3女1男擠30平深圳合租房,小伙被隨意使喚,這樣的合租你能接受嗎

      3女1男擠30平深圳合租房,小伙被隨意使喚,這樣的合租你能接受嗎

      搗蛋窩
      2026-04-12 07:46:25
      西班牙首相夫人抵達北京,一天換兩套造型又美又颯,時尚又休閑

      西班牙首相夫人抵達北京,一天換兩套造型又美又颯,時尚又休閑

      點點細語
      2026-04-12 08:07:58
      伊美第三輪談判已結束,雙方存在嚴重分歧,特朗普稱并不在意美伊會談能否達成協議

      伊美第三輪談判已結束,雙方存在嚴重分歧,特朗普稱并不在意美伊會談能否達成協議

      每日經濟新聞
      2026-04-12 10:37:07
      A股:新規來了,交易時間延長,大盤漲到5000點不是夢

      A股:新規來了,交易時間延長,大盤漲到5000點不是夢

      風風順
      2026-04-12 10:56:23
      謝娜宣布將于5月5日在成都舉辦個人演唱會:帶著專輯歌曲與10首唱跳舞臺“用百分百的誠意回饋大家,也期待與多年老友和觀眾們重逢”

      謝娜宣布將于5月5日在成都舉辦個人演唱會:帶著專輯歌曲與10首唱跳舞臺“用百分百的誠意回饋大家,也期待與多年老友和觀眾們重逢”

      揚子晚報
      2026-04-11 22:15:50
      百萬豪車陪葬后續:死者身份披露,官方介入處置,目擊者透露更多

      百萬豪車陪葬后續:死者身份披露,官方介入處置,目擊者透露更多

      離離言幾許
      2026-04-11 16:34:13
      2026-04-12 13:48:49
      雷峰網 incentive-icons
      雷峰網
      關注智能與未來!
      68978文章數 656108關注度
      往期回顧 全部

      藝術要聞

      2025殊相——中國油畫學會創作研修作品展 | 油畫選刊(六)

      頭條要聞

      媒體:伊朗新領袖"冒死接班"1個月未露面 突然全面亮劍

      頭條要聞

      媒體:伊朗新領袖"冒死接班"1個月未露面 突然全面亮劍

      體育要聞

      五大聯賽首冠出爐?拜仁或提前4輪衛冕德甲

      娛樂要聞

      46歲趙達官宣結婚!曾與殷桃談婚論嫁

      財經要聞

      三輪磋商談至深夜 美伊談判三大議題仍待解

      科技要聞

      理想稱遭惡意拉踩,東風日產:尊重同行

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      藝術
      親子
      游戲
      數碼
      公開課

      藝術要聞

      2025殊相——中國油畫學會創作研修作品展 | 油畫選刊(六)

      親子要聞

      8345,語言發育遲緩兒童,言語復述這樣練~

      PS5界面又有大變化!觀感更醒目 體驗升級

      數碼要聞

      小米電視桌面4.0重磅升級來了!流暢度大提升 多賽事同屏播放

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版