![]()
這項由北京大學李景瀚、金楊、蔣浩、穆亞東、宋楊、徐坤等研究團隊發表于2025年12月的研究,刊載于計算機視覺領域頂級會議論文集,研究編號為arXiv:2512.21004v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
當我們觀看一部電影時,大腦會自然而然地預測下一秒可能發生什么。這種"預測下一幀"的能力是人類理解視頻內容的核心機制。北京大學的研究團隊受到這一啟發,開發了一種全新的人工智能訓練方法,讓機器也能像人類一樣通過預測下一幀來學習理解視頻。
傳統的視頻AI訓練就像讓學生做填空題——遮住視頻中的某些部分,讓機器猜測被遮住的內容。然而,這種方法有個致命缺陷:它忽略了時間的連續性。就好比你只看電影的幾個靜止畫面,卻要理解整個故事情節,顯然是不夠的。而北大團隊的新方法NExT-Vid則徹底改變了這一現狀,它讓機器像看連續劇一樣,根據前面的劇情預測下一集會發生什么。
這項研究的革命性在于首次將自回歸生成模型(簡單說就是"根據已有信息預測下一個"的技術)成功應用到視頻理解領域。過去,這種技術在文字處理方面大放異彩,造就了ChatGPT這樣的明星產品。但將同樣的思路應用到視頻上卻困難重重,就像試圖用做菜的技巧來繪畫,需要完全不同的工具和方法。
研究團隊解決了兩個關鍵難題。首先是"語義定位不準確"的問題——傳統方法經常搞不清楚視頻中重要信息在哪里,就像一個學生雖然記住了課本內容,但考試時卻找不到答案在哪一頁。其次是"生成質量差"的問題——之前的方法生成的視頻要么模糊不清,要么缺乏多樣性,就像一臺老式復印機,總是產出質量不佳的副本。
一、突破性的"上下文隔離"設計:讓AI學會專注
北大團隊的核心創新可以用一個精彩的比喻來理解:傳統AI訓練就像讓一個學生一邊學習新知識,一邊要立即把學到的東西重新組織并輸出。這就好比你一邊聽老師講課,一邊要做筆記,一邊還要向同桌解釋剛聽到的內容——結果往往是什么都做不好。
研究團隊設計的"上下文隔離自回歸預測器"則完全不同。它將整個學習過程分成兩個獨立的階段:首先讓AI專心致志地理解視頻內容,提取出關鍵的語義信息;然后再讓另一個專門的模塊負責根據這些信息生成下一幀畫面。這就像讓學生先認真聽課理解內容,課后再專門整理筆記和做作業,每個階段都能發揮最佳效果。
更巧妙的是,研究團隊還引入了"表征對齊正則化"機制。這個機制的作用類似于一個嚴格的老師,時刻監督著AI是否真正理解了視頻內容。具體來說,系統會同時用兩種方式來觀察同一段視頻:一種是像傳統方法那樣遮擋部分內容后觀察,另一種是完整地觀察全部內容。然后系統會比較這兩種觀察得到的理解是否一致,就像讓學生用不同方法解同一道題,看答案是否相同。
這種設計的精妙之處在于,它迫使AI不能偷懶依賴簡單的像素拷貝,而必須真正理解視頻的語義內容。過去很多AI系統會鉆空子,比如在預測下一幀時,直接復制上一幀的大部分內容,這樣雖然看起來效果不錯,但實際上AI并沒有真正學會理解動作和變化。現在有了這個監督機制,AI必須展現出真正的理解能力才能通過測試。
二、革命性的"條件流匹配解碼器":讓生成更自然
如果說上下文隔離解決了"理解"的問題,那么條件流匹配解碼器就解決了"表達"的問題。傳統的視頻生成技術就像用直線連接兩點——雖然能到達目的地,但路徑生硬單調。而流匹配技術則像水流一樣,能夠找到最自然、最平滑的路徑。
具體來說,流匹配技術通過多步驟的"去噪"過程來生成視頻幀。這個過程可以比作雕塑家的工作:先有一塊粗糙的石頭(噪聲),然后通過一刀刀精細的雕琢(去噪步驟),最終呈現出精美的藝術品(清晰的視頻幀)。每一步雕琢都不是隨意的,而是根據前面積累的理解(條件信息)來指導的。
這種方法的優勢在于能夠產生更高質量、更多樣化的結果。就像一個經驗豐富的廚師,即使用相同的食材,也能根據不同的情境和需求做出風味各異的菜肴。傳統方法往往只能產生一種固定的結果,而流匹配技術能夠在保證質量的同時,創造出豐富多樣的可能性。
更重要的是,研究團隊還創新性地采用了"空間對齊串聯"的方式來組合條件信息和目標內容。這就像拼圖游戲中,不是簡單地把兩塊拼圖放在一起,而是確保它們的紋理、顏色都完美匹配。系統會確保預測出的條件信息與要生成的畫面在空間位置上精確對應,每個局部區域的去噪都能得到對應位置條件信息的準確指導。
三、精心設計的"掩碼下幀預測"策略:增加學習難度
研究團隊還引入了一個看似反常但實際上極其聰明的設計:故意增加AI學習的難度。這就像體育訓練中的"負重練習"——教練會讓運動員背著沙袋跑步,雖然訓練時更累,但這樣能夠更有效地提升實際能力。
傳統的視頻預測任務對AI來說太容易了,因為相鄰幀之間往往有大量重復內容。就像預測明天的天氣,如果今天是晴天,那么明天也很可能是晴天,這種預測雖然準確率高,但并不能體現真正的預測能力。視頻中也存在類似問題:很多場景變化緩慢,AI可能只是簡單地復制大部分前一幀的內容,而不需要真正理解動作和變化。
為了解決這個問題,研究團隊設計了"掩碼下幀生成預訓練"策略。他們會故意遮擋掉前面幀的部分關鍵信息,然后要求AI根據殘缺的信息來預測完整的下一幀。這就像讓學生只看電影的一半畫面,卻要預測完整的下一個鏡頭會是什么樣子。
這種策略迫使AI必須真正理解視頻的語義內容和動作規律,而不能僅僅依賴簡單的像素復制。就像一個偵探,即使線索不完整,也要能夠推理出事件的完整發展過程。通過這種"增強現實"的訓練方式,AI學會了更深層次的視頻理解能力。
研究團隊還采用了"時間一致性掩碼策略",即在同一段視頻的多個幀中,相同位置的內容會被同時遮擋。這樣可以避免AI鉆空子——通過其他幀的相同位置來推測被遮擋的內容。這種設計進一步提高了學習的挑戰性和效果。
四、架構設計的精妙之處:三大組件協同工作
整個NExT-Vid系統就像一個精密的工廠,由三個關鍵組件組成,每個組件都有明確的分工,同時又緊密協作。
首先是編碼器部分,它的作用類似于工廠的原料預處理車間。這個編碼器采用了標準的Vision Transformer(ViT)架構,但針對視頻數據進行了專門優化。最重要的創新是引入了"幀級因果注意力機制",這個機制確保AI在觀察任何一幀時,都只能看到當前幀和之前的幀,不能"偷看"未來的幀。就像看偵探小說時,你不能先翻到結尾看答案,必須按照故事發展的順序來理解劇情。
為了進一步穩定訓練過程,系統還維護了一個"參考編碼器",通過指數移動平均(EMA)的方式更新。這就像工廠里有一個經驗豐富的老師傅,始終保持著穩定的工藝標準,為年輕工人提供可靠的參考。這種設計防止了訓練過程中可能出現的不穩定情況,確保系統能夠持續改進而不會出現性能的大幅波動。
其次是自回歸預測器,它充當著工廠的核心生產車間。這個預測器不同于傳統的直接生成方法,而是采用了可學習查詢和多層交叉注意力的設計。可學習查詢就像是專門定制的工具,能夠精確地從前面的幀信息中提取出對預測下一幀最有價值的內容。交叉注意力機制則確保了上下文信息在預測過程中保持隔離——歷史幀的信息只作為鍵值對提供參考,不會直接參與到預測器內部的計算過程中。
最后是流匹配解碼器,它就像工廠的精加工車間,負責將預測器產生的抽象條件信息轉換為具體的視覺內容。這個解碼器采用了擴散變換器(DiT)的架構,通過多步驟的去噪過程來生成高質量的視頻幀。每個去噪步驟都會接收時間步信息和條件信息的指導,就像精密加工中需要同時考慮加工進度和設計要求一樣。
三個組件之間的協作機制也經過了精心設計。編碼器產生的表征會同時傳遞給預測器和參考編碼器;預測器的輸出會與參考編碼器的結果進行對齊檢驗;檢驗通過后,預測結果會作為條件信息傳遞給解碼器。這種流水線式的設計確保了每個組件都能發揮最佳效果,同時整體系統也能保持高效運行。
五、訓練策略的巧思:四階段漸進式學習
研究團隊設計了一個四階段的訓練策略,就像培養一個專業技能需要循序漸進一樣。每個階段都有特定的目標和方法,整個過程歷時132K個訓練步驟,使用了96張H100 GPU,處理了約830億個視覺標記。
第一階段是熱身階段(12K步驟),就像運動前的熱身運動一樣。在這個階段,學習率從很小的數值逐漸增加,讓模型適應訓練過程。系統主要建立基本的模式識別能力和穩定的表征,為后續更復雜的學習打下基礎。流匹配解碼器在這個階段收斂得很快,而對齊損失先是急劇下降,然后緩慢上升到峰值。
第二階段是穩定階段1(28K步驟),學習率開始從峰值逐漸衰減。模型進入表征搜索階段,流匹配解碼器穩定更新,自回歸預測器逐步與參考表征對齊。這個階段就像學生剛掌握基礎知識后,開始探索更深層次的理解。
第三階段是穩定階段2(80K步驟),這是訓練的主要階段。學習率進一步降低,但流匹配解碼器被分配了單獨的固定學習率。同時,時間步采樣率從4改為1。這個階段模型進入非平穩期,需要仔細調整。研究團隊發現,為流匹配解碼器保持較大的固定學習率,并使用單步時間步采樣,能夠提高魯棒性并在整個階段保持穩定的更新。
第四階段是冷卻階段(12K步驟),使用更小的學習率進行微調,并將輸入增加到64幀視頻。這個階段的目標是鞏固語義表征,提高對長視頻的理解能力。冷卻后,模型在視頻語義理解方面表現出顯著的提升。
整個訓練過程還采用了混合數據集策略,包含了240萬小時的視頻和128萬張圖像。視頻數據來源多樣,包括動作識別數據集Something-Something-V2和Kinetics-400,以及大規模的互聯網視頻數據。圖像數據主要來自ImageNet-1K。不同數據源采用了不同的采樣權重,以平衡訓練效果。
六、實驗驗證:全面超越現有方法
研究團隊在四個廣泛使用的基準數據集上進行了全面的性能評估,采用了"注意力探針"的評估方法。這種方法的核心思想是凍結預訓練好的編碼器,只訓練一個簡單的分類層來測試編碼器學到的表征質量。就像測試一個學生的理解能力,不是讓他重新學習,而是直接考察他已有的知識儲備。
在ImageNet-1K數據集上,NExT-Vid展現出了強大的圖像理解能力。ViT-L模型(3億參數)達到了76.3%的準確率,在視頻預訓練方法中排名第一。ViT-H模型(6億參數)進一步提升到79.0%,而最大的ViT-G模型(11億參數)達到了81.4%的準確率。這個結果特別令人印象深刻,因為ImageNet主要包含靜態圖像,證明了視頻預訓練方法也能有效提升圖像理解能力。
在視頻理解任務上,NExT-Vid的優勢更加明顯。在Kinetics-400數據集上,ViT-G模型達到了83.1%的準確率,比之前最好的生成式預訓練方法提高了3.3個百分點。在Something-Something-V2數據集上,該模型達到了69.5%的準確率,提升了3.0個百分點。這個數據集特別注重時間動作理解,結果證明了自回歸預測方法在建模時間關系方面的優勢。
在Diving48數據集上,NExT-Vid達到了87.2%的準確率,這個結果尤其有意義,因為潛水動作往往涉及復雜的身體姿態變化和精細的動作細節。與傳統的VideoMAE相比,在同等規模下,NExT-Vid的改進幅度達到了2.7個百分點,充分證明了新方法在動作理解方面的優勢。
研究團隊還進行了詳細的對比實驗。與其他自回歸方法相比,NExT-Vid相對于Toto模型在Kinetics-400上提升了8.7個百分點,在ImageNet上提升了6.1個百分點,展現了下一幀生成相對于逐token訓練的優勢。與采用相同上下文隔離思想的CAE方法相比,在相同參數規模下,NExT-Vid雖然在ImageNet上略有劣勢(主要因為CAE專門針對ImageNet訓練,而NExT-Vid使用混合數據),但在擴展到10億參數規模后,性能超越了CAE的最佳表現。
七、縮放規律的發現:數據越多效果越好
研究團隊還深入研究了模型性能與數據規模和模型參數的關系,發現了一些重要的規律。在數據縮放方面,隨著訓練數據量的增加,模型性能在早期階段快速增長,然后在約1億視頻片段后趨于穩定。有趣的是,在最后的冷卻階段,性能會進一步提升,特別是在SSv2和Diving48這兩個需要強動作識別能力的任務上。這說明使用更多幀數進行訓練能夠顯著提升模型對動作的理解能力。
在模型縮放方面,從ViT-L(3億參數)到ViT-H(6億參數)有顯著的性能提升,而從ViT-H到ViT-G(11億參數)的提升相對較小,這與VideoMAEv2的觀察結果一致。但是,研究團隊發現,增加冷卻階段可以顯著提升ViT-G的性能,這表明大模型需要更精細的訓練策略才能發揮全部潛力。
這些縮放規律對于理解視頻AI的發展趨勢具有重要意義。它們表明,雖然簡單地增加模型參數不一定帶來線性的性能提升,但通過更好的訓練策略和更多樣化的數據,仍然可以持續提升模型的能力。特別是在視頻理解這樣的復雜任務中,數據的多樣性和訓練方法的精細化可能比純粹的參數規模更加重要。
八、技術創新的深層意義
NExT-Vid的成功不僅僅是一個新算法的勝利,更代表了視頻AI研究思路的根本性轉變。傳統的掩碼建模方法雖然在圖像領域取得了巨大成功,但在視頻領域始終面臨時間建模不足的問題。就像用拍照的思維來理解電影,雖然能捕捉到一些信息,但往往錯失了故事的連貫性和發展脈絡。
自回歸下一幀預測的引入,真正將時間維度納入了預訓練的核心。這種方法迫使模型不僅要理解當前的視覺內容,還要推理未來的變化趨勢。這種能力對于真實世界的視頻理解至關重要,因為我們在日常生活中觀看視頻時,大腦也在不斷地預測接下來會發生什么。
上下文隔離設計的創新意義更加深遠。傳統的端到端訓練雖然簡潔,但往往導致表征學習和生成任務相互干擾。就像一個人同時學習兩種技能,往往兩樣都學不精。通過明確分離這兩個任務,NExT-Vid讓每個組件都能專注于自己最擅長的工作,從而實現了整體性能的顯著提升。
條件流匹配的采用也體現了對生成質量的極致追求。傳統的回歸方法雖然簡單直接,但往往產生模糊或缺乏多樣性的結果。流匹配技術通過引入隨機性和多步精化過程,不僅提升了生成質量,還增強了結果的多樣性。這種改進對于構建更好的視頻表征具有重要意義,因為好的表征需要能夠捕捉數據的真實分布,而不僅僅是平均結果。
九、廣泛的應用前景
NExT-Vid的技術突破為眾多實際應用打開了新的可能性。在視頻內容理解方面,該技術可以顯著提升視頻搜索、推薦和分類的準確性。當前主流視頻平臺每天都要處理海量的用戶上傳內容,如何快速準確地理解這些視頻的內容是一個巨大的挑戰。NExT-Vid的強大表征能力可以幫助系統更好地理解視頻的語義內容,從而提供更精準的內容標簽和推薦。
在智能監控和安全領域,這項技術也具有重要價值。傳統的監控系統主要依賴運動檢測和簡單的模式識別,往往存在誤報率高、理解能力有限的問題。基于NExT-Vid的系統可以更準確地識別和理解復雜的行為模式,比如區分正常的人群聚集和潛在的安全威脅,或者識別異常的交通行為。
在教育和培訓領域,該技術可以用于開發智能的視頻學習系統。系統可以自動分析教學視頻的內容,識別關鍵知識點和難點,為學習者提供個性化的學習建議。比如,在體育技能培訓中,系統可以分析運動員的動作視頻,自動識別技術要點和需要改進的地方。
在醫療健康領域,NExT-Vid的技術也有廣闊的應用前景。醫學影像分析往往涉及時間序列數據,比如心臟超聲檢查或者手術視頻分析。該技術的強大時間建模能力可以幫助醫生更準確地診斷疾病或評估治療效果。
十、挑戰與局限性
盡管NExT-Vid取得了顯著的成功,但研究團隊也坦誠地討論了當前方法的局限性。首先是效率問題。雖然該方法實現了自回歸預訓練來建模時間語義,但仍然依賴于掩碼策略,因此無法完全發揮GPT式預訓練的效率優勢。這意味著在大規模應用中,訓練成本可能仍然較高。
其次是生成與表征之間的固有權衡。有效的表征學習通常需要具有挑戰性的目標任務,這使得同時訓練高質量的生成模型變得困難。研究團隊發現,為了獲得好的表征,往往需要增加生成任務的難度,但這又可能影響生成質量。如何在這兩者之間找到最佳平衡點,仍然是一個需要進一步探索的問題。
計算資源的需求也是一個現實的挑戰。完整的訓練過程需要96張H100 GPU運行146小時,這樣的計算資源只有少數大型研究機構和公司能夠承擔。這可能限制了該技術的普及和進一步發展。
在數據方面,雖然研究使用了大規模的混合數據集,但視頻數據的質量和多樣性仍然是影響模型性能的關鍵因素。如何構建更高質量、更具代表性的訓練數據集,是實現更好性能的重要前提。
最后,當前的評估主要集中在分類任務上,對于更復雜的視頻理解任務,比如細粒度的動作定位、多目標追蹤等,該方法的表現還需要進一步驗證。
十一、未來發展方向
基于當前的研究成果,未來有幾個值得探索的發展方向。首先是提高訓練效率。研究團隊提到,未來可能的改進方向包括開發更高效的掩碼策略,或者探索完全無需掩碼的自回歸預訓練方法。這將有助于降低訓練成本,使更多研究團隊能夠參與到這一領域的研究中。
其次是擴展到更復雜的視頻理解任務。當前的工作主要關注分類任務,未來可以探索如何將這種預訓練方法應用到視頻生成、動作定位、視頻問答等更復雜的任務中。這些任務需要更精細的時空理解能力,為模型提出了更高的要求。
多模態融合也是一個重要方向。現實世界的視頻往往包含豐富的音頻信息,如何將音視頻信息有效融合,構建更完整的多模態表征,是一個具有挑戰性但非常有價值的研究方向。
在模型架構方面,探索更高效的注意力機制和更好的時空建模方法也具有重要意義。當前的方法雖然取得了不錯的效果,但在處理長視頻或高分辨率視頻時仍然面臨計算復雜度的挑戰。
最后,開發更好的評估指標和基準測試也是必要的。當前的評估主要基于下游任務的性能,但如何直接評估預訓練表征的質量,特別是時間建模能力,仍然是一個開放的問題。
說到底,北京大學團隊的這項研究代表了視頻AI領域的一個重要里程碑。通過巧妙地結合自回歸預測、上下文隔離和流匹配技術,他們不僅解決了傳統方法的關鍵問題,還為整個領域指明了新的發展方向。雖然當前的方法仍存在一些局限性,但其核心思想——讓機器像人類一樣通過預測下一幀來理解視頻——無疑是正確的方向。
隨著計算資源的不斷發展和技術的持續改進,我們有理由相信,基于這種思路的視頻AI系統將在不久的將來成為各種實際應用的重要基礎。從智能推薦到醫療診斷,從教育培訓到安全監控,這項技術都有望帶來顯著的改進。更重要的是,它為我們提供了一個新的視角來思考機器如何理解和處理時序信息,這對于構建更智能、更像人類的AI系統具有深遠的意義。有興趣深入研究的讀者可以通過arXiv:2512.21004v1查詢完整的技術論文。
Q&A
Q1:NExT-Vid和傳統的視頻AI訓練方法有什么本質區別?
A:傳統方法就像做填空題,遮住視頻的某些部分讓機器猜測,但忽略了時間連續性。NExT-Vid則讓機器像看連續劇一樣,根據前面的內容預測下一幀會發生什么,更符合人類理解視頻的方式,能更好地學習時間關系和動作變化。
Q2:什么是"上下文隔離"設計,為什么這么重要?
A:上下文隔離就是把理解和生成分開處理,就像讓學生先專心聽課理解內容,再單獨做作業輸出。傳統方法讓AI一邊理解一邊輸出,容易相互干擾。這種分離設計讓每個部分都能發揮最佳效果,顯著提升了整體性能。
Q3:NExT-Vid在實際應用中能解決什么問題?
A:這項技術可以大幅提升視頻內容理解的準確性,應用范圍很廣泛。比如視頻平臺的智能推薦、監控系統的異常行為識別、醫療影像的自動分析、體育訓練的動作指導等。任何需要理解視頻時間變化和動作模式的場景都能從中受益。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.