聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
2025最后幾天,是時候來看點年度寶藏論文了。
比如,阿里最年輕P10、Qwen大模型技術負責人林俊旸最新轉發了一篇名為《Video models are zero-shot learners and reasoners》的研究。
沒錯,就是谷歌DeepMind提出視頻模型“思維鏈”CoF的那篇入選ICCV 2025的論文。
當時,這篇研究還給出了一個關鍵信號:視覺領域的“GPT時刻”要來了。
![]()
該研究用1.8萬組實驗數據證明,視頻模型正在跳出任務專屬的局限,走上LLM的老路——
用一個模型,通過提示,完成幾乎所有的視覺任務
并且,推理過程還能被CoF“演”出來。
從NLP到CV
自然語言處理領域的GPT時刻,核心是實現了一個模型通吃所有
在此之前,翻譯、寫作、問答等任務都各自有專屬的模型,而LLM的出現,靠大規模數據訓練和生成式架構,讓零樣本學習成為可能,模型通過文字提示就能完成各種各樣的任務。
但計算機視覺領域卻還一直深陷于這種碎片化的困境。
比如,要做目標檢測得用YOLO,做語義分割依賴SAM,圖像超分要找專門模型,3D重建還得換另一套工具。
這些針對不同任務的模型架構差異很大,不僅開發成本高,還嚴重限制了視覺AI的泛化能力,導致視覺AI的進步一直是單點突破。
比如這個模型在分割任務上刷新SOTA,另一個模型在檢測任務上實現提速,卻始終沒能解決“多任務統一”的問題。
![]()
而這篇論文詳解了谷歌DeepMind借鑒LLM的成功路徑,讓Veo 3成為了一個“視覺通才”。
通過大規模視頻與文本數據的生成式訓練,打通了視覺感知與語言理解的壁壘,讓模型具備了跨任務的通用能力

而且Veo 3完美復刻了LLM的零樣本優勢,面對沒專門訓練過的任務,只要用文字說清需求,模型就能直接輸出結果,無需額外調參或數據微調。
這也正是說視覺GPT時刻到來的核心標志。
從生成視頻到用視頻思考
就像林俊旸提到的那樣,這篇論文指出視頻模型一個非常關鍵的變化在于——視頻不再只是輸出的形式,也開始體現推理的過程。
模型在生成視頻的過程中,會逐步展開中間狀態,這就讓推理不再是完全不可見的黑箱。
論文中將這種現象稱為Chain-of-Frames,也就是CoF,類似于語言模型中的CoT,只不過視頻模型是通過連續生成的視頻幀,把整個推理過程“演”出來。
模型在時間和空間中不斷調整畫面,用可見的變化替代抽象的符號推理。
![]()
因此,無論是解迷宮、做路徑規劃,還是進行規則外推,模型都不是一次性輸出結果,而是在連續的視覺變化中逐步逼近正確解。
推理過程則被隱含地編碼在視頻序列之中,視頻模型開始在過程中思考
正是這種“逐幀生成即推理”的方式,為通用性提供了基礎。
因為模型不再圍繞某一個具體任務去算結果,轉而在統一的生成過程中,不斷更新對場景狀態的理解。
不同任務之間的差異,不再體現在模型結構或輸出形式上,而是被壓縮成了“生成過程中關注什么、如何繼續生成”的差別。
這種框架下,分割、檢測、編輯、路徑規劃等原本割裂的視覺任務,可以被統一到同一套生成機制中。模型始終做的只有一件事:生成下一幀視頻
在逐幀生成過程中,它自然完成了感知、推理與決策的協同,這就不再需要為每類任務單獨設計模型或系統。
論文進一步觀察到,在無需針對具體任務進行專門訓練、也不引入額外監督的前提下,視頻模型已經能夠通過不同形式的提示,在多類視覺任務中展現出一定的零樣本泛化能力。
也正因為如此,Veo 3用感知、建模、操控、推理4大核心能力能搞定62種沒學過的視覺任務。
![]()
現在經過a16z投資合伙人Justine Moore和林俊旸一提醒,回看這篇論文發現,視頻模型在視覺領域的的突破,還真有點當年LLM顛覆NLP的味兒了……
論文地址:https://arxiv.org/abs/2509.20328
參考鏈接:https://x.com/venturetwins/status/2005330176977293743
— 完 —
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.