網易首頁 > 網易號 > 正文申請入駐

模型自己找視覺線索，小紅書Video-Thinker破解視頻推理困局

2026-01-04 14:13:49　來源: 機器之心Pro

河北舉報

分享至

隨著多模態大語言模型（MLLM）的飛速發展，“Thinking with Images” 范式已在圖像理解和推理任務上取得了革命性突破 —— 模型不再是被動接收視覺信息，而是學會了主動定位與思考。

然而，當面對包含復雜時序依賴與動態敘事的視頻推理任務時，這一能力尚未得到有效延伸。現有的視頻推理方法往往受限于對外部工具的依賴或預設的提示詞策略，難以讓模型內生出對時間序列的自主導航與深度理解能力，導致模型在處理長視頻或復雜邏輯時顯得捉襟見肘。

為攻克這一難題，來自小紅書的研究團隊提出了 Video-Thinker：一種全新的 “Thinking with Videos” 范式，旨在通過強化學習激發 MLLM 在視頻推理中的內生智能。

與傳統方法不同，Video-Thinker 不依賴構建和調用外部工具，而是將 “時序定位（Grounding）” 與 “視覺描述（Captioning）” 這兩種核心能力內化在模型的思維鏈（CoT）中，使其能在推理過程中自主尋找關鍵幀并提取視覺線索。

團隊精心構建了包含 10K 高質量樣本的 Video-Thinker-10K 數據集，并采用 “監督微調 + 強化學習” 的兩階段訓練策略。這一方法成功讓模型在無外部輔助的情況下，實現了對視頻內容的自主探索與自我修正。

實驗結果顯示，Video-Thinker-7B 憑借極高的數據效率，在 Video-Holmes 等多個高難度視頻推理榜單上顯著超越了現有基線，確立了 7B 量級 MLLM 的 SOTA（State-of-the-Art）性能，為視頻大模型的動態推理開辟了新路徑。

論文地址：https://www.arxiv.org/abs/2510.23473
模型地址：https://huggingface.co/ShijianW01/Video-Thinker-7B
代碼地址：https://github.com/DeepExperience/Video-Thinker

一、背景：視頻推理的 “工具依賴困局” 與破局需求

在多模態大語言模型（MLLM）進化的浪潮中，“Thinking with Images” 范式已經讓模型在靜態圖像的理解與推理上取得了令人矚目的突破。當模型學會了在像素間主動定位與思考，靜態畫面不再是信息的黑盒。

然而，當我們試圖將這種范式延伸至視頻領域時，情況卻變得復雜得多。視頻不僅僅是圖像的簡單堆疊，更包含了復雜的時序依賴、動態的敘事邏輯以及稍縱即逝的視覺細節。面對這種高維度的信息流，現有的視頻推理方法正面臨著難以突破的瓶頸。

當前主流的視頻大模型在處理復雜推理任務時，往往陷入了一種對 “外部輔助” 的過度依賴。為了彌補模型對長視頻處理能力的不足，研究者們通常采用掛載外部視覺工具（如檢測器、追蹤器）或設計繁復的預設提示詞策略來輔助模型。這種做法雖然在一定程度上緩解了信息獲取的難題，卻在本質上造成了推理過程的 “割裂”：模型并非真正 “看見” 并 “理解” 了視頻的時間脈絡，而是被動地接收外部工具提取的碎片化特征，或是機械地遵循預設步驟進行填空。

這種缺乏內生主動性的架構，導致模型在面對長視頻或需要深度邏輯推演的任務時顯得捉襟見肘。由于缺乏對時間序列的自主導航能力，模型無法像人類一樣根據當前的思考線索去主動 “快進”、“倒帶” 或聚焦于某個關鍵幀。它無法自主決定何時通過 “Grounding（時序定位）” 來鎖定證據，也無法靈活地利用 “Captioning（視覺描述）” 來提煉線索。這種感知與推理的脫節，使得模型難以在動態變化的視頻內容中構建起連貫的思維鏈，最終限制了視頻大模型向更高階智能的躍升。

如何讓模型擺脫對外掛拐杖的依賴，內生出在時間流中自由探索與自我修正的能力，成為了視頻推理領域亟待攻克的難題。

二、方法：內生能力導向的 “數據 - 訓練” 全鏈路設計

Video-Thinker 的核心愿景在于實現 “能力內化”：打破傳統視頻大模型對外部視覺工具的依賴，將 “時序定位（Grounding）” 與 “視覺描述（Captioning）” 這兩大核心能力直接植入模型的思維鏈（CoT）中。為達成這一目標，團隊設計了一套精密的 “數據 - 訓練” 協同機制：首先構建 Video-Thinker-10K 高質量結構化數據，隨后通過 “監督微調（SFT）+ 組相對策略優化（GRPO）” 的兩階段訓練范式，成功讓模型學會了在動態視頻流中自主導航、主動思考。

數據煉金：Hindsight-Curation 驅動的思維鏈構建

要讓模型真正掌握視頻場景下的復雜推理能力，構建高質量的訓練數據是必經之路。然而，現有的開源視頻數據集普遍存在 “二元割裂” 的結構性缺陷：一類是以 ActivityNet、YouCook2 為代表的描述型數據，雖然擁有精確的時間段標注和畫面描述，但缺乏需要深度思考的邏輯問答；另一類是以 STAR、LVBench 為代表的問答型數據，雖然問題極具挑戰性，卻往往缺失了支撐答案的關鍵幀定位與視覺細節。為了彌補這一鴻溝，團隊整合了六大主流數據集，構建了 Video-Thinker-10K。該數據集并未止步于簡單的拼接，而是引入了一套 “后見之明（Hindsight-Curation）” 的自動化流水線，通過 “補全 - 合成 - 驗證” 的嚴密閉環，生產出兼具精準時序定位（Grounding）與詳盡視覺描述（Captioning）的結構化推理數據，確保模型在學習過程中能夠建立起從視覺證據到邏輯結論的完整映射。

Step 1: 雙向信息補全

面對不同源數據特性的差異，團隊將 ActivityNet、TutorialVQA,、YouCook2、STAR、ScaleLong 和 LVBench 六大主流數據集劃分為互補的兩類，并實施了 “缺什么補什么” 的數據增強策略：

針對 “有描述無推理” 的數據（如 ActivityNet、TutorialVQA、YouCook2）：這類數據具備精確的時間段標注和詳盡的動作描述，但缺乏深度的邏輯問答。團隊利用 DeepSeek-R1 強大的邏輯推理能力，以原有的細粒度片段描述為上下文，合成出需要跨越多個時間片段進行綜合分析的復雜多跳問題，將單純的感知任務升級為邏輯推理任務。
針對 “有問答無細節” 的數據（如 STAR、ScaleLong、LVBench）：這類數據雖然包含極具挑戰性的推理問答，卻往往缺失了支撐答案的具體視覺描述。團隊借助 Gemini-2.5-Flash-Lite 的長窗口視覺理解能力，以標準答案為錨點進行反向推導，為關鍵時間窗口生成了與答案強相關的精細化視覺描述（Answer-Conditioned Captions），填補了推理過程中視覺證據的空白。

Step 2: 結構化思維鏈合成

在完成了基礎信息的雙向補全后，系統調用 DeepSeek-V3 執行 “反向推理合成（Reverse-Curation Generation）”。模型接收標準答案、時序標注以及生成的視覺描述作為輸入，被要求倒推并生成一條邏輯嚴密、逐步展開的推理軌跡。這條軌跡并非自由發散，而是必須嚴格遵循預定義的結構化格式，顯式地將推理過程拆解為三個關鍵動作：

：執行時序定位任務，精確劃定包含關鍵信息的視頻時間窗口，明確模型 “關注哪里”；
：執行視覺證據提取任務，對該時間窗口內的核心視覺線索進行總結與描述，闡述模型 “看到了什么”；
：執行深度分析任務，基于提取的時空線索進行邏輯推演與綜合判斷，連接視覺證據與最終答案，解釋 “意味著什么”。

Step 3: 后見之明驗證機制（Hindsight Curation）

這是保障數據質量的關鍵防線。為了確保合成的推理軌跡真實有效而非 “自說自話”，團隊引入了創新的 “后見之明” 驗證流程，替代了昂貴的人工抽檢。具體而言，系統使用 Qwen2.5-VL-7B-Instruct 充當 “獨立驗證官”，在屏蔽原始視頻輸入的情況下，僅將上一步生成的時序標簽和視覺描述作為上下文輸入給模型。系統隨后檢測驗證官能否僅憑這些提取出的線索推導出正確的標準答案。如果驗證失敗，意味著生成的視覺線索不足以支撐推理結論，系統將自動觸發再生流程，進行最多三次的迭代修正。

這種 “以結果驗證過程” 的閉環機制，有效剔除了無效或低質量的樣本，確保了最終保留在 Video-Thinker-10K 中的每一條數據，其視覺證據與邏輯結論之間都具備嚴密且可復現的因果關系。

監督微調建立結構化思維范式

監督微調（SFT）階段旨在完成模型的 “冷啟動” 初始化。由于預訓練的多模態大模型本身并不具備輸出特定標簽（如或）的習慣，SFT 階段的主要任務是通過強制教學，讓模型習得 Video-Thinker 獨有的結構化思考范式。

對于每一個樣本 (V, Q, T, Y)，其中 V 是視頻，Q 是問題， T 是包含，和

的思維鏈， Y 是最終答案。SFT 的優化目標是最小化思維鏈與答案的負對數似然：

通過這一階段的訓練，模型不再將視頻視為一個模糊的整體進行黑盒猜測，而是建立起了一套嚴謹的 “定位 - 感知 - 推理” 標準動作序列：即先通過標簽主動定位關鍵片段，再利用標簽提取視覺細節，最后通過

標簽進行邏輯整合。這種顯式的思維約束，不僅教會了模型如何使用內部工具，更有效抑制了其在缺乏證據時直接生成答案的幻覺傾向，為后續的強化學習奠定了堅實的策略基礎。

強化學習激發內生智能與 “頓悟” 時刻

雖然 SFT 賦予了模型結構化的表達形式，但僅憑監督微調，模型往往只能 “模仿” 訓練數據的表面模式，難以應對分布外的復雜場景。真正的智能源于在探索中自我優化，因此訓練進入第二階段：采用組相對策略優化（Group Relative Policy Optimization, GRPO）激發模型的內生潛能。

不同于傳統 PPO 算法依賴龐大的價值網絡來評估狀態價值，GRPO 采用了一種更為高效的策略：它通過對同一輸入并行采樣多組不同的推理軌跡，利用組內輸出的相對優勢來指導梯度更新。這種 “摒棄 Critic 模型” 的設計不僅大幅降低了顯存占用和計算成本，更關鍵的是，它允許模型在反復的試錯與自我博弈中，自主探索出如何更高效地調用和錨點來解決新問題，從而將機械的格式遵循升華為靈活的視頻思維能力，真正實現對視頻內容的自主導航。

采樣與雙重獎勵設計

策略優化目標

涌現的 “Aha Moment”

經過 GRPO 的強化訓練后，Video-Thinker 開始涌現出類似人類的高階認知行為 —— 我們稱之為 “頓悟時刻（Aha Moment）”。與傳統模型線性的、單向的生成過程不同，Video-Thinker 在面對復雜推理時，不再是一條路走到黑。我們觀察到，模型開始在思維鏈中自發展現出元認知（Metacognition）特征：它會對其初步生成的時序定位或視覺描述進行 “回頭看”，主動發起自我質疑與修正。

這種動態的內部反饋機制，使得模型不再是被動的信息接收者，而是主動的探尋者。正是這種內生的反思能力，讓 Video-Thinker 能夠在僅有 7B 參數量且僅使用 10K 訓練數據的情況下，打破了參數規模的限制，在 Video-Holmes 等高難度視頻推理基準上，大幅超越了依賴海量數據訓練的現有基線模型。

三、評測：全面驗證，7B 模型刷新視頻推理 SOTA

實驗設置

為了全方位驗證 Video-Thinker 的視頻推理能力，研究團隊構建了包含域內（In-Domain）與域外（Out-of-Domain）的雙重評估體系。

訓練配置：研究選用 Qwen2.5-VL-7B-Instruct 作為基礎模型。訓練過程嚴格遵循 “兩階段” 范式：首先在 Video-Thinker-10K 數據集上進行 1 個 epoch 的監督微調（SFT），讓模型習得結構化的思考格式；隨后引入 GRPO 算法進行強化學習訓練，以激發模型自主視頻推理的潛能。
評測數據集：
域內評測：基于 ActivityNet、Star、ScaleLong、YouCook2、LVBench 等五個訓練數據集構建了測試集（Held-out test sets），用于評估模型在熟悉領域內的表現。
域外評測：精選了 Video-Holmes、CG-Bench-Reasoning、VRBench、SciVideoBench、VideoTT、VideoMME 等六個具有挑戰性的高難度復雜視頻推理基準，重點考察模型在未知場景下的泛化能力。
基線模型：對比陣容強大，涵蓋了 InternVL、Qwen2.5-VL 等 5 個主流開源多模態基礎模型，以及 Video-R1、VideoChat-R1、Temporal-R1 等 12 個開源視頻推理模型，確保了比較的公平性與廣泛性。

總體性能對比

實驗結果表明，Video-Thinker-7B 在各項視頻推理基準上均展現出顯著優勢，成功確立了 7B 參數量級模型的新 SOTA（State-of-the-Art）。

核心發現與數據解讀：
域外泛化能力的質變： Video-Thinker 在處理未見過的復雜任務時表現尤為驚艷。在偵探推理類的 Video-Holmes 榜單上，模型取得了 43.22% 的準確率，超越了次優基線模型 4.68 個百分點；在綜合性基準 VRBench 上，準確率高達 80.69%，大幅領先最佳基線 11.44%。這充分證明了 Video-Thinker 并非僅僅 “記住” 了訓練數據，而是真正習得了通過 “定位” 和 “描述” 來解決通用視頻問題的能力。
SFT 與 RL 的協同效應：消融實驗揭示了一個關鍵結論：僅靠 SFT 無法實現強泛化。Video-Thinker-SFT-7B 版本在多個基準上的表現甚至低于基礎模型，這說明 SFT 的主要作用在于 “規范格式”。而隨后的GRPO 強化學習階段才是性能飛躍的關鍵，它使模型在 Video-Holmes 上的性能提升了 11.70%，在 VRBench 上提升了 18.29%。這種 “先通過 SFT 立規矩，再通過 GRPO 練內功” 的組合，被證明是提升大模型復雜推理能力的必由之路。

推理幀數魯棒性分析：更高效的時序信息整合

視頻理解往往受限于輸入幀數。為了探究 Video-Thinker 是否依賴高幀率輸入，團隊對比了模型在 16 幀、32 幀和 64 幀設置下的表現。實驗數據表明：

正向的 Scaling Law：隨著輸入幀數從 16 增加到 64，絕大多數模型的性能均呈上升趨勢，說明更豐富的時序信息確實有助于推理。
全方位的性能壓制：值得注意的是，Video-Thinker-7B 在所有幀數檔位上均持續優于對比基線（Qwen2.5-VL 和 Video-R1）。即使在僅輸入 16 幀的受限條件下，Video-Thinker 依然能保持高水準的推理精度。這意味著該模型具備更高效的時序信息整合機制，無論是在計算資源受限的低幀率場景，還是信息豐富的高幀率場景，都能穩定發揮。

深度歸因分析：定位與描述能力的顯著增強

Video-Thinker 的核心假設是：強大的視頻推理源于對視頻內容的精準 “定位（Grounding）” 和細致 “描述（Captioning）”。為了驗證這一假設，研究團隊不僅評測最終答案的準確率，還專門針對這兩項中間過程能力進行了定量評測。評測結果表明：

時序定位（Grounding）：在要求模型輸出關鍵時間片段的任務中，Video-Thinker-7B 的平均交并比（mIoU）達到了 48.22%，相比基礎模型（27.47%）提升了 75.5%。在 Recall@0.3 指標上，Video-Thinker 更是達到了 79.29%，幾乎是基礎模型的兩倍。這表明模型在回答問題前，確實精準鎖定了視頻中的關鍵線索，而非盲目猜測。
內容描述（Captioning）：在視頻片段描述任務中，Video-Thinker 在 BLEU、METEOR 和 ROUGE-L 三大指標上全面領先。與基礎模型相比，其整體描述質量提升了 31.2%；與 Video-R1 相比，提升幅度更是達到了 61.0%。生成更準確、更相關的中間描述，為模型進行后續的邏輯推理提供了堅實的信息基礎。

消融實驗：內生能力 vs 外部工具

既然 “定位” 和 “描述” 如此重要，是否可以直接給基礎模型外掛現成的專用工具（如專門的 Grounding 模型或 Captioning 模型）來達到同樣的效果？研究團隊進行了一組反直覺但極具價值的對比實驗。

1. 簡單外掛工具的 “負優化” 陷阱：實驗結果首先打破了 “工具越強效果越好” 的迷思。當團隊嘗試 “基礎模型 + 即插即用工具（Plug-and-play Tools）” 的組合時，模型性能不升反降。例如，使用 Temporal-R1-7B 配合 SkyCaptioner-V1-8B 時，準確率跌至 30.58%；即便調用參數量大十倍的 Qwen2.5-VL-72B-Instruct 作為專家工具，其 33.96% 的得分依然未能超過僅使用 7B 基礎模型的效果。這表明簡單的工具堆疊會造成信息割裂，導致推理鏈路效率降低。

2. 現有工具調用方法的局限：為了進一步驗證，團隊對比了現有的代表性工具使用方法 —— VideoMind-7B。雖然 VideoMind-7B 通過更復雜的工具調用策略，將 Video-Holmes 的得分提升到了 38.98%，成功超越了基礎模型和簡單的外掛方案，但相比于 Video-Thinker 它依然存在明顯差距（落后約 4.2%）。這說明即便是成熟的外部工具調用方式，在信息傳遞的連貫性和推理深度上仍存在天花板。

3. Video-Thinker 內生思維鏈的壓倒性優勢：最終，通過訓練獲得內生能力的 Video-Thinker-7B 展現了統治級的表現。它在 Video-Holmes 上取得了 43.22% 的全場最高分（紅色加粗），不僅遠超外掛工具方案，也顯著優于 VideoMind-7B；同時在 VRBench 上更是達到了 80.69% 的高分。實驗有力地證明，在視頻推理任務中，將 “感知 - 定位 - 描述 - 推理” 無縫融合的內生思維鏈（Endogenous CoT），比簡單的工具堆疊甚至 VideoMind 這種外部調用方法都更為高效可靠。

四、結語：內生智能引領視頻推理新方向

Video-Thinker 的核心價值，在于打破了 “視頻推理必須依賴外部工具” 的固有認知，通過 “高質量數據合成 + 精準強化訓練” 的全鏈路設計，讓 MLLM 真正實現內生 “時序定位” 與 “片段描述” 能力，實現了端到端的自主視頻思考。其 7B 參數模型在多領域基準上刷新 SOTA 的表現，證明了視頻推理能力并非依賴 “大參數 + 大數據” 的堆砌，而是在于對核心內生能力的精準培養。未來，隨著技術迭代，Video-Thinker 有望進一步集成音頻、字幕等多模態信息，拓展至小時級長視頻推理場景，讓 “用視頻思考” 成為 MLLM 的基礎能力。這種內生智能驅動的技術路徑，不僅為視頻推理領域提供了新范式，更將加速 AI 在安防監控、智能教育、工業運維等領域的落地應用，真正賦能千行百業的智能化升級。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.