網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

輕量高效，即插即用：Video-RAG為長(zhǎng)視頻理解帶來(lái)新范式

2025-10-20 18:23:17　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

盡管視覺(jué)語(yǔ)言模型（LVLMs）在圖像與短視頻理解中已取得顯著進(jìn)展，但在處理長(zhǎng)時(shí)序、復(fù)雜語(yǔ)義的視頻內(nèi)容時(shí)仍面臨巨大挑戰(zhàn) —— 上下文長(zhǎng)度限制、跨模態(tài)對(duì)齊困難、計(jì)算成本高昂等問(wèn)題制約著其實(shí)際應(yīng)用。針對(duì)這一難題，廈門(mén)大學(xué)、羅切斯特大學(xué)與南京大學(xué)聯(lián)合提出了一種輕量高效、無(wú)需微調(diào)的創(chuàng)新框架 ——Video-RAG。該研究已被機(jī)器學(xué)習(xí)頂級(jí)會(huì)議 NeurIPS 2025 接收，為長(zhǎng)視頻理解任務(wù)提供了全新的解決思路。

項(xiàng)目主頁(yè)：https://video-rag.github.io/
論文鏈接：https://arxiv.org/abs/2411.13093
開(kāi)源代碼：https://github.com/Leon1207/Video-RAG-master

挑戰(zhàn)：現(xiàn)有方法為何難以勝任？

當(dāng)前主流方案主要分為兩類：

擴(kuò)展上下文法（如 LongVA）：依賴大規(guī)模長(zhǎng)視頻 - 文本配對(duì)數(shù)據(jù)進(jìn)行微調(diào)，訓(xùn)練成本高且數(shù)據(jù)稀缺；
智能體驅(qū)動(dòng)法（如 VideoAgent）：通過(guò)任務(wù)分解與外部代理決策增強(qiáng)推理，但頻繁調(diào)用 GPT-4o 等商業(yè) API 導(dǎo)致開(kāi)銷巨大。

更重要的是，兩種方法在長(zhǎng)時(shí)間跨度下的視覺(jué) - 語(yǔ)義對(duì)齊上表現(xiàn)有限，往往犧牲效率換取精度，難以兼顧實(shí)用性與可擴(kuò)展性。

創(chuàng)新：用 “檢索” 打通視覺(jué)與語(yǔ)言的橋梁

Video-RAG 提出一種低資源消耗、高語(yǔ)義對(duì)齊的新路徑 —— 多模態(tài)輔助文本檢索增強(qiáng)生成（Retrieval-Augmented Generation, RAG），不依賴模型微調(diào)，也不需昂貴的商業(yè)大模型支持。其核心思想是：從視頻中提取與視覺(jué)內(nèi)容強(qiáng)對(duì)齊的文本線索，按需檢索并注入現(xiàn)有 LVLM 輸入流中，實(shí)現(xiàn)精準(zhǔn)引導(dǎo)與語(yǔ)義增強(qiáng)。

具體流程如下：

1. 查詢解耦（Query Decoupling）

將用戶問(wèn)題自動(dòng)拆解為多個(gè)檢索請(qǐng)求（JSON 格式），指導(dǎo)系統(tǒng)從不同模態(tài)數(shù)據(jù)庫(kù)中查找相關(guān)信息，LVLM 此階段僅處理文本，不接觸視頻幀，大幅降低初期計(jì)算負(fù)擔(dān)。

2. 多模態(tài)輔助文本構(gòu)建與檢索

利用開(kāi)源工具構(gòu)建三大語(yǔ)義對(duì)齊數(shù)據(jù)庫(kù)：

OCR 文本庫(kù)：使用 EasyOCR 提取幀內(nèi)文字，結(jié)合 Contriever 編碼 + FAISS 向量索引，支持快速檢索；
語(yǔ)音轉(zhuǎn)錄庫(kù)（ASR）：通過(guò) Whisper 模型提取音頻內(nèi)容并嵌入存儲(chǔ)；
對(duì)象語(yǔ)義庫(kù)（DET）：采用 APE 模型檢測(cè)關(guān)鍵幀中的物體及其空間關(guān)系，經(jīng)場(chǎng)景圖預(yù)處理生成結(jié)構(gòu)化描述文本。

這些文本不僅與畫(huà)面同步，還具備明確語(yǔ)義標(biāo)簽，有效緩解傳統(tǒng)采樣幀缺乏上下文關(guān)聯(lián)的問(wèn)題。

3. 信息融合與響應(yīng)生成

將檢索到的相關(guān)文本片段、原始問(wèn)題與少量關(guān)鍵視頻幀共同輸入現(xiàn)有的 LVLM（如 LLaMA-VID、Qwen-VL 等），由模型完成最終推理輸出。整個(gè)過(guò)程無(wú)需微調(diào)、即插即用，顯著降低部署門(mén)檻與計(jì)算開(kāi)銷。

可以發(fā)現(xiàn)，在經(jīng)過(guò)檢索之后，LVLM 可以將更多的注意力集中到對(duì)應(yīng)的關(guān)鍵視覺(jué)信息上，減少模態(tài)鴻溝：

優(yōu)勢(shì)：輕量、高效、性能卓越

即插即用：兼容任意開(kāi)源 LVLM，無(wú)需修改模型架構(gòu)或重新訓(xùn)練。
資源友好：在 Video-MME 基準(zhǔn)測(cè)試中，平均每問(wèn)僅增加約 2000 token，遠(yuǎn)低于主流 Agent 方法的通信與計(jì)算開(kāi)銷。
性能領(lǐng)先：當(dāng)與一個(gè) 72B 參數(shù)規(guī)模的開(kāi)源 LVLM 結(jié)合時(shí)，Video-RAG 在多個(gè)長(zhǎng)視頻理解基準(zhǔn)上超越 GPT-4o 和 Gemini 1.5 等商業(yè)閉源模型，展現(xiàn)出驚人的競(jìng)爭(zhēng)力。

成果與意義

Video-RAG 的成功驗(yàn)證了一個(gè)重要方向：通過(guò)高質(zhì)量、視覺(jué)對(duì)齊的輔助文本引入外部知識(shí)，可以在不改變模型的前提下，突破上下文窗口瓶頸，顯著提升跨模態(tài)理解能力。它不僅解決了長(zhǎng)視頻理解中的 “幻覺(jué)” 與 “注意力分散” 問(wèn)題，更構(gòu)建了一套低成本、高可擴(kuò)展的技術(shù)范式，適用于教育、安防、醫(yī)療影像分析等多種現(xiàn)實(shí)場(chǎng)景。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.