<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      輕量高效,即插即用:Video-RAG為長視頻理解帶來新范式

      0
      分享至



      盡管視覺語言模型(LVLMs)在圖像與短視頻理解中已取得顯著進展,但在處理長時序、復雜語義的視頻內容時仍面臨巨大挑戰 —— 上下文長度限制、跨模態對齊困難、計算成本高昂等問題制約著其實際應用。針對這一難題,廈門大學、羅切斯特大學與南京大學聯合提出了一種輕量高效、無需微調的創新框架 ——Video-RAG。該研究已被機器學習頂級會議 NeurIPS 2025 接收,為長視頻理解任務提供了全新的解決思路。



      • 項目主頁:https://video-rag.github.io/
      • 論文鏈接:https://arxiv.org/abs/2411.13093
      • 開源代碼:https://github.com/Leon1207/Video-RAG-master

      挑戰:現有方法為何難以勝任?

      當前主流方案主要分為兩類:

      • 擴展上下文法(如 LongVA):依賴大規模長視頻 - 文本配對數據進行微調,訓練成本高且數據稀缺;
      • 智能體驅動法(如 VideoAgent):通過任務分解與外部代理決策增強推理,但頻繁調用 GPT-4o 等商業 API 導致開銷巨大。

      更重要的是,兩種方法在長時間跨度下的視覺 - 語義對齊上表現有限,往往犧牲效率換取精度,難以兼顧實用性與可擴展性。



      創新:用 “檢索” 打通視覺與語言的橋梁

      Video-RAG 提出一種低資源消耗、高語義對齊的新路徑 —— 多模態輔助文本檢索增強生成(Retrieval-Augmented Generation, RAG),不依賴模型微調,也不需昂貴的商業大模型支持。其核心思想是:從視頻中提取與視覺內容強對齊的文本線索,按需檢索并注入現有 LVLM 輸入流中,實現精準引導與語義增強。

      具體流程如下:

      1. 查詢解耦(Query Decoupling)

      將用戶問題自動拆解為多個檢索請求(JSON 格式),指導系統從不同模態數據庫中查找相關信息,LVLM 此階段僅處理文本,不接觸視頻幀,大幅降低初期計算負擔。

      2. 多模態輔助文本構建與檢索

      利用開源工具構建三大語義對齊數據庫:

      • OCR 文本庫:使用 EasyOCR 提取幀內文字,結合 Contriever 編碼 + FAISS 向量索引,支持快速檢索;
      • 語音轉錄庫(ASR):通過 Whisper 模型提取音頻內容并嵌入存儲;
      • 對象語義庫(DET):采用 APE 模型檢測關鍵幀中的物體及其空間關系,經場景圖預處理生成結構化描述文本。

      這些文本不僅與畫面同步,還具備明確語義標簽,有效緩解傳統采樣幀缺乏上下文關聯的問題。

      3. 信息融合與響應生成

      將檢索到的相關文本片段、原始問題與少量關鍵視頻幀共同輸入現有的 LVLM(如 LLaMA-VID、Qwen-VL 等),由模型完成最終推理輸出。整個過程無需微調、即插即用,顯著降低部署門檻與計算開銷。



      可以發現,在經過檢索之后,LVLM 可以將更多的注意力集中到對應的關鍵視覺信息上,減少模態鴻溝:



      優勢:輕量、高效、性能卓越

      • 即插即用:兼容任意開源 LVLM,無需修改模型架構或重新訓練。
      • 資源友好:在 Video-MME 基準測試中,平均每問僅增加約 2000 token,遠低于主流 Agent 方法的通信與計算開銷。
      • 性能領先:當與一個 72B 參數規模的開源 LVLM 結合時,Video-RAG 在多個長視頻理解基準上超越 GPT-4o 和 Gemini 1.5 等商業閉源模型,展現出驚人的競爭力。





      成果與意義

      Video-RAG 的成功驗證了一個重要方向:通過高質量、視覺對齊的輔助文本引入外部知識,可以在不改變模型的前提下,突破上下文窗口瓶頸,顯著提升跨模態理解能力。它不僅解決了長視頻理解中的 “幻覺” 與 “注意力分散” 問題,更構建了一套低成本、高可擴展的技術范式,適用于教育、安防、醫療影像分析等多種現實場景。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      炸裂!攜程簽約柬埔寨引發注銷潮,洪森疑似威脅曝光園區股東名單

      炸裂!攜程簽約柬埔寨引發注銷潮,洪森疑似威脅曝光園區股東名單

      胡嚴亂語
      2025-12-17 20:37:21
      上海即將有三大機場,嘉興南湖機場出路何在?

      上海即將有三大機場,嘉興南湖機場出路何在?

      上觀新聞
      2025-12-17 10:07:07
      張怡寧參加婚禮哭了,64歲丈夫一直咳嗽,看著很老,還是袁立前任

      張怡寧參加婚禮哭了,64歲丈夫一直咳嗽,看著很老,還是袁立前任

      一娛三分地
      2025-06-11 20:53:37
      見過最不會點菜的人什么樣?網友:含淚吃完了那一餐

      見過最不會點菜的人什么樣?網友:含淚吃完了那一餐

      另子維愛讀史
      2025-12-06 21:48:21
      沖突第八天!泰方拿下制空權后又封了泰國灣,洪森父子只無能狂怒

      沖突第八天!泰方拿下制空權后又封了泰國灣,洪森父子只無能狂怒

      科普100克克
      2025-12-15 12:45:29
      中東誰也打不過的以色列,在東亞算什么水平?韓國:誰也打不過

      中東誰也打不過的以色列,在東亞算什么水平?韓國:誰也打不過

      比利
      2025-11-29 18:49:51
      有情有義!保利尼奧拒絕巴西國家隊邀約:正考慮重回中超!

      有情有義!保利尼奧拒絕巴西國家隊邀約:正考慮重回中超!

      邱澤云
      2025-12-16 23:17:24
      18歲359天!弗拉格成最年輕得40+5+5的球員,第二、三名都是誰?

      18歲359天!弗拉格成最年輕得40+5+5的球員,第二、三名都是誰?

      兵哥籃球故事
      2025-12-16 21:20:48
      英國首相:阿布需將出售切爾西所獲的25億鎊轉入烏克蘭基金會

      英國首相:阿布需將出售切爾西所獲的25億鎊轉入烏克蘭基金會

      懂球帝
      2025-12-17 21:53:16
      上海一大媽走后留700萬,銀行要求本人簽字才給,女兒做法太解氣

      上海一大媽走后留700萬,銀行要求本人簽字才給,女兒做法太解氣

      蘭姐說故事
      2025-03-19 15:00:05
      黎智英遭裁決,美國大魚被供出,30國勢力同時冒頭,逼中方放人?

      黎智英遭裁決,美國大魚被供出,30國勢力同時冒頭,逼中方放人?

      博覽歷史
      2025-12-16 18:19:52
      女生小肚子突出,千萬警惕這種情況(不是胖)!

      女生小肚子突出,千萬警惕這種情況(不是胖)!

      瑜伽解剖學
      2025-12-14 21:05:04
      離譜!上海獨身女子遺產被民政接收,表弟欲用遺產買墓地遭拒

      離譜!上海獨身女子遺產被民政接收,表弟欲用遺產買墓地遭拒

      行者聊官
      2025-12-16 18:55:40
      罰球31-19!犯規19-23!楊鳴連吃2T,陳盈駿連罰6球,裁判干啥呢

      罰球31-19!犯規19-23!楊鳴連吃2T,陳盈駿連罰6球,裁判干啥呢

      萌蘭聊個球
      2025-12-17 22:03:42
      復旦大學研究生自爆退學,同門的師兄弟也基本退學了

      復旦大學研究生自爆退學,同門的師兄弟也基本退學了

      蝴蝶花雨話教育
      2025-12-17 08:19:38
      F1車隊一年燒掉4.5億美元!為何資本仍瘋狂涌入?回報率超600%

      F1車隊一年燒掉4.5億美元!為何資本仍瘋狂涌入?回報率超600%

      扶蘇史記
      2025-12-12 02:30:04
      “零售第一妖股”,5天5漲停,瘋了!

      “零售第一妖股”,5天5漲停,瘋了!

      看財經show
      2025-12-17 17:18:36
      中日韓達成聯合聲明后,日本提新要求,索要中國國寶,日民眾嘆息

      中日韓達成聯合聲明后,日本提新要求,索要中國國寶,日民眾嘆息

      博覽歷史
      2025-12-16 18:18:19
      去向遲遲未定,澳籃博主:曾凡博正在耗掉的是自己寶貴的時間

      去向遲遲未定,澳籃博主:曾凡博正在耗掉的是自己寶貴的時間

      懂球帝
      2025-12-17 10:11:32
      中國援助柬埔寨那么多年,卻養出一個洪森白眼狼,是該告一段落了

      中國援助柬埔寨那么多年,卻養出一個洪森白眼狼,是該告一段落了

      我心縱橫天地間
      2025-12-16 12:38:59
      2025-12-17 23:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11943文章數 142512關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      健康
      時尚
      房產
      本地
      公開課

      這些新療法,讓化療不再那么痛苦

      這才是50歲女人該有的冬季穿搭,既保暖又體面,想不優雅都難

      房產要聞

      封關前夕!豪庭銘苑超前交付,敬呈海口生活新范本

      本地新聞

      云游安徽|踏過戰壕與石板,讀一部活的淮北史

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲伊人影院| 久久99精品国产麻豆婷婷| 成人自拍偷拍| 丝袜a∨在线一区二区三区不卡| 人妻精品久久久久中文字幕青草 | Z〇Z○女人ZOZO另类| 青青草无码精品伊人久久| 免费国产女王调教在线视频| 色色资源平台| 国产中年熟女高潮大集合| 人妻第一页| 色噜噜人妻丝袜AⅤ资源| 色综合久| 男人天堂一区| 国产自产在线视频一区| 人妻熟女88AⅤ| 内黄县| 丝袜-91Porn| 亚洲成人精品无码系列| 在线成人AV| 九九色精品87| 国产喷水1区2区3区咪咪爱AV| 国产伦子沙发午休系列资源曝光| 无码人妻精品丰满熟妇区| 337p日本欧洲亚洲大胆色噜噜| 污污污污污污www网站免费| 天堂一区人妻无码| 欧美喷白浆| 国产看真人毛片爱做a片| 大香蕉综合网| 无码人妻精品区二区蜜桃91| 国产熟女91熟女| 中文字幕高清| 影音先锋女人站| 精品久久久久无码| 丹阳市| 纯肉高h啪动漫| 精品国产成人A区在线观看| 国产精品无码av无码| AV免费网站| 91精品久久久无码中文字幕少妇 |