網易首頁 > 網易號 > 正文申請入駐

讓AI看懂長視頻：MBZUAI突破多模態視頻理解瓶頸

2025-12-24 16:40:21　來源: 科技行者

北京舉報

分享至

在人工智能快速發展的今天，教會機器理解視頻內容變得越來越重要。然而，現有的AI系統在面對長視頻時往往力不從心，就像讓一個只會看圖畫書的孩子突然去理解一部兩小時的電影一樣困難。來自阿聯酋穆罕默德·本·扎耶德人工智能大學（MBZUAI）的研究團隊最近發表了一項突破性研究，為這個難題提供了全新的解決方案。

這項由Mohammed Irfan Kurpath領導的國際研究團隊于2025年12月發表的研究論文，題為"A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos"。研究團隊來自多個知名機構，包括MBZUAI、貝魯特美國大學和瑞典林雪平大學。這篇論文首次提出了一個全面的長視頻多模態理解基準測試LongShOTBench，以及一個智能代理系統LongShOTAgent。

當前的AI視頻理解技術面臨著一個根本性的矛盾：現有的評測方法要么專注于長時間但忽略音頻信息，要么關注多模態但局限于短片段。這就好比讓一個人要么只用眼睛看一部無聲電影，要么只聽幾分鐘的片段配音，然后要求他們完全理解整部電影的內容。研究團隊意識到，真正的視頻理解需要同時處理視覺、語音和環境音頻信息，并且要在長時間跨度內保持連貫的推理能力。

為了解決這個問題，研究團隊開發了LongShOTBench這一全新的評測基準。這個基準包含157個長視頻，平均時長達到45分鐘，總計超過117小時的視頻內容。這些視頻不是簡單的片段拼接，而是完整的連續內容，涵蓋從烹飪教程到技術演示的各種場景。每個視頻都經過精心的多模態標注，確保視覺、音頻和語言信息的完整性。

LongShOTBench的創新之處在于它的評估方式。傳統的AI評測通常采用選擇題格式，這種方式就像只讓學生做填空題而不允許他們寫作文一樣，無法真正測試深層理解能力。相反，LongShOTBench采用開放式問答和多輪對話的形式，更接近真實的人機交互場景。更重要的是，它還引入了工具使用能力的測試，允許AI系統調用外部工具來輔助理解，這就像給學生提供計算器、詞典等工具來完成復雜任務。

研究團隊還開發了一套獨特的評分機制，稱為分級評價標準。這種評分方式不再是簡單的對錯判斷，而是像老師批改作文一樣，從多個維度進行細致評估。每個問題都配有詳細的評分標準，包括事實準確性、時間定位能力、多模態信息整合等方面。這種評分方式能夠提供更加精確和可解釋的評估結果。

在技術架構方面，研究團隊提出了LongShOTAgent智能代理系統。這個系統采用模塊化設計，就像一個配備了各種專業工具的多面手技師。它的核心是一個輕量級的協調器，負責統籌調配各種專業模塊，包括視覺理解模塊、語音識別模塊和音頻分析模塊。當面對復雜的視頻理解任務時，協調器會根據需要動態選擇合適的工具組合。

LongShOTAgent的工作流程分為三個階段。首先是預處理和索引階段，系統會對輸入的長視頻進行分段處理，提取各種模態的特征信息，并建立多模態向量數據庫。這個過程類似于圖書管理員為新到的書籍編目和分類，為后續的快速檢索做好準備。接下來是自適應檢索階段，系統會根據用戶的查詢需求，智能地定位到最相關的視頻片段，避免在整個長視頻中進行低效搜索。最后是迭代優化和綜合階段，系統會調用各種專業模塊對檢索到的片段進行深入分析，并將結果整合成連貫的回答。

在實驗評估中，研究團隊測試了包括Gemini-2.5-Flash、Qwen2.5-Omni等在內的多個先進AI模型。結果顯示，即使是最強的商業模型Gemini-2.5-Flash也只達到了52.95%的整體準確率，而開源模型的表現更是普遍低于30%。這個結果令人清醒地認識到，當前的AI技術在長視頻理解方面仍有很大的提升空間。

有趣的是，研究團隊發現模型在處理不同長度視頻時的表現存在明顯差異。在處理30分鐘以內的短視頻時，模型表現相對較好，但隨著視頻長度增加到60分鐘以上，性能明顯下降。這種現象類似于人類在長時間專注時容易出現注意力分散，反映了當前AI系統在長時間記憶和推理方面的局限性。

LongShOTAgent在這次測試中表現出色，達到了44.66%的整體準確率，雖然仍低于Gemini，但顯著超越了所有開源模型。這證明了通過合理的模塊化設計和智能協調，可以在不增加訓練數據的情況下顯著提升系統性能。

研究團隊還特別關注了工具使用能力的評估，這是傳統視頻理解基準中缺失的重要能力。在現實應用中，AI系統往往需要調用各種外部工具來完成復雜任務，比如進行數學計算、查詢外部知識庫或執行代碼。LongShOTBench包含了16種不同類型的工具，涵蓋語音處理、視覺理解、翻譯服務、計算工具和信息檢索等多個方面。

從數據構建的角度來看，LongShOTBench的制作過程體現了嚴格的質量控制標準。研究團隊采用了五階段的自動化流程，包括多模態標注生成、問題設計、答案生成、分級標準制定和人工驗證。所有的問題和答案都經過了人工專家的審核和修正，確保了基準測試的可靠性和有效性。

特別值得一提的是，研究團隊在問題設計時引入了情境框架的概念。他們沒有直接讓AI模型生成問題，而是首先分析視頻內容，識別出不同的觀看情境，然后基于這些情境設計相應的問題。這種方法更貼近真實的人類視頻觀看體驗，能夠更好地評估AI系統的實用價值。

在多輪對話評估中，LongShOTBench采用了理想軌跡設置來避免錯誤累積。這意味著在對話的每一輪中，系統都會基于標準答案而不是前一輪的錯誤回答來繼續對話。這種設計確保了每一輪對話都能得到公平的評估，不會因為前面的錯誤而影響后續表現。

從技術實現的角度看，LongShOTBench支持原生視頻輸入協議，避免了因為不同的幀采樣策略而帶來的評估偏差。研究團隊讓每個模型使用自己的默認視頻處理方式，這樣的設計更加公平，也更接近實際應用場景。

研究結果揭示了當前AI系統在長視頻理解方面的幾個關鍵瓶頸。首先是長時間記憶問題，現有模型難以在長時間跨度內維持一致的理解狀態。其次是多模態信息整合能力不足，許多模型雖然能夠處理視覺或音頻信息，但難以有效地將它們結合起來進行推理。最后是工具使用能力的缺失，大多數模型缺乏調用外部工具來解決復雜問題的能力。

這項研究的影響不僅僅局限于學術界。隨著視頻內容在日常生活中的重要性不斷增加，從在線教育到娛樂媒體，從安防監控到醫療診斷，長視頻理解技術的應用前景極其廣闊。LongShOTBench為這些應用提供了標準化的評估框架，有助于推動相關技術的發展和落地。

研究團隊也坦率地討論了當前研究的局限性。由于計算資源的限制，他們主要關注了參數量在10億以下的模型，并且視頻內容主要來源于公開平臺，可能在多樣性方面存在一定局限。然而，他們承諾將逐步擴大基準測試的規模，并持續更新和完善評估框架。

從方法論的角度來看，這項研究展示了如何通過合理的任務分解和模塊化設計來解決復雜的AI問題。LongShOTAgent的成功證明了，并不總是需要更大的模型和更多的訓練數據，有時候智能的系統設計和有效的模塊協調同樣能夠帶來顯著的性能提升。

研究團隊還特別強調了可復現性的重要性。他們承諾將公開所有的代碼、數據和評估框架，使其他研究者能夠基于這個基礎進行進一步的研究和改進。這種開放的研究態度對于推動整個領域的發展具有重要意義。

展望未來，這項研究為長視頻理解技術的發展指明了方向。隨著更強大的基礎模型和更高效的訓練方法的出現，結合LongShOTBench提供的標準化評估框架，我們有理由相信AI系統在長視頻理解方面將會取得更大的突破。同時，工具增強的AI代理系統也將在更多實際應用中發揮重要作用。

Q&A

Q1：LongShOTBench相比其他視頻理解測試有什么特別之處？

A：LongShOTBench是首個同時關注長時間跨度和多模態信息的綜合基準。它包含平均45分鐘的長視頻，同時整合視覺、語音和環境音頻信息，還引入了工具使用能力測試。傳統測試要么只看短片段，要么忽略音頻，LongShOTBench更接近真實的視頻理解需求。

Q2：為什么當前最強的AI模型在LongShOTBench上表現不理想？

A：即使是Gemini-2.5-Flash這樣的頂級模型也只達到52.95%的準確率，主要原因是長視頻理解涉及多個技術難點：長時間記憶維持困難、多模態信息整合復雜、工具使用能力不足。隨著視頻長度增加，所有模型的表現都會顯著下降，這反映了當前技術的局限性。

Q3：LongShOTAgent是如何工作的？

A：LongShOTAgent采用模塊化設計，包含一個輕量級協調器和多個專業模塊。它先對長視頻進行預處理和索引，建立多模態數據庫，然后根據查詢需求智能檢索相關片段，最后調用合適的專業模塊進行分析并整合結果。這種設計在不增加訓練的情況下顯著提升了性能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.