<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      讓AI看懂長視頻:MBZUAI突破多模態視頻理解瓶頸

      0
      分享至


      在人工智能快速發展的今天,教會機器理解視頻內容變得越來越重要。然而,現有的AI系統在面對長視頻時往往力不從心,就像讓一個只會看圖畫書的孩子突然去理解一部兩小時的電影一樣困難。來自阿聯酋穆罕默德·本·扎耶德人工智能大學(MBZUAI)的研究團隊最近發表了一項突破性研究,為這個難題提供了全新的解決方案。

      這項由Mohammed Irfan Kurpath領導的國際研究團隊于2025年12月發表的研究論文,題為"A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos"。研究團隊來自多個知名機構,包括MBZUAI、貝魯特美國大學和瑞典林雪平大學。這篇論文首次提出了一個全面的長視頻多模態理解基準測試LongShOTBench,以及一個智能代理系統LongShOTAgent。

      當前的AI視頻理解技術面臨著一個根本性的矛盾:現有的評測方法要么專注于長時間但忽略音頻信息,要么關注多模態但局限于短片段。這就好比讓一個人要么只用眼睛看一部無聲電影,要么只聽幾分鐘的片段配音,然后要求他們完全理解整部電影的內容。研究團隊意識到,真正的視頻理解需要同時處理視覺、語音和環境音頻信息,并且要在長時間跨度內保持連貫的推理能力。

      為了解決這個問題,研究團隊開發了LongShOTBench這一全新的評測基準。這個基準包含157個長視頻,平均時長達到45分鐘,總計超過117小時的視頻內容。這些視頻不是簡單的片段拼接,而是完整的連續內容,涵蓋從烹飪教程到技術演示的各種場景。每個視頻都經過精心的多模態標注,確保視覺、音頻和語言信息的完整性。

      LongShOTBench的創新之處在于它的評估方式。傳統的AI評測通常采用選擇題格式,這種方式就像只讓學生做填空題而不允許他們寫作文一樣,無法真正測試深層理解能力。相反,LongShOTBench采用開放式問答和多輪對話的形式,更接近真實的人機交互場景。更重要的是,它還引入了工具使用能力的測試,允許AI系統調用外部工具來輔助理解,這就像給學生提供計算器、詞典等工具來完成復雜任務。

      研究團隊還開發了一套獨特的評分機制,稱為分級評價標準。這種評分方式不再是簡單的對錯判斷,而是像老師批改作文一樣,從多個維度進行細致評估。每個問題都配有詳細的評分標準,包括事實準確性、時間定位能力、多模態信息整合等方面。這種評分方式能夠提供更加精確和可解釋的評估結果。

      在技術架構方面,研究團隊提出了LongShOTAgent智能代理系統。這個系統采用模塊化設計,就像一個配備了各種專業工具的多面手技師。它的核心是一個輕量級的協調器,負責統籌調配各種專業模塊,包括視覺理解模塊、語音識別模塊和音頻分析模塊。當面對復雜的視頻理解任務時,協調器會根據需要動態選擇合適的工具組合。

      LongShOTAgent的工作流程分為三個階段。首先是預處理和索引階段,系統會對輸入的長視頻進行分段處理,提取各種模態的特征信息,并建立多模態向量數據庫。這個過程類似于圖書管理員為新到的書籍編目和分類,為后續的快速檢索做好準備。接下來是自適應檢索階段,系統會根據用戶的查詢需求,智能地定位到最相關的視頻片段,避免在整個長視頻中進行低效搜索。最后是迭代優化和綜合階段,系統會調用各種專業模塊對檢索到的片段進行深入分析,并將結果整合成連貫的回答。

      在實驗評估中,研究團隊測試了包括Gemini-2.5-Flash、Qwen2.5-Omni等在內的多個先進AI模型。結果顯示,即使是最強的商業模型Gemini-2.5-Flash也只達到了52.95%的整體準確率,而開源模型的表現更是普遍低于30%。這個結果令人清醒地認識到,當前的AI技術在長視頻理解方面仍有很大的提升空間。

      有趣的是,研究團隊發現模型在處理不同長度視頻時的表現存在明顯差異。在處理30分鐘以內的短視頻時,模型表現相對較好,但隨著視頻長度增加到60分鐘以上,性能明顯下降。這種現象類似于人類在長時間專注時容易出現注意力分散,反映了當前AI系統在長時間記憶和推理方面的局限性。

      LongShOTAgent在這次測試中表現出色,達到了44.66%的整體準確率,雖然仍低于Gemini,但顯著超越了所有開源模型。這證明了通過合理的模塊化設計和智能協調,可以在不增加訓練數據的情況下顯著提升系統性能。

      研究團隊還特別關注了工具使用能力的評估,這是傳統視頻理解基準中缺失的重要能力。在現實應用中,AI系統往往需要調用各種外部工具來完成復雜任務,比如進行數學計算、查詢外部知識庫或執行代碼。LongShOTBench包含了16種不同類型的工具,涵蓋語音處理、視覺理解、翻譯服務、計算工具和信息檢索等多個方面。

      從數據構建的角度來看,LongShOTBench的制作過程體現了嚴格的質量控制標準。研究團隊采用了五階段的自動化流程,包括多模態標注生成、問題設計、答案生成、分級標準制定和人工驗證。所有的問題和答案都經過了人工專家的審核和修正,確保了基準測試的可靠性和有效性。

      特別值得一提的是,研究團隊在問題設計時引入了情境框架的概念。他們沒有直接讓AI模型生成問題,而是首先分析視頻內容,識別出不同的觀看情境,然后基于這些情境設計相應的問題。這種方法更貼近真實的人類視頻觀看體驗,能夠更好地評估AI系統的實用價值。

      在多輪對話評估中,LongShOTBench采用了理想軌跡設置來避免錯誤累積。這意味著在對話的每一輪中,系統都會基于標準答案而不是前一輪的錯誤回答來繼續對話。這種設計確保了每一輪對話都能得到公平的評估,不會因為前面的錯誤而影響后續表現。

      從技術實現的角度看,LongShOTBench支持原生視頻輸入協議,避免了因為不同的幀采樣策略而帶來的評估偏差。研究團隊讓每個模型使用自己的默認視頻處理方式,這樣的設計更加公平,也更接近實際應用場景。

      研究結果揭示了當前AI系統在長視頻理解方面的幾個關鍵瓶頸。首先是長時間記憶問題,現有模型難以在長時間跨度內維持一致的理解狀態。其次是多模態信息整合能力不足,許多模型雖然能夠處理視覺或音頻信息,但難以有效地將它們結合起來進行推理。最后是工具使用能力的缺失,大多數模型缺乏調用外部工具來解決復雜問題的能力。

      這項研究的影響不僅僅局限于學術界。隨著視頻內容在日常生活中的重要性不斷增加,從在線教育到娛樂媒體,從安防監控到醫療診斷,長視頻理解技術的應用前景極其廣闊。LongShOTBench為這些應用提供了標準化的評估框架,有助于推動相關技術的發展和落地。

      研究團隊也坦率地討論了當前研究的局限性。由于計算資源的限制,他們主要關注了參數量在10億以下的模型,并且視頻內容主要來源于公開平臺,可能在多樣性方面存在一定局限。然而,他們承諾將逐步擴大基準測試的規模,并持續更新和完善評估框架。

      從方法論的角度來看,這項研究展示了如何通過合理的任務分解和模塊化設計來解決復雜的AI問題。LongShOTAgent的成功證明了,并不總是需要更大的模型和更多的訓練數據,有時候智能的系統設計和有效的模塊協調同樣能夠帶來顯著的性能提升。

      研究團隊還特別強調了可復現性的重要性。他們承諾將公開所有的代碼、數據和評估框架,使其他研究者能夠基于這個基礎進行進一步的研究和改進。這種開放的研究態度對于推動整個領域的發展具有重要意義。

      展望未來,這項研究為長視頻理解技術的發展指明了方向。隨著更強大的基礎模型和更高效的訓練方法的出現,結合LongShOTBench提供的標準化評估框架,我們有理由相信AI系統在長視頻理解方面將會取得更大的突破。同時,工具增強的AI代理系統也將在更多實際應用中發揮重要作用。

      Q&A

      Q1:LongShOTBench相比其他視頻理解測試有什么特別之處?

      A:LongShOTBench是首個同時關注長時間跨度和多模態信息的綜合基準。它包含平均45分鐘的長視頻,同時整合視覺、語音和環境音頻信息,還引入了工具使用能力測試。傳統測試要么只看短片段,要么忽略音頻,LongShOTBench更接近真實的視頻理解需求。

      Q2:為什么當前最強的AI模型在LongShOTBench上表現不理想?

      A:即使是Gemini-2.5-Flash這樣的頂級模型也只達到52.95%的準確率,主要原因是長視頻理解涉及多個技術難點:長時間記憶維持困難、多模態信息整合復雜、工具使用能力不足。隨著視頻長度增加,所有模型的表現都會顯著下降,這反映了當前技術的局限性。

      Q3:LongShOTAgent是如何工作的?

      A:LongShOTAgent采用模塊化設計,包含一個輕量級協調器和多個專業模塊。它先對長視頻進行預處理和索引,建立多模態數據庫,然后根據查詢需求智能檢索相關片段,最后調用合適的專業模塊進行分析并整合結果。這種設計在不增加訓練的情況下顯著提升了性能。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廣廈110-80深圳迎5連勝,胡金秋11+5,孫銘徽11分,王浩然19+7

      廣廈110-80深圳迎5連勝,胡金秋11+5,孫銘徽11分,王浩然19+7

      懂球帝
      2025-12-27 21:45:19
      為報戰友救命之恩,我娶了他38歲的姐姐,結婚2年我才發現她身份

      為報戰友救命之恩,我娶了他38歲的姐姐,結婚2年我才發現她身份

      蕭竹輕語
      2025-12-12 16:25:15
      炸鍋!俄持續狂轟敖德薩,致平民死傷設施全毀,烏:這是蓄意屠殺

      炸鍋!俄持續狂轟敖德薩,致平民死傷設施全毀,烏:這是蓄意屠殺

      華言觀評
      2025-12-26 18:54:31
      科比遺孀圣誕曬全家福,三女綠裙同框似爸爸,她說永不再婚?

      科比遺孀圣誕曬全家福,三女綠裙同框似爸爸,她說永不再婚?

      科學發掘
      2025-12-27 14:00:26
      1960年代,許世友想要安徽一個湖,省委書記拍桌子:手伸太長!結局誰也沒想到

      1960年代,許世友想要安徽一個湖,省委書記拍桌子:手伸太長!結局誰也沒想到

      源溯歷史
      2025-12-22 12:14:11
      驚呆了!現役國手26分鐘得1分都難,球迷:打人機隊能1分不得?

      驚呆了!現役國手26分鐘得1分都難,球迷:打人機隊能1分不得?

      弄月公子
      2025-12-27 22:03:29
      突發!知名網紅“表哥”覃進展破產,自曝原因惹爭議,已搬到農村

      突發!知名網紅“表哥”覃進展破產,自曝原因惹爭議,已搬到農村

      裕豐娛間說
      2025-12-26 23:15:19
      優質“蛋白質”排行榜!牛奶倒數第一,蝦肉才排第5,建議了解

      優質“蛋白質”排行榜!牛奶倒數第一,蝦肉才排第5,建議了解

      岐黃傳人孫大夫
      2025-12-20 10:00:03
      曼城幸運2分鐘!迪亞斯逃紅,賴因德斯閃擊,首次射正就領先

      曼城幸運2分鐘!迪亞斯逃紅,賴因德斯閃擊,首次射正就領先

      奧拜爾
      2025-12-27 21:47:27
      繪說現代化丨冰雪龍江 熱力全開

      繪說現代化丨冰雪龍江 熱力全開

      人民資訊
      2025-12-27 08:38:42
      遼寧推妻墜海案中,死者兒子案發后的舉動,才叫人頭皮發麻…

      遼寧推妻墜海案中,死者兒子案發后的舉動,才叫人頭皮發麻…

      媒體人溪婉
      2024-11-29 13:57:59
      一天只能吃一個雞蛋的謊言,被徹底拆穿了,我們被騙了近百年

      一天只能吃一個雞蛋的謊言,被徹底拆穿了,我們被騙了近百年

      小胡軍事愛好
      2025-12-27 17:38:58
      中國又一技術震驚世界,西方巨頭紛紛求合作,這黑科技到底有多牛

      中國又一技術震驚世界,西方巨頭紛紛求合作,這黑科技到底有多牛

      通文知史
      2025-12-26 20:00:02
      陪睡陪玩不過是皮毛!萬達百億資產蒸發后,王思聰又曝驚天丑聞

      陪睡陪玩不過是皮毛!萬達百億資產蒸發后,王思聰又曝驚天丑聞

      牛鍋巴小釩
      2025-12-24 10:39:19
      日本高層赴俄,在中國背后捅刀,高市早苗知道:拼速度的時候到了

      日本高層赴俄,在中國背后捅刀,高市早苗知道:拼速度的時候到了

      歷史有些冷
      2025-12-26 18:45:05
      本賽季薪水最高的十名球星,其中四名球員高薪低能名不副實

      本賽季薪水最高的十名球星,其中四名球員高薪低能名不副實

      李帕在北漂
      2025-12-26 19:47:37
      慘!10天不到就裁掉!昔日天才榜眼啊,還不如落選秀

      慘!10天不到就裁掉!昔日天才榜眼啊,還不如落選秀

      格斗聯盟王大錘
      2025-12-27 21:09:48
      南博事件后續,曝南京敏求藝術品公司人去樓空,牽扯到徐湘江

      南博事件后續,曝南京敏求藝術品公司人去樓空,牽扯到徐湘江

      千言娛樂記
      2025-12-27 18:47:20
      萬科資不抵債

      萬科資不抵債

      地產微資訊
      2025-12-27 09:07:18
      驚魂!深圳一小汽車突發意外,失控沖出道路!車體4/5懸空,在懸崖邊緣搖搖欲墜…

      驚魂!深圳一小汽車突發意外,失控沖出道路!車體4/5懸空,在懸崖邊緣搖搖欲墜…

      廣東活動
      2025-12-27 12:11:49
      2025-12-27 22:28:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      6680文章數 544關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業界稱終端再不漲明年必虧

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

      財經要聞

      注意,開始拉物價了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態度原創

      藝術
      親子
      家居
      房產
      手機

      藝術要聞

      日本建筑大師出手,為臺灣孩子打造知識地標!

      親子要聞

      寶藍爸爸扮演“廚師”開了一家披薩店,太好玩了,快來看看吧!

      家居要聞

      格調時尚 智慧品質居所

      房產要聞

      年銷20億+!中交·藍色港灣用好房子致敬好生活

      手機要聞

      雷軍親自官宣:小米17 Ultra堪稱“顏值天花板”的小米影像旗艦手機

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国偷自产一区二区免费视频| 无码人妻久久一区二区三区| 中文字幕乱码亚洲无线三区| 九九国产视频| 亚洲人成在线播放网站| 国产偷窥熟女精品视频大全| 一级做a爰片在线播放| 人人超碰在线| 国产熟女91熟女| 井研县| av色综合久久天堂av色综合在| 成人国产精品秘片多多| www亚洲精品| 日日日日日| 久久久久久久人妻丝袜| 亚洲无人区码一码二码三码的含义| 亚洲自偷自偷在线成人网站传媒| 激情五月天婷婷| 成人精品区| 人人妻人人狠人人爽天天综合网 | 精品久久欧美熟妇www| 91偷拍视频| 欧美人人妻人人澡人人尤物| 国产.a片| 国产欧美久久久久久| 欧美视频二区欧美影视| 年轻女教师hd中字3| 国产在线拍揄自揄拍无码男男| 亚洲精品美女久久久久久久 | 亚洲欧美综合精品成| 国产免费AV电影| 国产精品久久久久9999高清| 秋霞影院午夜伦a片欧美| 午夜精品偷拍| 江门市| 国产亚洲精品aaaa片app| 日本三级欧美三级人妇视频黑白配| 日韩在线视频网| 新91视频在线观看www| 五级黄高潮片90分钟视频| 日本高清不卡aⅴ免费网站|