<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI能否「圣地巡禮」?多模態大模型全新評估基準VIR-Bench來了

      0
      分享至



      大家或許都有過這樣的體驗:

      看完一部喜歡的動漫,總會心血來潮地想去 “圣地巡禮”;刷到別人剪輯精美的旅行 vlog,也會忍不住收藏起來,想著哪天親自走一遍同樣的路線。旅行與影像的結合,總是能勾起人們的探索欲望。那么,如果 AI 能自動看懂這些旅行視頻,幫你解析出 “去了哪些地方”“順序是怎樣的”,甚至還能一鍵生成屬于你的旅行計劃,會不會很有趣?這不僅僅是阿宅的想象,更是多模態大模型在真實世界應用中的一個重要場景。



      正是在這樣的啟發下,來自日本早稻田大學,CyberAgent 和奈良先端科學技術大學院大學的團隊提出了一個全新的多模態大模型評估基準 VIR-Bench ,旨在評測 AI 是否真的能理解旅行視頻中的地理位置與時間順序,從而支撐更復雜、更實用的應用。用一句話來概括,這項研究就是在追問:“我從哪里來?我要到哪里去?”



      • 論文地址:https://www.arxiv.org/abs/2509.19002
      • GitHub:https://github.com/nlp-waseda/VIR-Bench

      VIR-Bench 是什么?任務設計與數據集構建

      任務目標:行程還原(Itinerary Reconstruction)

      在 VIR-Bench 中,給定一個旅行 vlog(在日本拍攝),模型要輸出訪問順序圖(visiting order graph),也就是 “我去了哪些地點、按什么順序、地點之間有哪些包含關系” 的結構化表示。

      更具體地,這個訪問順序圖是一個有向圖,其中:

      • 節點表示被訪問的地點,按層次分為 Prefecture,City,和 POI(Point of Interest)三層級。
      • 包含邊(Inclusion edge) 表示層次上的 “大地理單元包含小地理單元” 關系(例如某 POI 在某個 City 里,某個 City 在某個 Prefecture 里)。
      • 轉移邊(Transition edge) 表示時間順序上的移動:從一個節點移動到下一個節點(同層級)表示旅行順序。



      這意味著模型不僅要識別出 “我去過的地點”,還要判斷這些地點之間的時間順序,地理空間關系,進而構建出整個旅行路徑的結構。此外,由于旅行視頻往往是自拍視角 / 行進視角 / 風光視角等交錯出現,模型需要在多樣視角、非連續畫面中“拼圖式” 理解,這進一步提升了任務難度。

      為便于模型訓練與評測,作者將這一復雜任務拆解為兩個子任務:

      1. 節點預測:給定視頻,模型列出所有被訪問的 Prefecture、City、POI。

      2. 邊緣預測:給定視頻 + 節點集合(節點標簽順序被打亂),模型要判斷哪些節點之間存在包含邊,哪些節點之間存在轉移邊。即預測邊的集合。

      通過這種分解方式,我們可以分別評估模型的地理識別能力與時序推理能力,以及它們在實際組合時的協同性。

      數據集構建:200 個旅行視頻 + 訪問順序圖

      為了支撐上述任務,作者構建了一個規模適中的專用數據集:

      • 視頻數量:200 個旅行 vlog(都在日本拍攝) 。
      • 地點覆蓋:共標注出 3,689 個 POI,分布在日本 43 個都道府縣(幾乎覆蓋全日本) 。
      • 標注方式:每個視頻由人工注釋者識別每個 POI 的起止時間、Google Maps 鏈接,并通過雙人校驗后自動構建最終的訪問順序圖。

      作者在論文中還附上了詳細注釋指南、數據分布統計等信息(可見 Appendix 部分)。

      實驗結果與洞察:當前模型面臨的挑戰



      在實驗中,作者發現開源模型整體上仍然落后于商用模型,尤其是在 POI 節點識別 和 轉移邊預測 這兩個子任務上差距尤為明顯。進一步的分析顯示,轉移邊預測幾乎是所有模型的 “最難關”:不少模型要么直接誤解了任務要求,要么忽視了層級結構的約束(只有同層級節點之間可以有轉移邊),結果往往接近隨機水平。

      另一方面,模型規模的擴展對性能提升具有顯著作用,尤其體現在邊緣預測上;而是否具備地理相關的預訓練,則成為 POI 節點預測精度差異的關鍵因素。值得注意的是,思維鏈推理(Chain-of-Thought) 的效果在不同子任務中差別很大:在節點預測中提升有限,但在邊緣預測中卻能帶來顯著的改善。如果再進一步結合音頻信息(例如 Gemini-2.5-Pro 的多模態輸入),效果提升尤為突出。

      Ablation 實驗也為我們揭示了模型性能提升的幾個關鍵方向:增加輸入幀數可以讓模型捕捉更完整的旅行線索,更長的推理過程能幫助模型逐步還原旅行順序,而音頻的利用則能提供額外的語義提示。三者結合,共同推動了模型在復雜時空理解任務上的進步。

      然而,即便有這些改進,整體性能仍遠未達到可用水平。即使是當前得分最高的 Gemini-2.5-Pro,在預測結果中依然存在大量錯誤,這進一步凸顯了多模態大模型在長程地理與時間理解上的巨大挑戰。



      表1: 節點預測的評估結果



      表2: 邊緣預測的評估結果

      總而言之,VIR-Bench 不僅是一個新的評測基準,更是為未來諸多應用打開了一扇窗口。通過在旅行視頻中重建行程順序,它逼迫模型同時理解 “地理位置 + 時間順序”,這與機器人如何理解世界、規劃路徑,以及自動駕駛系統如何在動態環境中進行決策高度契合。

      這一研究讓我們看清:當前的大模型在長程推理和時空理解上仍有明顯不足,但也指明了進化的方向 —— 更強的地理空間感知、更可靠的時間推理,以及多模態信息的深度融合。當這些能力逐漸成熟,AI 將不再只是 “看視頻”,而是真正具備 “在世界中行動” 的潛力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      善惡終有報!49歲的李鐵再傳噩耗,終是為自己的貪婪付出代價

      善惡終有報!49歲的李鐵再傳噩耗,終是為自己的貪婪付出代價

      痞子時代
      2026-02-12 15:36:53
      又擊落一架蘇-34!俄軍一個月投擲數千枚制導炸彈,卻炸了個寂寞

      又擊落一架蘇-34!俄軍一個月投擲數千枚制導炸彈,卻炸了個寂寞

      鷹眼Defence
      2026-02-21 17:29:44
      周炳琨同志逝世

      周炳琨同志逝世

      Thurman在昆明
      2026-02-20 12:59:17
      華子40+6末節14分!森林狼送獨行俠10連敗 戈貝爾22+17

      華子40+6末節14分!森林狼送獨行俠10連敗 戈貝爾22+17

      醉臥浮生
      2026-02-21 11:08:17
      奧運會為什么發避孕套?難道運動員都帶伴侶嗎?看完你就明白了!

      奧運會為什么發避孕套?難道運動員都帶伴侶嗎?看完你就明白了!

      南權先生
      2026-02-13 15:17:51
      尼格買提春晚歸家驚現無綠葉菜,背后隱藏的新疆美食秘密!

      尼格買提春晚歸家驚現無綠葉菜,背后隱藏的新疆美食秘密!

      一盅情懷
      2026-02-21 13:36:27
      一針見血,趙心童6-3墨菲晉級四強,賽后丁俊暉說出了比賽看法

      一針見血,趙心童6-3墨菲晉級四強,賽后丁俊暉說出了比賽看法

      二爺臺球解說
      2026-02-21 09:44:37
      軍令如山!3月1日起全軍實行終身負責制,從嚴治軍強根基

      軍令如山!3月1日起全軍實行終身負責制,從嚴治軍強根基

      我心縱橫天地間
      2026-02-19 23:15:18
      最后1秒定生死!東契奇38+11準三雙 詹姆斯13+11 湖人主場掀翻快船

      最后1秒定生死!東契奇38+11準三雙 詹姆斯13+11 湖人主場掀翻快船

      生活新鮮市
      2026-02-21 16:37:59
      特朗普:將在常規關稅基礎上對全球征收10%的進口關稅

      特朗普:將在常規關稅基礎上對全球征收10%的進口關稅

      21世紀經濟報道
      2026-02-21 06:47:39
      2月18日俄烏最新:局勢急劇惡化

      2月18日俄烏最新:局勢急劇惡化

      西樓飲月
      2026-02-18 21:12:22
      98年我在南京和一女同事搭伙了5年,20年后回去發現她一直沒嫁人

      98年我在南京和一女同事搭伙了5年,20年后回去發現她一直沒嫁人

      千秋歷史
      2026-02-11 22:06:51
      金銀價再度大漲 國內金飾價格逼近1600元/克 專家提醒:勿追高,可分批布局

      金銀價再度大漲 國內金飾價格逼近1600元/克 專家提醒:勿追高,可分批布局

      紅星新聞
      2026-02-21 12:50:23
      明星紛紛曬奢侈年夜飯,江疏影家2元店盤子和銹跡斑斑的鐵鍋絕了

      明星紛紛曬奢侈年夜飯,江疏影家2元店盤子和銹跡斑斑的鐵鍋絕了

      娛樂小丸子
      2026-02-20 21:23:50
      尼泊爾“一妻多夫”該如何生活?妻子苦不堪言:一點都不幸福。

      尼泊爾“一妻多夫”該如何生活?妻子苦不堪言:一點都不幸福。

      百態人間
      2025-11-06 05:45:02
      楊瀾:我與老公早已無愛,若繼續再在一起,對彼此都是很不公平的

      楊瀾:我與老公早已無愛,若繼續再在一起,對彼此都是很不公平的

      小徐講八卦
      2026-02-11 13:00:09
      你見過最無用的節儉行為是什么?看完網友的分享,我破防了!

      你見過最無用的節儉行為是什么?看完網友的分享,我破防了!

      小熊侃史
      2026-02-21 11:22:12
      讓春晚導演給全國道歉,入美國籍回中國撈金,她到底有什么來頭?

      讓春晚導演給全國道歉,入美國籍回中國撈金,她到底有什么來頭?

      喜歡歷史的阿繁
      2026-02-21 10:50:12
      從星鏈落地到全面改革,被低估的越南正在驚人“逆襲”

      從星鏈落地到全面改革,被低估的越南正在驚人“逆襲”

      鳳眼論
      2026-02-19 09:08:18
      別追黃金牛市了!金價破6500美元是比08年次貸危機更狠的危機來了

      別追黃金牛市了!金價破6500美元是比08年次貸危機更狠的危機來了

      別人都叫我阿腈
      2026-02-21 13:31:10
      2026-02-21 18:11:01
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12325文章數 142569關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      省直機關女工程師陷美男計 拉公職人員丈夫當間諜17年

      頭條要聞

      省直機關女工程師陷美男計 拉公職人員丈夫當間諜17年

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      時尚
      旅游
      房產
      親子
      健康

      2026紐約秋冬時裝周,在春天開啟美的新故事!

      旅游要聞

      臨沂天上王城春節假期開門紅,好戲連臺過大年

      房產要聞

      窗前即地標!獨占三亞灣C位 自貿港總裁行宮亮相

      親子要聞

      誰能猜出他倆是什么關系?

      轉頭就暈的耳石癥,能開車上班嗎?

      無障礙瀏覽 進入關懷版