<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI能否「圣地巡禮」?多模態(tài)大模型全新評(píng)估基準(zhǔn)VIR-Bench來(lái)了

      0
      分享至



      大家或許都有過這樣的體驗(yàn):

      看完一部喜歡的動(dòng)漫,總會(huì)心血來(lái)潮地想去 “圣地巡禮”;刷到別人剪輯精美的旅行 vlog,也會(huì)忍不住收藏起來(lái),想著哪天親自走一遍同樣的路線。旅行與影像的結(jié)合,總是能勾起人們的探索欲望。那么,如果 AI 能自動(dòng)看懂這些旅行視頻,幫你解析出 “去了哪些地方”“順序是怎樣的”,甚至還能一鍵生成屬于你的旅行計(jì)劃,會(huì)不會(huì)很有趣?這不僅僅是阿宅的想象,更是多模態(tài)大模型在真實(shí)世界應(yīng)用中的一個(gè)重要場(chǎng)景。



      正是在這樣的啟發(fā)下,來(lái)自日本早稻田大學(xué),CyberAgent 和奈良先端科學(xué)技術(shù)大學(xué)院大學(xué)的團(tuán)隊(duì)提出了一個(gè)全新的多模態(tài)大模型評(píng)估基準(zhǔn) VIR-Bench ,旨在評(píng)測(cè) AI 是否真的能理解旅行視頻中的地理位置與時(shí)間順序,從而支撐更復(fù)雜、更實(shí)用的應(yīng)用。用一句話來(lái)概括,這項(xiàng)研究就是在追問:“我從哪里來(lái)?我要到哪里去?”



      • 論文地址:https://www.arxiv.org/abs/2509.19002
      • GitHub:https://github.com/nlp-waseda/VIR-Bench

      VIR-Bench 是什么?任務(wù)設(shè)計(jì)與數(shù)據(jù)集構(gòu)建

      任務(wù)目標(biāo):行程還原(Itinerary Reconstruction)

      在 VIR-Bench 中,給定一個(gè)旅行 vlog(在日本拍攝),模型要輸出訪問順序圖(visiting order graph),也就是 “我去了哪些地點(diǎn)、按什么順序、地點(diǎn)之間有哪些包含關(guān)系” 的結(jié)構(gòu)化表示。

      更具體地,這個(gè)訪問順序圖是一個(gè)有向圖,其中:

      • 節(jié)點(diǎn)表示被訪問的地點(diǎn),按層次分為 Prefecture,City,和 POI(Point of Interest)三層級(jí)。
      • 包含邊(Inclusion edge) 表示層次上的 “大地理單元包含小地理單元” 關(guān)系(例如某 POI 在某個(gè) City 里,某個(gè) City 在某個(gè) Prefecture 里)。
      • 轉(zhuǎn)移邊(Transition edge) 表示時(shí)間順序上的移動(dòng):從一個(gè)節(jié)點(diǎn)移動(dòng)到下一個(gè)節(jié)點(diǎn)(同層級(jí))表示旅行順序。



      這意味著模型不僅要識(shí)別出 “我去過的地點(diǎn)”,還要判斷這些地點(diǎn)之間的時(shí)間順序,地理空間關(guān)系,進(jìn)而構(gòu)建出整個(gè)旅行路徑的結(jié)構(gòu)。此外,由于旅行視頻往往是自拍視角 / 行進(jìn)視角 / 風(fēng)光視角等交錯(cuò)出現(xiàn),模型需要在多樣視角、非連續(xù)畫面中“拼圖式” 理解,這進(jìn)一步提升了任務(wù)難度。

      為便于模型訓(xùn)練與評(píng)測(cè),作者將這一復(fù)雜任務(wù)拆解為兩個(gè)子任務(wù):

      1. 節(jié)點(diǎn)預(yù)測(cè):給定視頻,模型列出所有被訪問的 Prefecture、City、POI。

      2. 邊緣預(yù)測(cè):給定視頻 + 節(jié)點(diǎn)集合(節(jié)點(diǎn)標(biāo)簽順序被打亂),模型要判斷哪些節(jié)點(diǎn)之間存在包含邊,哪些節(jié)點(diǎn)之間存在轉(zhuǎn)移邊。即預(yù)測(cè)邊的集合。

      通過這種分解方式,我們可以分別評(píng)估模型的地理識(shí)別能力與時(shí)序推理能力,以及它們?cè)趯?shí)際組合時(shí)的協(xié)同性。

      數(shù)據(jù)集構(gòu)建:200 個(gè)旅行視頻 + 訪問順序圖

      為了支撐上述任務(wù),作者構(gòu)建了一個(gè)規(guī)模適中的專用數(shù)據(jù)集:

      • 視頻數(shù)量:200 個(gè)旅行 vlog(都在日本拍攝) 。
      • 地點(diǎn)覆蓋:共標(biāo)注出 3,689 個(gè) POI,分布在日本 43 個(gè)都道府縣(幾乎覆蓋全日本) 。
      • 標(biāo)注方式:每個(gè)視頻由人工注釋者識(shí)別每個(gè) POI 的起止時(shí)間、Google Maps 鏈接,并通過雙人校驗(yàn)后自動(dòng)構(gòu)建最終的訪問順序圖。

      作者在論文中還附上了詳細(xì)注釋指南、數(shù)據(jù)分布統(tǒng)計(jì)等信息(可見 Appendix 部分)。

      實(shí)驗(yàn)結(jié)果與洞察:當(dāng)前模型面臨的挑戰(zhàn)



      在實(shí)驗(yàn)中,作者發(fā)現(xiàn)開源模型整體上仍然落后于商用模型,尤其是在 POI 節(jié)點(diǎn)識(shí)別 和 轉(zhuǎn)移邊預(yù)測(cè) 這兩個(gè)子任務(wù)上差距尤為明顯。進(jìn)一步的分析顯示,轉(zhuǎn)移邊預(yù)測(cè)幾乎是所有模型的 “最難關(guān)”:不少模型要么直接誤解了任務(wù)要求,要么忽視了層級(jí)結(jié)構(gòu)的約束(只有同層級(jí)節(jié)點(diǎn)之間可以有轉(zhuǎn)移邊),結(jié)果往往接近隨機(jī)水平。

      另一方面,模型規(guī)模的擴(kuò)展對(duì)性能提升具有顯著作用,尤其體現(xiàn)在邊緣預(yù)測(cè)上;而是否具備地理相關(guān)的預(yù)訓(xùn)練,則成為 POI 節(jié)點(diǎn)預(yù)測(cè)精度差異的關(guān)鍵因素。值得注意的是,思維鏈推理(Chain-of-Thought) 的效果在不同子任務(wù)中差別很大:在節(jié)點(diǎn)預(yù)測(cè)中提升有限,但在邊緣預(yù)測(cè)中卻能帶來(lái)顯著的改善。如果再進(jìn)一步結(jié)合音頻信息(例如 Gemini-2.5-Pro 的多模態(tài)輸入),效果提升尤為突出。

      Ablation 實(shí)驗(yàn)也為我們揭示了模型性能提升的幾個(gè)關(guān)鍵方向:增加輸入幀數(shù)可以讓模型捕捉更完整的旅行線索,更長(zhǎng)的推理過程能幫助模型逐步還原旅行順序,而音頻的利用則能提供額外的語(yǔ)義提示。三者結(jié)合,共同推動(dòng)了模型在復(fù)雜時(shí)空理解任務(wù)上的進(jìn)步。

      然而,即便有這些改進(jìn),整體性能仍遠(yuǎn)未達(dá)到可用水平。即使是當(dāng)前得分最高的 Gemini-2.5-Pro,在預(yù)測(cè)結(jié)果中依然存在大量錯(cuò)誤,這進(jìn)一步凸顯了多模態(tài)大模型在長(zhǎng)程地理與時(shí)間理解上的巨大挑戰(zhàn)。



      表1: 節(jié)點(diǎn)預(yù)測(cè)的評(píng)估結(jié)果



      表2: 邊緣預(yù)測(cè)的評(píng)估結(jié)果

      總而言之,VIR-Bench 不僅是一個(gè)新的評(píng)測(cè)基準(zhǔn),更是為未來(lái)諸多應(yīng)用打開了一扇窗口。通過在旅行視頻中重建行程順序,它逼迫模型同時(shí)理解 “地理位置 + 時(shí)間順序”,這與機(jī)器人如何理解世界、規(guī)劃路徑,以及自動(dòng)駕駛系統(tǒng)如何在動(dòng)態(tài)環(huán)境中進(jìn)行決策高度契合。

      這一研究讓我們看清:當(dāng)前的大模型在長(zhǎng)程推理和時(shí)空理解上仍有明顯不足,但也指明了進(jìn)化的方向 —— 更強(qiáng)的地理空間感知、更可靠的時(shí)間推理,以及多模態(tài)信息的深度融合。當(dāng)這些能力逐漸成熟,AI 將不再只是 “看視頻”,而是真正具備 “在世界中行動(dòng)” 的潛力。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      中國(guó)網(wǎng)友冤枉松島輝空了!非故意不與王楚欽握手:當(dāng)時(shí)根本沒法握

      中國(guó)網(wǎng)友冤枉松島輝空了!非故意不與王楚欽握手:當(dāng)時(shí)根本沒法握

      風(fēng)過鄉(xiāng)
      2026-04-07 19:32:29
      伊朗的“眼睛”被挖掉了:雷扎伊之死背后的情報(bào)災(zāi)難

      伊朗的“眼睛”被挖掉了:雷扎伊之死背后的情報(bào)災(zāi)難

      民間胡扯老哥
      2026-04-05 07:45:23
      伊朗公布對(duì)執(zhí)行營(yíng)救美軍機(jī)開火畫面

      伊朗公布對(duì)執(zhí)行營(yíng)救美軍機(jī)開火畫面

      環(huán)球網(wǎng)資訊
      2026-04-07 14:32:39
      《生化9》格蕾絲"大奶牛"MOD:極品大雷身材太火爆

      《生化9》格蕾絲"大奶牛"MOD:極品大雷身材太火爆

      游民星空
      2026-04-05 12:06:10
      國(guó)民黨爆發(fā)內(nèi)江,馬英九拒接電話,大陸公布統(tǒng)一后的安排

      國(guó)民黨爆發(fā)內(nèi)江,馬英九拒接電話,大陸公布統(tǒng)一后的安排

      奇思妙想生活家
      2026-04-07 15:21:31
      林小異已任常州市委副書記

      林小異已任常州市委副書記

      上觀新聞
      2026-04-07 20:56:18
      亞馬爾憤怒原因曝光:不滿55歲巴薩助教多嘴!兩人隔空抱怨

      亞馬爾憤怒原因曝光:不滿55歲巴薩助教多嘴!兩人隔空抱怨

      葉青足球世界
      2026-04-07 09:16:55
      你專業(yè)還是我專業(yè)!王鑄和張雪吵架事件,再次被扒,評(píng)論區(qū)沸騰了

      你專業(yè)還是我專業(yè)!王鑄和張雪吵架事件,再次被扒,評(píng)論區(qū)沸騰了

      火山詩(shī)話
      2026-04-05 12:09:37
      “余生好好走”,知名央視主持人王小丫,病床上的留言字字催淚

      “余生好好走”,知名央視主持人王小丫,病床上的留言字字催淚

      近史談
      2026-03-31 18:57:49
      王勵(lì)勤終于下定決心!4大老將逐步放棄,重點(diǎn)培養(yǎng)新生代為時(shí)不晚

      王勵(lì)勤終于下定決心!4大老將逐步放棄,重點(diǎn)培養(yǎng)新生代為時(shí)不晚

      羅納爾說個(gè)球
      2026-04-07 12:00:49
      1955年大授銜,張萬(wàn)年授了什么軍銜?

      1955年大授銜,張萬(wàn)年授了什么軍銜?

      老范談史
      2026-04-07 16:39:32
      我干了50年風(fēng)水師,我發(fā)現(xiàn)真正能改變命運(yùn)的,只有三個(gè)字

      我干了50年風(fēng)水師,我發(fā)現(xiàn)真正能改變命運(yùn)的,只有三個(gè)字

      千秋文化
      2026-04-04 21:29:57
      中國(guó)留學(xué)生泰國(guó)公寓墜亡,房間墻上留遺言,警方在浴室發(fā)現(xiàn)其女友遺體

      中國(guó)留學(xué)生泰國(guó)公寓墜亡,房間墻上留遺言,警方在浴室發(fā)現(xiàn)其女友遺體

      紅星新聞
      2026-04-07 12:52:19
      豐田漢蘭達(dá)價(jià)格再下探!優(yōu)惠高達(dá)3.6萬(wàn),網(wǎng)友:誠(chéng)意到位了

      豐田漢蘭達(dá)價(jià)格再下探!優(yōu)惠高達(dá)3.6萬(wàn),網(wǎng)友:誠(chéng)意到位了

      汽車網(wǎng)評(píng)
      2026-04-07 14:11:17
      時(shí)隔十年國(guó)民黨主席再訪大陸 鄭麗文今赴上海

      時(shí)隔十年國(guó)民黨主席再訪大陸 鄭麗文今赴上海

      參考消息
      2026-04-07 09:56:06
      中國(guó)不記隔夜仇!巴拿馬接到通知,美國(guó)終于下場(chǎng),巴政府自食惡果

      中國(guó)不記隔夜仇!巴拿馬接到通知,美國(guó)終于下場(chǎng),巴政府自食惡果

      說歷史的老牢
      2026-04-06 19:50:20
      同行罵他白癡,名帥拒握手!38歲法布雷加斯正顛覆意甲

      同行罵他白癡,名帥拒握手!38歲法布雷加斯正顛覆意甲

      仰臥撐FTUer
      2026-04-06 20:30:03
      變天了!伊朗,七寸被掐住了!

      變天了!伊朗,七寸被掐住了!

      財(cái)經(jīng)要參
      2026-04-06 22:54:33
      中科曙光:2026年第一季度凈利潤(rùn)約2.25億元,同比增加20.88%

      中科曙光:2026年第一季度凈利潤(rùn)約2.25億元,同比增加20.88%

      每日經(jīng)濟(jì)新聞
      2026-04-07 18:53:29
      布倫森30+13末節(jié)17分!尼克斯險(xiǎn)勝老鷹 沃克本季244三分隊(duì)史第一

      布倫森30+13末節(jié)17分!尼克斯險(xiǎn)勝老鷹 沃克本季244三分隊(duì)史第一

      醉臥浮生
      2026-04-07 09:38:34
      2026-04-07 22:43:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12701文章數(shù) 142616關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普恐嚇4小時(shí)摧毀伊朗 伊朗稱"打穿"海法未見攔截

      頭條要聞

      特朗普恐嚇4小時(shí)摧毀伊朗 伊朗稱"打穿"海法未見攔截

      體育要聞

      官宣簽約“AI球員”,這支球隊(duì)被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產(chǎn)

      財(cái)經(jīng)要聞

      10萬(wàn)億財(cái)政轉(zhuǎn)移支付,被誰(shuí)拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗(yàn)

      態(tài)度原創(chuàng)

      手機(jī)
      健康
      本地
      公開課
      軍事航空

      手機(jī)要聞

      蘋果折疊iPhone遭遇工程挫折?

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      本地新聞

      跟著歌聲游安徽,聽古村回響

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美軍營(yíng)救飛行員出動(dòng)155架飛機(jī)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版