<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      首個(gè)Agentic多模態(tài)檢索大模型來(lái)了!清華讓AI邊推理邊主動(dòng)看圖

      0
      分享至

      近年來(lái),隨著多模態(tài)大語(yǔ)言模型(MLLM)的快速發(fā)展,研究者們開(kāi)始嘗試將其應(yīng)用于通用多模態(tài)檢索任務(wù)。與此同時(shí),思維鏈(Chain-of-Thought,CoT)推理被引入檢索領(lǐng)域,通過(guò)增強(qiáng)模型的推理能力來(lái)改善候選結(jié)果的排序。

      然而,一個(gè)重要問(wèn)題始終未能得到解決:現(xiàn)有的推理過(guò)程本質(zhì)上仍然是語(yǔ)言驅(qū)動(dòng)的,模型無(wú)法在推理過(guò)程中主動(dòng)獲取和驗(yàn)證視覺(jué)細(xì)節(jié),因此在面對(duì)相似的候選圖片時(shí)容易“瞎猜”。

      近日,清華大學(xué)聯(lián)合、復(fù)旦大學(xué)、香港大學(xué)等機(jī)構(gòu),推出了首個(gè)基于“Interleaved Reasoning”的通用多模態(tài)檢索框架 V-Retrver。該框架將傳統(tǒng)檢索重塑為智能體推理過(guò)程,讓多模態(tài)大模型學(xué)會(huì)在檢索時(shí)主動(dòng)調(diào)用視覺(jué)工具來(lái)驗(yàn)證細(xì)節(jié),而非僅憑靜態(tài)的圖像表征進(jìn)行判斷。目前,研究團(tuán)隊(duì)已將代碼和模型權(quán)重開(kāi)源。


      (來(lái)源:arXiv)

      “從 2025 年初開(kāi)始,推理模型開(kāi)始火起來(lái),很多工作把推理模型用在下游任務(wù),多模態(tài)檢索就是其中之一?!眻F(tuán)隊(duì)成員向 DeepTech 表示,“但現(xiàn)在這些推理模型的 CoT 過(guò)程是從文本推理的。問(wèn)題在于,多模態(tài)檢索的輸入是多張圖像,你要從十張候選圖片中找到最相關(guān)的那張,僅靠文本推理會(huì)產(chǎn)生幻覺(jué)?!?/p>

      這種局限在視覺(jué)模糊的檢索場(chǎng)景中尤為明顯。尤其當(dāng)候選圖片在語(yǔ)義上高度相似,僅在細(xì)節(jié)上存在差異時(shí)。比如同樣是白色沙發(fā),只是抱枕紋理不同,模型往往無(wú)法準(zhǔn)確區(qū)分。傳統(tǒng)方法將視覺(jué)輸入壓縮成固定的特征向量或文本描述,迫使推理過(guò)程完全依賴(lài)語(yǔ)言來(lái)推斷視覺(jué)差異,結(jié)果就是模型只能瞎猜。


      (來(lái)源:論文)

      更關(guān)鍵的是,現(xiàn)有模型看圖是“一次性”的。用了一個(gè)形象的比喻:“傳統(tǒng)模型看完圖就憑印象做題,面對(duì)復(fù)雜的圖文交錯(cuò)檢索,它們無(wú)法在推理遇到瓶頸時(shí)主動(dòng)去驗(yàn)證視覺(jué)細(xì)節(jié)?!边@種走馬觀(guān)花式的視覺(jué)處理方式,導(dǎo)致模型在需要精細(xì)判斷時(shí)表現(xiàn)不佳。

      讓模型學(xué)會(huì)“放大找細(xì)節(jié)”

      V-Retrver 的核心理念是將多模態(tài)檢索重新定義為一個(gè)“多模態(tài)思維鏈的推理過(guò)程”。與傳統(tǒng)的單次推理不同,模型在推理過(guò)程中可以主動(dòng)調(diào)用外部視覺(jué)工具來(lái)獲取更多信息,就像人在看不清某個(gè)細(xì)節(jié)時(shí)會(huì)把圖片放大仔細(xì)看一樣。

      團(tuán)隊(duì)表示,這是首個(gè)將交錯(cuò)推理(Interleaved Reasoning)應(yīng)用于多模態(tài)圖像檢索的工作。此前的相關(guān)研究主要集中在簡(jiǎn)單的圖像理解和視頻理解任務(wù)上,例如單圖問(wèn)答場(chǎng)景。

      論文作者之一以一個(gè)具體場(chǎng)景說(shuō)明了這一過(guò)程:“假設(shè)輸入是一段文字描述,需要從 10 張候選圖片中找到最相關(guān)的一張。模型在分析過(guò)程中,如果發(fā)現(xiàn)某張圖片的關(guān)鍵細(xì)節(jié)看不清楚,就會(huì)調(diào)用工具對(duì)該區(qū)域進(jìn)行局部放大后再做判斷。比如查詢(xún)文本提到‘桌上放著某個(gè)物品’,而這個(gè)物品在圖像中位置較小、較模糊,模型就需要放大查看才能做出準(zhǔn)確判斷?!?/p>

      這種“邊看邊想”的過(guò)程與人類(lèi)的認(rèn)知方式很像,當(dāng)我們?cè)诰W(wǎng)購(gòu)時(shí)遇到相似的商品,也會(huì)點(diǎn)開(kāi)大圖看買(mǎi)家秀細(xì)節(jié)來(lái)做出對(duì)比和判斷。

      這種“產(chǎn)生疑問(wèn)→調(diào)取工具核實(shí)→得出結(jié)論”的邏輯閉環(huán),正是 V-Retrver 區(qū)別于傳統(tǒng)方法的關(guān)鍵所在。

      三階段訓(xùn)練:從“學(xué)會(huì)用工具”到“聰明地用工具”

      讓模型學(xué)會(huì)何時(shí)以及如何使用這些視覺(jué)工具,并非易事。V-Retrver 采用了三階段的課程學(xué)習(xí)策略。

      第一階段是監(jiān)督微調(diào)(SFT),目標(biāo)是教會(huì)模型基本的工具調(diào)用能力。“我們使用 LLM 來(lái)合成訓(xùn)練數(shù)據(jù),這批數(shù)據(jù)包含了檢索過(guò)程中調(diào)用工具的示例,讓模型學(xué)會(huì)何時(shí)以及如何調(diào)用工具。”作者表示,這個(gè)階段的數(shù)據(jù)質(zhì)量至關(guān)重要,也是整個(gè)訓(xùn)練過(guò)程中最具挑戰(zhàn)性的環(huán)節(jié)之一。

      SFT 階段的訓(xùn)練量需要精心控制。作者指出,這里存在兩個(gè)極端:訓(xùn)練過(guò)度會(huì)導(dǎo)致模型在強(qiáng)化學(xué)習(xí)階段過(guò)度依賴(lài)工具,對(duì)每個(gè)樣本都嘗試調(diào)用;訓(xùn)練不足則會(huì)使模型無(wú)法掌握工具調(diào)用能力。

      第二階段是拒絕采樣微調(diào)(RSFT),通過(guò)篩選高質(zhì)量的推理軌跡來(lái)提升模型的推理可靠性和格式合規(guī)性,為后續(xù)的強(qiáng)化學(xué)習(xí)提供穩(wěn)定的初始化。

      第三階段是證據(jù)對(duì)齊策略?xún)?yōu)化(EAPO),這是基于 GRPO 算法的強(qiáng)化學(xué)習(xí)過(guò)程?!拔覀?cè)O(shè)計(jì)了一個(gè)工具調(diào)用獎(jiǎng)勵(lì)機(jī)制,”作者解釋道,“當(dāng)模型在推理過(guò)程中合理調(diào)用工具時(shí)會(huì)獲得正向獎(jiǎng)勵(lì)。我們希望模型能夠適度使用工具進(jìn)行驗(yàn)證,而非完全不用或過(guò)度依賴(lài)。”


      (來(lái)源:論文)

      經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練后,模型能夠?qū)崿F(xiàn)自適應(yīng)的工具調(diào)用。有些問(wèn)題需要調(diào)用工具來(lái)驗(yàn)證細(xì)節(jié),有些則不需要,模型會(huì)自主判斷。

      性能提升顯著,泛化能力突出

      在通用多模態(tài)檢索基準(zhǔn) M-BEIR 上,V-Retrver-7B 取得了 69.7% 的平均召回率,相比此前最強(qiáng)的 U-MARVEL-7B 提升了近 5 個(gè)百分點(diǎn),相對(duì)基礎(chǔ)的 Qwen2.5-VL-7B 模型則提升了 23%。


      (來(lái)源:論文)

      值得注意的是,V-Retrver 在需要精細(xì)視覺(jué)判斷的任務(wù)上表現(xiàn)尤為突出。在 FashionIQ 數(shù)據(jù)集上達(dá)到 51.2%,在 CIRR 數(shù)據(jù)集上達(dá)到 73.5%,分別比 U-MARVEL-7B 高出 13 個(gè)和 10 個(gè)百分點(diǎn)。這驗(yàn)證了多模態(tài)交錯(cuò)推理在處理細(xì)粒度視覺(jué)差異時(shí)的有效性。

      在零樣本泛化測(cè)試中,V-Retrver 同樣表現(xiàn)優(yōu)異。在從未見(jiàn)過(guò)的 CIRCO 數(shù)據(jù)集上取得了 48.2 的 MAP@5 成績(jī),顯著超過(guò) MM-Embed-7B 等專(zhuān)業(yè)檢索模型。

      消融實(shí)驗(yàn)進(jìn)一步證實(shí)了視覺(jué)工具的價(jià)值:如果剝奪 V-Retrver 的視覺(jué)工具,只讓它做純文本的 CoT 推理,平均性能會(huì)從 67.2% 跌至 61.8%。


      (來(lái)源:論文)

      團(tuán)隊(duì)在論文中也坦誠(chéng)地表明了當(dāng)前工作的局限性。最明顯的是推理成本問(wèn)題:相比傳統(tǒng)的 embedding 方法,V-Retrver 需要更多的計(jì)算資源和時(shí)間?!拔覀?cè)谶@個(gè)工作中沒(méi)有專(zhuān)門(mén)做權(quán)衡,這確實(shí)是一個(gè)問(wèn)題,也是后續(xù)可以繼續(xù)研究的方向?!?/p>

      另一個(gè)局限是視覺(jué)工具的種類(lèi)相對(duì)有限,目前只有 ZOOM-IN 和 SELECT-IMAGE 兩種。研究團(tuán)隊(duì)計(jì)劃在后續(xù)工作中引入更多類(lèi)型的工具,其中包括網(wǎng)絡(luò)搜索工具。

      作者以一個(gè)例子說(shuō)明了引入 web search 工具的潛在價(jià)值:假設(shè)檢索目標(biāo)是“穿著黃色衣服的拿破侖”,但候選圖片中存在其他穿著相似服裝且外貌接近的人物,僅憑服裝顏色難以區(qū)分。此時(shí)模型可以通過(guò)網(wǎng)絡(luò)搜索獲取拿破侖的其他標(biāo)志性特征,并將這些信息作為輔助依據(jù),提升檢索的準(zhǔn)確性。

      V-Retrver 的出現(xiàn),標(biāo)志著多模態(tài)檢索研究從“靜態(tài)編碼 + 語(yǔ)言推理”向“動(dòng)態(tài)感知 + 交錯(cuò)推理”的范式轉(zhuǎn)變。它證明了一個(gè)樸素而重要的道理:在處理視覺(jué)任務(wù)時(shí),模型不僅需要“想”,更需要“看”。而且要學(xué)會(huì)在需要的時(shí)候主動(dòng)去“仔細(xì)看”。

      參考資料

      1.論文鏈接:https://arxiv.org/abs/2602.06034

      2.項(xiàng)目地址:https://github.com/chendy25/V-Retrver

      運(yùn)營(yíng)/排版:何晨龍

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      當(dāng)不成首相了?高市身體出了問(wèn)題,日本請(qǐng)求對(duì)話(huà),伊朗潑了冷水

      當(dāng)不成首相了?高市身體出了問(wèn)題,日本請(qǐng)求對(duì)話(huà),伊朗潑了冷水

      青煙小先生
      2026-04-10 10:14:07
      陳麗華葬禮曝光!多位“大人物”到場(chǎng),炸出一堆“牛鬼蛇神”

      陳麗華葬禮曝光!多位“大人物”到場(chǎng),炸出一堆“牛鬼蛇神”

      夢(mèng)醉為紅顏一笑
      2026-04-10 05:16:35
      王寶強(qiáng)和女友開(kāi)京牌大G到青島,馮清人高馬大,襯得寶強(qiáng)像小嬌夫

      王寶強(qiáng)和女友開(kāi)京牌大G到青島,馮清人高馬大,襯得寶強(qiáng)像小嬌夫

      八怪娛
      2026-04-07 15:02:12
      欠中國(guó)的錢(qián),委內(nèi)瑞拉不還了?美財(cái)長(zhǎng):中國(guó)已無(wú)法繼續(xù)獲得委石油

      欠中國(guó)的錢(qián),委內(nèi)瑞拉不還了?美財(cái)長(zhǎng):中國(guó)已無(wú)法繼續(xù)獲得委石油

      萌城少年強(qiáng)
      2026-01-22 12:47:40
      為什么沒(méi)人聯(lián)合打以色列,答案很簡(jiǎn)單:不是沒(méi)人想打,是沒(méi)人敢打

      為什么沒(méi)人聯(lián)合打以色列,答案很簡(jiǎn)單:不是沒(méi)人想打,是沒(méi)人敢打

      你的雷達(dá)站
      2026-04-10 08:29:28
      蔣介石孫子召開(kāi)發(fā)布會(huì),提出“兩蔣”移靈大陸,2句話(huà)讓世人唏噓

      蔣介石孫子召開(kāi)發(fā)布會(huì),提出“兩蔣”移靈大陸,2句話(huà)讓世人唏噓

      老謝談史
      2026-03-18 18:33:35
      官方:CCTV5轉(zhuǎn)播U20女足亞洲杯1/4決賽,中國(guó)女足vs烏茲女足

      官方:CCTV5轉(zhuǎn)播U20女足亞洲杯1/4決賽,中國(guó)女足vs烏茲女足

      懂球帝
      2026-04-10 10:22:09
      太秀了,我把自己蒸餾成了 Skill!已開(kāi)源

      太秀了,我把自己蒸餾成了 Skill!已開(kāi)源

      程序員魚(yú)皮
      2026-04-09 18:48:42
      伊朗?;鹇暶靼l(fā)布,全文令人淚目,伊朗第一個(gè)要感謝的居然是中國(guó)

      伊朗停火聲明發(fā)布,全文令人淚目,伊朗第一個(gè)要感謝的居然是中國(guó)

      策前論
      2026-04-08 18:42:20
      黎巴嫩宣布全國(guó)哀悼

      黎巴嫩宣布全國(guó)哀悼

      南方都市報(bào)
      2026-04-09 09:24:03
      遲重瑞不再隱忍!坦言和陳麗華結(jié)婚真相,難怪550億遺產(chǎn)一分不要

      遲重瑞不再隱忍!坦言和陳麗華結(jié)婚真相,難怪550億遺產(chǎn)一分不要

      阿傖說(shuō)事
      2026-04-09 03:25:55
      命中了!伊朗大勝!

      命中了!伊朗大勝!

      財(cái)經(jīng)要參
      2026-04-04 13:24:51
      陳麗華葬禮,圈內(nèi)大佬到齊,花圈擺滿(mǎn),馬德華痛哭,白巖松也來(lái)了

      陳麗華葬禮,圈內(nèi)大佬到齊,花圈擺滿(mǎn),馬德華痛哭,白巖松也來(lái)了

      潮鹿逐夢(mèng)
      2026-04-09 11:45:00
      陪睡陪玩算什么?繼人體盛宴、舔手指后,千萬(wàn)網(wǎng)紅再曝娛樂(lè)圈內(nèi)幕

      陪睡陪玩算什么?繼人體盛宴、舔手指后,千萬(wàn)網(wǎng)紅再曝娛樂(lè)圈內(nèi)幕

      徐云流浪中國(guó)
      2026-04-10 00:31:22
      虎父無(wú)犬子!關(guān)鍵時(shí)刻拯救球隊(duì),2戰(zhàn)轟下65分,名記:他才21歲啊

      虎父無(wú)犬子!關(guān)鍵時(shí)刻拯救球隊(duì),2戰(zhàn)轟下65分,名記:他才21歲啊

      籃球看比賽
      2026-04-10 10:07:27
      醫(yī)院院長(zhǎng)猥褻女銷(xiāo)售,猥褻過(guò)程曝出,極為不堪,其妻子做無(wú)恥辯解

      醫(yī)院院長(zhǎng)猥褻女銷(xiāo)售,猥褻過(guò)程曝出,極為不堪,其妻子做無(wú)恥辯解

      胡侃社會(huì)百態(tài)
      2026-04-10 09:11:29
      南京仙林半馬為選手發(fā)購(gòu)房補(bǔ)貼,完賽可補(bǔ)10萬(wàn)元?住建局回應(yīng):確系官方組織活動(dòng)

      南京仙林半馬為選手發(fā)購(gòu)房補(bǔ)貼,完賽可補(bǔ)10萬(wàn)元?住建局回應(yīng):確系官方組織活動(dòng)

      上游新聞
      2026-04-09 16:16:33
      家庭聚餐,鳳凰男因點(diǎn)菜怒罵老婆,岳父:離婚,讓他滾出我的房子

      家庭聚餐,鳳凰男因點(diǎn)菜怒罵老婆,岳父:離婚,讓他滾出我的房子

      多久情感
      2026-04-09 09:28:53
      美國(guó)派16名特工暗殺斯諾登,駐澳特戰(zhàn)隊(duì)擊退CIA,榮獲集體一等功

      美國(guó)派16名特工暗殺斯諾登,駐澳特戰(zhàn)隊(duì)擊退CIA,榮獲集體一等功

      富強(qiáng)巨靠譜
      2025-02-26 09:30:43
      為什么WTO很少被提起了?中國(guó)入世談判花了15年,如今幾乎被架空

      為什么WTO很少被提起了?中國(guó)入世談判花了15年,如今幾乎被架空

      古史青云啊
      2026-04-07 14:52:09
      2026-04-10 11:39:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評(píng)論獨(dú)家合作
      16560文章數(shù) 514858關(guān)注度
      往期回顧 全部

      科技要聞

      程序員驚喜,每月100美元!OpenAI推新套餐

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個(gè)不祥的信號(hào)

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個(gè)不祥的信號(hào)

      體育要聞

      17歲賺了一百萬(wàn)美元,25歲被CBA裁員

      娛樂(lè)要聞

      夏克立婚內(nèi)出軌 曾參加《爸爸去哪兒》

      財(cái)經(jīng)要聞

      AI短劇"買(mǎi)臉"成風(fēng) 肖像生意成灰色產(chǎn)業(yè)

      汽車(chē)要聞

      全新一代理想 L8 五座旗艦+5C增程系統(tǒng) 三季度交付

      態(tài)度原創(chuàng)

      健康
      藝術(shù)
      游戲
      旅游
      公開(kāi)課

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      藝術(shù)要聞

      于小冬2026年4月油畫(huà)新作《花季》

      太用心!《控制》新作有完整中文配音

      旅游要聞

      昆明4—5月賞花時(shí)間表收好!跟著這篇走,拍滿(mǎn)256G!

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版