<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      多模態(tài)Deep Research,終于有了「可核驗」的評測標(biāo)準(zhǔn)

      0
      分享至



      Deep Research Agent 火了,但評測還停在「看起來很強 」。

      寫得像論文,不等于真的做了研究。

      尤其當(dāng)證據(jù)來自圖表、截圖、論文圖、示意圖時:模型到底是「看懂了」,還是 「編得像懂了」?

      俄亥俄州立大學(xué)與 Amazon Science 聯(lián)合牽頭,聯(lián)合多家高校與機構(gòu)研究者發(fā)布MMDeepResearch-Bench(MMDR-Bench),試圖把多模態(tài) Deep Research 的評估從「讀起來不錯」,拉回到一個更硬的標(biāo)準(zhǔn):過程可核驗、證據(jù)可追溯、斷言可對齊。

      MMDR-Bench 與評測框架相關(guān)資源已公開:



      • 論文標(biāo)題:MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents
      • 論文主頁:https://mmdeepresearch-bench.github.io/
      • 論文鏈接: https://arxiv.org/abs/2601.12346
      • github 鏈接:https://github.com/AIoT-MLSys-Lab/MMDeepResearch-Bench
      • Huggingface 鏈接:https://huggingface.co/papers/2601.12346

      當(dāng) Deep Research Agent 變得越來越常見,一個更現(xiàn)實的問題擺到了臺面上:我們到底該怎么評價它的價值?很多時候,你很難用「答案對不對」去判一份研究型報告 —— 因為問題本身可能沒有唯一標(biāo)準(zhǔn)答案。

      真正決定可信度的,是過程紀(jì)律:有沒有檢索到可靠證據(jù)?關(guān)鍵斷言有沒有被引用支撐?引用是否真的對應(yīng)這句話?以及最容易被忽略的一點:當(dāng)證據(jù)來自圖像時,它有沒有「看對并用對」。

      現(xiàn)有評測往往缺一塊關(guān)鍵拼圖:要么偏短問答(圖表問答、文檔問答),要么偏純文本深研(長文 + 網(wǎng)頁引用),很難覆蓋端到端的「多模態(tài)深度研究」鏈路:既要寫研究式長報告,又要把圖像證據(jù)與文本斷言逐句對齊,并且能審計、能追責(zé)。

      01 為什么需要 MMDR-Bench:Deep Research 的「幻覺」不止發(fā)生在文本

      在真實研究場景里,圖像證據(jù)常常是不可替代的:曲線走勢、軸標(biāo)簽與單位、表格關(guān)鍵單元格、截圖里的開關(guān)狀態(tài)、論文圖中的對比結(jié)果……

      這些信息一旦讀錯,就會把后續(xù)檢索與合成帶偏,最后變成一份「寫得很像、引用很多,但根上錯了」的報告。

      問題在于,傳統(tǒng)「引用評測」往往只看有沒有 URL,卻不追問 Claim–URL 是否真的支撐;傳統(tǒng)「多模態(tài)評測」多是短問答,又覆蓋不了 agent 的長鏈路檢索與報告合成。MMDR-Bench 想做的,是把這兩件事接起來:讓多模態(tài) deep research 的輸出能被逐句核驗。

      02 MMDR-Bench 是什么:140 個專家任務(wù),覆蓋 19 個領(lǐng)域

      MMDR-Bench 包含 140 個由領(lǐng)域?qū)<掖蚰サ娜蝿?wù),覆蓋 19 個領(lǐng)域。每個任務(wù)都提供「圖像 — 文本 bundle」:你不僅要檢索網(wǎng)頁、匯總證據(jù),還必須解釋并使用給定圖像中的關(guān)鍵事實來支撐報告結(jié)論。

      作者將任務(wù)劃分為兩種使用情境:

      • Daily:偏日常使用場景,輸入多為截圖、界面、噪聲較高的圖片,考察系統(tǒng)在不完整信息下的穩(wěn)健理解與可核驗寫作。
      • Research:偏研究分析場景,輸入多為圖表、表格、示意圖等信息密集視覺證據(jù),強調(diào)細(xì)粒度讀圖與跨來源綜合。





      03 怎么評:不押「唯一答案」,押「證據(jù)鏈 + 過程對齊」

      為了解決「開放式問題沒有標(biāo)準(zhǔn)答案」的評測困境,MMDR-Bench 把評估拆成 3 段管線、12 個可定位指標(biāo),重點不在「結(jié)論是不是唯一正確」,而在「證據(jù)鏈?zhǔn)欠裾镜米 埂?/p>



      (1)FLAE:可解釋的長文質(zhì)量評估(可審計)

      長報告的要求隨任務(wù)而變。FLAE 用可復(fù)現(xiàn)的文本特征公式(結(jié)構(gòu)、可讀性、覆蓋度等)疊加任務(wù)自適應(yīng)評審信號,避免「一把尺子量所有報告」,同時保證評分可回放、可解釋。

      (2)TRACE:Claim–URL 支撐核驗,讓引用不再是裝飾

      TRACE 將報告拆成原子斷言,并對齊到引用 URL,檢查是否支持、是否矛盾、是否過度推斷,給出一致性、覆蓋率與證據(jù)忠實度等指標(biāo)。

      更關(guān)鍵的是,它加入 Visual Evidence Fidelity(Vef.)作為硬約束:報告必須嚴(yán)格遵守題目給出的圖文prompt,不得在分析題目時通過幻覺作答;一旦出現(xiàn)實體誤識別、圖中不存在卻編造、數(shù)字、標(biāo)簽、映射關(guān)系讀錯,會被嚴(yán)格懲罰。

      (3)MOSAIC:把「用到圖像的句子」逐條對齊回圖像本身

      很多錯誤并不體現(xiàn)在 URL 上,而體現(xiàn)在「引用圖像的句子」與圖像內(nèi)容不一致。MOSAIC 專門抽取這些多模態(tài)條目,按圖表、照片、示意圖等類型走不同核驗規(guī)則,定位「看錯圖、用錯圖、引用圖但沒真正 grounded」的失敗。

      科研從來沒有銀彈。Deep Research 也是 —— 尤其當(dāng)信息不完整、證據(jù)不確定時。與其賭一次性的「正確結(jié)果」,不如把尺子釘在過程:每一步檢索、取證、引用與推理,都能被回放、被核對、被追責(zé)。

      04 觀察到的現(xiàn)象:強寫作 ≠ 強證據(jù);會看圖 ≠ 會引用




      在多個代表性系統(tǒng) / 模型的實驗中,可以看到非常清晰的分化:

      • 有的模型寫作與結(jié)構(gòu)很強,但 Claim–URL 對齊松散,容易出現(xiàn)「引用很多、支撐很弱」;
      • 有的模型能讀圖抓到信息,但長鏈路合成中發(fā)生實體漂移,把證據(jù)綁到錯誤對象上;
      • 有的系統(tǒng)檢索覆蓋率高,卻在圖像細(xì)節(jié)(小數(shù)字、軸標(biāo)簽、單位、映射關(guān)系)上翻車,導(dǎo)致視覺忠實度顯著掉分。

      也正因如此,能力并不會隨著版本號線性上揚:有些模型讀起來更「像一個會寫的研究者」,但在證據(jù)對齊與多模態(tài)忠實度上仍會失分 —— 榜單上甚至不需要細(xì)看,一眼就能讀出來。deep research 的關(guān)鍵瓶頸,正在從「能寫」轉(zhuǎn)向「能被查」。

      05 更現(xiàn)實的意義:給 agent 對齊一個可訓(xùn)練的信號

      Deep Research 的下一階段,不是誰寫得更像論文,而是誰的過程經(jīng)得起核驗。

      MMDR-Bench 做的,就是把「經(jīng)得起核驗」這件事定成硬標(biāo)準(zhǔn):每條關(guān)鍵斷言都要能被證據(jù)接住,每個引用都要能被追溯到支撐點,每次用圖都要能對齊到可觀察事實。

      這會直接改變系統(tǒng)迭代方式 —— 你不再憑感覺調(diào) prompt,也不再被「看起來很強」的報告迷惑,而是用可定位的失敗模式去驅(qū)動模型與工具鏈升級。

      當(dāng)評測開始追責(zé)過程,deep research 才真正進(jìn)入可工程化的時代。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      克格勃的悲哀:偷到的西方技術(shù),卻是壓垮蘇聯(lián)的最后一根稻草

      克格勃的悲哀:偷到的西方技術(shù),卻是壓垮蘇聯(lián)的最后一根稻草

      呂醿極限手工
      2026-02-21 07:47:57
      父母能有多陰陽怪氣?網(wǎng)友:我對象嘴巴大,我爸叫人家鯰魚。

      父母能有多陰陽怪氣?網(wǎng)友:我對象嘴巴大,我爸叫人家鯰魚。

      另子維愛讀史
      2026-02-20 22:04:27
      智駕洗牌,“五大”要統(tǒng)一江湖了嗎?

      智駕洗牌,“五大”要統(tǒng)一江湖了嗎?

      經(jīng)濟觀察報
      2026-02-20 21:57:17
      第30勝!希羅復(fù)出24分熱火31分大勝老鷹 杰倫16+16+11

      第30勝!希羅復(fù)出24分熱火31分大勝老鷹 杰倫16+16+11

      醉臥浮生
      2026-02-21 10:46:55
      隋文靜韓聰正式退役:19年冰上攜手落幕

      隋文靜韓聰正式退役:19年冰上攜手落幕

      寶哥精彩賽事
      2026-02-21 15:19:52
      你喝了34年的匯源,可能要變山寨貨了。。。

      你喝了34年的匯源,可能要變山寨貨了。。。

      差評XPIN
      2026-01-17 00:14:19
      太豪了!海哈金喜回川過年,山上別墅院子大到能跑步,這才是底氣

      太豪了!海哈金喜回川過年,山上別墅院子大到能跑步,這才是底氣

      小娛樂悠悠
      2026-02-21 09:01:41
      布倫特福德近10輪拿20分,同期領(lǐng)先阿森納、曼城、曼聯(lián)英超第1

      布倫特福德近10輪拿20分,同期領(lǐng)先阿森納、曼城、曼聯(lián)英超第1

      懂球帝
      2026-02-21 16:21:53
      從星鏈落地到全面改革,被低估的越南正在驚人“逆襲”

      從星鏈落地到全面改革,被低估的越南正在驚人“逆襲”

      鳳眼論
      2026-02-19 09:08:18
      DeepSeek推薦:一個家庭越來越富有的七個習(xí)慣

      DeepSeek推薦:一個家庭越來越富有的七個習(xí)慣

      洞見
      2026-02-06 09:43:30
      明星組團三亞過年,章子怡給趙本山拜年,金晨佟麗婭董璇3人聚會

      明星組團三亞過年,章子怡給趙本山拜年,金晨佟麗婭董璇3人聚會

      星河不入我
      2026-02-21 16:04:48
      農(nóng)村怪象越來越多,除了“妻荒”外,如今又有4大怪象出現(xiàn)了

      農(nóng)村怪象越來越多,除了“妻荒”外,如今又有4大怪象出現(xiàn)了

      長歌侃娛
      2026-02-20 13:19:06
      全球為何無人敢仿造殲-20?大國軍工背后的硬核真相

      全球為何無人敢仿造殲-20?大國軍工背后的硬核真相

      Ck的蜜糖
      2026-02-21 15:53:03
      只等福特號就位,美以總兵力堪比海灣戰(zhàn)爭,誓要致伊朗于死地

      只等福特號就位,美以總兵力堪比海灣戰(zhàn)爭,誓要致伊朗于死地

      咣當(dāng)?shù)厍?/span>
      2026-02-21 15:23:34
      農(nóng)民把10頭豬趕到無人島,12年后再次登島,眼前畫面讓他不敢信

      農(nóng)民把10頭豬趕到無人島,12年后再次登島,眼前畫面讓他不敢信

      白云故事
      2026-01-22 17:30:05
      尼克松訪華,毛主席只送了4兩茶葉被嫌棄?周總理笑著說出4個字,美國總統(tǒng)立馬變了臉色

      尼克松訪華,毛主席只送了4兩茶葉被嫌棄?周總理笑著說出4個字,美國總統(tǒng)立馬變了臉色

      文史明鑒
      2025-12-13 22:15:21
      倪萍:父親到死我都沒喊他一聲“爸”,母親的仇恨教育刻骨銘心

      倪萍:父親到死我都沒喊他一聲“爸”,母親的仇恨教育刻骨銘心

      白面書誏
      2025-11-22 17:18:59
      湖南益陽27歲女子扁桃體發(fā)炎輸液后休克去世,丈夫稱錯過黃金救援4分鐘,醫(yī)院:診療符合規(guī)范,支付11萬元賠償,但拒絕家屬探視遺體

      湖南益陽27歲女子扁桃體發(fā)炎輸液后休克去世,丈夫稱錯過黃金救援4分鐘,醫(yī)院:診療符合規(guī)范,支付11萬元賠償,但拒絕家屬探視遺體

      大風(fēng)新聞
      2026-02-21 13:48:11
      亞洲飛人劉翔現(xiàn)狀:43歲環(huán)游世界,不工作不缺錢花,二婚堅持丁克

      亞洲飛人劉翔現(xiàn)狀:43歲環(huán)游世界,不工作不缺錢花,二婚堅持丁克

      不寫散文詩
      2026-02-19 23:59:12
      廣東男籃開工,杜鋒朱芳雨發(fā)派紅包,四外援歸隊崔永熙參加合練

      廣東男籃開工,杜鋒朱芳雨發(fā)派紅包,四外援歸隊崔永熙參加合練

      中國籃壇快訊
      2026-02-21 16:10:04
      2026-02-21 16:59:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12325文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認(rèn):系一家人

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認(rèn):系一家人

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關(guān)系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經(jīng)要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔(dān)當(dāng)”來了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      數(shù)碼
      房產(chǎn)
      健康
      旅游
      教育

      數(shù)碼要聞

      NVIDIA新卡皇RTX 5090 Ti再曝光:功耗直飆超700W!性能提升10%

      房產(chǎn)要聞

      窗前即地標(biāo)!獨占三亞灣C位 自貿(mào)港總裁行宮亮相

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      旅游要聞

      海鷗翩躚賀新歲 來青島開啟海上歡樂新春之旅

      教育要聞

      新春走基層 | 慢飛天使捏出 “年的形狀”

      無障礙瀏覽 進(jìn)入關(guān)懷版