多模態(tài)Deep Research，終于有了「可核驗」的評測標(biāo)準(zhǔn)

2026-02-14 17:27:55　來源: 機器之心Pro

河北舉報

分享至

Deep Research Agent 火了，但評測還停在「看起來很強」。

寫得像論文，不等于真的做了研究。

尤其當(dāng)證據(jù)來自圖表、截圖、論文圖、示意圖時：模型到底是「看懂了」，還是「編得像懂了」？

俄亥俄州立大學(xué)與 Amazon Science 聯(lián)合牽頭，聯(lián)合多家高校與機構(gòu)研究者發(fā)布MMDeepResearch-Bench（MMDR-Bench），試圖把多模態(tài) Deep Research 的評估從「讀起來不錯」，拉回到一個更硬的標(biāo)準(zhǔn)：過程可核驗、證據(jù)可追溯、斷言可對齊。

MMDR-Bench 與評測框架相關(guān)資源已公開：

論文標(biāo)題：MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents
論文主頁：https://mmdeepresearch-bench.github.io/
論文鏈接: https://arxiv.org/abs/2601.12346
github 鏈接：https://github.com/AIoT-MLSys-Lab/MMDeepResearch-Bench
Huggingface 鏈接：https://huggingface.co/papers/2601.12346

當(dāng) Deep Research Agent 變得越來越常見，一個更現(xiàn)實的問題擺到了臺面上：我們到底該怎么評價它的價值？很多時候，你很難用「答案對不對」去判一份研究型報告 —— 因為問題本身可能沒有唯一標(biāo)準(zhǔn)答案。

真正決定可信度的，是過程紀(jì)律：有沒有檢索到可靠證據(jù)？關(guān)鍵斷言有沒有被引用支撐？引用是否真的對應(yīng)這句話？以及最容易被忽略的一點：當(dāng)證據(jù)來自圖像時，它有沒有「看對并用對」。

現(xiàn)有評測往往缺一塊關(guān)鍵拼圖：要么偏短問答（圖表問答、文檔問答），要么偏純文本深研（長文 + 網(wǎng)頁引用），很難覆蓋端到端的「多模態(tài)深度研究」鏈路：既要寫研究式長報告，又要把圖像證據(jù)與文本斷言逐句對齊，并且能審計、能追責(zé)。

01 為什么需要 MMDR-Bench：Deep Research 的「幻覺」不止發(fā)生在文本

在真實研究場景里，圖像證據(jù)常常是不可替代的：曲線走勢、軸標(biāo)簽與單位、表格關(guān)鍵單元格、截圖里的開關(guān)狀態(tài)、論文圖中的對比結(jié)果……

這些信息一旦讀錯，就會把后續(xù)檢索與合成帶偏，最后變成一份「寫得很像、引用很多，但根上錯了」的報告。

問題在于，傳統(tǒng)「引用評測」往往只看有沒有 URL，卻不追問 Claim–URL 是否真的支撐；傳統(tǒng)「多模態(tài)評測」多是短問答，又覆蓋不了 agent 的長鏈路檢索與報告合成。MMDR-Bench 想做的，是把這兩件事接起來：讓多模態(tài) deep research 的輸出能被逐句核驗。

02 MMDR-Bench 是什么：140 個專家任務(wù)，覆蓋 19 個領(lǐng)域

MMDR-Bench 包含 140 個由領(lǐng)域?qū)＜掖蚰サ娜蝿?wù)，覆蓋 19 個領(lǐng)域。每個任務(wù)都提供「圖像 — 文本 bundle」：你不僅要檢索網(wǎng)頁、匯總證據(jù)，還必須解釋并使用給定圖像中的關(guān)鍵事實來支撐報告結(jié)論。

作者將任務(wù)劃分為兩種使用情境：

Daily：偏日常使用場景，輸入多為截圖、界面、噪聲較高的圖片，考察系統(tǒng)在不完整信息下的穩(wěn)健理解與可核驗寫作。
Research：偏研究分析場景，輸入多為圖表、表格、示意圖等信息密集視覺證據(jù)，強調(diào)細(xì)粒度讀圖與跨來源綜合。

03 怎么評：不押「唯一答案」，押「證據(jù)鏈 + 過程對齊」

為了解決「開放式問題沒有標(biāo)準(zhǔn)答案」的評測困境，MMDR-Bench 把評估拆成 3 段管線、12 個可定位指標(biāo)，重點不在「結(jié)論是不是唯一正確」，而在「證據(jù)鏈?zhǔn)欠裾镜米　埂?/p>

（1）FLAE：可解釋的長文質(zhì)量評估（可審計）

長報告的要求隨任務(wù)而變。FLAE 用可復(fù)現(xiàn)的文本特征公式（結(jié)構(gòu)、可讀性、覆蓋度等）疊加任務(wù)自適應(yīng)評審信號，避免「一把尺子量所有報告」，同時保證評分可回放、可解釋。

（2）TRACE：Claim–URL 支撐核驗，讓引用不再是裝飾

TRACE 將報告拆成原子斷言，并對齊到引用 URL，檢查是否支持、是否矛盾、是否過度推斷，給出一致性、覆蓋率與證據(jù)忠實度等指標(biāo)。

更關(guān)鍵的是，它加入 Visual Evidence Fidelity（Vef.）作為硬約束：報告必須嚴(yán)格遵守題目給出的圖文prompt，不得在分析題目時通過幻覺作答；一旦出現(xiàn)實體誤識別、圖中不存在卻編造、數(shù)字、標(biāo)簽、映射關(guān)系讀錯，會被嚴(yán)格懲罰。

（3）MOSAIC：把「用到圖像的句子」逐條對齊回圖像本身

很多錯誤并不體現(xiàn)在 URL 上，而體現(xiàn)在「引用圖像的句子」與圖像內(nèi)容不一致。MOSAIC 專門抽取這些多模態(tài)條目，按圖表、照片、示意圖等類型走不同核驗規(guī)則，定位「看錯圖、用錯圖、引用圖但沒真正 grounded」的失敗。

科研從來沒有銀彈。Deep Research 也是 —— 尤其當(dāng)信息不完整、證據(jù)不確定時。與其賭一次性的「正確結(jié)果」，不如把尺子釘在過程：每一步檢索、取證、引用與推理，都能被回放、被核對、被追責(zé)。

04 觀察到的現(xiàn)象：強寫作 ≠ 強證據(jù)；會看圖 ≠ 會引用

在多個代表性系統(tǒng) / 模型的實驗中，可以看到非常清晰的分化：

有的模型寫作與結(jié)構(gòu)很強，但 Claim–URL 對齊松散，容易出現(xiàn)「引用很多、支撐很弱」；
有的模型能讀圖抓到信息，但長鏈路合成中發(fā)生實體漂移，把證據(jù)綁到錯誤對象上；
有的系統(tǒng)檢索覆蓋率高，卻在圖像細(xì)節(jié)（小數(shù)字、軸標(biāo)簽、單位、映射關(guān)系）上翻車，導(dǎo)致視覺忠實度顯著掉分。

也正因如此，能力并不會隨著版本號線性上揚：有些模型讀起來更「像一個會寫的研究者」，但在證據(jù)對齊與多模態(tài)忠實度上仍會失分 —— 榜單上甚至不需要細(xì)看，一眼就能讀出來。deep research 的關(guān)鍵瓶頸，正在從「能寫」轉(zhuǎn)向「能被查」。

05 更現(xiàn)實的意義：給 agent 對齊一個可訓(xùn)練的信號

Deep Research 的下一階段，不是誰寫得更像論文，而是誰的過程經(jīng)得起核驗。

MMDR-Bench 做的，就是把「經(jīng)得起核驗」這件事定成硬標(biāo)準(zhǔn)：每條關(guān)鍵斷言都要能被證據(jù)接住，每個引用都要能被追溯到支撐點，每次用圖都要能對齊到可觀察事實。

這會直接改變系統(tǒng)迭代方式 —— 你不再憑感覺調(diào) prompt，也不再被「看起來很強」的報告迷惑，而是用可定位的失敗模式去驅(qū)動模型與工具鏈升級。

當(dāng)評測開始追責(zé)過程，deep research 才真正進(jìn)入可工程化的時代。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.