![]()
Deep Research Agent 火了,但評測還停在「看起來很強 」。
寫得像論文,不等于真的做了研究。
尤其當(dāng)證據(jù)來自圖表、截圖、論文圖、示意圖時:模型到底是「看懂了」,還是 「編得像懂了」?
俄亥俄州立大學(xué)與 Amazon Science 聯(lián)合牽頭,聯(lián)合多家高校與機構(gòu)研究者發(fā)布MMDeepResearch-Bench(MMDR-Bench),試圖把多模態(tài) Deep Research 的評估從「讀起來不錯」,拉回到一個更硬的標(biāo)準(zhǔn):過程可核驗、證據(jù)可追溯、斷言可對齊。
MMDR-Bench 與評測框架相關(guān)資源已公開:
![]()
- 論文標(biāo)題:MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents
- 論文主頁:https://mmdeepresearch-bench.github.io/
- 論文鏈接: https://arxiv.org/abs/2601.12346
- github 鏈接:https://github.com/AIoT-MLSys-Lab/MMDeepResearch-Bench
- Huggingface 鏈接:https://huggingface.co/papers/2601.12346
當(dāng) Deep Research Agent 變得越來越常見,一個更現(xiàn)實的問題擺到了臺面上:我們到底該怎么評價它的價值?很多時候,你很難用「答案對不對」去判一份研究型報告 —— 因為問題本身可能沒有唯一標(biāo)準(zhǔn)答案。
真正決定可信度的,是過程紀(jì)律:有沒有檢索到可靠證據(jù)?關(guān)鍵斷言有沒有被引用支撐?引用是否真的對應(yīng)這句話?以及最容易被忽略的一點:當(dāng)證據(jù)來自圖像時,它有沒有「看對并用對」。
現(xiàn)有評測往往缺一塊關(guān)鍵拼圖:要么偏短問答(圖表問答、文檔問答),要么偏純文本深研(長文 + 網(wǎng)頁引用),很難覆蓋端到端的「多模態(tài)深度研究」鏈路:既要寫研究式長報告,又要把圖像證據(jù)與文本斷言逐句對齊,并且能審計、能追責(zé)。
01 為什么需要 MMDR-Bench:Deep Research 的「幻覺」不止發(fā)生在文本
在真實研究場景里,圖像證據(jù)常常是不可替代的:曲線走勢、軸標(biāo)簽與單位、表格關(guān)鍵單元格、截圖里的開關(guān)狀態(tài)、論文圖中的對比結(jié)果……
這些信息一旦讀錯,就會把后續(xù)檢索與合成帶偏,最后變成一份「寫得很像、引用很多,但根上錯了」的報告。
問題在于,傳統(tǒng)「引用評測」往往只看有沒有 URL,卻不追問 Claim–URL 是否真的支撐;傳統(tǒng)「多模態(tài)評測」多是短問答,又覆蓋不了 agent 的長鏈路檢索與報告合成。MMDR-Bench 想做的,是把這兩件事接起來:讓多模態(tài) deep research 的輸出能被逐句核驗。
02 MMDR-Bench 是什么:140 個專家任務(wù),覆蓋 19 個領(lǐng)域
MMDR-Bench 包含 140 個由領(lǐng)域?qū)<掖蚰サ娜蝿?wù),覆蓋 19 個領(lǐng)域。每個任務(wù)都提供「圖像 — 文本 bundle」:你不僅要檢索網(wǎng)頁、匯總證據(jù),還必須解釋并使用給定圖像中的關(guān)鍵事實來支撐報告結(jié)論。
作者將任務(wù)劃分為兩種使用情境:
- Daily:偏日常使用場景,輸入多為截圖、界面、噪聲較高的圖片,考察系統(tǒng)在不完整信息下的穩(wěn)健理解與可核驗寫作。
- Research:偏研究分析場景,輸入多為圖表、表格、示意圖等信息密集視覺證據(jù),強調(diào)細(xì)粒度讀圖與跨來源綜合。
![]()
![]()
03 怎么評:不押「唯一答案」,押「證據(jù)鏈 + 過程對齊」
為了解決「開放式問題沒有標(biāo)準(zhǔn)答案」的評測困境,MMDR-Bench 把評估拆成 3 段管線、12 個可定位指標(biāo),重點不在「結(jié)論是不是唯一正確」,而在「證據(jù)鏈?zhǔn)欠裾镜米 埂?/p>
![]()
(1)FLAE:可解釋的長文質(zhì)量評估(可審計)
長報告的要求隨任務(wù)而變。FLAE 用可復(fù)現(xiàn)的文本特征公式(結(jié)構(gòu)、可讀性、覆蓋度等)疊加任務(wù)自適應(yīng)評審信號,避免「一把尺子量所有報告」,同時保證評分可回放、可解釋。
(2)TRACE:Claim–URL 支撐核驗,讓引用不再是裝飾
TRACE 將報告拆成原子斷言,并對齊到引用 URL,檢查是否支持、是否矛盾、是否過度推斷,給出一致性、覆蓋率與證據(jù)忠實度等指標(biāo)。
更關(guān)鍵的是,它加入 Visual Evidence Fidelity(Vef.)作為硬約束:報告必須嚴(yán)格遵守題目給出的圖文prompt,不得在分析題目時通過幻覺作答;一旦出現(xiàn)實體誤識別、圖中不存在卻編造、數(shù)字、標(biāo)簽、映射關(guān)系讀錯,會被嚴(yán)格懲罰。
(3)MOSAIC:把「用到圖像的句子」逐條對齊回圖像本身
很多錯誤并不體現(xiàn)在 URL 上,而體現(xiàn)在「引用圖像的句子」與圖像內(nèi)容不一致。MOSAIC 專門抽取這些多模態(tài)條目,按圖表、照片、示意圖等類型走不同核驗規(guī)則,定位「看錯圖、用錯圖、引用圖但沒真正 grounded」的失敗。
科研從來沒有銀彈。Deep Research 也是 —— 尤其當(dāng)信息不完整、證據(jù)不確定時。與其賭一次性的「正確結(jié)果」,不如把尺子釘在過程:每一步檢索、取證、引用與推理,都能被回放、被核對、被追責(zé)。
04 觀察到的現(xiàn)象:強寫作 ≠ 強證據(jù);會看圖 ≠ 會引用
![]()
在多個代表性系統(tǒng) / 模型的實驗中,可以看到非常清晰的分化:
- 有的模型寫作與結(jié)構(gòu)很強,但 Claim–URL 對齊松散,容易出現(xiàn)「引用很多、支撐很弱」;
- 有的模型能讀圖抓到信息,但長鏈路合成中發(fā)生實體漂移,把證據(jù)綁到錯誤對象上;
- 有的系統(tǒng)檢索覆蓋率高,卻在圖像細(xì)節(jié)(小數(shù)字、軸標(biāo)簽、單位、映射關(guān)系)上翻車,導(dǎo)致視覺忠實度顯著掉分。
也正因如此,能力并不會隨著版本號線性上揚:有些模型讀起來更「像一個會寫的研究者」,但在證據(jù)對齊與多模態(tài)忠實度上仍會失分 —— 榜單上甚至不需要細(xì)看,一眼就能讀出來。deep research 的關(guān)鍵瓶頸,正在從「能寫」轉(zhuǎn)向「能被查」。
05 更現(xiàn)實的意義:給 agent 對齊一個可訓(xùn)練的信號
Deep Research 的下一階段,不是誰寫得更像論文,而是誰的過程經(jīng)得起核驗。
MMDR-Bench 做的,就是把「經(jīng)得起核驗」這件事定成硬標(biāo)準(zhǔn):每條關(guān)鍵斷言都要能被證據(jù)接住,每個引用都要能被追溯到支撐點,每次用圖都要能對齊到可觀察事實。
這會直接改變系統(tǒng)迭代方式 —— 你不再憑感覺調(diào) prompt,也不再被「看起來很強」的報告迷惑,而是用可定位的失敗模式去驅(qū)動模型與工具鏈升級。
當(dāng)評測開始追責(zé)過程,deep research 才真正進(jìn)入可工程化的時代。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.