![]()
3 月 16 日,在剛剛結束的 NVIDIA GTC 2026 大會上,黃仁勛在長達三小時的 Keynote 演講中發布了 NVIDIA Agent Toolkit 和 AI-Q 開放智能體藍圖,將 AI Agent 定位為下一個重大前沿。引人注目的是,NVIDIA 在展示 AI-Q 的深度研究能力時,選擇了 DeepResearch Bench 和 DeepResearch Bench II 作為評測標準 ——AI-Q 在兩個榜單上均登頂第一,分別取得 55.95 和 54.50 的成績。
![]()
這兩個基準是什么?為什么 NVIDIA 選擇了它們?它們是如何設計的?背后又有怎樣的思想演進?
背景:深度研究 Agent 的爆發與評估困境
自從 OpenAI 發布 Deep Research 以來,Google、Grok、Perplexity 以及國內的千問、字節豆包、通義等廠商迅速跟進,競相推出各自的深度研究 Agent 產品。這是繼 Cursor 之后,又一類被廣泛驗證有效的 AI Agent 應用 —— 它們能夠自主規劃搜索路徑、瀏覽數十乃至上百個網頁、提煉關鍵信息,將原本需要數小時的案頭調研壓縮到幾分鐘內,輸出一份結構完整、引用豐富的研究報告。
但隨之而來的問題是:這些報告到底寫得好不好?不同產品之間的差異在哪里?該如何衡量?
評估深度研究智能體的難度,遠超代碼生成或數學推理 —— 后者有唯一正確的答案,而一份好的調研報告需要同時滿足信息全面、分析深入、結構清晰、引用可靠等多重要求,這些維度之間還存在微妙的權衡。現有的評估方式要么只測智能體能否找到特定事實,卻不關心它能否決定 "該找什么" 以及 "如何整合成連貫敘述";要么評估完整報告,但標準過于粗放或完全由 LLM 自行定義 —— 相當于讓考生自己出題再自己打分。
來自中國科學技術大學的研究團隊圍繞這一問題展開了系列工作,先后推出了 DeepResearch Bench 和 DeepResearch Bench II 兩代評估基準。所有數據、代碼和評估腳本均已開源:
![]()
DeepResearch Bench(ICLR2026):
- 論文鏈接:https://arxiv.org/abs/2506.11763
- GitHub:https://github.com/Ayanami0730/deep_research_bench
![]()
DeepResearch Bench II:
- 論文鏈接:https://arxiv.org/abs/2601.08536
- GitHub:https://github.com/imlrz/DeepResearch-Bench-II
DeepResearch Bench:
第一個系統性評估框架
從真實需求出發
研究團隊認為,這類 Benchmark 應該服務于真實的用戶需求。為此,他們收集了一個包含約9.6 萬條用戶查詢的內部數據集(來自用戶與搜索增強型 LLM 的真實交互),經過數據脫敏、過濾和分類,最終獲得 4.4 萬條符合 "深度研究" 定義的查詢,并統計出用戶在22 個主題領域上的真實需求分布。
![]()
基于這個分布,團隊確定了每個領域的任務數量,并邀請相關領域的博士級專家編寫調研任務,最終構建了一個包含100 個高挑戰性研究任務(50 個中文 + 50 個英文)的基準數據集。
兩個互補的評估框架
該工作設計了兩個評估框架,分別回答關于調研報告的兩個本質不同的問題:
![]()
RACE:報告質量怎么樣?核心思想是不同任務的評估側重點應該不同 —— 金融分析任務顯然比歷史概述更看重數據深度,面向大眾的科普任務則更看重可讀性。RACE 根據任務特點動態生成評估標準(criteria)和權重(weight),然后引入一篇高質量參考報告進行對比評分,避免 LLM 評審傾向于 "一律給高分" 的問題。
FACT:檢索到的信息靠不靠譜?從報告中提取每一條事實聲明及其引用的 URL,抓取對應網頁內容后,逐條驗證引用是否真正支持該聲明。由此量化兩個關鍵指標:智能體引用了多少 "有效信息"(E. Cit.),以及引用的準確率有多高(C. Acc.)。
關鍵發現
在首批評估中,團隊測試了多個深度研究產品和搜索增強型 LLM。Gemini Deep Research 和 OpenAI Deep Research 展現出明顯的領先優勢,但各有側重:前者在全面性和有效信息量上遙遙領先(平均每個任務 111 條有效引用),后者在指令跟隨能力上更為出色。Perplexity Deep Research 雖然總體排名稍低,但引用準確率高達 90%,遠超其他競品 ——"找到多少" 和 "找得準不準" 是兩種截然不同的能力。
![]()
團隊還使用 50 個中文任務進行了人類一致性實驗,每個任務邀請 3 位相關專業的碩博志愿者對四個模型的報告打分,總計 225 人時的評分工作。最終驗證 RACE 的成對一致率達到71.3%,超過了人類專家之間的互評一致率(68.4%),大幅優于基線 LLM-as-a-Judge 方法及 RACE 自身的任何消融變體。
DeepResearch Bench II:
用專家標準丈量 AI 的真實差距
現有評估范式的兩個根本問題
DeepResearch Bench V1 發布后,后續出現的深度研究評估基準基本都沿用了兩類思路:
其一,先驗的評分點。由 LLM 預先生成一組評估標準,據此對報告打分。但這套標準本身就是 LLM 自己定義的 —— 模型認為重要的內容,未必是領域專家真正關心的。
其二,后驗的引用審查。檢查引用是否有效、能否支撐報告中的結論。但引用格式正確、來源可訪問,并不意味著內容本身就是對的 —— 模型從開放網絡中檢索到的信息,有可能本身就是錯誤信息,甚至是針對 AI 的數據投毒。
核心判斷:評估終將回歸到與人類專家的對齊
對于第一個問題,研究團隊提出了自己的判斷:盡管當前模型還有通過自我評估、自我迭代來提升的空間,但隨著模型自我演化能力不斷增強,自我生成和自我驗證終將達到一個平衡點。屆時,評估的核心問題將變成:模型認為一份調研報告應該包含的內容,是否真的與人類專家的預期一致?
要回答這個問題,就必須以人類專家作為參照。而開源的、經過同行評審的人類專家調研報告,正是絕佳的錨點。
引入人類專家報告之后,第二個問題也隨之解決 —— 專家文章中本身就包含了正確的證據和結論,只需要檢查模型的報告中是否涵蓋了這些內容即可,不再需要依賴對網頁引用的逐條驗證。
逆向解構:從專家報告到評估標準
一份調研報告的生成過程是正向的:確定研究問題 → 召回信息 → 分析 → 組織呈現。而 V2 的做法恰好相反 —— 從專家已完成的報告出發,逆向解構出它是如何呈現的、如何分析的、召回了哪些信息、研究問題是什么,據此提取出評估標準(rubric)和調研任務。
![]()
具體而言,團隊從知名期刊、頂級會議和權威機構出版物中精選了 132 篇高質量研究文章(均為 CC-4.0 或 CC-4.0-NC 許可),通過 "LLM 提取 → 自我評估過濾 → 人工修訂 → 領域專家精煉" 的四階段管線,最終獲得9,430 條細粒度二元 rubric(平均每個任務約 71 條)。這些標準不是抽象的 "是否全面" 或 "分析是否深入",而是諸如 "是否指出小城市勞動力流失的關鍵原因在于職業結構錯配" 這樣可以直接回答 "是或否" 的具體要求 —— 評估模型不需要依賴自身的領域知識來判斷對錯,標準本身已經編碼了答案。
三層能力解剖
在評估維度上,V2 從信息組織的視角出發,將深度研究任務拆解為三層遞進的核心能力:
- 信息召回:Agent 是否知道該找哪些信息?找到的信息是否正確?這是研究流程的基礎。
- 分析:Agent 能否超越簡單的信息匯總?現實中,很多模型給出的調研報告往往只是引用一些現成的結論,或給出聊勝于無的弱結論,而缺乏真正從原始信息出發、通過推理和綜合得出有價值的高層次結論。
- 呈現:即使信息正確、結論有價值,如果不能以清晰、用戶友好的方式組織和傳達,同樣不能算一份好的調研報告。
![]()
這三層對應了深度研究從 "搜索" 到 "思考" 再到 "寫作" 的完整鏈條。
兩代工作的思想脈絡
回顧這個系列,核心追問始終是同一個:如何讓對深度研究 Agent 的評估更接近人類專家的判斷?
第一代的答案是 "讓評估更智能"—— 通過動態權重、自適應標準和參考對比,使 LLM 評審能夠靈活地判斷報告質量,并取得了超越人類互評一致率的結果。
第二代的答案則是 ——"讓評估有據可依"。與其讓 AI 自行判斷什么是好的研究,不如直接以人類專家的研究成果為標桿,將 "好" 分解為數千個可驗證的具體要求。這不僅使評估更加客觀透明,也首次實現了對 AI 與人類專家之間差距的精確定位。
兩代工作共同構成了一個從 "能不能評" 到 "評得準不準" 再到 "差距在哪里" 的完整敘事。而 NVIDIA AI-Q 的最新結果表明,這把標尺正在被行業頭部玩家采納,用于度量和推動 AI 深度研究能力的邊界。
局限與展望
研究團隊也坦誠地討論了當前工作的不足。
即便是人類專家撰寫的調研報告,也不可能讓所有讀者滿意。這恰恰說明評估深度研究智能體本身就是一個帶有主觀性的長尾問題 —— 當前的評估方法只能盡力使其與大多數人的價值判斷和信息需求保持一致。同時,由于專家文章本身可能存在瑕疵、LLM 提取過程中可能產生幻覺、人工校驗也難免有所疏漏,rubric 并非完美無缺。為此,團隊在項目主頁設置了公開的評論區,歡迎社區的指正與討論。
向前看,該系列的評估揭示了一些不會很快消失的根本性挑戰:
- 分析的深度與原創性:從信息匯總到真正的洞察之間,仍然存在一道鴻溝 —— 即便是突破 50% 的 AI-Q,其分析維度也仍有巨大提升空間
- 用戶適應性:同樣的研究主題,面向本科生和面向資深教授的報告應該截然不同,但當前系統幾乎無法做到這種自適應呈現
DeepResearch Bench 系列的所有數據、代碼和評估腳本均已開源(鏈接見文首)。
作者簡介:
本文作者團隊來自中國科學技術大學。DeepResearch Bench 第一作者為杜銘軒,DeepResearch Bench II共同第一作者為杜銘軒、李睿哲。合作者為徐本峰、朱池葦、王曉瑞。通訊作者是中國科學技術大學教授毛震東。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.