<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      TAMU/Waterloo團隊把研究智能體的訓練做成了開源流水線

      0
      分享至



      訓練一個能像人類研究員一樣「搜索→瀏覽→推理」的深度研究智能體 (Deep Research Agent),最大的瓶頸往往不是模型能力,而是高質量長程研究軌跡數據的嚴重匱乏?,F有的軌跡采集方案要么依賴昂貴且不穩定的在線搜索 API,要么只能生成 2-5 輪的淺層交互,遠不足以覆蓋真實深度研究中動輒數十輪甚至上百輪的復雜推理需求。

      針對這一痛點,來自Texas A&M University、University of Waterloo、UC San Diego 等機構的研究團隊提出了OpenResearcher:一條完全開源、可復現的離線深度研究軌跡合成流水線。這是首個能夠訓練出在長程研究任務上與專用系統相媲美模型的開源流水線,合成的數據也已經在 NVIDIA 的基座模型訓練中被采用。該方法的核心思路是:通過一次性收集在線語料構建包含 1500 萬篇候選文檔的本地搜索引擎,隨后由教師模型在完全離線的環境中,憑借調用 search、open、find 三種工具合成了超過9.7 萬條長程研究軌跡,其中大量軌跡包含100 次以上的工具調用。

      利用這些軌跡對一個 30B 參數的模型進行監督微調,即可在離線深度研究的基準數據集 BrowseComp-Plus 上達到54.8%的準確率,較基座模型實現34.0個百分點的絕對提升,并一舉超越 GPT-4.1(36.4%)、Claude-4-Opus(36.8%)等強大的閉源模型!對于在線深度研究的基準數據集,該模型同樣全面超越現有開源系統,且全部增益均來自離線合成數據,無需任何在線訓練。



      圖 1:BrowseComp-Plus 基準數據集上的性能 - 參數量對比。OpenResearcher(30B)以 54.8% 的準確率高居左上角,在性能 / 參數比維度上顯著領先 GPT-4.1、Claude-4-Opus、Gemini-2.5-Pro 等強大的閉源模型,同時超越通義 DeepResearch(44.5%)等專用深度研究系統。



      • 論文鏈接:https://arxiv.org/abs/2603.20278
      • 博客鏈接:https://boiled-honeycup-4c7.notion.site/OpenResearcher-A-Fully-Open-Pipeline-for-Long-Horizon-Deep-Research-Trajectory-Synthesis-2f7e290627b5800cb3a0cd7e8d6ec0ea
      • 代碼鏈接:https://github.com/TIGER-AI-Lab/OpenResearcher
      • 模型鏈接:https://huggingface.co/OpenResearcher/OpenResearcher-30B-A3B
      • 數據集鏈接:https://huggingface.co/datasets/OpenResearcher/OpenResearcher-Dataset
      • Demo鏈接:https://huggingface.co/spaces/OpenResearcher/OpenResearcher

      深度研究軌跡的合成,難在哪?

      隨著 DeepSeek-R1 等工作的推出,從大型推理模型中蒸餾長程推理軌跡并用于后訓練已成為主流范式,OpenThoughts、OpenMathReasoning 等項目相繼涌現。然而,當訓練目標從「數學推理」拓展到「深度研究」—— 即智能體需要迭代搜索、聚合異構證據、進行多步推理 —— 高質量軌跡的獲取就變得尤為棘手。

      現有方案受制于三重瓶頸:

      • 成本高昂:每一條失敗的搜索路徑都要消耗 API 調用配額,大規模合成意味著數萬美元級別的開支。
      • 不可復現:互聯網上的內容隨時在變化,同一查詢在不同時刻可能返回截然不同的結果,使得獲取的軌跡難以穩定復現。
      • 不可分析:在線搜索環境本質上是黑盒,研究者無法精確追蹤「關鍵證據在哪一步被發現」、「搜索策略的偏差出在哪里」等等關鍵問題,嚴重限制了對智能體行為的系統性研究。

      這促使團隊提出一個核心問題:能否將「搜索→瀏覽→推理」循環中昂貴的前兩步從在線環境搬到更可控的離線環境中,以零邊際成本、完全可復現的方式大規模合成高質量深度研究軌跡?

      OpenResearcher:離線深度研究軌跡合成流水線

      OpenResearcher 的核心設計理念是將語料構建與軌跡生成徹底解耦:先通過一次性在線收集含有研究信息的文檔構建離線語料庫與搜索引擎,然后在完全離線的本地環境中規?;铣裳芯寇壽E。具體而言,流水線包含以下三個階段。



      圖 2:OpenResearcher 總覽。整條流水線分三個階段推進:(1) 從 MiroVerse 篩選約 6,000 個高難度 QA 問題;(2) 一次性在線收集約 1 萬篇含有研究信息的文檔 (gold documents),并與 1,500 萬篇 FineWeb 干擾文檔合并構成帶 FAISS 索引的離線語料庫;(3) 教師模型 GPT-OSS-120B 在離線環境中通過 search、open、find 三種瀏覽器原語生成超 9.7 萬條長程研究軌跡。

      階段一:高難度問題收集。深度研究軌跡的質量起點是問題的質量。傳統 QA 數據集如 2WikiMultiHopQA 和 NQ 的問題通常只需 2-5 步檢索即可回答,遠達不到深度研究所需的復雜度。研究團隊選擇從 MiroVerse-v0.1 中隨機采樣 10%,得到約 6,000 個問答對。這些問題天然要求長程多跳推理與異構證據整合,實測中即便是很強大的教師模型也往往需要數十次工具調用才能作答,其中相當一部分需要超過 100 次。

      階段二:離線搜索引擎構建。軌跡合成有一個硬性前提:目標證據必須可檢索。否則,教師模型的合成失敗可能是搜索策略的問題,也可能僅僅是語料中缺少相關文檔,而這種歧義會嚴重干擾下游分析。為消除這一歧義,團隊采取了「答案引導的在線文檔收集」策略:對每個問答對,將問題與參考答案拼接構造 query,經 Serper API 一次性檢索并清洗去重,獲得約 1 萬篇含有研究信息的文檔 (gold documents)。隨后將 gold documents 與從 FineWeb 中采樣的約 1,500 萬篇干擾文檔(約 10 萬億 tokens)合并構成離線語料庫,全部文檔使用 Qwen3-Embedding-8B 向量化,并通過 FAISS 建立索引。這一設計的精妙之處在于:gold documents 保證了「答案確實存在于語料中」,海量干擾文檔則忠實模擬了真實網絡的噪聲與復雜度,使合成軌跡兼具可控性與真實感。



      圖 3:OpenResearcher 使用的三種工具。以「哪些 MIT 研究者獲得了 INFORMS 獎項」為例:智能體可先調用 Search 工具獲取搜索摘要列表(左欄),再調用 Open 工具拉取目標 URL 的文檔全文(中欄),最后調用 Find 工具在文檔內精確定位關鍵字符串「MIT」(右欄,高亮顯示)。三種工具實現多尺度漸進式信息發現。

      階段三:瀏覽建模與軌跡合成。OpenResearcher 利用三種工具對智能體的在線瀏覽行為進行抽象,完整建模了人類的研究行為模式:

      • Search:向離線搜索引擎發出自然語言查詢,返回 top-K 結果(含標題、URL、摘要片段),對應人類「廣泛搜索、識別候選來源」的行為
      • Open:根據 URL 獲取文檔全文內容,對應人類「點開網頁、通讀全文」的行為
      • Find:在當前已打開的文檔中執行精確字符串匹配,對應人類「Ctrl+F 頁面內查找」的行為,用于命名實體查找、事實核驗和證據錨定

      在此基礎上,研究團隊以 GPT-OSS-120B 為教師模型,對每個問題生成 16 條不同的軌跡以捕獲多樣化推理路徑。經輕量過濾后,最終獲得超過9.7 萬條軌跡,推理深度涵蓋了十余步到百余步。

      30B 模型超越多個閉源大模型

      訓練設置:研究團隊以 NVIDIA Nemotron-3-Nano-30B-A3B(混合 Mamba-Transformer MoE 架構,激活參數僅 3.2B)為基座,篩選出約 5.5 萬條答案正確的軌跡進行監督微調。訓練在 8 張 NVIDIA H100 GPU 上完成,耗時約 8 小時,是中小團隊也能具備的算力。

      離線深度研究的評測:在離線深度研究的基準數據集 BrowseComp-Plus 上,OpenResearcher-30B-A3B 取得54.8%的準確率,大幅領先 GPT-4.1(36.4%)、Claude-4-Opus(36.8%)、Gemini-2.5-Pro(29.5%)、DeepSeek-R1(16.4%)及通義 DeepResearch(44.5%)。較基座模型絕對提升 34.0 個百分點!僅憑離線合成軌跡的監督微調,無需強化學習或在線交互,即可在深度研究任務上釋放顯著的性能增益。

      在線深度研究的評測:在三個依賴在線搜索 API 的基準數據集上,OpenResearcher 同樣亮眼:BrowseComp 26.3%,GAIA 64.1%,xbench-DeepSearch 65.0%,全面超越 ASearcher-QwQ-32B 和 WebDancer-QwQ-32B 等開源系統。更關鍵的是,所有這些增益完全來自離線環境合成的軌跡!模型從未在在線深度研究數據上訓練過,卻能有效遷移到真實、動態的搜索環境。



      圖 4:深度研究基準測試性能對比。左表(離線,BrowseComp-Plus):OpenResearcher 以 54.8% 位居榜首,大幅超過 GPT-4.1(36.4%)和通義 DeepResearch(44.5%),較基座模型絕對提升 34.0 個百分點。右表(在線,BrowseComp / GAIA /xbench-DeepSearch):OpenResearcher 取得 26.3% / 64.1% / 65.0%,全面超越同量級開源系統。

      搭建 OpenResearcher 的過程能教會我們什么?

      失敗不在步數,在策略:失敗軌跡的平均工具調用次數(71.7 次)幾乎是成功軌跡(38.4 次)的兩倍,且額外調用主要集中在 search 操作上。失敗并非源于「探索不充分」,而是陷入了反復重新構造查詢卻始終無法收斂的困境。查詢構造能力和搜索策略的質量,才是決定深度研究成敗的關鍵。



      圖 5:工具調用次數分布與正確 / 錯誤軌跡對比。左圖(成功):調用次數集中在 10-40 次,均值 38.4,中位數 24.0。中圖(失?。撼孰p峰形態,均值 71.7,中位數 79.0,反映反復無效的搜索。右圖:失敗軌跡的 search 調用均值(48.7)遠超成功軌跡(22.1),而 find 使用頻率兩組相近,說明癥結在搜索策略而非文檔內定位。

      「答案正確性」并非唯一有價值的訓練信號:僅用正確軌跡訓練的模型得到 54.81% 的準確率,僅用錯誤軌跡訓練得到 55.06%,混合全量軌跡得到 54.46%。三者差異不超過 0.6 個百分點。由此可知,軌跡中蘊含的搜索結構、工具調用模式、證據檢查策略等過程性信號的價值并不遜色于最終答案的正確性。研究者無需過于激進地過濾訓練數據。另一方面,移除 gold document 的收集過程后,下游準確率從 54.81% 驟降至 6.35%。所以,一次性在線收集是整條離線合成流水線得以運轉的關鍵步驟。



      圖 6:左表:僅用正確(54.81%)/ 錯誤(55.06%)/ 全部軌跡(54.46%)訓練,在 BrowseComp-Plus 上的準確率相差不超過 0.6 個百分點,說明過程性信號價值不亞于答案正確性。右表:移除 gold documents 的收集過程后下游準確率從 54.81% 降至 6.35%,證明一次性在線文章收集這一步不可或缺。

      智能體的最大可探索輪數預算在 100 輪后邊際收益遞減:準確率和檢索 gold documents 的命中率隨最大可探索輪數預算增加穩步上升,但在 100 輪附近開始趨于平緩。這說明長程探索確實有益,但在智能體獲得充分的檢索和定位機會之后,單純延長推理鏈的邊際收益明顯遞減。



      圖 7:準確率(藍線)和檢索 gold documents 的命中率(橙線)隨最大可探索輪數預算增加持續上升,但在約 100 輪后趨于飽和(準確率~58.3%,命中率~49.3%),表明長程探索有益但存在邊際遞減效應。

      三種瀏覽器工具缺一不可:消融實驗清楚地展示了三種工具的遞進價值。智能體在僅能調用 search 時準確率為 43.86%,加入 open 后升至 56.39%,再引入 find 進一步達到62.17%,同時工具調用總次數和 token 消耗均下降。這表明,文檔級訪問是深度研究的「剛需」,頁面內證據定位則在提升精度的同時降低了冗余瀏覽。



      圖 8:左表:準確率從僅能調用 search(43.86%)→ 可以調用 open(56.39%)→ 還可以調用 find(62.17%)穩步提升,同時工具調用次數和 token 消耗持續下降。右表:P (correct|open-hit) = 86.72% 遠高于 P (correct|search-hit) = 61.84%,表明「搜到」與「看到」對于準確率的幫助是有很大差異的。

      檢索時機與最終準確率的關系:只要智能體打開過至少一篇 gold document,無論這一命中發生在第幾輪,最終準確率都能穩定維持在 85% 以上;從未打開過 gold document 的軌跡準確率則僅有 7.9%。因此「看到」與研究相關的證據通常是正確回答的必要條件,但并非充分條件。



      圖 9:首次打開 gold document 的時機與最終準確率的關系。只要打開過至少一篇 gold document,準確率均穩定在 85% 以上;完全未命中的 303 條軌跡準確率則僅有 7.9%。

      成本:從數萬美元到零



      合成這 9.7 萬條軌跡共涉及約 576 萬次搜索請求。若使用在線的 Serper API,花費約 $5,760;若改用 SerpAPI 則高達 $28,800。而 OpenResearcher 的離線檢索器將這一成本降至$0。離線方案還額外提供:無速率限制(支持大規模并行合成)、完全確定性(確保長程研究軌跡完美可復現)、零外部依賴(便于開放共享與社區復現)。

      總結與展望


      OpenResearcher 為深度研究智能體的訓練數據問題提供了一條務實且高效的解決路徑:與其在昂貴、不穩定的在線環境中反復試錯,不如將「搜索→瀏覽→推理」循環中昂貴的前兩步從在線環境搬到更可控的離線環境中,以可復現、零邊際成本的方式大規模合成訓練軌跡。在方法層面,三種工具對智能體的在線瀏覽行為的抽象(search + open + find)忠實模擬了人類的研究行為,使合成軌跡不僅包含搜索查詢,還包含文檔閱讀和證據定位的完整行為鏈。在實證層面,一個僅有 30B 參數(3.2B 激活)的模型通過監督微調即可在多個基準上超越參數量數倍于己的閉源模型,且全部增益來自離線合成數據。更具長遠價值的是,離線環境的完全可控性為系統性地分析深度研究流水線各設計維度 (例如數據過濾策略、語料覆蓋、智能體配置、工具空間設計、檢索與推理的交互關系等)提供了實驗平臺,為這一領域的未來優化指明了方向。

      本文主要作者為:德州農工大學博士生李卓風,滑鐵盧大學博士生姜東甫,德州農工大學助理教授張彧,以及滑鐵盧大學助理教授陳文虎。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      畢業生破1270萬!2026下半年開始,大部分家庭將直面“4大難題”

      畢業生破1270萬!2026下半年開始,大部分家庭將直面“4大難題”

      復轉這些年
      2026-04-05 18:00:42
      林志玲舊照被曝光,那時候她的身材是真的好,而且沒有任何修圖

      林志玲舊照被曝光,那時候她的身材是真的好,而且沒有任何修圖

      鄉野小珥
      2026-04-04 22:03:09
      唐一菲近況曝光!嫁給凌瀟肅飽受非議,如今兒女雙全被寵成公主

      唐一菲近況曝光!嫁給凌瀟肅飽受非議,如今兒女雙全被寵成公主

      觸摸史跡
      2026-04-07 12:37:10
      大事!桃浦某盤,75折了?。?!

      大事!桃浦某盤,75折了?。?!

      新浪財經
      2026-04-07 11:29:14
      女子赴發小婚禮穿瑜伽褲,打扮過于火辣,網友直呼跟沒穿似的

      女子赴發小婚禮穿瑜伽褲,打扮過于火辣,網友直呼跟沒穿似的

      一盅情懷
      2026-03-16 17:28:45
      淪為共享單車的女色虎

      淪為共享單車的女色虎

      深度報
      2026-03-05 22:39:27
      23投狂砍32分+5記三分球!提前鎖定常規賽MVP,郭士強眼光毒辣

      23投狂砍32分+5記三分球!提前鎖定常規賽MVP,郭士強眼光毒辣

      老葉評球
      2026-04-06 22:55:28
      一空姐機上被打,航司霸氣出面:打我家空姐,拉入黑名單

      一空姐機上被打,航司霸氣出面:打我家空姐,拉入黑名單

      中國民航人
      2026-04-06 18:10:42
      業績暴增!300821,“20cm”漲停

      業績暴增!300821,“20cm”漲停

      數據寶
      2026-04-07 10:43:16
      沒時間了,80歲特朗普病危住院?美國政界地震,內閣恐大規模改組

      沒時間了,80歲特朗普病危住院?美國政界地震,內閣恐大規模改組

      瀲滟晴方DAY
      2026-04-07 03:31:09
      隨著掘金9連勝,馬刺115-102,西部最新排名出爐!湖人下滑第4

      隨著掘金9連勝,馬刺115-102,西部最新排名出爐!湖人下滑第4

      薇說體育
      2026-04-07 12:35:27
      突然受傷!文班亞馬拼了,確實很想要MVP!

      突然受傷!文班亞馬拼了,確實很想要MVP!

      德譯洋洋
      2026-04-07 11:48:52
      “我只是長大了,不是變丑了”:她的一句話炸出多少人的外貌焦慮

      “我只是長大了,不是變丑了”:她的一句話炸出多少人的外貌焦慮

      老吳教育課堂
      2026-04-06 22:37:10
      車主趕緊加油!國內油價將迎六連漲 今日開始調價

      車主趕緊加油!國內油價將迎六連漲 今日開始調價

      快科技
      2026-04-07 07:28:07
      中國3大長壽食物,西蘭花排第三;第一名天天見,卻很少人愛吃

      中國3大長壽食物,西蘭花排第三;第一名天天見,卻很少人愛吃

      華庭講美食
      2026-04-07 10:11:14
      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      李橑在北漂
      2026-04-02 10:22:26
      拼了!內馬爾秘密接受膝蓋新手術,只為打動安帥入選世界杯名單

      拼了!內馬爾秘密接受膝蓋新手術,只為打動安帥入選世界杯名單

      仰臥撐FTUer
      2026-04-07 07:51:03
      銀行存款新利息已出爐!4月1日起,各大銀行定期存款利率來了

      銀行存款新利息已出爐!4月1日起,各大銀行定期存款利率來了

      小談食刻美食
      2026-04-07 08:45:47
      浙大名嘴揭開殘酷真相:當年恒大倒臺,壓根不是因為2萬億負債!

      浙大名嘴揭開殘酷真相:當年恒大倒臺,壓根不是因為2萬億負債!

      阿器談史
      2026-04-02 13:31:44
      10.38萬起!豐田官宣:新車再降價

      10.38萬起!豐田官宣:新車再降價

      手機評測室
      2026-04-07 11:51:16
      2026-04-07 13:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12692文章數 142616關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      鄭麗文今日訪陸其彝族背景引發熱議 曾回云南祭祖

      頭條要聞

      鄭麗文今日訪陸其彝族背景引發熱議 曾回云南祭祖

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      張藝上浪姐惹爭議 黃景瑜前妻發文內涵

      財經要聞

      2026年,全國租房市場還有波降價潮

      汽車要聞

      廣汽電池獨立戰,背后的產業鏈博弈

      態度原創

      教育
      旅游
      親子
      游戲
      藝術

      教育要聞

      咱就說這個第一非爭不可嗎?

      旅游要聞

      湖北二官寨村:土家秘境,春日溪澗伴古寨

      親子要聞

      為什么說養孩子等于“毀容”?看看前后對比照,寶媽們的辛酸淚

      這誰頂得住!玩家感嘆:索尼第一方未來陣容太豪華

      藝術要聞

      美麗風光看不盡

      無障礙瀏覽 進入關懷版