網易首頁 > 網易號 > 正文申請入駐

30B參數超越GPT-5！REDSearcher讓深度搜索Agent做到低成本可擴展

2026-03-09 13:28:51　來源: 機器之心Pro

河北舉報

分享至

「2018 到 2023 年間在 EMNLP 會議上發表的那篇論文中，第一作者本科就讀于達特茅斯學院、第四作者本科就讀于賓夕法尼亞大學的那篇科學論文，題目是什么？」

這并不是一道靠記憶就能解答的題。Agent 必須在多輪環境交互中，不斷假設、驗證并修正路徑，始終保持推理一致性，才能將零散證據整合成自洽鏈條。

2025 年被視為 AI Agent 元年，但真正的自主 Agent 核心在于「深度搜索」，在長程任務中像人類專家一樣維持目標、驗證信息并動態調整策略。然而，訓練這樣的 Agent 面臨三大瓶頸：

數據稀缺：高難度長程問答任務極度依賴人工標注，成本高昂。因此，我們需要一條能夠自動化合成高難度問題的鏈路。
能力鴻溝：預訓練模型雖知識儲備豐富，卻缺乏與真實環境進行長程交互的能力。這需要通過低成本的中訓練階段來彌補鴻溝。
環境缺失：在真實環境中訓練成本高且不可控。一個功能等價的模擬環境，可以在本地復現搜索過程，從而支持算法的快速迭代。

為突破瓶頸，REDSearcher 團隊設計了一套低成本、可擴展的訓練框架，最終使用 30B 規格模型在深度搜索任務上取得開源模型 SoTA，并且超越了 GPT-5 等一眾閉源模型。

論文標題：REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
項目主頁：https://github.com/RedSearchAgent/REDSearcher
論文鏈接：https://arxiv.org/abs/2602.14234
Collections：https://huggingface.co/collections/Zchu/redsearcher

一、什么是「足夠難」的深度搜索題目？

什么是困難的搜索題目？推理跳數往往只是表象，應該追求的是問題的結構性困難。

1. 拓撲復雜度：用樹寬衡量「結構性困難」

復雜任務中，信息分叉交織形成回環。Agent 需同時記憶多路推論，時刻驗證一致性，并隨時準備整體回溯，這便是深度搜索的核心挑戰。為此，團隊引入圖論中的TreeWidth（樹寬）概念來刻畫這種「結構性困難」。以下通過三種結構問題進行對比：

線性/樹狀（樹寬=1）：典型鏈式推理，只需按部就班檢索便可解答。
菱形/回環（樹寬=2）：出現分叉與重匯合，要求 Agent 維持多路假設的一致性，并在矛盾時進行回溯。
強耦合子圖（樹寬≥3）：形成網狀約束，需要將零散證據拼合成一致的整體，迫使模型進行全局驗證和回溯。

2. 信息分散度：杜絕搜索「捷徑」

即使問題的拓撲結構很復雜，如果存在一個網頁恰好包含所有關鍵事實，模型一次檢索就能抄走答案。為此，團隊引入「信息分散度」，即覆蓋全部關鍵證據所需的最小來源數。信息分散度越大，表明問題相關的證據片段（注：原文為“爭取片段”，疑為筆誤，此處已作修正）在互聯網上的分布就更加零散，這迫使 Agent 與外部環境進行更多輪次的交互從而獲取更加充分的信息。

二、大規?！缸詣踊购铣?/strong>

「高難度」的深度搜索問題

基于雙約束復雜度標準，我們采用 graph-to-text 流程合成數據：先生成符合樹寬與分散度的推理圖，再將其翻譯為自然語言問題，并經過多層校驗確?！父唠y度、可解且答案唯一」。同時，我們設計了基于「結構化信息」與「網絡瀏覽」兩套圖構造流程，以覆蓋不同搜索環境。在合成問題中，我們采取：

拓撲結構增強：直接生成高樹寬圖的成功率較低。為此，我們引入大模型智能體對初始依賴圖進行「拓撲加密」，通過添加環狀與交錯約束，顯著提升結構復雜度，迭代地提高問題難度。
工具增強的問題合成：在問題構造階段，我們主動植入工具調用需求。通過將關鍵實體替換為隱含工具依賴的表達（如地名→地圖服務、文章→谷歌學術），使工具調用成為解題前置條件。

三、多模態擴展：從「文本圖」到「多模態圖」

在文本合成基礎上，REDSearcher 通過模態注入將純文本推理圖轉化為跨模態推理，使部分約束錨定在圖像中。

視覺屬性錨定：用圖像描述替換節點的文本屬性，迫使模型先識別圖像再關聯知識。
跨模態依賴：設置視覺不可替代約束，使圖像搜索成為推理必經之路，而非冗余信息。
視覺語義抽象：使用抽象指代替代直接命名，迫使模型識別圖像內容后再進行搜索。
模態靈活插入：視覺證據可插入推理鏈任意位置，既可早期設置瓶頸增加難度，也可后期引入驗證，實現難度精細控制。

通過這套輕量級擴展，REDSearcher 可高效遷移至多模態搜索領域，合成高質量的圖文深度搜索問題。

四、「成本可控」Mid-Training 強化智能體能力

預訓練模型缺乏多輪交互訓練，在長程搜索中易出現目標漂移、重復搜索等問題。為此，REDSearcher 采用可擴展的兩階段 Mid-Training 框架，依次強化模型的「原子能力」與「組合能力」，實現從語言建模到智能體的過渡。

原子能力建設

針對深度搜索重要的兩個基礎能力優化：

意圖錨定：從含噪的觀測中精準抓取關鍵證據，過濾噪聲，減少幻覺與推理漂移。
層次化規劃：將復雜目標拆解為可立即求解的具體目標與需逐步消解的不確定目標，確保規劃可落地。

組合能力建設

通過環境交互強化長程任務中的狀態維持與目標一致性，全程以成本為約束：

工具調用能力：通過合成工具協議與本地模擬環境交互，使模型在 ReACT 范式下掌握基礎與外界環境交互能力。
長程交互能力：在「功能一致」模擬環境中，讓 Agent 進行長程的環境交互，強化規劃能力與目標一致性。

五、后訓練持續進化：

不只是「搜得多」，更要「搜得準」

后訓練采取 SFT + Agentic RL 雙階段增強：

在真實環境中交互，通過多重過濾獲取長程高質量軌跡，教會模型深度搜索行為。
在真實搜索環境中進一步優化策略，關鍵設計包括：
低成本驗證：構建「功能等價」的本地模擬環境，保持 API 一致、證據完備且含噪聲，加速實驗迭代。
數據質量保障：針對合成問題中存在的答案錯誤、一題多解現象，采用 Agent-as-Verifier 對強化學習問題集進行校驗，避免數據污染影響訓練穩定性。

團隊觀察到了效率與性能同步提升的現象：隨著訓練進行，模型的平均交互輪次不斷下降，但準確率持續提升。這表明 REDSearcher 并非簡單的「暴力搜索」，而是學會了更精準的信息獲取策略，主動減少無效調用，形成「越訓越聰明」的良性循環。

六、實驗結果

在多項深度搜索權威基準上，REDSearcher 在開源模型中取得了優異的表現：

REDSearcher 在同規模開源模型中取得了 SoTA 水平，并且超過了 GPT-5-Thinking-high、Gemini-2.5-pro、Claude-4.5-sonnet 一眾閉源先進模型（*為帶有上下文管理的性能）。
REDSearcher-MM 在多模態搜索基準中相比同規格模型取得了 SoTA 水平，并且性能超過 Gemini-2.5-pro，在部分基準上取得了接近 Gemini-3-pro 的性能。

結語

REDSearcher 的核心在于系統性設計：從圖論角度定義深度搜索任務復雜度，以雙約束優化可擴展合成數據，以兩階段中間訓練降低能力遷移成本，以高質量軌跡合成結合強化學習實現持續迭代。它提供了一條可復現、低成本的深度搜索智能體訓練路徑，使 AI 系統從靜態知識查詢走向開放環境下的自主探索、驗證與信息整合。

作者簡介

初征，哈工大社會計算與信息檢索中心在讀博士生，由劉銘教授和秦兵教授共同指導，研究方向是智能體、大語言模型、復雜推理、深度搜索。

王梟，就職于小紅書 Hi Lab，負責Search Agent，主要關注長程推理、智能體、數據合成、強化學習。

Jack Hong，小紅書 Hi Lab 團隊算法實習生，主要研究方向是多模態大模型、Agent、計算機視覺等。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網易首頁下載網易新聞客戶端

相關推薦

熱點推薦

告別昂貴賬單，Token直降68%，多智能體動態協作編程來了

機器之心Pro 2026-04-07 13:16:40
0 跟貼 0

模仿學習如何賦能靈巧操作？這有一份「2021-2025」全景技術圖譜

機器之心Pro 2026-04-07 13:23:01
0 跟貼 0

能賺超額收益的3個AI賽道

虎嗅APP 2026-04-06 04:12:13
1 跟貼 1

7個頂級AI集體撒謊，為救“同伴”篡改文件、偷運數據

鈦媒體APP 2026-04-07 11:01:25
0 跟貼 0

「OpenClaw之父點贊」終結百蝦大戰？一場升級版的AI原生革命上演

新智元 2026-04-07 12:10:28
0 跟貼 0

TAMU/Waterloo團隊把研究智能體的訓練做成了開源流水線

機器之心Pro 2026-03-30 11:08:49
0 跟貼 0

19歲，常青藤輟學，這群中國年輕人重構了AI記憶

量子位 2026-04-04 16:21:02
0 跟貼 0

力控與運控的融合，共話具身智能“小腦”進化的破局之道

鈦媒體APP 2026-04-07 16:50:38
0 跟貼 0

MiniMax來承包你的桌面了-4

機器之心Pro 2026-01-20 20:19:42
0 跟貼 0

玄甲（AgentWard）全鏈路防御操作系統正式發布

機器之心Pro 2026-04-07 13:58:00
0 跟貼 0

大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0

壞了，我成AI的乙方了！Anthropic論文爆火，誰還敢無腦Copy？

新智元 2026-04-07 20:12:55
0 跟貼 0

這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0

AI用一晚睡眠數據預測多種疾病風險，準確率最高85%

DeepTech深科技 2026-04-07 19:08:11
0 跟貼 0

AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0

機器人交稅養打工人！奧特曼AI新政曝光，上4休3要成真？

新智元 2026-04-07 20:12:55
0 跟貼 0

清華團隊：1.5B 模型新基線！用「最笨」的 RL 配方達到頂尖性能

機器之心Pro 2025-11-13 14:56:23
1 跟貼 1

鬼手想點誰就點誰？LaSM讓GUI智能體把注意力「收回來」

機器之心Pro 2026-04-07 14:27:35
0 跟貼 0

男子理發付款，魔鬼算法把老板娘繞進去，最后竟然還賺錢了

企鵝愛聊生活 2026-04-04 09:15:52
0 跟貼 0

這啥算法

一只小太陽 2026-04-06 03:07:55
0 跟貼 0

易中天，獲獎勵20萬元

極目新聞 2026-04-06 21:04:19
26180 跟貼 26180

律師訴游戲匹配機制案一審落槌，法院：公開或破壞游戲公平

南方都市報 2026-04-07 19:11:25
1 跟貼 1

《給他愛5》代碼泄露曝光R星《Agent》主角模型

3DM游戲 2026-04-07 10:03:06
0 跟貼 0

河南小伙，被中東大佬下300輛戰車模型，全村都上了！

乘風笑浪 2026-04-06 14:56:09
3 跟貼 3

陳麗華47歲倒追遲重瑞財富傳承披露：1兒2女均在富華

極目新聞 2026-04-07 12:39:33
1721 跟貼 1721

面壁智能完成新一輪融資,26年累計融資超10億,躋身基模獨角獸行列

機器之心Pro 2026-04-07 13:19:53
0 跟貼 0

豆包「最新版」首發別克，智能座艙進入大模型時代

雷峰網 2026-04-07 18:13:11
0 跟貼 0

蒸餾同事skill火了，我想蒸餾老板，可以嗎？

混沌學園官方 2026-04-07 20:18:44
0 跟貼 0

聯想去年收入破六千億，Windows AI PC份額全球第一

快科技 2026-04-05 15:11:31
0 跟貼 0

GPT-6 曝光了，奧特曼卻成了硅谷最焦慮的人

AppSo 2026-04-06 17:15:36
34 跟貼 34

道之道，一臺MPV的問道之法——極狐問道V9靜態體驗

風格車評 2026-04-07 09:05:00
0 跟貼 0

AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0

PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0

爆火！把智能體當游戲角色來玩，一個人就是一個公司

機器之心Pro 2026-02-12 18:04:44
0 跟貼 0

深度剖析巧戰破局，戰術迭代，耗敵制勝

徐Toso 2026-04-07 02:06:21
0 跟貼 0

“祖先給的特權”，河南網友稱祖墳在景區祭祖免票，景區回應：沒過檢票口，一般是附近住戶的祖墳

大風新聞 2026-04-06 15:06:12
2294 跟貼 2294

搜索“法國超跑”不一定是車，但一定是他！

小魚地理 2026-04-07 14:36:50
1 跟貼 1

“虧大了”？浙江多個小區物業主動撤場，業主卻稱：錢花得冤，背后有筆算不攏的賬

環球網資訊 2026-04-07 14:42:45
1 跟貼 1

毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2675 跟貼 2675

在極限環境中就需要使用極限策略

趣知小故事 2026-04-04 11:30:41
1 跟貼 1

明早或發生史上最猛轟炸：川普稱不妥協將4小時摧毀伊朗，跟中午·
邵旭峰域
2026-04-07 15:15:50

張雪公布自己設計的跨界踏板車設計圖，最新回應：正在制作踏板摩托，這款踏板偏運動越野風格，售價可能比傳統的貴一點
魯中晨報
2026-04-07 17:13:05

遲重瑞妻子陳麗華去世，溫馨全家福曝光，4個兒女都很優秀
180視角
2026-04-07 14:19:49

“還真把自己當盤菜了”，北京職高女被全網嘲笑，含金量0人買單
妍妍教育日記
2026-04-06 09:15:12

游客稱7人點3盆米飯被收78元，華陰市監局介入，飯店：小份米飯3元，大盆米飯約8小碗，用五常大米和礦泉水蒸煮
瀟湘晨報
2026-04-07 17:12:51

1996年，施瓦辛格喝醉了在家休息，看到200斤的傭人在做家務……
歲月有情1314
2026-04-07 15:49:39

岳西失蹤孩子案告破，樓上鄰居落網，提前踩點選盲區，親屬參與了
天天熱點見聞
2026-04-07 12:29:59

突發！沙特遭襲年產量約6000萬噸石化基地發生爆炸
每日經濟新聞
2026-04-07 10:18:32

新華社
2026-04-07 20:00:05

三峽大壩收支出爐：運行20余年，總投資近2500億，如今回本了嗎？
丁丁鯉史紀
2026-04-07 10:44:35

吃了20年才知道，它竟是“天然葉酸”，現在正當季，常吃身體棒
阿龍美食記
2026-04-07 10:42:05

11年前優衣庫男女主現狀曝光，他們還在一起生了兩個孩子
半糖甜而不膩
2026-04-06 12:09:15

博弈白熱化，霍爾木茲要變天了
南風窗
2026-04-07 14:58:27

美軍“拯救飛行員”，差一點就失敗了
中國新聞周刊
2026-04-07 16:42:40

張雪的媽媽是作家何瓊，畢業于廈門大學，曾貸款55萬支持張雪創業
漢史趣聞
2026-04-07 08:45:15

因中國工人待遇問題，巴西將比亞迪列入“恥辱名單”
互聯網大觀
2026-04-07 15:43:15

英媒宣稱“伊朗最高領袖病重昏迷”
觀察者網
2026-04-07 18:00:14

美軍新型PrSM導彈首次實戰？2月28日擊中伊朗體育館致21名青少年遇難
網易新聞出品
2026-04-07 16:36:53

鄭麗文已到達南京，國民黨一人口出狂言，不裝了，賴清德正式發聲
DS北風
2026-04-07 18:38:24

多地黨委主要領導調整！全國最大邊境城市，迎來新任市委書記
上觀新聞
2026-04-07 15:50:07

2026-04-07 20:35:00

機器之心Pro

專業的人工智能媒體

12701文章數 142616關注度

往期回顧全部

科技要聞

滿嘴謊言！OpenAI奧特曼黑料大起底

雇5個AI辦一人公司，這群老油條氣得我“吐血”

囤Token能暴富？國家安全部提醒風險

折疊屏iPhone要來了，富士康已在試產！

前同事被蒸餾成Token，AI能否偷走職場經驗

頭條要聞

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

開車致女友胸部以下高位截癱后失聯男子首發聲

媒體:霍爾木茲要變天了美霸權外"平行宇宙"呼之欲出

媒體：特朗普底牌暴露伊朗知道自己無需取勝只需生存

美軍拯救飛行員差一點失敗從40英里外用攝像頭對準他

頭條要聞

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

開車致女友胸部以下高位截癱后失聯男子首發聲

媒體:霍爾木茲要變天了美霸權外"平行宇宙"呼之欲出

媒體：特朗普底牌暴露伊朗知道自己無需取勝只需生存

美軍拯救飛行員差一點失敗從40英里外用攝像頭對準他

體育要聞

官宣簽約“AI球員”，這支球隊被罵慘了...

郭艾倫正式辟謠：我沒有被騙被詐騙是造謠要追究法律責任

超湖人升第3！掘金加時滅開拓者9連勝約基奇35分三雙楊瀚森DNP

謀求首輪復出！曝東契奇已在西班牙接受干細胞治療

勇士輸得太冤！火勇大戰裁判報告出爐：三次漏判勇士兩次吃虧

娛樂要聞

女首富陳麗華離世被曝生前已分好遺產

郭艾倫否認被熟人詐騙！放話要追究報道者責任

王寶強與女友現身青島被偶遇，女友好高

周杰倫劃水爭議升級！在日本高亢唱滿兩小時

陳麗華遺產分配引熱議未提及遲重瑞

財經要聞

10萬億財政轉移支付，被誰拿走了？

嗜血豬周期，前所未有

監控系統出現漏洞，300多人被帶走？?？祷貞?/a>

特朗普"最后期限"倒計時全球市場屏息以待

收評：科創50指數漲超1% 全市場超百股漲停

汽車要聞

不止是大極狐首款MPV問道V9靜態體驗

豐田漢蘭達價格再下探！優惠高達3.6萬，網友：誠意到位了

蔚來ES9內飾發布：有點意思，也有點“作”

預售37.68萬起極氪8X將4月17日上市中大型SUV/2.0T插混

基于800V架構打造寶馬iX7最新諜照曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

藝術

教育

時尚

旅游

房產要聞

猛料！又有世界500強級巨頭，低調買入海棠灣！

保利、大華、綠城…海南地產又一輪大招聘來了！

小陽春全面啟動！現房，才是這波行情里最穩的上車票

新房暴漲240%！二手創三年新高！廣州樓市三月“狂飆”

藝術要聞

美麗風光看不盡

陳少梅『絕詣冊』

當健身女神穿上旗袍：這狂野的擼鐵畫面，真心頂不??！

明朝繪制的世界地圖，精準度領先西方數百年

教育要聞

高校官宣：教師，沒有“非升即走”！

22000學費+36人小班+頂級高中引入，這所學校值得大家關注

盈虧問題這樣解！線段圖+算術運算，一學就會！

為什么老師不讓同學們私下建群？

黑龍江中高考競爭分析：最激烈和最容易年份是哪年？基于招生數據

楊超越之后，全網頭像錦鯉的C位被她搶走了

今年最火的4雙平底鞋，配白裙子穿好看又松弛！

伊姐清明熱推：電視劇《冰湖重生》；電視劇《月鱗綺紀》......

學她的穿搭法則，讓你“看起來很減齡有氣質”

旅游要聞

春日登高正當時濟南天橋這些登山好去處別錯過

“春游花朝·2026 濟南花朝薈”｜一根柳條玩嗨全場來濟南動物園解鎖春日快樂

一園藏萬里一眼閱千年——走進鄭州黃河文化公園水利風景區

客流創新高！南京科技館“春假+清明”總接待量8.8萬人次

手機 / 數碼

房產 / 家居

30B參數超越GPT-5！REDSearcher讓深度搜索Agent做到低成本可擴展

滿嘴謊言！OpenAI奧特曼黑料大起底

英媒：伊朗最高領袖病重昏迷 無法參與任何國家決策

英媒：伊朗最高領袖病重昏迷 無法參與任何國家決策

官宣簽約“AI球員”，這支球隊被罵慘了...

女首富陳麗華離世 被曝生前已分好遺產

10萬億財政轉移支付，被誰拿走了？

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

猛料！又有世界500強級巨頭，低調買入海棠灣！

美麗風光看不盡

高校官宣：教師，沒有“非升即走”！

楊超越之后，全網頭像錦鯉的C位被她搶走了

春日登高正當時 濟南天橋這些登山好去處別錯過

30B參數超越GPT-5！REDSearcher讓深度搜索Agent做到低成本可擴展

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

女首富陳麗華離世被曝生前已分好遺產

10萬億財政轉移支付，被誰拿走了？

不止是大極狐首款MPV問道V9靜態體驗

猛料！又有世界500強級巨頭，低調買入海棠灣！

高校官宣：教師，沒有“非升即走”！

春日登高正當時濟南天橋這些登山好去處別錯過