![]()
編輯|冷貓
2026 開年至今,人工智能圈子最火的是一只小龍蝦 Clawdbot 。
從 Clawdbot 到 OpenClaw,歷經兩次改名都無法阻擋大家對它的熱情,一種全球性的集體渴望正在浮現 —— 人們迫切希望擁有一個更高級、更通用、更可靠的超級智能體
過去的一年里,Agent 層出不窮,2025 年甚至被稱為是「AI 智能體元年」。 衡量一款智能體的真正實力,既要看通用場景的綜合解決能力,也需要考量垂直領域的核心專項能力,而 GAIA 通用智能基準榜單和 BrowseComp-Plus 深度研究基準榜單,比任何概念討論都更加直接。
去年,創業公司 Manus 的智能體爆火,也一并帶火了 GAIA 榜單。自此以后似乎每家的智能體都會試著在 GAIA 上刷個榜。而聚焦深度研究與網頁瀏覽能力的 BrowseComp-Plus 基準測試,也憑借嚴苛的評測標準,成為智能體檢索能力的核心比拼賽場。
最近,我們在翻閱兩大榜單時發現,榜首位置均迎來了新突破:基于 openJiuwen 這一新興開源項目構建的 DeepAgent 和 DeepSearch 雙雙登頂 GAIA 和 BrowseComp-Plus 榜首。
DeepAgent 登頂 GAIA 榜首
基于 openJiuwen 構建的DeepAgent 以 91.69% 的成績登頂 GAIA 榜首。一舉超越英偉達 Nemotron,以及一眾海內外領先的智能體。
![]()
- 榜單鏈接:https://gaia-benchmark-leaderboard.hf.space/
GAIA 打榜:直面 Agent 最大的挑戰
GAIA 并不是一個討好大模型的榜單。
![]()
GAIA 是一個由Meta 與 Hugging Face聯合打造、專門面向 通用 Agent 能力 的評測基準,覆蓋 長程任務規劃、多模態理解、工具調用、復雜推理、執行魯棒性等 12 類核心能力,設置 Level 1-3 三個等級難度,Level 3 級別的任務難度已接近人類水平,評測采用封閉測試集和自動化評分機制,全面而嚴苛地考核智能體的綜合能力水平。
根據 Hugging Face 上對 GAIA 評測的簡介信息,人類參與者在這一基準測試上平均成功率大約達到 92%,而 GPT-4 即使有插件的幫助,也只能達到約 15% 左右的表現。
GAIA 的評測設計有幾個鮮明特點,它與傳統 AI 基準的區別非常明顯,能夠將大量「看起來很聰明」的智能體擋在門外。
1.真實世界難度(Real-world difficulty):任務不僅涉及語言理解,還要求 推理、計劃、多模態處理、工具調用和執行行為,逼近真實場景中智能體需要完成的工作。
2.人類可解釋性(Human interpretability):盡管任務對于 AI 很難理解,但對人類而言概念清晰、可驗證;這使得評估結果更可信,也有助于對比人機差距。
3.防刷榜策略(Non-gameability):GAIA 強調的是任務執行全過程的質量,正確答案需要完整執行任務,「暴力破解」的方法無效。
openJiuwen-deepagent 以 91.69% 的分數的登頂,已經幾乎無限接近人類參與者在 GAIA 測試上的約 92% 的成績。
這一成績意味著它在 規劃、執行穩定性、工具協同、多模態理解與任務閉環等維度形成了系統級優勢,意味著通用智能體已經能夠達到接近人類的任務執行能力。
DeepAgent 實際表現。任務:基于 youtube 做菜視頻,自動分析并購買食材。
以一個典型的 browser use 任務為例,就能直觀看出 DeepAgent 的「執行力天花板」。
用戶只需下發一個指令,DeepAgent 就能夠實現解析 YouTube 美食視頻,自動識別食材清單;隨后在電商網站中按清單逐項搜索、加購,并實時進行比價校驗。待所有食材準備就緒后,Agent 將操作權交還給用戶確認支付,整個流程一氣呵成,展現出在真實復雜場景中的穩定執行能力。
DeepAgent 背后:解鎖霸榜能力
DeepAgent 能夠登頂 GAIA,并不是偶然,而是因為它在設計之初就已正中榜單「命門」。在 GAIA 評測中,高分意味著同時滿足幾個苛刻條件:
- 能理解模糊、長鏈路、多約束的自然語言任務
- 能進行多步規劃,而不是線性執行
- 能穩定調用工具、訪問網頁、處理文件、執行代碼
- 能在失敗或信息缺失時自我修正,避免崩潰或幻覺
三大核心理念,揭開了 DeepAgent「霸榜 GAIA」的秘密。
1、Agent 動態自演進引擎:從「線性執行」到「閉環自治」
在實際任務中,Agent 面對的是自然語言指令,需要將自然語言指令結構化,把模糊需求拆解為可落地的步驟。在執行任務時,Agent 必須能夠根據實時反饋動態調整計劃,確保任務在變化中能夠順利完成。
為此,DeepAgent 同時運行「規劃 — 執行」與「觀測 — 反思」兩條閉環:它不只是將自然語言指令結構化拆解,更像是一位擁有「監控室」的指揮官:在運行時持續審視執行結果。一旦感知到環境異常或邏輯偏移,系統會立即觸發局部回滾與自我修復,避免智能體陷入「不撞南墻不回頭」的典型失敗模式。
同時,基于openJiuwen 的 Agent 自演進能力,DeepAgent 為其核心引擎裝上了可演進外置記憶模塊作為「數字大腦」。這不只是簡單的數據存儲,而是一個具備自愈能力的認知中心:可精準診斷任務執行錯誤的癥結,依托外置記憶的反饋機制實現邏輯的閉環修正,自主生成優化策略后驅動后續執行能力持續迭代提升。
![]()
2、多層級上下文引擎:保障 Agent 認知一致性
在 GAIA 這類高難度任務中,真正的挑戰往往在于「是否基于可靠信息持續推理」。為此,DeepAgent 設計了一套分層融合、全程可溯、長程一致的上下文系統。將會話記錄、項目知識、領域規則與實體關系分層存儲與動態關聯,形成結構化體系。每個推理步驟附加來源證據鏈,確保輸出結果的可解釋性。
同時,基于openJiuwen 上下文壓縮能力,在長程任務中,及時壓縮與卸載無關上下文,使 Agent 在長程任務中保持內在一致性和可信度,而不是越走越「失真」。
3、異步工具編排總線:實現異構工具的統一調度與可靠執行
面對復雜工具鏈,凌亂的 API 調用往往是系統崩潰的誘因,Agent 必須具備像調度團隊一樣調用不同的專家模塊,各司其職。同時,它也必須能夠在合適的時機使用外部工具和系統,確保執行既高效又可靠。
GAIA 的任務大量涉及真實環境操作,DeepAgent 并未將這些能力零散地「外包」給各類獨立工具,而是通過統一的工具網關與編排機制,把外部 API、系統與數據庫抽象為標準化能力節點,不僅支持高并發的異步調度,更實現了工具調用的可控、可查、可回放,支持執行過程復盤與可靠性審計。
在 GAIA 的真實環境操作中,DeepAgent 像調度專家團隊一樣精準分配任務,確保每一次工具輸出都能轉化為穩定得分的生產力。
![]()
整個任務流程下來,這些能力像一串解鎖的技能樹,共同支撐智能體在 GAIA 的復雜任務中穩穩得分。在 Agent 進入生產力時代的拐點上,真正決定上限的,不是模型,而是智能體能力設計的深度。
DeepSearch 登頂 BrowseComp-Plus 榜首
基于 openJiuwen 構建的DeepSearch 以 80% 的準確率登頂 BrowseComp-Plus 榜首
![]()
- 榜單鏈接:https://huggingface.co/spaces/Tevatron/BrowseComp-Plus
BrowseComp-Plus 榜單:攻堅深度搜索核心考驗
BrowseComp-Plus 是業內衡量智能體深度搜索、研究與網頁瀏覽能力的核心權威基準,作為OpenAI BrowseComp基準的升級版本,覆蓋多跳檢索、跨源信息整合、檢索推理規劃及網頁內容理解等核心能力。考驗智能體從海量語料中高效挖掘有效信息、排除干擾并形成精準答案的實戰能力。
BrowseComp-Plus 評分機制極具科學性:
1. 采用固定人工驗證語料庫搭建測試環境,每個測試問題均配套人類驗證的支撐文檔與高難度干擾文檔,徹底規避實時網絡動態性帶來的評測偏差。
2. 以嚴格準確率為核心評分維度,輔以檢索調用效率指標綜合判定,通過標準化自動化評分體系全程無人工干預。
3.結果可驗證,依托固定化的人工驗證語料庫,所有答案均有明確的溯源依據,徹底規避實時網絡動態性帶來的評測偏差,讓評測結果可復現、可審計,最大程度保障評測公平性。
憑借專業的評測設計,BrowseComp-Plus 榜單已成為全球頂尖機構檢驗深度搜索智能體真實實力的重要依據。openJiuwen-deepsearch 以 80% 的準確率登頂,意味著它在多跳深度搜索、跨源信息整合、干擾信息甄別、網頁內容理解等維度形成了核心技術優勢,標志著智能體在深度搜索與網頁交互領域的實用能力實現了突破性提升。
DeepSearch 背后:深度研究的標桿引擎
真實世界的搜索,往往意味著:
- 多輪追問與反復驗證
- 跨來源信息比對與溯源
- 大量噪聲與誤導信息干擾
- 長鏈路推理與證據閉環構建
DeepSearch 通過構建三大核心引擎,將復雜查詢問題建模為狀態空間,通過動態擴展與探索,像人類專家一樣多角度思考,每個搜索動作都基于實時狀態生成。
1、實體認知引擎:自動識別關鍵實體,建立可追蹤的狀態演變歷史
深度研究的第一步,是理解問題結構。識別關鍵實體,并通過線索引用關系建立關聯。系統會抽取人物、機構、事件等核心變量,建立線索之間的引用關系并持續跟蹤每個實體的狀態演化軌跡。
基于openJiuwen 的上下文引擎,系統將問題狀態統一建模為可持續更新的結構化上下文。每一次搜索動作都會觸發狀態增量更新,使實體關系與推理進展保持一致性與可追蹤性。
![]()
2、并行推理路徑管理:將復雜問題分解為多分支推理路徑,動態維護動作池
面對復雜多跳問題,DeepSearch 不像傳統檢索那樣沿著單一路徑前進,而是構建多角度推理樹,在 openJiuwen 的多工作流控制機制下,并發探索多個可能的解決方案路徑,維護一個動態擴展的動作池(Action Pool),集中資源探索高潛力路徑,大幅提升檢索效率。
系統能夠同時保留多條候選路徑,并發探索不同信息來源,持續評估路徑價值,通過概率采樣機制,系統優先執行高價值路徑,低價值路徑自然被邊緣化。以此能夠讓系統在復雜環境中保持穩定探索能力
![]()
3、智能行動探索系統:異步并發與自適應調度,動態調整搜索動作優先級,平衡探索深度與路徑多樣性
深度搜索最大的挑戰之一,是一個兩難問題。搜太少,容易錯過關鍵證據;搜太多,又會被噪聲淹沒。
為了平衡效率與覆蓋率,DeepSearch 構建了智能采樣與調度體系:
- 廣度與深度動態平衡,防止過早收斂到局部最優解
- 基于置信度的概率引導采樣,優先選擇高分行動路徑,同時保持探索多樣性
- 并行探索多個推理路徑,縮短復雜檢索任務的解決時間
DeepSearch 的這一設計,核心在于以工程化方式模擬研究型推理過程
系統化拆解、并行假設驗證、長鏈路證據整合與可回放、可審計的推理軌跡,共同支撐著智能體在 BrowseComp-Plus 榜單上榮獲桂冠。
沖榜背后:openJiuwen 提供核心支撐
剖析登頂 GAIA 的 DeepAgent 和摘得 BrowseComp-Plus 榜首的 DeepSearch,我們發現兩款智能體的硬核實力背后,均依托同一個「技術底座」—— openJiuwen。
作為面向生產環境打造的開源平臺,openJiuwen 聚焦智能體的高精準、高可控執行,構建了從開發、調度、執行到優化的全鏈路能力體系。這意味著,任何團隊都可以在同樣的系統能力之上,嘗試構建自己的「DeepAgent」和 「DeepSearch」,把復雜任務拆解、組合,并穩定交付。
- openJiuwen 官網:https://www.openJiuwen.com/
- 開源地址:https://gitcode.com/openJiuwen
從平臺設計來看,openJiuwen 是為原生支持多智能體協同和智能體自演進而設計,其打造的智能體控制器作為智能體的中樞神經,結合上下文引擎的異步壓縮與動態卸載能力,讓 DeepAgent、DeepSearch 在多智能體協作、長時異步執行的復雜任務中實現高效調度,完美適配兩大榜單對智能體任務規劃與執行魯棒性的考核要求。
同時,openJiuwen 創新性地將Agent 自演進融入架構原生設計,支持上下文、工具、記憶等多元要素在同一框架下協同工作,并參與到閉環的自主優化過程中。針對執行過程中的異常或失敗,能自動歸因并將更新信號精準分配到對應要素,完成 Agent 的全鏈路自優化,讓智能體能夠持續演進、可控迭代、并越用越好,從底層保障了智能體在榜單嚴苛評測中的穩定表現。
我們注意到,openJiuwen 已在華為云行業智能體平臺和小藝智能體開放平臺完成商業化落地,賦能了鴻蒙智能體的開發。除此以外,openJiuwen 的能力已經逐步進入金融、制造等行業的核心生產系統。
總結:智能體的分水嶺
當下,Agent 領域已經有了一條清晰的分水嶺。
一邊,是仍停留在「語言交互」的智能體;另一邊,是已經能夠 規劃任務、調度資源、穩定執行、自我修復的生產級系統。
基于 openJiuwen 構建的 DeepAgent 和 DeepSearch 憑借系統性架構設計,在兩大權威榜單的嚴苛評測和評分機制中脫穎而出,雙雙登頂,也讓 openJiuwen 的定位愈發清晰:為生產級智能體提供一個高準確、高可用、高效率的一站式 AI Agent 平臺
無論是剛剛入門的 Agent 開發者,還是深耕 Agentic AI 的資深團隊,都可以在這一底座之上構建復雜、可靠的智能體應用。
這或許正是「AI 智能體元年」后,智能體行業真正的打開方式。
https://huggingface.co/papers/2311.12983
https://huggingface.co/learn/agents-course/en/unit4/what-is-gaia
https://arxiv.org/abs/2506.15741v2
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.