<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      紅杉xbench 最新報告:104 項日常任務,Agent 可處理 60+%

      0
      分享至

      現在 Agent 產品很多,Claude Code、ChatGPT Agent、Manus、Genspark...還有各種各樣的

      對于大家的干活靠譜程度,紅杉中國的 xbench 團隊,整了新評測,叫 AgentIF-OneDay
      (倆周,發了倆評測集了,另一個是 ,然后xiaobo 跟我說,他上個月全在整這個)

      大概就是:一堆真實的日常任務,帶著 Excel、PPT、PDF 這些附件,能不能幫我搞定

      結論:頭部 Agent 大約 62-65%


      https://xbench.org/agi/agentif

      先說在前面:這個榜單目前啥也不代表,看 insight 就行

      能同時跑通所有附件格式的 Agent 其實很少,xbench 測了一圈,只有四家能完整跑完

      Claude Code 因為各種原因沒測出來,Cowork 測的時候還沒發布,其他很多 Agent 要么不支持 PPT,要么不支持 Excel,反正就是跑不通

      所以這次的價值不在排名,在方向

      順便一提,雖然大家都是混合模型,但 Manus 和 Minimax-Agent 的基礎模型更偏 Claude,Genspark 和 ChatGPT-Agent 更偏 GPT

      為什么要做這個評測

      xbench 之前發過 ScienceQA 和 DeepSearch,都是分鐘級的集中推理任務,模型表現已經從 human-average 逐漸到了 PhD-level

      但他們發現一個問題:一旦任務突破一般人一小時可處理的復雜度,Agent 的整體完成度就會出現明顯下降

      短程任務表現驚艷,長程任務顯乏力


      所以 xbench 提了一個新視角來理解 Agent 能力邊界:任務復雜度

      這里的復雜度,指的是完成一個任務所需的人類時間投入

      Agent 能力的演進會沿著兩條線展開:

      Scaling Context
      任務在時間維度上延展,從分鐘級到一天級、甚至一周級。Agent 需要在更長的執行周期中維護上下文狀態,跟蹤中間目標,保持一致性

      Scaling Domain
      任務類型上的擴展。現實世界的工作往往橫跨多個領域,不同任務在目標表述、隱含約束、工具使用上差異很大

      AgentIF-OneDay 就是沿著這兩個方向推進的第一步:以人類一天內可完成的任務復雜度作為基準

      這個評測在測什么

      AgentIF-OneDay 的核心是指令遵循,它要求 Agent 處理真實的附件:Excel、PPT、PDF、圖片,然后輸出可交付的文件,任務分三類:

      場景一:你知道該怎么做,但執行太繁瑣

      用戶已知完整流程并明確給出操作步驟,Agent 只需精確執行。這類任務叫工作流執行(Workflow Execution)

      例題 我計劃去 NeurIPS 2025,幫我規劃一個好的行程方案。請你先去官網確認 NeurIPS 2025 會議的主會場位置(San Diego Convention Center, San Diego)是否準確,然后用另一個可靠來源交叉驗證這個信息,確保萬無一失 接下來,幫我收集基本信息,比如會議時間、地點和論文提交截止日期 還要確認完整的會議日程是否已經發布,如果還沒發布,請明確告訴我 最后,從紐約出發給我兩套去圣地亞哥的行程方案:一個最便宜的 Cheap Plan,一個最快的 Fast Plan

      當 Agent 能夠在整個流程中保持一致性、逐步完成步驟、并在長上下文中保持狀態,就具備幫你把事情做完的潛力

      這也是大量用戶希望 Agent 能真正替代重復性勞動的原因

      場景二:你不知道規則,只能給個參考

      用戶不明確知道完整的工作流或者條件約束,只提供若干案例或參考資料。這類任務叫隱式指令推理(Latent Instruction Inference)

      例題 我現在用的是 iPhone 13 Pro Max,AT&T 套餐每月 20 美元預付費。我想換 iPhone 17 Pro Max 基于附件里的購機方案和運營商優惠,幫我找出總成本最低的方式

      這是人類最自然的工作方式,人們不會每次都從零寫起

      Agent 需要從提供的示例文件中挖掘出潛在的意圖,同時滿足用戶的顯式指令與附件的隱式指令

      如果具備這種能力,Agent 就能真正參與內容生產、報告生成、數據整理等職業型任務

      場景三:需求本身是動態的,要邊做邊看

      人類的工作普遍呈現多輪迭代結構,在工作的開始并不知道完整解法、也沒有參考示例,需要在與 Agent 多輪交互中逐漸提出新需求。這類任務叫迭代式編輯(Iterative Refinement)

      例題 拿著這個 SVG 平面圖(venue_layout.svg)和 Excel 約束表(venue_constraints.xlsx),更新會場布局以滿足所有約束條件,同時保持設計的可讀性和可行走性

      Agent 必須具備在不斷變化的約束下維持上下文一致性并穩定推進任務的能力

      評測細節

      總共 104 道任務,覆蓋工作、生活(游戲攻略、旅游規劃)和學習,其中 62 道由文件驅動的合成任務用于補充長尾場景

      覆蓋 PDF、PPT、Excel、圖像、代碼文件在內的 15 種以上格式,模擬真實工作流程中跨格式、跨來源的模式

      每道任務都帶有一套細粒度的評判標準,總計 767 個評分點,分為正向指標(格式一致性、結構復現、步驟完整)與負向指標(誤刪內容、越界生成、錯誤操作)

      評測系統采用 LLM 作為裁判,值得一提的是 Gemini 3-pro 的出現讓 rubrics 打分的準確性提升到可用的程度

      Agent 的得分不僅取決于最終是否完成任務,還包括流程是否干凈、是否出現誤操作、是否正確解析附件、是否能在迭代過程中保持一致性

      幾個有意思的發現

      發現一:不同框架,拉不開差距

      Manus、Genspark 與 ChatGPT-Agent 都集中在 0.62-0.65 區間,構成當下能力最強的第一梯隊

      不管是模型原生訓練出來的 Agent,還是基于 API 的工具鏈集成,在完成一套真實任務鏈時,用戶側感受到的能力是比較接近的

      這印證了一個判斷:基礎 Agent 能力已經商品化了


      底層模型能力不變的情況下,不同多智能體框架本身難以拉開數量級上的性能差異。基座模型會逐步集成 agentic 能力,下游基于 API 的 Agent 產品,在能力表現上也會體現出 Agent RL 的能力

      發現二:分場景各有所長

      工作場景:ChatGPT-Agent 72.18,Genspark 71.86,Manus 70.27

      生活場景:Manus 73.40,ChatGPT-Agent 69.67,Genspark 67.85

      學習場景:Genspark 71.19,Manus 64.41,ChatGPT-Agent 59.29

      三個產品迭代方向不同。ChatGPT-Agent 重點關注 GDPval,聚焦專業工作場景的體驗;Manus 與 Genspark 更側重用戶反饋

      xbench 的觀點是:優秀的通用 Agent 應當兼顧最多樣的任務,而不側重一方

      發現三:分能力維度看

      Genspark 在隱式指令推斷上表現最優,Manus 在開放工作流執行最優,Minimax-Agent 具有最好的迭代式編輯能力

      隱式條件推斷是目前 Agent 普遍最薄弱的能力項

      比如讓 Agent 從 PPT 模板中抽取頁眉頁腳結構或引用標注方式,再遷移到新內容生成中


      即便是整體表現最好的系統,在這類任務中也很難做到完全正確。要么格式復現正確但覆蓋不足,要么內容理解到位但無法保持結構一致

      綜合來看,穩定性、文件處理鏈路、隱式結構理解能力,乃至跨工具的狀態管理,都是決定 Agent 能否真正承擔一天工作量的關鍵環節

      展望:從 OneDay 到 OneWeek

      xbench 已經開始著手構建 OneWeek 評測集

      他們的判斷是:當一個 Agent 能夠在一周尺度的工作量上保持穩定高質量的產出,它就具備了承擔真實崗位的能力

      這個過程有點像自動駕駛,從有限路段走向通用路段,從頻繁人工干預走向長時無干預


      有效的數據積累可以帶來高可靠 Agent 系統的出現,優先轉起數據飛輪的公司將率先實現通用 Agent 的 FSD 時刻

      xbench 的節奏

      xbench 是紅杉中國 2025 年 5 月發的 AI 評測基準,設計思路是 Evergreen Evaluation,持續維護、動態更新

      這兩周,他們連發兩篇:上周是 ,測多模態的純視覺能力,這周 AgentIF-OneDay 測 Agent 的日常任務能力

      BabyVision 的結論是模型的視覺能力普遍低于 3 歲兒童

      AgentIF-OneDay 的結論是最強 Agent 在日常任務上大約 65%

      所以嘛,模型的「看」和「做」,都還有很大空間

      開源地址

      Paper Link
      https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

      Website
      https://xbench.org/

      GitHub
      https://github.com/xbench-ai/AgentIF-OneDay

      HuggingFace
      https://huggingface.co/datasets/xbench/AgentIF-OneDay

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      戲子誤國!2026年剛開年,就有3位明星相繼塌房,個個荒唐

      戲子誤國!2026年剛開年,就有3位明星相繼塌房,個個荒唐

      不似少年游
      2026-02-24 19:24:23
      10連勝,8勝1負!NBA戰力最強+豪門終結者,你們真有奪冠的實力

      10連勝,8勝1負!NBA戰力最強+豪門終結者,你們真有奪冠的實力

      毒舌NBA
      2026-02-26 12:42:34
      72歲大媽對98歲母親哭訴:雖然你退休金7000,但你還是早點離開吧

      72歲大媽對98歲母親哭訴:雖然你退休金7000,但你還是早點離開吧

      烙任情感
      2026-02-25 10:46:36
      西媒:西班牙隊決定不與國足熱身 世界第一選擇交手伊拉克

      西媒:西班牙隊決定不與國足熱身 世界第一選擇交手伊拉克

      新英體育
      2026-02-26 10:55:21
      被教練性侵27次,你以為她是什么純潔的白蓮花?攻和受都是邪惡

      被教練性侵27次,你以為她是什么純潔的白蓮花?攻和受都是邪惡

      我心縱橫天地間
      2026-02-24 08:52:19
      馬斯克再甩 “王炸”:SpaceX 真能重塑 “太空經濟學”?

      馬斯克再甩 “王炸”:SpaceX 真能重塑 “太空經濟學”?

      鈦媒體APP
      2026-02-25 12:08:07
      汪東興活到了2015年,他對當下中國有何看法?他心里確實有些成見

      汪東興活到了2015年,他對當下中國有何看法?他心里確實有些成見

      明月清風閣
      2026-02-19 07:25:09
      “流水220萬,利潤0” 2026開年多了個新詞——無利潤繁榮

      “流水220萬,利潤0” 2026開年多了個新詞——無利潤繁榮

      餐飲界
      2026-02-13 19:49:19
      體制內情商高能帶來啥意外驚喜?網友:別在地鐵看,別問我為什么

      體制內情商高能帶來啥意外驚喜?網友:別在地鐵看,別問我為什么

      帶你感受人間冷暖
      2026-02-24 01:03:13
      成本19元賣300元!又一騙局暴雷,專坑老年人,9萬養老錢血本無歸

      成本19元賣300元!又一騙局暴雷,專坑老年人,9萬養老錢血本無歸

      財經八卦
      2026-02-25 22:57:34
      上海滑稽笑星毛猛達,一家4口全端“鐵飯碗”,兒女憑實力爭光

      上海滑稽笑星毛猛達,一家4口全端“鐵飯碗”,兒女憑實力爭光

      白面書誏
      2026-02-19 17:16:58
      美軍想不通:10幾架F16悄摸起飛,連韓國都沒說,解放軍咋會知道

      美軍想不通:10幾架F16悄摸起飛,連韓國都沒說,解放軍咋會知道

      壹知眠羊
      2026-02-23 11:30:46
      “小婉君”金銘45歲現狀:個子太矮事業受挫,住北京豪宅不婚不育

      “小婉君”金銘45歲現狀:個子太矮事業受挫,住北京豪宅不婚不育

      削桐作琴
      2026-01-29 00:03:53
      馬場土拍牌桌眾生相

      馬場土拍牌桌眾生相

      科學發掘
      2026-02-26 05:16:07
      俄羅斯駐聯合國大使當眾表態:我是烏克蘭人

      俄羅斯駐聯合國大使當眾表態:我是烏克蘭人

      阿離家居
      2026-02-26 08:48:14
      行程有變,默茨訪華縮短一天?德國發出警告,中方身份發生變化

      行程有變,默茨訪華縮短一天?德國發出警告,中方身份發生變化

      無情有思ss
      2026-02-25 14:59:41
      華為正式官宣:2月26日,新機全球發布!

      華為正式官宣:2月26日,新機全球發布!

      科技堡壘
      2026-02-25 13:18:13
      抱歉,這不是拍電影,而是性犯罪

      抱歉,這不是拍電影,而是性犯罪

      皮蛋兒電影
      2026-02-13 12:46:22
      3大主力缺陣!騎士2分惜敗雄鹿,誰發揮失常,數據不會說謊

      3大主力缺陣!騎士2分惜敗雄鹿,誰發揮失常,數據不會說謊

      劉剮說體壇
      2026-02-26 11:53:09
      默茨終于到北京,趕在下專機前,德方與日本通電話,高市開門見山

      默茨終于到北京,趕在下專機前,德方與日本通電話,高市開門見山

      李橑在北漂
      2026-02-26 10:53:45
      2026-02-26 13:31:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      302文章數 44關注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

      頭條要聞

      特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財經要聞

      短劇市場風云突變!有人投百萬賠得精光

      汽車要聞

      第五代宏光MINIEV煥新 四門玩趣代步車來襲

      態度原創

      時尚
      藝術
      親子
      健康
      軍事航空

      倫敦時裝周|2026秋冬流行趨勢早知道

      藝術要聞

      2025年百家金陵畫展 | 油畫作品選刊

      親子要聞

      產后第一周:身體發出的5個“正常信號”,新手媽媽請收藏!

      轉頭就暈的耳石癥,能開車上班嗎?

      軍事要聞

      美政府給新伊核協議設限內容遭披露

      無障礙瀏覽 進入關懷版