<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

紅杉xbench 最新報告：104 項日常任務，Agent 可處理 60+%

2026-01-21 08:33:51　來源: 賽博禪心

北京舉報

0

分享至

現在 Agent 產品很多，Claude Code、ChatGPT Agent、Manus、Genspark...還有各種各樣的

對于大家的干活靠譜程度，紅杉中國的 xbench 團隊，又整了新評測，叫 AgentIF-OneDay
（倆周，發了倆評測集了，另一個是，然后xiaobo 跟我說，他上個月全在整這個）

大概就是：一堆真實的日常任務，帶著 Excel、PPT、PDF 這些附件，能不能幫我搞定

結論：頭部 Agent 大約 62-65%

https://xbench.org/agi/agentif

先說在前面：這個榜單目前啥也不代表，看 insight 就行

能同時跑通所有附件格式的 Agent 其實很少，xbench 測了一圈，只有四家能完整跑完

Claude Code 因為各種原因沒測出來，Cowork 測的時候還沒發布，其他很多 Agent 要么不支持 PPT，要么不支持 Excel，反正就是跑不通

所以這次的價值不在排名，在方向

順便一提，雖然大家都是混合模型，但 Manus 和 Minimax-Agent 的基礎模型更偏 Claude，Genspark 和 ChatGPT-Agent 更偏 GPT

為什么要做這個評測

xbench 之前發過 ScienceQA 和 DeepSearch，都是分鐘級的集中推理任務，模型表現已經從 human-average 逐漸到了 PhD-level

但他們發現一個問題：一旦任務突破一般人一小時可處理的復雜度，Agent 的整體完成度就會出現明顯下降

短程任務表現驚艷，長程任務顯乏力

所以 xbench 提了一個新視角來理解 Agent 能力邊界：任務復雜度

這里的復雜度，指的是完成一個任務所需的人類時間投入

Agent 能力的演進會沿著兩條線展開：

Scaling Context
任務在時間維度上延展，從分鐘級到一天級、甚至一周級。Agent 需要在更長的執行周期中維護上下文狀態，跟蹤中間目標，保持一致性

Scaling Domain
任務類型上的擴展。現實世界的工作往往橫跨多個領域，不同任務在目標表述、隱含約束、工具使用上差異很大

AgentIF-OneDay 就是沿著這兩個方向推進的第一步：以人類一天內可完成的任務復雜度作為基準

這個評測在測什么

AgentIF-OneDay 的核心是指令遵循，它要求 Agent 處理真實的附件：Excel、PPT、PDF、圖片，然后輸出可交付的文件，任務分三類：

場景一：你知道該怎么做，但執行太繁瑣

用戶已知完整流程并明確給出操作步驟，Agent 只需精確執行。這類任務叫工作流執行（Workflow Execution）

例題我計劃去 NeurIPS 2025，幫我規劃一個好的行程方案。請你先去官網確認 NeurIPS 2025 會議的主會場位置（San Diego Convention Center, San Diego）是否準確，然后用另一個可靠來源交叉驗證這個信息，確保萬無一失接下來，幫我收集基本信息，比如會議時間、地點和論文提交截止日期還要確認完整的會議日程是否已經發布，如果還沒發布，請明確告訴我最后，從紐約出發給我兩套去圣地亞哥的行程方案：一個最便宜的 Cheap Plan，一個最快的 Fast Plan

當 Agent 能夠在整個流程中保持一致性、逐步完成步驟、并在長上下文中保持狀態，就具備幫你把事情做完的潛力

這也是大量用戶希望 Agent 能真正替代重復性勞動的原因

場景二：你不知道規則，只能給個參考

用戶不明確知道完整的工作流或者條件約束，只提供若干案例或參考資料。這類任務叫隱式指令推理（Latent Instruction Inference）

例題我現在用的是 iPhone 13 Pro Max，AT&T 套餐每月 20 美元預付費。我想換 iPhone 17 Pro Max 基于附件里的購機方案和運營商優惠，幫我找出總成本最低的方式

這是人類最自然的工作方式，人們不會每次都從零寫起

Agent 需要從提供的示例文件中挖掘出潛在的意圖，同時滿足用戶的顯式指令與附件的隱式指令

如果具備這種能力，Agent 就能真正參與內容生產、報告生成、數據整理等職業型任務

場景三：需求本身是動態的，要邊做邊看

人類的工作普遍呈現多輪迭代結構，在工作的開始并不知道完整解法、也沒有參考示例，需要在與 Agent 多輪交互中逐漸提出新需求。這類任務叫迭代式編輯（Iterative Refinement）

例題拿著這個 SVG 平面圖（venue_layout.svg）和 Excel 約束表（venue_constraints.xlsx），更新會場布局以滿足所有約束條件，同時保持設計的可讀性和可行走性

Agent 必須具備在不斷變化的約束下維持上下文一致性并穩定推進任務的能力

評測細節

總共 104 道任務，覆蓋工作、生活（游戲攻略、旅游規劃）和學習，其中 62 道由文件驅動的合成任務用于補充長尾場景

覆蓋 PDF、PPT、Excel、圖像、代碼文件在內的 15 種以上格式，模擬真實工作流程中跨格式、跨來源的模式

每道任務都帶有一套細粒度的評判標準，總計 767 個評分點，分為正向指標（格式一致性、結構復現、步驟完整）與負向指標（誤刪內容、越界生成、錯誤操作）

評測系統采用 LLM 作為裁判，值得一提的是 Gemini 3-pro 的出現讓 rubrics 打分的準確性提升到可用的程度

Agent 的得分不僅取決于最終是否完成任務，還包括流程是否干凈、是否出現誤操作、是否正確解析附件、是否能在迭代過程中保持一致性

幾個有意思的發現

發現一：不同框架，拉不開差距

Manus、Genspark 與 ChatGPT-Agent 都集中在 0.62-0.65 區間，構成當下能力最強的第一梯隊

不管是模型原生訓練出來的 Agent，還是基于 API 的工具鏈集成，在完成一套真實任務鏈時，用戶側感受到的能力是比較接近的

這印證了一個判斷：基礎 Agent 能力已經商品化了

底層模型能力不變的情況下，不同多智能體框架本身難以拉開數量級上的性能差異。基座模型會逐步集成 agentic 能力，下游基于 API 的 Agent 產品，在能力表現上也會體現出 Agent RL 的能力

發現二：分場景各有所長

工作場景：ChatGPT-Agent 72.18，Genspark 71.86，Manus 70.27

生活場景：Manus 73.40，ChatGPT-Agent 69.67，Genspark 67.85

學習場景：Genspark 71.19，Manus 64.41，ChatGPT-Agent 59.29

三個產品迭代方向不同。ChatGPT-Agent 重點關注 GDPval，聚焦專業工作場景的體驗；Manus 與 Genspark 更側重用戶反饋

xbench 的觀點是：優秀的通用 Agent 應當兼顧最多樣的任務，而不側重一方

發現三：分能力維度看

Genspark 在隱式指令推斷上表現最優，Manus 在開放工作流執行最優，Minimax-Agent 具有最好的迭代式編輯能力

但隱式條件推斷是目前 Agent 普遍最薄弱的能力項

比如讓 Agent 從 PPT 模板中抽取頁眉頁腳結構或引用標注方式，再遷移到新內容生成中

即便是整體表現最好的系統，在這類任務中也很難做到完全正確。要么格式復現正確但覆蓋不足，要么內容理解到位但無法保持結構一致

綜合來看，穩定性、文件處理鏈路、隱式結構理解能力，乃至跨工具的狀態管理，都是決定 Agent 能否真正承擔一天工作量的關鍵環節

展望：從 OneDay 到 OneWeek

xbench 已經開始著手構建 OneWeek 評測集

他們的判斷是：當一個 Agent 能夠在一周尺度的工作量上保持穩定高質量的產出，它就具備了承擔真實崗位的能力

這個過程有點像自動駕駛，從有限路段走向通用路段，從頻繁人工干預走向長時無干預

有效的數據積累可以帶來高可靠 Agent 系統的出現，優先轉起數據飛輪的公司將率先實現通用 Agent 的 FSD 時刻

xbench 的節奏

xbench 是紅杉中國 2025 年 5 月發的 AI 評測基準，設計思路是 Evergreen Evaluation，持續維護、動態更新

這兩周，他們連發兩篇：上周是，測多模態的純視覺能力，這周 AgentIF-OneDay 測 Agent 的日常任務能力

BabyVision 的結論是模型的視覺能力普遍低于 3 歲兒童

AgentIF-OneDay 的結論是最強 Agent 在日常任務上大約 65%

所以嘛，模型的「看」和「做」，都還有很大空間

開源地址

Paper Link
https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

Website
https://xbench.org/

GitHub
https://github.com/xbench-ai/AgentIF-OneDay

HuggingFace
https://huggingface.co/datasets/xbench/AgentIF-OneDay

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

MiniMax又來吃龍蝦肉了！OpenClaw真一鍵部署，還有上萬智能體

量子位 2026-02-25 23:52:50
16 跟貼 16
如果你也養“龍蝦”，阿里云這次把token價格打穿了

每日經濟新聞 2026-02-25 22:07:09
44 跟貼 44

微信出新功能，網友：簡直是社恐福音

南方都市報 2026-02-25 16:59:07
1278 跟貼 1278

一鍵搞定百萬行Excel和PPT排版！這杭州電力AI初創要給打工人減負

量子位 2026-02-13 12:02:53
0 跟貼 0
Minimax持續猛挖“龍蝦肉”

華爾街見聞官方 2026-02-26 12:33:33
1 跟貼 1

土耳其五代機完成迭代！三架原型機同時亮相，設計更加完善

精彩不容錯過 2026-02-23 18:54:45
40 跟貼 40

21萬年費彭博終端機被AI復刻！Perplexity新Agent：調度19個模型

量子位 2026-02-26 11:54:24
0 跟貼 0
測了20個AI設計工具，這個Design Agent直接封神

家居避雷針吖 2026-02-24 13:51:23
0 跟貼 0

賴清德終于要上立法院報告了？黃國昌爆出秘密文件！震驚全臺！

新時光點滴 2026-02-24 14:21:32
0 跟貼 0
日本計劃部署導彈部隊距臺灣僅110公里中方強硬表態

環球網資訊 2026-02-26 06:54:33
4068 跟貼 4068
高效智能體幕后推手是誰？一篇綜述帶你從記憶×工具學習×規劃看透

機器之心Pro 2026-01-27 15:24:36
0 跟貼 0
excel如何由使用年限計算到期日？

部落窩教育 2026-02-26 07:00:00
0 跟貼 0
AdaResoner實現Agentic Vision的主動「視覺工具思考」

機器之心Pro 2026-02-24 13:58:23
0 跟貼 0
Anthropic與軟件業合作智能體緩解市場憂慮

虎嗅APP 2026-02-26 06:20:34
0 跟貼 0
施工現場磚塊運輸過程，看著有點像模型，竟還有點好玩！

幽默小火山 2026-02-25 11:39:53
1 跟貼 1
60秒看懂，我私藏的卡點AI產品廣告工作流！

卡爾的AI沃茨 2026-02-25 19:11:33
0 跟貼 0
美國世紀要完了？美國智庫最新報告曝光，中國成最后一個崛起大國

劉浶開挖機 2026-02-25 14:18:05
1 跟貼 1
足球最爭議的規則，足聯：別這樣踢，門票都賣不出去了！

動感丸子 2026-02-24 14:27:47
1 跟貼 1
AI除幻第一股誕生，高瓴君聯賺瘋！這家公司，押中OpenClaw萬億美元賽道

新智元 2026-02-26 11:53:11
0 跟貼 0
300多只東北虎“輕斷食”？景區：每天斷食1個園，司機會帶游客找可投喂區

封面新聞 2026-02-23 16:29:03
1619 跟貼 1619
上海樓市“新七條”落地當天：兩類群體咨詢升溫，有房東重新掛牌

澎湃新聞 2026-02-25 22:22:28
173 跟貼 173
中華人民共和國和德意志聯邦共和國聯合新聞聲明

新華社 2026-02-25 21:46:25
666 跟貼 666
“36斤活羊烤完剩6.9斤”，網友質疑店家約剔除5斤，有博主現場做實驗測重

大風新聞 2026-02-25 23:10:03
0 跟貼 0
別再一鍵貼代碼！Anthropic點名3種「用AI不退化」真方法

新智元 2026-02-24 12:33:22
1 跟貼 1
小伙居然利用自行車飛輪改造千斤頂，萬萬沒想到改造后太實用了！

小莉創意發明 2026-02-23 22:39:42
0 跟貼 0
記者觀察｜日本高價大米背后的民生難題

新華社 2026-02-25 15:55:24
1580 跟貼 1580
360元一斤草莓企業稱用800斤牛奶兌水灌溉專家：噱頭

封面新聞 2026-02-26 01:37:14
587 跟貼 587
美媒：比爾·蓋茨就其與愛潑斯坦關系向蓋茨基金會員工道歉

環球網資訊 2026-02-25 14:04:22
680 跟貼 680
有網友稱價格炒至9000元，還有人翻箱倒柜找出來賣，寧波市場情況如何？

環球網資訊 2026-02-26 07:26:19
41 跟貼 41
全球首位！55小時斬獲《生化危機：安魂曲》白金獎杯

3DM游戲 2026-02-26 10:55:41
1 跟貼 1
小鵬第二代VLA將于3月2日發布大眾成首發客戶

太平洋汽車 2026-02-26 12:02:34
0 跟貼 0
沖上熱搜！連休13天！

極目新聞 2026-02-26 10:53:13
1 跟貼 1
民間大神手工diy火炮模型

戶外小辣椒 2026-02-25 11:38:36
1 跟貼 1
山西一地要求出租車給游客打九折，官方通報

界面新聞 2026-02-25 19:34:08
483 跟貼 483
女子牙齦流膿兩年不治，半口牙“全軍覆沒”

極目新聞 2026-02-26 10:41:46
19 跟貼 19
DeepSeek新模型曝光：傳華為搶先適配

智東西 2026-02-26 13:18:24
0 跟貼 0
“2億美金薪酬”華人AI大牛跳槽OpenAI！小扎天價留不住人

智東西 2026-02-26 13:18:24
0 跟貼 0
押注AI一年后，Keep怎么樣了？

虎嗅APP 2026-02-25 21:06:06
0 跟貼 0
美核動力航母650個廁所每天都維修

財聯社 2026-02-25 16:40:05
576 跟貼 576
“太恐怖，iPhone半夜自己給陌生人打47分鐘電話！”

都市快報橙柿互動 2026-02-25 11:28:41
224 跟貼 224

戲子誤國！2026年剛開年，就有3位明星相繼塌房，個個荒唐

戲子誤國！2026年剛開年，就有3位明星相繼塌房，個個荒唐

不似少年游

2026-02-24 19:24:23

10連勝，8勝1負！NBA戰力最強+豪門終結者，你們真有奪冠的實力

10連勝，8勝1負！NBA戰力最強+豪門終結者，你們真有奪冠的實力

毒舌NBA

2026-02-26 12:42:34

72歲大媽對98歲母親哭訴：雖然你退休金7000，但你還是早點離開吧

72歲大媽對98歲母親哭訴：雖然你退休金7000，但你還是早點離開吧

烙任情感

2026-02-25 10:46:36

西媒：西班牙隊決定不與國足熱身世界第一選擇交手伊拉克

西媒：西班牙隊決定不與國足熱身世界第一選擇交手伊拉克

新英體育

2026-02-26 10:55:21

被教練性侵27次，你以為她是什么純潔的白蓮花？攻和受都是邪惡

被教練性侵27次，你以為她是什么純潔的白蓮花？攻和受都是邪惡

我心縱橫天地間

2026-02-24 08:52:19

馬斯克再甩 “王炸”：SpaceX 真能重塑 “太空經濟學”？

馬斯克再甩 “王炸”：SpaceX 真能重塑 “太空經濟學”？

鈦媒體APP

2026-02-25 12:08:07

汪東興活到了2015年，他對當下中國有何看法？他心里確實有些成見

汪東興活到了2015年，他對當下中國有何看法？他心里確實有些成見

明月清風閣

2026-02-19 07:25:09

“流水220萬，利潤0” 2026開年多了個新詞——無利潤繁榮

“流水220萬，利潤0” 2026開年多了個新詞——無利潤繁榮

餐飲界

2026-02-13 19:49:19

體制內情商高能帶來啥意外驚喜?網友：別在地鐵看，別問我為什么

體制內情商高能帶來啥意外驚喜?網友：別在地鐵看，別問我為什么

帶你感受人間冷暖

2026-02-24 01:03:13

成本19元賣300元!又一騙局暴雷，專坑老年人，9萬養老錢血本無歸

成本19元賣300元!又一騙局暴雷，專坑老年人，9萬養老錢血本無歸

財經八卦

2026-02-25 22:57:34

上海滑稽笑星毛猛達，一家4口全端“鐵飯碗”，兒女憑實力爭光

上海滑稽笑星毛猛達，一家4口全端“鐵飯碗”，兒女憑實力爭光

白面書誏

2026-02-19 17:16:58

美軍想不通：10幾架F16悄摸起飛，連韓國都沒說，解放軍咋會知道

美軍想不通：10幾架F16悄摸起飛，連韓國都沒說，解放軍咋會知道

壹知眠羊

2026-02-23 11:30:46

“小婉君”金銘45歲現狀：個子太矮事業受挫，住北京豪宅不婚不育

“小婉君”金銘45歲現狀：個子太矮事業受挫，住北京豪宅不婚不育

削桐作琴

2026-01-29 00:03:53

馬場土拍牌桌眾生相

科學發掘

2026-02-26 05:16:07

俄羅斯駐聯合國大使當眾表態：我是烏克蘭人

俄羅斯駐聯合國大使當眾表態：我是烏克蘭人

阿離家居

2026-02-26 08:48:14

行程有變，默茨訪華縮短一天？德國發出警告，中方身份發生變化

行程有變，默茨訪華縮短一天？德國發出警告，中方身份發生變化

無情有思ss

2026-02-25 14:59:41

華為正式官宣：2月26日，新機全球發布！

華為正式官宣：2月26日，新機全球發布！

科技堡壘

2026-02-25 13:18:13

抱歉，這不是拍電影，而是性犯罪

抱歉，這不是拍電影，而是性犯罪

皮蛋兒電影

2026-02-13 12:46:22

3大主力缺陣！騎士2分惜敗雄鹿，誰發揮失常，數據不會說謊

3大主力缺陣！騎士2分惜敗雄鹿，誰發揮失常，數據不會說謊

劉剮說體壇

2026-02-26 11:53:09

默茨終于到北京，趕在下專機前，德方與日本通電話，高市開門見山

默茨終于到北京，趕在下專機前，德方與日本通電話，高市開門見山

李橑在北漂

2026-02-26 10:53:45

拜AI古佛，修賽博禪心

302文章數 44關注度

往期回顧全部

科技要聞

單季營收681億凈利429億！英偉達再次炸裂

頭條要聞

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

頭條要聞

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

體育要聞

從排球少女到冰壺女神，她在米蘭冬奧練出6塊腹肌

娛樂要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財經要聞

短劇市場風云突變！有人投百萬賠得精光

汽車要聞

第五代宏光MINIEV煥新四門玩趣代步車來襲

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

藝術

親子

健康

軍事航空

倫敦時裝周｜2026秋冬流行趨勢早知道

藝術要聞

2025年百家金陵畫展 | 油畫作品選刊

親子要聞

產后第一周：身體發出的5個“正常信號”，新手媽媽請收藏！

轉頭就暈的耳石癥，能開車上班嗎？

軍事要聞

美政府給新伊核協議設限內容遭披露

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版