網易首頁 > 網易號 > 正文申請入駐

xbench發布AgentIF-OneDay評測：Agent能否獨立干完“一天的活”？

2026-01-21 10:12:59　來源: 硅星人

北京舉報

分享至

隨著大模型在單點推理上日益逼近PhD水平，Agent領域迎來了新的分水嶺：短程任務表現驚艷，長程任務卻顯乏力。為精準評估大模型的多模態理解與復雜問題解決能力，紅杉中國在兩周內連續發布兩篇論文，旨在通過構建更科學的評估基準，預判技術演進的未來方向。

xbench正式推出AgentIF-OneDay評測體系，不再單純考核模型知道多少知識，而是衡量它解決復雜任務的能力。AgentIF-OneDay深入探索了從OneHour到OneDay的能力跨越，揭示了主流Agent在工作流執行、隱式推斷與迭代編輯中的真實表現。讓我們共同見證，Agent 是如何通過Scaling Context與Scaling Domain，從單純的“提問助手”進化為真正創造經濟價值的“數字員工”。

Agent能否協助你一天的生活？

自從紅杉中國xbench發布ScienceQA與DeepSearch以來，這兩個評測集已經經歷了多次迭代升級。無論是模型本身，還是圍繞模型構建的Agent系統，都已經在這些以分鐘級為單位的集中推理任務上能夠穩定勝任，從最初的human-average水平，逐漸達到接近PhD-level的表現。

隨著我們進一步進入Agent能力評測的領域，我們發現Agent完成短時任務與長時任務之間存在巨大的能力鴻溝。即便在單點推理和局部任務中已達到極高水平，一旦任務在突破一般人一小時可處理的復雜度，Agent的整體完成度就會出現明顯下降。

從xbench所堅持的理念出發，更好的評估模型和智能體在實際工作和生活中的價值。我們希望通過評測體系來觀察行業技術路線的演進，預測模型能力的上限，同時也希望給業界補充一個面向utility和economic value的思考視角。我們提出一個新的視角來理解Agent的能力邊界：任務復雜度，任務復雜度并不等同于知識點有多深奧或推理難度，而是完成一個任務所需的人類時間投入，并由此對應其潛在的經濟與使用價值。

我們認為Agent能力的演進會沿著兩條主線展開：scaling context與scaling domain。這兩條軸線共同決定了Agent能夠承擔的任務復雜度上限，也是Agent系統從工具走向數字員工的發展方向。

?Scaling context指的是完成的任務在時間維度上的延展。隨著任務復雜度的提升，Agent需要在更長的執行周期中持續維護上下文狀態，跟蹤中間目標與約束，并在多步驟、多工具的交互過程中保持一致性。從分鐘級任務，到一天級、乃至一周級的工作量。

?Scaling domain則指Agent在任務類型上擴展帶來的復雜度。與高度結構化、domain集中的任務（如coding或數學推理）不同，現實世界中的工作往往橫跨多個領域與語境，不同任務在目標表述、隱含約束、工具使用方式與評估標準上差異顯著。Agent能力的進一步提升，伴隨著對更廣的任務分布的覆蓋能力。

xbench在設計AgentIF評測體系時，會同時沿著context與domain兩個方向推進。一方面，通過逐步拉長任務對應的人類時間尺度，從OneHour走向OneDay；另一方面，通過覆蓋更加多樣的生活、學習與職業場景，刻畫Agent 在真實世界任務分布中的整體能力邊界。

本次發布的AgentIF-OneDay是xbench在該評測系列中的一個新工作。我們以人類一天內可完成的任務復雜度作為基準，測試一個Agent是否具備在無需人類介入的情況下，穩定完成整套任務并交付結果的能力。盡量覆蓋更diverse的domain，包括生活、學習和職業場景會遇到的多種多樣的任務以及多種工具。

如何構造一天的典型任務？

在對大量用戶真實工作日志進行分析后，我們發現盡管具體任務內容差異巨大，但日常工作在類型上呈現出高度穩定的模式。大多數普通人的一天可以按照使用場景被抽象為三個任務類型——工作流執行、范例參考以及迭代式編輯。

場景一

當你知道該怎么做，但執行太繁瑣

用戶已知完整流程并明確給出操作步驟，Agent只需精確執行。我們稱此類任務為工作流執行（Workflow Execution）。

例題

我計劃去NeurIPS 2025，幫我規劃一個好的行程方案。請你先去官網確認NeurIPS 2025會議的主會場位置（San Diego Convention Center, San Diego）是否準確，然后用另一個可靠來源交叉驗證這個信息，確保萬無一失。接下來，幫我收集基本信息，比如會議時間、地點和論文提交截止日期。還要確認完整的會議日程是否已經發布——如果還沒發布，請明確告訴我。最后，從紐約出發給我兩套去圣地亞哥的行程方案：一個最便宜的Cheap Plan，一個最快的Fast Plan。

當Agent能夠在整個流程中保持一致性、逐步完成步驟、并在長上下文中保持狀態，就意味著它具備幫我把事情做完的潛力。這也是大量用戶希望Agent能真正替代重復性勞動的原因——當流程執行能力成熟時，Agent就能自然承擔原本需要人工耐心完成的碎片化任務。

場景二

當你不知道規則，只能給個參考

用戶不明確知道完整的工作流或者條件約束，只提供若干案例或參考資料。我們將此定義為范例參考（Latent Instruction Inference）。

例題

我現在用的是iPhone13 Pro Max，AT&T套餐每月20美元預付費。我想換iPhone17 Pro Max。基于附件里的購機方案和運營商優惠，幫我找出總成本最低的方式。

范例參考是人類最自然的工作方式，人們不會每次都從零寫起，而是需要Agent從提供的示例文件中挖掘出潛在的意圖，并交付同時滿足用戶的顯示指令與附件的隱式指令；Agent如果具備這種能力，就能真正參與內容生產、報告生成、數據整理等職業型任務，而不是停留在淺層回答問題的階段。

場景三

當需求本身是動態的，要邊做邊看

人類的工作普遍呈現多輪迭代結構，在工作的開始并不知道完整解法、也沒有參考示例，需要在與Agent多輪交互中逐漸提出新需求。Agent也必須具備在不斷變化的約束下維持上下文一致性并穩定推進任務的能力。這類任務稱為迭代式編輯（Iterative Refinement）。

例題

拿著這個SVG平面圖（venue_layout.svg）和Excel約束表（venue_constraints.xlsx），更新會場布局以滿足所有約束條件，同時保持設計的可讀性和可行走性。

我們在過去3個月按照這三個類型，制備了AgentIF第一期的題庫，總共由104道任務組成，覆蓋了工作、生活（例如游戲攻略、旅游規劃）和學習。其中62道由文件驅動的合成任務用于補充長尾場景，覆蓋PDF、PPT、Excel、圖像、代碼文件在內的15種以上格式。本質上模擬了真實工作流程中極常見的跨格式、跨來源的模式。

每道任務都帶有一套細粒度的評判標準，總計767個評分點，分為正向指標（如格式一致性、結構復現、步驟完整）與負向指標（如誤刪內容、越界生成、錯誤操作）。評測系統采用LLM作為裁判（值得一提的是Gemini 3-pro的出現讓rubrics打分的準確性也提升到可用的程度），并結合網頁檢索、HTML渲染、多模態比對等方法做自動校驗。在這套機制下，agent系統的得分不僅取決于它最終是否完成任務，還包括流程是否干凈、是否出現誤操作、是否正確解析附件、是否能在迭代過程中保持一致性。

主流Agent的評測結果和啟發

在AgentIF的測評框架下，我們對現有主流Agent系統進行了系統化測試，也有了一些有趣的發現：

發現一：以Overall的完整任務成功率為標準，Manus、Genspark與ChatGPT-Agent都集中在0.62–0.65區間，構成當下能力最強的第一梯隊。

這意味著和我們想象的有所差別，不論Agent系統是通過模型原生甚至RL訓練出來的模型，還是基于API的工具鏈集成或深度的multi-Agent系統，在完成一套真實任務鏈時，用戶側感受到的能力是比較相近的。

這一現象在一定程度上印證了模型即Agent的判斷——在底層模型能力不發生變化、且不引入test-time scaling的前提下，不同多智能體框架本身難以拉開數量級上的性能差異。基座模型會逐步集成agentic能力，下游基于api的Agent產品，在能力表現上也會體現出agent rl的能力。

雖然這些agent系統能力非常接近，但在任務領域上與能力維度存在明顯差異。

發現二：從任務領域上，任務領域上從ChatGPT是最優生產力工具，Manus是最佳生活助手，Genspark是最好學習伙伴。

三個產品具有不同迭代方向，ChatGPT-Agent重點關注GDPval，聚焦專業工作場景的體驗；相對來說Manus與Genspark更側重用戶反饋。不同的評測體現帶來了不同的產品長項與短板。我們認為優秀的通用Agent應當兼顧最多樣的任務，而不側重一方。

發現三：在能力維度上，GenSpark在隱式指令推斷上表現最優，Manus在開放工作流執行最優，Minimax-Agent具有最好的迭代式編輯能力。

能力維度的表現不一或來源于Agent框架的差異。隱式條件推斷是目前Agent普遍最薄弱的能力項。一些任務要求Agent從附件中自動識別格式規則，例如從PPT 模板中抽取頁眉頁腳結構或引用標注方式，再遷移到新的內容生成中。我們觀察到，即便是整體表現最好的系統，在這類任務中也很難做到完全正確。要么格式復現正確但覆蓋不足，要么內容理解到位但無法保持結構一致。

綜合來看，穩定性、文件處理鏈路、隱式結構理解能力，乃至跨工具的狀態管理，都是決定Agent能否真正承擔一天工作量的關鍵環節。AgentIF-OneDay通過這類任務，揭示了當前Agent在真實使用場景中的能力邊界和一些常見的失效模式，也幫助我們更清楚地看到下一階段能力演進的方向。

展望：從oneday、oneweek到持續學習

隨著系統能力不斷提升，我們預計在2026年Agent將開始挑戰one-week的人類工作量。圍繞one-week的人類工作量，我們已經開始著手構建OneWeek的評測集。我們認為當一個Agent能夠在一周尺度的工作量上保持穩定高質量的產出，它就具備了承擔真實崗位的能力，也能夠在組織內開始創造更多實際價值。

與AgentIF-OneDay相比，OneWeekIF面臨的挑戰并不只是任務變得更長。隨著時間跨度增加，評測本身的出題難度也增加很多，rubric的設計會更加嚴格。一周尺度的任務往往開始呈現出明確的行業語境，無論是金融、醫療還是法律，這些高價值場景數據的獲取成本也會顯著上升。

當任務復雜度發展到這一階段，依賴靜態數據集和離線構建的訓練與評測方式，開始顯露出難以回避的局限性。也正是在這里，一個方向變得越來越自然：讓 Agent在實際運行過程中具備主動學習的能力——能夠在真實或半真實環境中自主收集經驗，對自身行為進行評估與修正，并通過長期交互逐步形成穩定策略。

從更長期的技術演進來看，靜態訓練與靜態評測可能都不是未來Agent系統的發展路徑。近期關于online learning的討論越來越多，更多researcher傾向于認為，如果模型只在既有的人類知識分布內循環，就無法突破到更高層級的智能，下一步的能力scaling不是訓練完成的那一刻，很可能發生在模型被部署之后，通過不斷的real world RL來獲取practical的知識，持續學習、持續適應。

用戶數據飛輪帶來高可靠Agent的出現

一個贏得用戶信任的Agent助理需要交付可靠結果，在長程任務中，錯誤累計效應會呈指數級放大。我們將長程任務Agent的發展類比自動駕駛的發展歷程，同樣是從有限路段走向通用路段，從依賴頻繁人工干預走向長時無干預FSD。該過程的實現依賴于大量用戶駕駛數據的積累，用戶數據可以最大化拓展場景的豐富度，并給系統帶來最好的泛化性。在長時任務的Agents中，我們同樣可以推演，有效的數據累計可以帶來高可靠Agent系統的出現，優先轉起數據飛輪的公司將率先實現通用Agent的FSD時刻。

開源鏈接：

Paper Link:

https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

website:

https://xbench.org/

github:

https://github.com/xbench-ai/AgentIF-OneDay

huggingface:

https://huggingface.co/datasets/xbench/AgentIF-OneDay

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.