<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      xbench發布AgentIF-OneDay評測:Agent能否獨立干完“一天的活”?

      0
      分享至


      隨著大模型在單點推理上日益逼近PhD水平,Agent領域迎來了新的分水嶺:短程任務表現驚艷,長程任務卻顯乏力。為精準評估大模型的多模態理解與復雜問題解決能力,紅杉中國在兩周內連續發布兩篇論文,旨在通過構建更科學的評估基準,預判技術演進的未來方向。

      xbench正式推出AgentIF-OneDay評測體系,不再單純考核模型知道多少知識,而是衡量它解決復雜任務的能力。AgentIF-OneDay深入探索了從OneHour到OneDay的能力跨越,揭示了主流Agent在工作流執行、隱式推斷與迭代編輯中的真實表現。讓我們共同見證,Agent 是如何通過Scaling Context與Scaling Domain,從單純的“提問助手”進化為真正創造經濟價值的“數字員工”。


      Agent能否協助你一天的生活?

      自從紅杉中國xbench發布ScienceQA與DeepSearch以來,這兩個評測集已經經歷了多次迭代升級。無論是模型本身,還是圍繞模型構建的Agent系統,都已經在這些以分鐘級為單位的集中推理任務上能夠穩定勝任,從最初的human-average水平,逐漸達到接近PhD-level的表現。

      隨著我們進一步進入Agent能力評測的領域,我們發現Agent完成短時任務與長時任務之間存在巨大的能力鴻溝。即便在單點推理和局部任務中已達到極高水平,一旦任務在突破一般人一小時可處理的復雜度,Agent的整體完成度就會出現明顯下降。


      從xbench所堅持的理念出發,更好的評估模型和智能體在實際工作和生活中的價值。我們希望通過評測體系來觀察行業技術路線的演進,預測模型能力的上限,同時也希望給業界補充一個面向utility和economic value的思考視角。我們提出一個新的視角來理解Agent的能力邊界:任務復雜度,任務復雜度并不等同于知識點有多深奧或推理難度,而是完成一個任務所需的人類時間投入,并由此對應其潛在的經濟與使用價值

      我們認為Agent能力的演進會沿著兩條主線展開:scaling context與scaling domain。這兩條軸線共同決定了Agent能夠承擔的任務復雜度上限,也是Agent系統從工具走向數字員工的發展方向。

      ?Scaling context指的是完成的任務在時間維度上的延展。隨著任務復雜度的提升,Agent需要在更長的執行周期中持續維護上下文狀態,跟蹤中間目標與約束,并在多步驟、多工具的交互過程中保持一致性。從分鐘級任務,到一天級、乃至一周級的工作量。

      ?Scaling domain則指Agent在任務類型上擴展帶來的復雜度。與高度結構化、domain集中的任務(如coding或數學推理)不同,現實世界中的工作往往橫跨多個領域與語境,不同任務在目標表述、隱含約束、工具使用方式與評估標準上差異顯著。Agent能力的進一步提升,伴隨著對更廣的任務分布的覆蓋能力。

      xbench在設計AgentIF評測體系時,會同時沿著context與domain兩個方向推進。一方面,通過逐步拉長任務對應的人類時間尺度,從OneHour走向OneDay;另一方面,通過覆蓋更加多樣的生活、學習與職業場景,刻畫Agent 在真實世界任務分布中的整體能力邊界。


      本次發布的AgentIF-OneDay是xbench在該評測系列中的一個新工作。我們以人類一天內可完成的任務復雜度作為基準,測試一個Agent是否具備在無需人類介入的情況下,穩定完成整套任務并交付結果的能力。盡量覆蓋更diverse的domain,包括生活、學習和職業場景會遇到的多種多樣的任務以及多種工具。

      如何構造一天的典型任務?

      在對大量用戶真實工作日志進行分析后,我們發現盡管具體任務內容差異巨大,但日常工作在類型上呈現出高度穩定的模式。大多數普通人的一天可以按照使用場景被抽象為三個任務類型——工作流執行、范例參考以及迭代式編輯。

      場景一

      當你知道該怎么做,但執行太繁瑣

      用戶已知完整流程并明確給出操作步驟,Agent只需精確執行。我們稱此類任務為工作流執行(Workflow Execution)

      例題

      我計劃去NeurIPS 2025,幫我規劃一個好的行程方案。請你先去官網確認NeurIPS 2025會議的主會場位置(San Diego Convention Center, San Diego)是否準確,然后用另一個可靠來源交叉驗證這個信息,確保萬無一失。接下來,幫我收集基本信息,比如會議時間、地點和論文提交截止日期。還要確認完整的會議日程是否已經發布——如果還沒發布,請明確告訴我。最后,從紐約出發給我兩套去圣地亞哥的行程方案:一個最便宜的Cheap Plan,一個最快的Fast Plan。

      當Agent能夠在整個流程中保持一致性、逐步完成步驟、并在長上下文中保持狀態,就意味著它具備幫我把事情做完的潛力。這也是大量用戶希望Agent能真正替代重復性勞動的原因——當流程執行能力成熟時,Agent就能自然承擔原本需要人工耐心完成的碎片化任務。

      場景二

      當你不知道規則,只能給個參考

      用戶不明確知道完整的工作流或者條件約束,只提供若干案例或參考資料。我們將此定義為范例參考(Latent Instruction Inference)

      例題

      我現在用的是iPhone13 Pro Max,AT&T套餐每月20美元預付費。我想換iPhone17 Pro Max。基于附件里的購機方案和運營商優惠,幫我找出總成本最低的方式。

      范例參考是人類最自然的工作方式,人們不會每次都從零寫起,而是需要Agent從提供的示例文件中挖掘出潛在的意圖,并交付同時滿足用戶的顯示指令與附件的隱式指令;Agent如果具備這種能力,就能真正參與內容生產、報告生成、數據整理等職業型任務,而不是停留在淺層回答問題的階段。

      場景三

      當需求本身是動態的,要邊做邊看

      人類的工作普遍呈現多輪迭代結構,在工作的開始并不知道完整解法、也沒有參考示例,需要在與Agent多輪交互中逐漸提出新需求。Agent也必須具備在不斷變化的約束下維持上下文一致性并穩定推進任務的能力。這類任務稱為迭代式編輯(Iterative Refinement)

      例題

      拿著這個SVG平面圖(venue_layout.svg)和Excel約束表(venue_constraints.xlsx),更新會場布局以滿足所有約束條件,同時保持設計的可讀性和可行走性

      我們在過去3個月按照這三個類型,制備了AgentIF第一期的題庫,總共由104道任務組成,覆蓋了工作、生活(例如游戲攻略、旅游規劃)和學習。其中62道由文件驅動的合成任務用于補充長尾場景,覆蓋PDF、PPT、Excel、圖像、代碼文件在內的15種以上格式。本質上模擬了真實工作流程中極常見的跨格式、跨來源的模式。

      每道任務都帶有一套細粒度的評判標準,總計767個評分點,分為正向指標(如格式一致性、結構復現、步驟完整)與負向指標(如誤刪內容、越界生成、錯誤操作)。評測系統采用LLM作為裁判(值得一提的是Gemini 3-pro的出現讓rubrics打分的準確性也提升到可用的程度),并結合網頁檢索、HTML渲染、多模態比對等方法做自動校驗。在這套機制下,agent系統的得分不僅取決于它最終是否完成任務,還包括流程是否干凈、是否出現誤操作、是否正確解析附件、是否能在迭代過程中保持一致性。

      主流Agent的評測結果和啟發

      在AgentIF的測評框架下,我們對現有主流Agent系統進行了系統化測試,也有了一些有趣的發現:


      發現一:以Overall的完整任務成功率為標準,Manus、Genspark與ChatGPT-Agent都集中在0.62–0.65區間,構成當下能力最強的第一梯隊。

      這意味著和我們想象的有所差別,不論Agent系統是通過模型原生甚至RL訓練出來的模型,還是基于API的工具鏈集成或深度的multi-Agent系統,在完成一套真實任務鏈時,用戶側感受到的能力是比較相近的。

      這一現象在一定程度上印證了模型即Agent的判斷——在底層模型能力不發生變化、且不引入test-time scaling的前提下,不同多智能體框架本身難以拉開數量級上的性能差異。基座模型會逐步集成agentic能力,下游基于api的Agent產品,在能力表現上也會體現出agent rl的能力。

      雖然這些agent系統能力非常接近,但在任務領域上與能力維度存在明顯差異。

      發現二:任務領域上,任務領域上從ChatGPT是最優生產力工具,Manus是最佳生活助手,Genspark是最好學習伙伴。


      三個產品具有不同迭代方向,ChatGPT-Agent重點關注GDPval,聚焦專業工作場景的體驗;相對來說Manus與Genspark更側重用戶反饋。不同的評測體現帶來了不同的產品長項與短板。我們認為優秀的通用Agent應當兼顧最多樣的任務,而不側重一方。

      發現三:能力維度上,GenSpark在隱式指令推斷上表現最優,Manus在開放工作流執行最優,Minimax-Agent具有最好的迭代式編輯能力。

      能力維度的表現不一或來源于Agent框架的差異。隱式條件推斷是目前Agent普遍最薄弱的能力項。一些任務要求Agent從附件中自動識別格式規則,例如從PPT 模板中抽取頁眉頁腳結構或引用標注方式,再遷移到新的內容生成中。我們觀察到,即便是整體表現最好的系統,在這類任務中也很難做到完全正確。要么格式復現正確但覆蓋不足,要么內容理解到位但無法保持結構一致。

      綜合來看,穩定性、文件處理鏈路、隱式結構理解能力,乃至跨工具的狀態管理,都是決定Agent能否真正承擔一天工作量的關鍵環節。AgentIF-OneDay通過這類任務,揭示了當前Agent在真實使用場景中的能力邊界和一些常見的失效模式,也幫助我們更清楚地看到下一階段能力演進的方向。

      展望:從oneday、oneweek到持續學習

      隨著系統能力不斷提升,我們預計在2026年Agent將開始挑戰one-week的人類工作量。圍繞one-week的人類工作量,我們已經開始著手構建OneWeek的評測集。我們認為當一個Agent能夠在一周尺度的工作量上保持穩定高質量的產出,它就具備了承擔真實崗位的能力,也能夠在組織內開始創造更多實際價值。

      與AgentIF-OneDay相比,OneWeekIF面臨的挑戰并不只是任務變得更長。隨著時間跨度增加,評測本身的出題難度也增加很多,rubric的設計會更加嚴格。一周尺度的任務往往開始呈現出明確的行業語境,無論是金融、醫療還是法律,這些高價值場景數據的獲取成本也會顯著上升。

      當任務復雜度發展到這一階段,依賴靜態數據集和離線構建的訓練與評測方式,開始顯露出難以回避的局限性。也正是在這里,一個方向變得越來越自然:讓 Agent在實際運行過程中具備主動學習的能力——能夠在真實或半真實環境中自主收集經驗,對自身行為進行評估與修正,并通過長期交互逐步形成穩定策略。

      從更長期的技術演進來看,靜態訓練與靜態評測可能都不是未來Agent系統的發展路徑。近期關于online learning的討論越來越多,更多researcher傾向于認為,如果模型只在既有的人類知識分布內循環,就無法突破到更高層級的智能,下一步的能力scaling不是訓練完成的那一刻,很可能發生在模型被部署之后,通過不斷的real world RL來獲取practical的知識,持續學習、持續適應。

      用戶數據飛輪帶來高可靠Agent的出現

      一個贏得用戶信任的Agent助理需要交付可靠結果,在長程任務中,錯誤累計效應會呈指數級放大。我們將長程任務Agent的發展類比自動駕駛的發展歷程,同樣是從有限路段走向通用路段,從依賴頻繁人工干預走向長時無干預FSD。該過程的實現依賴于大量用戶駕駛數據的積累,用戶數據可以最大化拓展場景的豐富度,并給系統帶來最好的泛化性。在長時任務的Agents中,我們同樣可以推演,有效的數據累計可以帶來高可靠Agent系統的出現,優先轉起數據飛輪的公司將率先實現通用Agent的FSD時刻。

      開源鏈接:

      Paper Link:

      https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

      website:

      https://xbench.org/

      github:

      https://github.com/xbench-ai/AgentIF-OneDay

      huggingface:

      https://huggingface.co/datasets/xbench/AgentIF-OneDay

      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      確定!正式報銷,兩冠射手淪為負資產,2162萬啊,真坑慘球隊

      確定!正式報銷,兩冠射手淪為負資產,2162萬啊,真坑慘球隊

      球童無忌
      2026-02-22 23:12:10
      就在剛剛,16家公司出現重大利好消息,有沒有與你相關的個股?

      就在剛剛,16家公司出現重大利好消息,有沒有與你相關的個股?

      股市皆大事
      2026-02-22 09:16:04
      高云翔大年初四逛街,花80元買3件二手衣服,二婚生活拮據落魄

      高云翔大年初四逛街,花80元買3件二手衣服,二婚生活拮據落魄

      阿訊說天下
      2026-02-20 23:37:00
      愛因斯坦又贏了!100年前愛因斯坦的預言,終于被天文學家撞見

      愛因斯坦又贏了!100年前愛因斯坦的預言,終于被天文學家撞見

      Science科學說
      2026-01-05 12:25:03
      江疏影素顏出現在機場里,沒化妝和路人差不多,不過是真的瘦。

      江疏影素顏出現在機場里,沒化妝和路人差不多,不過是真的瘦。

      阿廢冷眼觀察所
      2026-02-22 22:55:13
      警方通報平頂山打人事件:打人者被采取刑事強制措施

      警方通報平頂山打人事件:打人者被采取刑事強制措施

      界面新聞
      2026-02-21 13:34:19
      小法賽后對科莫全隊講話:別看積分榜,你們真的很強

      小法賽后對科莫全隊講話:別看積分榜,你們真的很強

      懂球帝
      2026-02-22 19:17:06
      今晚9點,趙心童決戰50歲希金斯!賽前有4個利好,預示趙公子奪冠

      今晚9點,趙心童決戰50歲希金斯!賽前有4個利好,預示趙公子奪冠

      球場沒跑道
      2026-02-22 10:33:10
      終于不再慣著,中國拿澳大利亞“開刀”?殺雞儆猴,給各國立規矩

      終于不再慣著,中國拿澳大利亞“開刀”?殺雞儆猴,給各國立規矩

      老稝科普君
      2026-02-22 22:21:21
      米蘭冬奧會賽程全掌握!一鍵收藏,觀賽不迷路→

      米蘭冬奧會賽程全掌握!一鍵收藏,觀賽不迷路→

      海外網
      2026-02-04 15:03:52
      在剛剛,12家公司出現重大利好消息,看看有沒有與你相關的個股?

      在剛剛,12家公司出現重大利好消息,看看有沒有與你相關的個股?

      股市皆大事
      2026-02-22 15:02:57
      35歲媽媽除夕提新車,大年初二猝然離世,真相讓無數人破防

      35歲媽媽除夕提新車,大年初二猝然離世,真相讓無數人破防

      社會日日鮮
      2026-02-22 04:46:11
      2026香港富豪榜出爐:霍家排不上號,劉鑾雄僅第7,李嘉誠不意外

      2026香港富豪榜出爐:霍家排不上號,劉鑾雄僅第7,李嘉誠不意外

      云舟史策
      2026-02-18 17:50:31
      2032奧運會舉辦地確定,結果意外改變全球奧運格局

      2032奧運會舉辦地確定,結果意外改變全球奧運格局

      余憁搞笑段子
      2026-02-02 16:48:20
      美軍,突然大量部署戰機

      美軍,突然大量部署戰機

      每日經濟新聞
      2026-02-22 23:51:04
      上海今日出現重度污染,未來一周陰雨頻繁

      上海今日出現重度污染,未來一周陰雨頻繁

      澎湃新聞
      2026-02-22 20:30:27
      炸鍋!豪門公子的反擊,李家誠為何忽然要告女明星?

      炸鍋!豪門公子的反擊,李家誠為何忽然要告女明星?

      無人傾聽無人傾聽
      2026-02-21 09:32:56
      方媛拜年照驚艷四座!39歲風韻猶存,貴婦氣質拿捏太死?

      方媛拜年照驚艷四座!39歲風韻猶存,貴婦氣質拿捏太死?

      娛樂領航家
      2026-02-21 22:00:03
      宋美齡的鋼筆手稿驚艷了書壇!不及格!堪比小學生水準!讓人意外

      宋美齡的鋼筆手稿驚艷了書壇!不及格!堪比小學生水準!讓人意外

      石辰搞笑日常
      2026-02-22 03:11:49
      18年前,揭露“三鹿奶粉”的上海記者簡光洲,最后被報復了嗎?

      18年前,揭露“三鹿奶粉”的上海記者簡光洲,最后被報復了嗎?

      毛豆何時歸
      2026-02-22 07:19:18
      2026-02-23 00:43:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      2879文章數 10438關注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發射超過10000顆衛星

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細節披露

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細節披露

      體育要聞

      谷愛凌:6次參賽6次奪牌 我對自己非常自豪

      娛樂要聞

      谷愛凌:真正的強大 敢接納生命的節奏

      財經要聞

      特朗普新加征關稅稅率從10%提升至15%

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      房產
      數碼
      教育
      健康
      公開課

      房產要聞

      窗前即地標!獨占三亞灣C位 自貿港總裁行宮亮相

      數碼要聞

      古爾曼:蘋果3月2 - 4日發布“至少五款產品”

      教育要聞

      兩所大學,合并!

      轉頭就暈的耳石癥,能開車上班嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版