<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic:大模型 benchmark 打分不適用 AI agent 評測

      0
      分享至

      最近,Anthropic 發了一篇不太像“技術博客”的文章,《Demystifying evals for AI agents(揭開 AI agents 評測的迷霧)》,基本可視為一份“Agent 時代的產品生存指南”。


      這篇文章背后隱含的一個判斷是,如果你做的是 AI Agent,卻還在用“模型 benchmark”那一套方式來評估它,那基本就是在扯淡。

      Agent 的問題,不是模型準不準,而是它會不會在真實世界里,把事情搞砸。

      Anthropic 在文中反復強調一個現實:隨著 AI 從“一次性回答問題”,走向“長時間自主行動”,系統的失敗方式已經發生了根本變化。

      錯誤不再是“答錯一道題”,而是一步小錯、持續放大,最終造成不可逆后果。

      比如一個研究型 Agent,早期一次資料篩選偏差,后面所有推理都會建立在錯誤前提上;

      又比如一個自動化 Agent,在工具調用上出現微小誤判,卻在長鏈條任務中不斷復制這種錯誤。

      這些問題,用傳統的評測方式幾乎是測不出來的。

      Anthropic 直接點破了一個行業誤區:我們過去評估 AI,更像是在給“考試機器”打分;但 Agent 更像一個“實習生”,你真正關心的是——它在真實任務里能不能被信任。

      所以,Anthropic提出,其核心不是“怎么跑 評測”,而是評測到底應該服務什么目標。

      他們給出的第一個關鍵轉向是,從靜態結果評測,轉向過程與行為評測。

      在 Agent 系統中,最終結果是否正確固然重要,但遠遠不夠。更關鍵的是:


      • 它是否遵循了預期的決策路徑

      • 是否在不確定時主動求證

      • 是否在失敗后調整策略

      • 是否在高風險節點表現得足夠保守

      換句話說,評測不只是“對不對”,而是“像不像一個你敢用的 Agent”。


      第二個非常現實的判斷是:Agent 的 評測永遠不可能一次性完成。

      Anthropic 明確指出,Agent 的評估是一個“持續對抗”的過程。

      你修復了一個失敗模式,很可能立刻引入一個新的失敗方式。

      這點對所有做產品的人都很殘酷,也很真實:Agent 并不存在“評測通過 → 可以放心上線”的時刻,只有“暫時可控”。

      因此,Anthropic建議,把評測變成和訓練、部署同等重要的基礎設施,而不是發布前的一個檢查項。

      第三個被反復強調的觀點是:不要迷信自動化評測。

      在 Agent 場景下,純自動評測往往會遺漏最危險的問題。

      很多真正致命的錯誤,只能通過人工設計的 adversarial 測試、失敗案例復盤、極端場景模擬才能發現。

      Anthropic 的態度非常清醒:評測不是為了證明系統“很強”,而是為了盡可能早地發現“它會怎么翻車”。

      這和當前行業大量“Agent Demo 導向”的做法,形成了非常鮮明的對比。

      Anthropic幾乎是為整個 AI 應用層敲了警鐘:當 AI 開始替人“做事”,而不是“回答問題”,評估體系本身就變成了安全邊界的一部分。

      這也是為什么 Anthropic 會把評測提到如此高的戰略位置——不是工程細節,而是產品能不能活下去的問題。

      對創業者來說,可以反思的是,未來 AI Agent 的競爭,不只是在模型、算力或功能完整度上,而是在誰更早建立起一套可靠的“可控性與信任機制”。

      而評測,正是這套機制的第一道防線。

      原文鏈接(Anthropic 官方):

      https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      胡明軒落選12人名單!兩戰韓國13中0僅4分 大V嘲諷:日本措手不及

      胡明軒落選12人名單!兩戰韓國13中0僅4分 大V嘲諷:日本措手不及

      顏小白的籃球夢
      2026-02-25 19:41:25
      巴拿馬政府“零元購” 誰給李嘉誠一個道歉

      巴拿馬政府“零元購” 誰給李嘉誠一個道歉

      原某報記者
      2026-02-25 10:14:57
      59歲王志文婚姻破裂,17年恩愛難敵年齡差距

      59歲王志文婚姻破裂,17年恩愛難敵年齡差距

      樂界品鑒官
      2026-02-24 02:35:59
      NBA官方新秀榜:克努佩爾力壓弗拉格重返榜首 探花第三榜眼排名上升

      NBA官方新秀榜:克努佩爾力壓弗拉格重返榜首 探花第三榜眼排名上升

      云隱南山
      2026-02-26 00:47:56
      單位有一個少婦,我和她互相有好感,一直沒有捅破那層窗戶紙

      單位有一個少婦,我和她互相有好感,一直沒有捅破那層窗戶紙

      i書與房
      2026-02-25 17:29:17
      消息一出,日本軍工圈徹底傻眼!中國這次精準掐住了它的軍工命脈

      消息一出,日本軍工圈徹底傻眼!中國這次精準掐住了它的軍工命脈

      霽寒飄雪
      2026-02-24 19:30:32
      【李國豪】南京長江大橋設計時,他主張6車道,當地政府堅持4車道

      【李國豪】南京長江大橋設計時,他主張6車道,當地政府堅持4車道

      年之父
      2026-02-23 09:10:06
      中國股市:開盤30分鐘判斷全天漲跌,后悔知道太晚了(建議收藏)

      中國股市:開盤30分鐘判斷全天漲跌,后悔知道太晚了(建議收藏)

      一方聊市
      2026-02-24 15:15:05
      你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

      你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

      夜深愛雜談
      2026-02-21 21:37:02
      236億!越秀拿下馬場地塊!廣州土拍,創造新歷史!

      236億!越秀拿下馬場地塊!廣州土拍,創造新歷史!

      廣州PLUS
      2026-02-25 19:19:51
      新春走基層丨讓不可能變成可能 這支創業團隊用AI托起視障者的夢想

      新春走基層丨讓不可能變成可能 這支創業團隊用AI托起視障者的夢想

      國際在線
      2026-02-25 11:21:48
      內蒙古一200斤男子欠5000萬不還,被債主裝進鐵籠沉入80米水庫,誰料,2年后才被撈出...

      內蒙古一200斤男子欠5000萬不還,被債主裝進鐵籠沉入80米水庫,誰料,2年后才被撈出...

      品讀時刻
      2026-02-11 17:18:30
      微信兩項實用新功能上線!近距離高速傳文件、圖片流向輕松查

      微信兩項實用新功能上線!近距離高速傳文件、圖片流向輕松查

      科技獸
      2026-02-25 21:08:52
      丘吉爾:日本如果不是被原子彈炸過,日本這個國家可能就沒有了!

      丘吉爾:日本如果不是被原子彈炸過,日本這個國家可能就沒有了!

      今日養生之道
      2026-02-25 16:11:24
      中央定調,延遲退休后,62歲退休,比60歲退休的多領10%養老金?

      中央定調,延遲退休后,62歲退休,比60歲退休的多領10%養老金?

      另子維愛讀史
      2026-02-17 19:02:27
      干涸43年后復蘇!曾經我國第二大內流河,為何能重現生機?

      干涸43年后復蘇!曾經我國第二大內流河,為何能重現生機?

      番外行
      2026-02-25 19:44:06
      除了要禁擋風被,2026年3月起,電動自行車又迎來“3要”和“3不要”新規

      除了要禁擋風被,2026年3月起,電動自行車又迎來“3要”和“3不要”新規

      木瓜新車指南
      2026-02-24 20:57:38
      Lisa知道驢老三的秘密!AB被節目組耍了!

      Lisa知道驢老三的秘密!AB被節目組耍了!

      八卦瘋叔
      2026-02-25 11:48:01
      云南天價拖車費越鬧越大!車主被威脅,拖車公司被扒,果然不簡單

      云南天價拖車費越鬧越大!車主被威脅,拖車公司被扒,果然不簡單

      西莫的藝術宮殿
      2026-02-25 19:36:20
      哈梅內伊的頂級智慧:不再求中俄出手,不怕赴死,不怕手下們造反

      哈梅內伊的頂級智慧:不再求中俄出手,不怕赴死,不怕手下們造反

      墨蘭史書
      2026-02-25 23:19:27
      2026-02-26 01:44:49
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      437文章數 60關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      女子爬山失聯10天后遺體被找到 丈夫:她登頂神情恐懼

      頭條要聞

      女子爬山失聯10天后遺體被找到 丈夫:她登頂神情恐懼

      體育要聞

      勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

      娛樂要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財經要聞

      上海樓市放大招,地產預期別太大

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      健康
      旅游
      本地
      公開課
      軍事航空

      轉頭就暈的耳石癥,能開車上班嗎?

      旅游要聞

      重慶酉陽櫻花漫古城,吊腳飛檐藏春歸,這才是中式浪漫天花板!

      本地新聞

      津南好·四時總相宜

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄烏沖突四周年:和平談判希望渺茫

      無障礙瀏覽 進入關懷版