<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      斯坦福推出Agent驗證框架「LLM-as-a-Verifier」

      0
      分享至



      本項目由斯坦福大學 CS 博士生 Jacky Kwok負責,主要貢獻者包括伯克利 EECS 博士生 Shulu Li。通訊作者為Ion Stoica(UC 伯克利教授、Databricks 創始人)、Azalia Mirhoseini(斯坦福教授,曾任職于 DeepMind 與 Anthropic)、以及 Marco Pavone(英偉達 AI 與自動駕駛研究總監)。

      斯坦福、伯克利與英偉達聯合提出 Agent 驗證框架 LLM-as-a-Verifier。該方法是一種通用的驗證機制,可與任意 Agent Harness 和模型結合。

      研究表明,通過擴展驗證階段的計算量(scaling verification compute),可以顯著提升 agent 整體性能,并在最有影響力的 AI 編程基準 Terminal-Bench 上超越 GPT-5.5 和 Claude Mythos!



      LLM-as-a-Verifier 在 AI Coding 基準 Terminal-Bench 和 SWE-Bench Verified 上均取得了當前最優(SOTA)性能。 Transformer 論文作者 Lukasz Kaiser 以及 GAN 作者 Bing Xu 也對該工作進行了轉發與關注。





      • 博客地址:llm-as-a-verifier.notion.site
      • 代碼地址:llm-as-a-verifier.github.io

      方法概述

      大多數 Agent Harness 實際上已經「具備」解決問題的能力 。當我們多次運行同一個 Agent(例如運行 100 次),它往往能夠在某一次嘗試中生成正確答案。但問題在于,它們無法判斷哪一個才是正確的。這一問題在長時序任務(long-horizon tasks)中尤為嚴重。



      LLM-as-a-Verifier 通過 scaling評分 token 的細粒度(score granularity)、多次評估(repeated verification)以及評價標準的分解(criteria decomposition),顯著提升了驗證能力,并進一步提高了下游任務的成功率。此外,團隊發現隨著評分 token 細粒度的提升,正負樣本之間的得分區分度會進一步拉大。



      核心問題:LLM-as-a-Judge 的局限性

      標準的 LLM-as-a-Judge 通過提示模型輸出一個評分結果(例如,1 到 8 之間的分數),并選擇概率最高的評分作為最終的離散分數。

      然而,這種方法往往存在評分粒度過于粗糙的問題。在比較長時序 agent 軌跡(trajectories )時,LLM-as-a-Judge 通常會為不同的軌跡分配相同的分數(例如,兩條軌跡都被評為 4 分),從而導致平局,無法有效區分它們。

      這種粗粒度的評分機制在 Terminal-Bench 上出現了27%的平局情況,限制了評判的精確性和區分能力。



      LLM-as-a-Verifier: 從判分到驗證的范式轉變

      從定義上講,judge(裁判者)是對整體情況形成總體判斷并給出結論的人;而 verifier(驗證者)則是對具體事項進行真實及正確性核驗的人,因此需要更細致、更具體的評估。

      為此,團隊提出了 LLM-as-a-Verifier。它通過擴展以下三個維度來提供細粒度反饋:

      1. 重復驗證的次數(repeated verifications)
      2. 評分 token 的粒度(granularity of score tokens)
      3. 評估標準的分解(decomposition of evaluation criteria)





      LLM-as-a-Verifier 將軌跡的獎勵表示為:



      其中:



      在選擇最佳軌跡時,團隊采用循環賽(round-robin tournament):對每一對候選軌跡 (i, j), 驗證器都會利用上述公式計算其 reward。獎勵更高的軌跡獲得勝利,而在全部比較中勝場數最多的軌跡,將被選為最終結果。

      實驗結果

      1.在 Terminal-Bench 2.0 和 SWE-Bench Verified 等復雜的長時序基準任務中,LLM-as-a-Verifier 的表現全面超越了前沿模型并均取得了當前最優(SOTA)性能。所有實驗結果均來源于官方排行榜。



      2.LLM-as-a-Verifier 能夠在不同的 Agent Harness 框架中實現無縫集成,其通用性驗證于以下三個基準任務:

      • ForgeCode:驗證準確率提升至 86.4%
      • Terminus-Kira:準確率提升至 79.4%
      • Terminus 2:準確率增加至 71.2%



      這表明,無論針對何種 Agent Harness 或模型,該驗證方法皆可高效兼容并提升性能。

      3.LLM-as-a-Verifier 在驗證準確率和消除平局方面全面領先于傳統的 LLM-as-a-Judge。即使在增加重復驗證次數的情況下(如 k = 16),Verifier 方法依然保持了至少 7% 的驗證準確率優勢。此外,它完全消除了平局現象。



      4.試驗結果表明,增加評分 token 的粒度(granularity)以及提高重復驗證次數(repeated verifications)均顯著提高驗證準確率。此外,在評分 token 維度的細化分級(1→20)中,量化誤差得到了極大降低,從而更接近真實獎勵。



      5.LLM-as-a-Verifier 放棄傳統的單一評分機制,采用將軌跡驗證解構為三個可組合的評估標準:

      • 規范合規性 (Specification):軌跡是否符合所有任務要求(路徑、命名等);
      • 輸出格式 (Output Format):驗證輸出的格式是否符合預期結果;
      • 錯誤檢測 (Error Checking):軌跡中是否存在明顯的錯誤信號。



      驗證計算作為新的擴展維度

      「LLM-as-a-Verifier」是一種通用驗證機制,能夠顯著提升 Agent 的整體性能,并在多個 AI 編程基準上取得當前最優(SOTA)表現,超越了其他前沿模型如 Claude Mythos。

      相比傳統的「LLM-as-a-Judge」方法,該框架利用更細致的評分粒度、重復驗證,以及評估標準分解,實現更高的驗證準確率和更精確的區分能力,消除了評分平局現象。

      實驗結果表明,它能夠廣泛適配不同的 Agent Harness 和模型,提高多種基準任務中的準確率,同時通過評分機制的細化緩解量化誤差,使驗證結果更接近真實獎勵。

      LLM-as-a-Verifier 不僅提升了 Agent 性能,還顯著增強了模型在長時序任務中的安全性和穩定性。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      換人遭質疑!重慶銅梁龍1-1青島西海岸,劉建業調整引球迷不滿!

      換人遭質疑!重慶銅梁龍1-1青島西海岸,劉建業調整引球迷不滿!

      田先生籃球
      2026-04-26 22:25:51
      這跟不穿有啥區別?內褲外露、開叉開到腰,有錢人的時尚真看不懂

      這跟不穿有啥區別?內褲外露、開叉開到腰,有錢人的時尚真看不懂

      潮鹿逐夢
      2026-03-02 17:19:02
      伊朗議員:伊方已形成管理霍爾木茲海峽綜合方案,敵對國船只不得通過,通過船只須繳納相關費用 優先以里亞爾支付

      伊朗議員:伊方已形成管理霍爾木茲海峽綜合方案,敵對國船只不得通過,通過船只須繳納相關費用 優先以里亞爾支付

      每日經濟新聞
      2026-04-26 16:28:05
      上海男子為逃千元停車費,竟套用鄰居車牌出入小區,自以為天衣無縫,結果……

      上海男子為逃千元停車費,竟套用鄰居車牌出入小區,自以為天衣無縫,結果……

      環球網資訊
      2026-04-27 08:52:37
      張蘭感慨一個好女兒旺三代,大S女兒玥玥生日冷清,被疑內涵兒媳

      張蘭感慨一個好女兒旺三代,大S女兒玥玥生日冷清,被疑內涵兒媳

      甜檸檬吖
      2026-04-27 12:07:10
      中超超巨失誤!李昊黃油手,中超已丟50球,杜月徵半場壓哨破門

      中超超巨失誤!李昊黃油手,中超已丟50球,杜月徵半場壓哨破門

      奧拜爾
      2026-04-26 19:52:32
      胡金秋:想盡量延續職業生涯,在CBA打到父子同場

      胡金秋:想盡量延續職業生涯,在CBA打到父子同場

      懂球帝
      2026-04-26 18:37:15
      震驚!洛陽某職業學院高調官宣10名畢業生入職肯德基,引發爭議

      震驚!洛陽某職業學院高調官宣10名畢業生入職肯德基,引發爭議

      火山詩話
      2026-04-24 16:29:11
      伊朗外長向巴基斯坦遞交停戰條件

      伊朗外長向巴基斯坦遞交停戰條件

      新華社
      2026-04-26 23:15:28
      35歲女子去做私處緊縮,縫針斷在肉里,醫生徒手掏了半小時沒找著

      35歲女子去做私處緊縮,縫針斷在肉里,醫生徒手掏了半小時沒找著

      離離言幾許
      2026-04-21 19:53:18
      巴基斯坦總統深夜抵達長沙,這趟中國行有點不一樣

      巴基斯坦總統深夜抵達長沙,這趟中國行有點不一樣

      娛樂圈的筆娛君
      2026-04-27 01:06:50
      一場0-3!揪出河南隊3大“水貨” 冒充職業球員 拉莫斯賽后罕見發火

      一場0-3!揪出河南隊3大“水貨” 冒充職業球員 拉莫斯賽后罕見發火

      畫夕
      2026-04-27 12:49:49
      美伊戰爭打醒了所有人!原來中國真正的“護城河”,竟是山西!

      美伊戰爭打醒了所有人!原來中國真正的“護城河”,竟是山西!

      樂享人生風雨
      2026-04-27 12:30:25
      槍手已經死了,從此特朗普變身成為傳奇耐殺王

      槍手已經死了,從此特朗普變身成為傳奇耐殺王

      販財局
      2026-04-26 11:37:59
      疑似國產垂直起降戰機被曝光,或是基于殲20衍生而來

      疑似國產垂直起降戰機被曝光,或是基于殲20衍生而來

      烽火觀天下
      2026-04-27 11:06:43
      艾頓被驅逐!115-96火箭大勝,看數據:你才是頭號功臣!

      艾頓被驅逐!115-96火箭大勝,看數據:你才是頭號功臣!

      運籌帷幄的籃球
      2026-04-27 10:53:20
      真相大白!那臺拉缸的張雪820RR返廠,經拆解后本人公布故障原因

      真相大白!那臺拉缸的張雪820RR返廠,經拆解后本人公布故障原因

      一盅情懷
      2026-04-26 15:32:03
      10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

      10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

      小噎論事
      2026-04-24 17:15:21
      文班27分4斷7帽!19分逆轉奪賽點,克林根被打到棄用,楊瀚森上場

      文班27分4斷7帽!19分逆轉奪賽點,克林根被打到棄用,楊瀚森上場

      你的籃球頻道
      2026-04-27 06:21:13
      丑陋1-3!湖人慘敗詹姆斯8失誤,裁判搶戲艾頓驅逐,火箭機會來了

      丑陋1-3!湖人慘敗詹姆斯8失誤,裁判搶戲艾頓驅逐,火箭機會來了

      老侃侃球
      2026-04-27 12:22:41
      2026-04-27 13:24:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12866文章數 142636關注度
      往期回顧 全部

      科技要聞

      打1折!DeepSeek輸入緩存降價

      頭條要聞

      女子將車停車庫沒動卻被認定要為事故擔次責 交管回應

      頭條要聞

      女子將車停車庫沒動卻被認定要為事故擔次責 交管回應

      體育要聞

      最抽象的天才,正在改變瓜迪奧拉

      娛樂要聞

      《奔跑吧14》剛播就把一手好牌打稀爛

      財經要聞

      DeepSeek融資、字節加碼 AI開始真燒錢了

      汽車要聞

      在不確定中尋找確定性:大眾汽車的中國解法

      態度原創

      房產
      家居
      健康
      教育
      公開課

      房產要聞

      新一輪教育大爆發來了!海口,開始瘋狂建學校!

      家居要聞

      江景風格 流動的秩序

      干細胞如何讓燒燙傷皮膚"再生"?

      教育要聞

      “這個世界太不公平了”,36E女孩曬考研北大,數學滿分全網羨慕

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产色婷婷视频在线观看| 最新国产aⅴ精品无码| 4hu44四虎www在线影院麻豆| 在线天堂中文新版www| 丁香五月激情图片| 成人精品一区日本无码网| 欧美精品亚洲精品日韩专 | 公交车上荫蒂添的好舒服的视频| 日本久久香蕉一本一道| 欧洲亚洲国产成人综合色婷婷 | 2021最新国产在线99| 制服国产欧美亚洲日韩| 毛片久久久| 女人腿张开让男人桶爽| 久久伊人色AV天堂九九小黄鸭| 色色资源网| 天天鲁一鲁摸一摸爽一爽| jlzz大jlzz大全免费| 色一情一乱一伦一区二区三区日本| 在线观看热码亚洲av每日更新| 亚洲国产成人无码av在线影院| 男人添女人囗交做爰视频| 超碰人人妻| 日韩一区国产二区欧美三区| 亚洲成a人无码| jiZZjiZZ欧美69| 国内精品卡一卡二卡三| 久久国产精品无码网站| 国产乱色国产精品免费视频| 一区二区三区精品| 亚洲最大福利视频网| 蜜臀av一区二区| 亚洲精品国产综合麻豆久久99 | 久久久久成人精品无码中文字幕| 日韩精品中文字幕无码一区| 少妇高潮喷水久久久影院| av色导航| 玖玖av| 欧美3P视频| 日韩人妻无码一本二本三本| 亚洲欧美另类小说|