<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      一些大模型,高分低能,為何?

      0
      分享至

      這篇文章的思路來自 Philipp Schmid,由 minghao 推薦
      https://www.philschmid.de/agent-harness-2026

      很多人,會有這個體驗
      有些模型,在排行榜上分數(shù)很高,但實際用起來經(jīng)常翻車
      問個問題還行,讓干活就開始犯蠢

      原因很簡單

      排行榜測的是單輪能力,或者幾輪簡單交互

      但真實場景里,你讓 Agent 跑一個復(fù)雜任務(wù),可能要調(diào)用幾十上百次工具,跑幾個小時

      排行榜 1% 的差距,測不出 50 步之后的差異

      這就是「持久性」問題

      有些模型,可能足夠聰明,一兩次嘗試就能解開難題
      但跑了一個小時后,可能無法遵循最初的指令,或者在中間步驟的推理出錯

      怎么解決?
      Philipp Schmid 提了一個概念,叫 Agent Harness

      Harness 是什么

      Harness 本意是馬具、挽具,引申為「駕馭某物的裝置」

      軟件領(lǐng)域最常見的用法是 test harness 測試框架

      Agent Harness 是同樣的思路:
      包裹在 AI 模型外層,管理 Agent 長周期運行的基礎(chǔ)設(shè)施層

      用計算機來類比:

      模型是 CPU,提供原始算力

      上下文窗口是內(nèi)存,有限的、易失的工作記憶

      Agent Harness 是操作系統(tǒng),管理上下文、處理啟動流程、提供標準驅(qū)動

      Agent 是應(yīng)用程序,運行在操作系統(tǒng)之上的具體用戶邏輯


      Philipp Schmid 畫的示意圖,一目了然

      Harness 的層級比 Agent 框架更高

      框架提供的是構(gòu)建模塊,工具接口、Agent 循環(huán)的實現(xiàn)

      Harness 提供的是預(yù)設(shè) Prompt、工具調(diào)用的規(guī)范化處理、生命周期鉤子,以及開箱即用的能力,規(guī)劃、文件系統(tǒng)訪問、子 Agent 管理

      對開發(fā)者來說,這意味著可以跳過「造操作系統(tǒng)」,直接專注于定義 Agent 的獨特邏輯

      目前通用型 Harness 還很少。Claude Code 是這個品類的典型代表,Claude Agent SDK 和 LangChain DeepAgents 也在嘗試標準化

      Harness 能做三件事

      驗證真實進展
      新模型頻繁發(fā)布,Harness 讓用戶能快速測試最新模型在自己場景下的表現(xiàn),而不是看排行榜猜

      釋放模型潛力
      沒有 Harness,用戶體驗可能落后于模型能力。好的 Harness 讓開發(fā)者能用經(jīng)過驗證的工具和最佳實踐來構(gòu)建 Agent

      創(chuàng)造反饋閉環(huán)
      Harness 把模糊的、多步驟的 Agent 工作流轉(zhuǎn)化為可記錄、可評分的結(jié)構(gòu)化數(shù)據(jù)。哪一步出了問題,一目了然

      苦澀教訓(xùn)

      Rich Sutton 寫過一篇文章叫《苦澀的教訓(xùn)

      核心觀點:利用算力的通用方法,每次都能打敗手工編碼的人類知識

      這個教訓(xùn)正在 Agent 開發(fā)領(lǐng)域上演

      Manus 在六個月內(nèi)重構(gòu)了五次 Harness,去除僵化的假設(shè)

      LangChain 一年內(nèi)重新架構(gòu)了三次「Open Deep Research」Agent

      Vercel 砍掉了 80% 的 Agent 工具,換來更少的步驟、更少的 Token、更快的響應(yīng)

      每次新模型發(fā)布,都有不同的最優(yōu) Agent 架構(gòu)方式

      2024 年需要復(fù)雜手工流水線的能力,到 2026 年可能只需要一個上下文窗口內(nèi)的 Prompt 就能搞定

      如果過度設(shè)計控制流,下一次模型更新就會讓系統(tǒng)崩潰

      怎么做

      至于該怎么做,原作者給到了三條原則:

      從簡單開始
      不要構(gòu)建龐大的控制流。提供健壯的原子工具,讓模型自己規(guī)劃。實現(xiàn)護欄、重試和驗證

      為刪除而構(gòu)建
      讓架構(gòu)模塊化。新模型會替代你的邏輯,必須隨時準備好撕掉代碼

      Harness 就是數(shù)據(jù)集
      競爭優(yōu)勢不再是 Prompt,而是 Harness 捕獲的軌跡數(shù)據(jù)。每一次 Agent 在工作流后期未能遵循指令的失敗案例,都可以用來訓(xùn)練下一代模型

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      重磅!青島突然宣布,砸1.1萬億投入,一場前所未有的大動作正式啟動!

      重磅!青島突然宣布,砸1.1萬億投入,一場前所未有的大動作正式啟動!

      王二哥老搞笑
      2026-02-26 11:05:00
      央視發(fā)聲!重慶烤全羊瘋狂宰客,官方曝光作案手段,老板麻煩大了

      央視發(fā)聲!重慶烤全羊瘋狂宰客,官方曝光作案手段,老板麻煩大了

      黑哥講現(xiàn)代史
      2026-02-25 19:20:18
      默茨破防了!對華談2530億合作,轉(zhuǎn)身卻訓(xùn)斥國民?

      默茨破防了!對華談2530億合作,轉(zhuǎn)身卻訓(xùn)斥國民?

      回京歷史夢
      2026-02-26 12:20:56
      他是軍統(tǒng)正局長,一生暗中幫我黨,死后破例葬入八寶山,民族脊梁

      他是軍統(tǒng)正局長,一生暗中幫我黨,死后破例葬入八寶山,民族脊梁

      歷史人文2
      2026-02-24 16:10:55
      不管你承不承認,只有一個女兒家庭,父母晚年都逃不過這4個現(xiàn)狀

      不管你承不承認,只有一個女兒家庭,父母晚年都逃不過這4個現(xiàn)狀

      小影的娛樂
      2026-02-26 11:01:11
      炸鍋!國美才女淪陷海外,私密視頻被掛成人網(wǎng),留學(xué)生集體背鍋?

      炸鍋!國美才女淪陷海外,私密視頻被掛成人網(wǎng),留學(xué)生集體背鍋?

      戧詞奪理
      2026-02-23 15:32:24
      謝霆鋒經(jīng)紀人深夜高調(diào)發(fā)文!2月22日凌晨,霍汶希內(nèi)心激動藏不住

      謝霆鋒經(jīng)紀人深夜高調(diào)發(fā)文!2月22日凌晨,霍汶希內(nèi)心激動藏不住

      阿廢冷眼觀察所
      2026-02-23 18:56:52
      “土皇帝”禹作敏揚言:副總理隨便當,部長以下不接待,結(jié)局如何

      “土皇帝”禹作敏揚言:副總理隨便當,部長以下不接待,結(jié)局如何

      顧史
      2026-02-23 12:28:26
      史上最長國情咨文不要輕視川普這樣的人

      史上最長國情咨文不要輕視川普這樣的人

      海子侃生活
      2026-02-26 10:10:03
      痛心!廣東英德全網(wǎng)尋1歲娃兩天,最終塘中發(fā)現(xiàn)!已無生命體征

      痛心!廣東英德全網(wǎng)尋1歲娃兩天,最終塘中發(fā)現(xiàn)!已無生命體征

      社會日日鮮
      2026-02-26 09:02:46
      網(wǎng)紅暴力測試宇樹機器人,用斧頭劈成兩半,博眼球行為被網(wǎng)友唾棄

      網(wǎng)紅暴力測試宇樹機器人,用斧頭劈成兩半,博眼球行為被網(wǎng)友唾棄

      新游戲大妹子
      2026-02-26 12:45:26
      四年,俄羅斯仍不懂烏克蘭,烏克蘭人記性很好

      四年,俄羅斯仍不懂烏克蘭,烏克蘭人記性很好

      山河路口
      2026-02-25 16:59:27
      高市擺鴻門宴,劍指中國,21國赴會!令人痛心的是,東盟7國參加

      高市擺鴻門宴,劍指中國,21國赴會!令人痛心的是,東盟7國參加

      妙知
      2026-02-26 11:56:36
      近一米極樂鳥羽毛,6000萬寶石,揭秘尼泊爾最豪華的Shripech王冠

      近一米極樂鳥羽毛,6000萬寶石,揭秘尼泊爾最豪華的Shripech王冠

      珠寶匠
      2026-02-26 08:28:33
      特朗普官宣訪華求高規(guī)格接待,中方 4 天冷處理,10 架戰(zhàn)機露了美方底牌

      特朗普官宣訪華求高規(guī)格接待,中方 4 天冷處理,10 架戰(zhàn)機露了美方底牌

      微光物語
      2026-02-25 13:12:13
      經(jīng)紀人:希望維爾茨加盟皇馬!德媒:曼聯(lián)切爾西有意多特蒙德中場

      經(jīng)紀人:希望維爾茨加盟皇馬!德媒:曼聯(lián)切爾西有意多特蒙德中場

      足球偵探
      2026-02-26 11:55:08
      此消彼長!中國男籃公布名單,日本男籃有所削弱!

      此消彼長!中國男籃公布名單,日本男籃有所削弱!

      德譯洋洋
      2026-02-26 12:38:09
      德國總理應(yīng)邀訪華,因出言不遜行程被壓縮!

      德國總理應(yīng)邀訪華,因出言不遜行程被壓縮!

      談芯說科技
      2026-02-24 23:51:25
      哀悼!王守仁逝世

      哀悼!王守仁逝世

      中國基金報
      2026-02-25 19:46:17
      引狼入室!巴拿馬強占中國港口,威脅香港員工:不走就抓人!

      引狼入室!巴拿馬強占中國港口,威脅香港員工:不走就抓人!

      我心縱橫天地間
      2026-02-25 23:29:08
      2026-02-26 13:27:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      302文章數(shù) 44關(guān)注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

      頭條要聞

      特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財經(jīng)要聞

      短劇市場風(fēng)云突變!有人投百萬賠得精光

      汽車要聞

      第五代宏光MINIEV煥新 四門玩趣代步車來襲

      態(tài)度原創(chuàng)

      本地
      旅游
      數(shù)碼
      公開課
      軍事航空

      本地新聞

      津南好·四時總相宜

      旅游要聞

      一整年都有新驚喜!上海迪士尼十周年慶典即將啟幕,三大娛樂演出煥新升級

      數(shù)碼要聞

      消息稱蘋果入門MacBook起售價699美元,不支持原彩顯示與快充

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美政府給新伊核協(xié)議設(shè)限內(nèi)容遭披露

      無障礙瀏覽 進入關(guān)懷版