這篇文章的思路來自 Philipp Schmid,由 minghao 推薦https://www.philschmid.de/agent-harness-2026
很多人,會有這個體驗
有些模型,在排行榜上分數(shù)很高,但實際用起來經(jīng)常翻車
問個問題還行,讓干活就開始犯蠢
原因很簡單
排行榜測的是單輪能力,或者幾輪簡單交互
但真實場景里,你讓 Agent 跑一個復(fù)雜任務(wù),可能要調(diào)用幾十上百次工具,跑幾個小時
排行榜 1% 的差距,測不出 50 步之后的差異
這就是「持久性」問題
有些模型,可能足夠聰明,一兩次嘗試就能解開難題
但跑了一個小時后,可能無法遵循最初的指令,或者在中間步驟的推理出錯
怎么解決?
Philipp Schmid 提了一個概念,叫 Agent Harness
Harness 是什么
Harness 本意是馬具、挽具,引申為「駕馭某物的裝置」
軟件領(lǐng)域最常見的用法是 test harness 測試框架
Agent Harness 是同樣的思路:
包裹在 AI 模型外層,管理 Agent 長周期運行的基礎(chǔ)設(shè)施層
用計算機來類比:
模型是 CPU,提供原始算力
上下文窗口是內(nèi)存,有限的、易失的工作記憶
Agent Harness 是操作系統(tǒng),管理上下文、處理啟動流程、提供標準驅(qū)動
Agent 是應(yīng)用程序,運行在操作系統(tǒng)之上的具體用戶邏輯
![]()
Philipp Schmid 畫的示意圖,一目了然
Harness 的層級比 Agent 框架更高
框架提供的是構(gòu)建模塊,工具接口、Agent 循環(huán)的實現(xiàn)
Harness 提供的是預(yù)設(shè) Prompt、工具調(diào)用的規(guī)范化處理、生命周期鉤子,以及開箱即用的能力,規(guī)劃、文件系統(tǒng)訪問、子 Agent 管理
對開發(fā)者來說,這意味著可以跳過「造操作系統(tǒng)」,直接專注于定義 Agent 的獨特邏輯
目前通用型 Harness 還很少。Claude Code 是這個品類的典型代表,Claude Agent SDK 和 LangChain DeepAgents 也在嘗試標準化
Harness 能做三件事
驗證真實進展
新模型頻繁發(fā)布,Harness 讓用戶能快速測試最新模型在自己場景下的表現(xiàn),而不是看排行榜猜
釋放模型潛力
沒有 Harness,用戶體驗可能落后于模型能力。好的 Harness 讓開發(fā)者能用經(jīng)過驗證的工具和最佳實踐來構(gòu)建 Agent
創(chuàng)造反饋閉環(huán)
Harness 把模糊的、多步驟的 Agent 工作流轉(zhuǎn)化為可記錄、可評分的結(jié)構(gòu)化數(shù)據(jù)。哪一步出了問題,一目了然
苦澀教訓(xùn)
Rich Sutton 寫過一篇文章叫《苦澀的教訓(xùn)》
核心觀點:利用算力的通用方法,每次都能打敗手工編碼的人類知識
這個教訓(xùn)正在 Agent 開發(fā)領(lǐng)域上演
Manus 在六個月內(nèi)重構(gòu)了五次 Harness,去除僵化的假設(shè)
LangChain 一年內(nèi)重新架構(gòu)了三次「Open Deep Research」Agent
Vercel 砍掉了 80% 的 Agent 工具,換來更少的步驟、更少的 Token、更快的響應(yīng)
每次新模型發(fā)布,都有不同的最優(yōu) Agent 架構(gòu)方式
2024 年需要復(fù)雜手工流水線的能力,到 2026 年可能只需要一個上下文窗口內(nèi)的 Prompt 就能搞定
如果過度設(shè)計控制流,下一次模型更新就會讓系統(tǒng)崩潰
怎么做
至于該怎么做,原作者給到了三條原則:
從簡單開始
不要構(gòu)建龐大的控制流。提供健壯的原子工具,讓模型自己規(guī)劃。實現(xiàn)護欄、重試和驗證
為刪除而構(gòu)建
讓架構(gòu)模塊化。新模型會替代你的邏輯,必須隨時準備好撕掉代碼
Harness 就是數(shù)據(jù)集
競爭優(yōu)勢不再是 Prompt,而是 Harness 捕獲的軌跡數(shù)據(jù)。每一次 Agent 在工作流后期未能遵循指令的失敗案例,都可以用來訓(xùn)練下一代模型
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.