網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

模型不是壁壘，Harness 也不是

2026-04-11 11:18:39　來源: 環(huán)球老虎財經(jīng)

上海舉報

分享至

先說明下，這篇文章有點費腦。

適合對AI趨勢感興趣、想搞懂2026年開發(fā)者圈在吵什么的人，得稍微跟著動動腦筋。

咱們從一個大家都有過的感受說起：用過 AI 寫代碼的人，多半經(jīng)歷過同一條情緒曲線：第一天覺得這玩意兒要革命，第三天開始罵街。

它會跑偏、反復(fù)犯同一個錯、忘了你三分鐘前說的要求，甚至項目做到一半，就突然跟你說「大功告成」。

大部分人的第一反應(yīng)：這模型不行，換一個更強的；但 2026 年初，海外開發(fā)者社區(qū)突然認(rèn)為，也許問題在模型外面那一圈東西。

他們給這圈東西起了個名字，叫 Harness。

Harness本意是馬具，就是韁繩、馬鞍、嚼子、馬蹄鐵那一套，用來駕馭馬匹的裝備。用在 AI 這兒，意思也差不多。比如：管理大模型的運行環(huán)境、工具接口、驗證機制、反饋回路、約束規(guī)則等等。

這個詞的走紅，有一條很清晰的時間線：

2026年2月5日，HashiCorp聯(lián)合創(chuàng)始人Mitchell Hashimoto發(fā)了一篇博客。這人很厲害，做過Terraform，全球開發(fā)者都在用的基礎(chǔ)設(shè)施工具，在基礎(chǔ)設(shè)施圈子里算是教父級人物。

他在博客里分享了自己用AI編程的經(jīng)歷，寫到第五步時說了一句話，大意是：Agent每次犯錯，別在提示詞里加一句「請你下次注意」，沒用。

不如去改環(huán)境，寫一條規(guī)則、加一個腳本，讓它從結(jié)構(gòu)上就沒法再犯同樣的錯；他管這叫Engineer the Harness（去設(shè)計那套駕馭系統(tǒng)）。

六天后，OpenAI跟進了。2月11日，他們發(fā)了一篇實驗報告，標(biāo)題直接用了Harness Engineering。

報告里說，三個工程師從空倉庫開始，五個月沒寫一行手動代碼，全靠OpenAI的編程Agent（Codex Agent生成），最后倉庫里攢了約一百萬行代碼，合并了1500個代碼合并請求，產(chǎn)品還有真實的日活用戶。

這三個人五個月里沒干啥別的，就是設(shè)計讓Agent寫代碼的環(huán)境。

之后，Martin Fowler站臺、LangChain（做AI應(yīng)用開發(fā)框架的公司）跟進，一個月之內(nèi)，這個詞就從一篇個人博客，變成了開發(fā)者圈的黑話。

那Harness具體能干嘛？最直觀的理解就是：讓Agent干不了壞事、記得住東西、做完有檢查、搞砸能回滾。

比如：約束這件事，OpenAI的實驗里，工程師要求代碼必須遵守分層架構(gòu)，每個模塊只能引用相鄰層。注意，這不是在提示詞里寫一句「請遵守分層架構(gòu)」，那沒用，Agent下一秒就忘。

他們把這條規(guī)則寫成了CI流水線里的自動化代碼檢查，Agent敢違反，代碼合并請求直接過不了。一條程序化的規(guī)則，比提示詞里一萬句叮囑都管用。

再比如記憶，大模型天生只有一種記憶，就是上下文窗口，滿了前面的內(nèi)容就被擠掉。OpenAI的做法是在倉庫里維護一套結(jié)構(gòu)化文檔，設(shè)計規(guī)范、架構(gòu)決策、執(zhí)行計劃全放里面，Agent隨時能查。

說白了，別指望金魚能記住事兒，你得在魚缸外面貼滿便簽。

最有意思的是驗證。Agent做完一件事，你問它「做得怎么樣」，它幾乎永遠會說「我做得很好」，這不是Anthropic的段子，是真的。

Agent評估自己的產(chǎn)出，總是盲目自信，哪怕在人看來質(zhì)量很一般。怎么辦？

Anthropic的解法有點像生成對抗網(wǎng)絡(luò)（一種讓兩個AI互相博弈的技術(shù)）：做事的和評判的分開，一個Agent寫，另一個專門挑毛病，選手和裁判不能是同一個人。

還有糾錯。Anthropic在做長時間運行的Agent時發(fā)現(xiàn)，Agent跑一半掉進死胡同是常事，硬做只會越錯越遠。他們的做法簡單粗暴但有效：

每次改動都走Git，卡住了就用Git回滾到上一個干凈狀態(tài)，然后直接換一個新Agent接手，只給它一張交接單，寫清楚前面做了什么、接下來該做什么。

不指望金魚能自我修復(fù)，直接換一條新的，再塞給它一張紙條，這些加起來，就是Harness。

聽起來好像也沒什么了不起，無非是規(guī)則、文檔、測試、回滾，都是軟件工程里早就有的東西。

但看一個數(shù)字你就懂了：LangChain用同一個模型，提示詞一個字沒改，只調(diào)整了外面那一圈，換了工具定義、改了上下文管理、加了錯誤恢復(fù)循環(huán)。

結(jié)果，在主流的編程能力基準(zhǔn)測試TerminalBench 2.0里，得分從52.8%漲到66.5%，排名從30名開外沖進前5。馬沒換，就換了套馬具，這個數(shù)字比任何解釋都有說服力。

概念火了之后，開發(fā)者社區(qū)迅速分成兩派，吵得挺兇的。

一派覺得 Harness 被吹過頭了。好玩的是，這派最猛的代言人，來自 Anthropic 自己家。

Boris Cherny，Claude Code 的創(chuàng)造者，就是那個目前市面上最火的 AI 編程工具，他做的，他在AI 工程圈很有影響力的播客社區(qū)的討論里，說了一段讓對面很不舒服的話，大意是：

Claude Code 的所有秘訣都在模型本身，它是模型上最薄的一層包裝，我們不可能做得比這更精簡了。

你品品，一幫人在喊「Harness就是一切」，結(jié)果做出最成功的Agent產(chǎn)品之一的人告訴你，他的產(chǎn)品基本沒有Harness，這多少有點打臉。

OpenAI的Noam Brown更直接，他說在推理模型上搭腳手架，很多時候都是添亂；模型的推理能力一直在飛速進步，你今天費半天勁搭的編排邏輯，過幾個月新模型出來，就成了絆腳石。

獨立測試也在幫這派說話：

專門做AI能力評估的機構(gòu)METR做了嚴(yán)格對比，結(jié)論是Claude Code和Codex，并沒有顯著贏過一個基礎(chǔ)腳手架。

Scale AI的SWE-Atlas測試結(jié)論更扎心，你換哪個Harness框架，差距基本在誤差范圍內(nèi)，說白了，折騰半天跟沒折騰一樣。

聽到這，你可能會想，得，Harness就是個營銷概念吧？

別急，還有更離譜的實驗。安全研究員Can Boluk做了個叫Hashline的實驗，他沒碰模型、沒改提示詞，就改了一件事，Agent編輯代碼的格式。

怎么改的？他給每行代碼加了2到3個字符的哈希標(biāo)識，Agent改代碼時不用復(fù)述整行，只需要說「把2:f1那行換成這個」就行。

就這一個小改動，一個模型的編程得分從6.7%漲到了68.3%，模型權(quán)重一個字節(jié)沒動過。你說Harness有沒有用？

另一家做AI應(yīng)用框架的公司LlamaIndex，創(chuàng)始人直接喊口號：模型的駕馭系統(tǒng)就是一切。他說自己一個下午優(yōu)化Harness，15個大模型的編碼能力全漲了。

這派還有一張最硬的商業(yè)牌，Cursor。

這家公司沒有自己的基礎(chǔ)模型，底層用Anthropic和OpenAI的能力，相當(dāng)于用別人的馬，但它靠模型上面那一層Harness，2025年底估值到了293億美元，2026年3月在談500億，年化收入突破20億美元，超過半數(shù)財富500強都在用來。

它的護城河在哪？在馬具。

所以到底誰對？我覺得他們在說不同層面的東西，你把兩邊的論據(jù)攤開看，會發(fā)現(xiàn)一個很有意思的事情。

Boris Cherny 說 Claude Code 是「最薄的包裝」，這確實沒撒謊。Claude Code 的產(chǎn)品架構(gòu)就是簡單，沒有什么花哨的多步編排邏輯。

但你去看Boris Cherny自己怎么用Claude Code，就不一樣了：他日常同時開10到15個Claude Code會話，5個在終端里跑，5到10個在瀏覽器里，還有幾個在手機上。

他用自動化鉤子，每次保存代碼后自動格式化；用規(guī)劃模式，強制Agent先出方案再動手，方案沒批準(zhǔn)就不能寫一行代碼；甚至用子Agent做代碼審查，讓Agent檢查Agent的活；還把Agent接上瀏覽器自動化工具，讓它自己打開瀏覽器跑測試，看看寫的東西能不能用。

他自己都說：給模型一種驗證自身工作的方式，質(zhì)量能提升兩到三倍。你說這不是Harness？

說白了，Boris Cherny說的「薄」，是產(chǎn)品架構(gòu)層面的薄；而對面說的「厚」，是工程實踐層面的厚。

產(chǎn)品可以很薄，實際用時，必須在模型周圍建立規(guī)則、驗證、反饋循環(huán)，它才能在真實項目里不翻車，這兩件事一點都不矛盾。

就像賽車手說「我的車底盤結(jié)構(gòu)很簡單」，但每次上賽道前，都要花三個小時調(diào)懸掛、調(diào)胎壓、調(diào)剎車平衡。

其實爭論「模型重要還是Harness重要」，本身就有點無聊，就像爭論發(fā)動機重要還是底盤重要一樣，開過車的人都不會問這種問題。

但是，等一下，如果 Harness 真有那么重要，有一件事就說不通了：為什么做得最好的那些團隊，反而一直在拆掉自己搭的 Harness？

Manus 你應(yīng)該聽過。

他們半年重寫了五次Harness，每次都是砍功能，用通用的Shell執(zhí)行，替換掉復(fù)雜的工具定義；用結(jié)構(gòu)化的交接文件，替換掉管理型Agent，越做越簡單。

Next.js背后的公司，在他們的v0產(chǎn)品里刪掉了80%的Agent工具，效果反而更好；Anthropic自己也在干這事，Boris Cherny說Claude Code的代碼每三到四周就重寫一次。

為什么要重寫？

因為新版本模型出來后，上一版Harness里的很多邏輯，已經(jīng)被模型內(nèi)化了，那些代碼就成了多余的，不切掉反而礙事。

這就和前面說的「Harness就是一切」矛盾了。如果它是壁壘，為什么大家都在拆？因為Harness本身，根本不是壁壘。

Anthropic的研究員Nicholas Carlini，用Claude的上一代旗艦?zāi)Ｐ蚈pus 4.5時，做出了一個能用的編譯器；后來換成Opus 4.6，同樣的任務(wù)，產(chǎn)出能編譯Linux內(nèi)核了。

關(guān)鍵是，每升一級模型，他都得重新設(shè)計Harness。

因為模型變強了，舊Harness里那些「保護性」的邏輯，就變成了約束，限制了新模型本來能自主完成的事。他反復(fù)強調(diào)：設(shè)計Harness時，得站在Claude的角度想。

這揭示了一個不太舒服的真相：

今天精心設(shè)計的Harness，大概率會被下一代模型「吃掉」；今天你需要規(guī)則防止Agent搞亂架構(gòu)，明天新模型可能天生就知道不該這么做；今天你得用專門的評審Agent檢查質(zhì)量，后天模型自己的自我評估可能就靠譜了。

反過來也成立。

LangChain在調(diào)Harness的過程中，積累了大量執(zhí)行軌跡數(shù)據(jù)：哪些路徑成功、哪些模式失敗、工具調(diào)用的序列是什么、Agent卡在哪一步、為什么卡住？

這些數(shù)據(jù)很有價值，能反饋回模型訓(xùn)練，讓下一代模型更適配這個工作環(huán)境；LangChain自己也說：模型和Harness，正在共同進化。

所以真正的情況是：

模型在吃Harness，Harness也在喂模型，它們像一條咬住自己尾巴的蛇，誰也停不下來。

真正壁壘在于蛇轉(zhuǎn)動的速度，誰能更快發(fā)現(xiàn)Agent的失敗模式，把它編碼進環(huán)境，再用環(huán)境跑出來的數(shù)據(jù)喂給下一代模型，讓這個飛輪再轉(zhuǎn)一圈，誰就贏了。

Cursor 值那么多錢，因為幾百萬開發(fā)者每天在上面寫代碼，每一次使用都在給這個飛輪加燃料，它積累的不是 Harness，是飛輪的轉(zhuǎn)速。

說到底，所有人都在爭「馬重要還是馬具重要」，但真正跑在前面的人，早就不關(guān)心這個了；他們關(guān)心，換馬具的速度有多快，以及換下來的舊馬具里攢下的經(jīng)驗，能不能讓馬跑得更快。

這條蛇還在轉(zhuǎn)，而且越轉(zhuǎn)越快。嗯，整個事情就是這樣；就在我寫完這篇文章的時候，Anthropic 昨天把 Harness 做成產(chǎn)品發(fā)布了出來。

責(zé)任編輯 | 張博然

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

大爺駕駛MPV強穿掛壁公路，出來時全車被刮花

荔枝新聞 2026-04-22 05:14:55
201 跟貼 201
中國軍艦大片震撼上新：雷達一開周圍都是透明的

環(huán)球網(wǎng)資訊 2026-04-22 09:00:22
2213 跟貼 2213

謝鋒:中國大蒜做夢也沒想到會被美列為"國家安全威脅"

極目新聞 2026-04-22 08:45:19
367 跟貼 367

"取消午休改16點下班"火了上海人一針見血

魯中晨報 2026-04-22 14:28:23
352 跟貼 352
云南一幼童十余天反復(fù)咳痰帶血，氣管內(nèi)取出8厘米活體蠕動螞蟥

澎湃新聞 2026-04-22 11:02:28
1647 跟貼 1647

寧馬線開通場面太火爆，有乘客等三趟車沒擠上

現(xiàn)代快報 2026-04-22 14:20:23
306 跟貼 306

定了！廣州一年級七年級新生不分重點班

南方都市報 2026-04-22 16:51:55
714 跟貼 714
前房產(chǎn)中介、裝修從業(yè)者揭秘“串串房”：大多在回遷房、老小區(qū)，二房東公司化運作，有手上數(shù)百套房源，正規(guī)中介不做這生意

都市快報橙柿互動 2026-04-22 20:25:46
85 跟貼 85

專家號剛放出就瞬間"秒空" 上海三甲醫(yī)院緊急報警

大風(fēng)新聞 2026-04-22 15:12:13
0 跟貼 0
黎巴嫩再成戰(zhàn)場民眾：在這沒有人沒有失去過親近的人

新京報 2026-04-20 08:22:24
878 跟貼 878
英國議會通過法案，2008年后出生者終身不得購煙

澎湃新聞 2026-04-22 14:53:04
984 跟貼 984
【諸城故事】春茶飄香引客來茶旅融合促振興——諸城以茶為媒賦能鄉(xiāng)村高質(zhì)量發(fā)展

半島官網(wǎng) 2026-04-22 17:44:43
0 跟貼 0
戰(zhàn)后日本首次在境外發(fā)射進攻型導(dǎo)彈

北京青年報 2026-04-22 22:28:46
93 跟貼 93
茶顏悅色深圳店用機械臂搖奶茶，有人凌晨4點半排隊：炒到100一杯

星視頻 2026-04-22 11:46:47
193 跟貼 193
湖南一高中生200米跑出20.99秒破紀(jì)錄，教練：他曾想放棄高考去打工

瀟湘晨報 2026-04-22 13:16:27
255 跟貼 255
深圳福田燈光秀將暫停5個月，預(yù)計國慶回歸

南方都市報 2026-04-22 11:17:53
170 跟貼 170
樓市去庫存成效正在顯現(xiàn)

經(jīng)濟日報 2026-04-22 06:55:13
198 跟貼 198
乘聯(lián)分會：4月1-19日全國乘用車市場零售62.7萬輛同比下降26%

財聯(lián)社 2026-04-22 16:38:09
118 跟貼 118
“東鵬0糖特飲”是商標(biāo)，客服：商標(biāo)注冊為品牌保護，原罐裝0糖特飲已暫停售賣

界面新聞 2026-04-22 21:43:04
1 跟貼 1
張雪發(fā)視頻解釋裝配失誤，“我們的責(zé)任，沒有培訓(xùn)好”，近300輛820RR部件裝反被召回

界面新聞 2026-04-22 17:34:11
170 跟貼 170
國家疾控局：4月以來流感病毒和鼻病毒呈上升趨勢

央視新聞客戶端 2026-04-22 15:13:09
137 跟貼 137
法國將舉辦2031年男籃世界杯

央視新聞客戶端 2026-04-22 19:47:11
3 跟貼 3
格力回應(yīng)鋁線電機爭議：相關(guān)工程機已停產(chǎn)，海信稱靠多三兩銅多500元時代已終結(jié)

紅星資本局 2026-04-21 20:40:16
0 跟貼 0

失業(yè)后在小縣城的兩年發(fā)現(xiàn)，打麻將和性生活才是普通人底色！

環(huán)球老虎財經(jīng)

全球財經(jīng)資訊的中文分析平臺

18109文章數(shù) 56525關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

親子

教育

藝術(shù)

軍事航空

手機 / 數(shù)碼

房產(chǎn) / 家居

模型不是壁壘，Harness 也不是

對話梅濤：沒有視頻底座，具身智能走不遠

伊朗：特朗普“又說謊了”

伊朗：特朗普“又說謊了”

網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

蜜雪冰城泰國代言人 被扒出辱華黑歷史

醫(yī)院專家號"秒空"！警方牽出黑色產(chǎn)業(yè)鏈

純電續(xù)航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

春色滿城關(guān)不住｜白鵑梅浪漫盛放，吳山藏了一片四月雪

媽媽看不到的時候，孩子能拒絕才真的放心！

3分鐘學(xué)會一個雅思7分句/段（第340期）

看！這些美女的眼神能讓你心醉神迷！

特朗普宣布延長停火 伊朗表態(tài)

蜜雪冰城泰國代言人被扒出辱華黑歷史

純電續(xù)航301km+激光雷達宋Pro DM-i飛馳版9.99萬起

特朗普宣布延長停火伊朗表態(tài)