網易首頁 > 網易號 > 正文申請入駐

模型不是壁壘，Harness 也不是

2026-04-10 09:27:32　來源: 智遠同學

北京舉報

分享至

文：王智遠 | ID:Z201440

先說明下，這篇文章有點費腦。

適合對AI趨勢感興趣、想搞懂2026年開發者圈在吵什么的人，得稍微跟著動動腦筋。

咱們從一個大家都有過的感受說起：用過 AI 寫代碼的人，多半經歷過同一條情緒曲線：第一天覺得這玩意兒要革命，第三天開始罵街。

它會跑偏、反復犯同一個錯、忘了你三分鐘前說的要求，甚至項目做到一半，就突然跟你說「大功告成」。

大部分人的第一反應：這模型不行，換一個更強的；但 2026 年初，海外開發者社區突然認為，也許問題在模型外面那一圈東西。

他們給這圈東西起了個名字，叫 Harness。

01

Harness本意是馬具，就是韁繩、馬鞍、嚼子、馬蹄鐵那一套，用來駕馭馬匹的裝備。用在 AI 這兒，意思也差不多。比如：管理大模型的運行環境、工具接口、驗證機制、反饋回路、約束規則等等。

這個詞的走紅，有一條很清晰的時間線：

2026年2月5日，HashiCorp聯合創始人Mitchell Hashimoto發了一篇博客。這人很厲害，做過Terraform，全球開發者都在用的基礎設施工具，在基礎設施圈子里算是教父級人物。

他在博客里分享了自己用AI編程的經歷，寫到第五步時說了一句話，大意是：Agent每次犯錯，別在提示詞里加一句「請你下次注意」，沒用。

不如去改環境，寫一條規則、加一個腳本，讓它從結構上就沒法再犯同樣的錯；他管這叫Engineer the Harness（去設計那套駕馭系統）。

六天后，OpenAI跟進了。2月11日，他們發了一篇實驗報告，標題直接用了Harness Engineering。

報告里說，三個工程師從空倉庫開始，五個月沒寫一行手動代碼，全靠OpenAI的編程Agent（Codex Agent生成），最后倉庫里攢了約一百萬行代碼，合并了1500個代碼合并請求，產品還有真實的日活用戶。

這三個人五個月里沒干啥別的，就是設計讓Agent寫代碼的環境。

之后，Martin Fowler站臺、LangChain（做AI應用開發框架的公司）跟進，一個月之內，這個詞就從一篇個人博客，變成了開發者圈的黑話。

那Harness具體能干嘛？最直觀的理解就是：讓Agent干不了壞事、記得住東西、做完有檢查、搞砸能回滾。

比如：約束這件事，OpenAI的實驗里，工程師要求代碼必須遵守分層架構，每個模塊只能引用相鄰層。注意，這不是在提示詞里寫一句「請遵守分層架構」，那沒用，Agent下一秒就忘。

他們把這條規則寫成了CI流水線里的自動化代碼檢查，Agent敢違反，代碼合并請求直接過不了。一條程序化的規則，比提示詞里一萬句叮囑都管用。

再比如記憶，大模型天生只有一種記憶，就是上下文窗口，滿了前面的內容就被擠掉。OpenAI的做法是在倉庫里維護一套結構化文檔，設計規范、架構決策、執行計劃全放里面，Agent隨時能查。

說白了，別指望金魚能記住事兒，你得在魚缸外面貼滿便簽。

最有意思的是驗證。Agent做完一件事，你問它「做得怎么樣」，它幾乎永遠會說「我做得很好」，這不是Anthropic的段子，是真的。

Agent評估自己的產出，總是盲目自信，哪怕在人看來質量很一般。怎么辦？

Anthropic的解法有點像生成對抗網絡（一種讓兩個AI互相博弈的技術）：做事的和評判的分開，一個Agent寫，另一個專門挑毛病，選手和裁判不能是同一個人。

還有糾錯。Anthropic在做長時間運行的Agent時發現，Agent跑一半掉進死胡同是常事，硬做只會越錯越遠。他們的做法簡單粗暴但有效：

每次改動都走Git，卡住了就用Git回滾到上一個干凈狀態，然后直接換一個新Agent接手，只給它一張交接單，寫清楚前面做了什么、接下來該做什么。

不指望金魚能自我修復，直接換一條新的，再塞給它一張紙條，這些加起來，就是Harness。

聽起來好像也沒什么了不起，無非是規則、文檔、測試、回滾，都是軟件工程里早就有的東西。

但看一個數字你就懂了：LangChain用同一個模型，提示詞一個字沒改，只調整了外面那一圈，換了工具定義、改了上下文管理、加了錯誤恢復循環。

結果，在主流的編程能力基準測試TerminalBench 2.0里，得分從52.8%漲到66.5%，排名從30名開外沖進前5。馬沒換，就換了套馬具，這個數字比任何解釋都有說服力。

02

概念火了之后，開發者社區迅速分成兩派，吵得挺兇的。

一派覺得 Harness 被吹過頭了。好玩的是，這派最猛的代言人，來自 Anthropic 自己家。

Boris Cherny，Claude Code 的創造者，就是那個目前市面上最火的 AI 編程工具，他做的，他在AI 工程圈很有影響力的播客社區的討論里，說了一段讓對面很不舒服的話，大意是：

Claude Code 的所有秘訣都在模型本身，它是模型上最薄的一層包裝，我們不可能做得比這更精簡了。

你品品，一幫人在喊「Harness就是一切」，結果做出最成功的Agent產品之一的人告訴你，他的產品基本沒有Harness，這多少有點打臉。

OpenAI的Noam Brown更直接，他說在推理模型上搭腳手架，很多時候都是添亂；模型的推理能力一直在飛速進步，你今天費半天勁搭的編排邏輯，過幾個月新模型出來，就成了絆腳石。

獨立測試也在幫這派說話：

專門做AI能力評估的機構METR做了嚴格對比，結論是Claude Code和Codex，并沒有顯著贏過一個基礎腳手架。

Scale AI的SWE-Atlas測試結論更扎心，你換哪個Harness框架，差距基本在誤差范圍內，說白了，折騰半天跟沒折騰一樣。

聽到這，你可能會想，得，Harness就是個營銷概念吧？

別急，還有更離譜的實驗。安全研究員Can Boluk做了個叫Hashline的實驗，他沒碰模型、沒改提示詞，就改了一件事，Agent編輯代碼的格式。

怎么改的？他給每行代碼加了2到3個字符的哈希標識，Agent改代碼時不用復述整行，只需要說「把2:f1那行換成這個」就行。

就這一個小改動，一個模型的編程得分從6.7%漲到了68.3%，模型權重一個字節沒動過。你說Harness有沒有用？

另一家做AI應用框架的公司LlamaIndex，創始人直接喊口號：模型的駕馭系統就是一切。他說自己一個下午優化Harness，15個大模型的編碼能力全漲了。

這派還有一張最硬的商業牌，Cursor。

這家公司沒有自己的基礎模型，底層用Anthropic和OpenAI的能力，相當于用別人的馬，但它靠模型上面那一層Harness，2025年底估值到了293億美元，2026年3月在談500億，年化收入突破20億美元，超過半數財富500強都在用來。

它的護城河在哪？在馬具。

所以到底誰對？我覺得他們在說不同層面的東西，你把兩邊的論據攤開看，會發現一個很有意思的事情。

Boris Cherny 說 Claude Code 是「最薄的包裝」，這確實沒撒謊。Claude Code 的產品架構就是簡單，沒有什么花哨的多步編排邏輯。

但你去看Boris Cherny自己怎么用Claude Code，就不一樣了：他日常同時開10到15個Claude Code會話，5個在終端里跑，5到10個在瀏覽器里，還有幾個在手機上。

他用自動化鉤子，每次保存代碼后自動格式化；用規劃模式，強制Agent先出方案再動手，方案沒批準就不能寫一行代碼；甚至用子Agent做代碼審查，讓Agent檢查Agent的活；還把Agent接上瀏覽器自動化工具，讓它自己打開瀏覽器跑測試，看看寫的東西能不能用。

他自己都說：給模型一種驗證自身工作的方式，質量能提升兩到三倍。你說這不是Harness？

說白了，Boris Cherny說的「薄」，是產品架構層面的薄；而對面說的「厚」，是工程實踐層面的厚。

產品可以很薄，實際用時，必須在模型周圍建立規則、驗證、反饋循環，它才能在真實項目里不翻車，這兩件事一點都不矛盾。

就像賽車手說「我的車底盤結構很簡單」，但每次上賽道前，都要花三個小時調懸掛、調胎壓、調剎車平衡。

其實爭論「模型重要還是Harness重要」，本身就有點無聊，就像爭論發動機重要還是底盤重要一樣，開過車的人都不會問這種問題。

03

但是，等一下，如果 Harness 真有那么重要，有一件事就說不通了：為什么做得最好的那些團隊，反而一直在拆掉自己搭的 Harness？

Manus 你應該聽過。

他們半年重寫了五次Harness，每次都是砍功能，用通用的Shell執行，替換掉復雜的工具定義；用結構化的交接文件，替換掉管理型Agent，越做越簡單。

Next.js背后的公司，在他們的v0產品里刪掉了80%的Agent工具，效果反而更好；Anthropic自己也在干這事，Boris Cherny說Claude Code的代碼每三到四周就重寫一次。

為什么要重寫？

因為新版本模型出來后，上一版Harness里的很多邏輯，已經被模型內化了，那些代碼就成了多余的，不切掉反而礙事。

這就和前面說的「Harness就是一切」矛盾了。如果它是壁壘，為什么大家都在拆？因為Harness本身，根本不是壁壘。

Anthropic的研究員Nicholas Carlini，用Claude的上一代旗艦模型Opus 4.5時，做出了一個能用的編譯器；后來換成Opus 4.6，同樣的任務，產出能編譯Linux內核了。

關鍵是，每升一級模型，他都得重新設計Harness。

因為模型變強了，舊Harness里那些「保護性」的邏輯，就變成了約束，限制了新模型本來能自主完成的事。他反復強調：設計Harness時，得站在Claude的角度想。

這揭示了一個不太舒服的真相：

今天精心設計的Harness，大概率會被下一代模型「吃掉」；今天你需要規則防止Agent搞亂架構，明天新模型可能天生就知道不該這么做；今天你得用專門的評審Agent檢查質量，后天模型自己的自我評估可能就靠譜了。

反過來也成立。

LangChain在調Harness的過程中，積累了大量執行軌跡數據：哪些路徑成功、哪些模式失敗、工具調用的序列是什么、Agent卡在哪一步、為什么卡住？

這些數據很有價值，能反饋回模型訓練，讓下一代模型更適配這個工作環境；LangChain自己也說：模型和Harness，正在共同進化。

所以真正的情況是：

模型在吃Harness，Harness也在喂模型，它們像一條咬住自己尾巴的蛇，誰也停不下來。

真正壁壘在于蛇轉動的速度，誰能更快發現Agent的失敗模式，把它編碼進環境，再用環境跑出來的數據喂給下一代模型，讓這個飛輪再轉一圈，誰就贏了。

Cursor 值那么多錢，因為幾百萬開發者每天在上面寫代碼，每一次使用都在給這個飛輪加燃料，它積累的不是 Harness，是飛輪的轉速。

說到底，所有人都在爭「馬重要還是馬具重要」，但真正跑在前面的人，早就不關心這個了；他們關心，換馬具的速度有多快，以及換下來的舊馬具里攢下的經驗，能不能讓馬跑得更快。

這條蛇還在轉，而且越轉越快。嗯，整個事情就是這樣；就在我寫完這篇文章的時候，Anthropic 昨天把 Harness 做成產品發布了出來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大廠資深程序員，“未來碼農的優勢可能是比AI更便宜”

新周刊 2026-04-20 09:07:23
0 跟貼 0
Codex產品負責人：小型團隊不再需要PM，招了就危險了

智東西 2026-04-19 15:43:09
20 跟貼 20

讓兩個大模型在線吵架，跑通全網95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0

倫理防線不可靠！分布偏移誘導，大模型進入暗黑模式

新智元 2026-04-18 18:17:38
0 跟貼 0
榮耀奪冠、機器人半馬跑贏人類，但最關鍵的比賽不在亦莊

華爾街見聞官方 2026-04-19 10:47:36
363 跟貼 363

Opus 4.7重新登頂榜單，但強得多的GPT-5.5極大概率下周就發

新智元 2026-04-19 19:05:24
7 跟貼 7

開源插件引爆大模型暗戰：Claude?mem爆紅背后，是 AI 大廠最不想公開的賺錢秘密

鈦媒體APP 2026-04-20 08:32:38
0 跟貼 0
智元機器人，要做AI大模型平臺和開放生態

36氪 2026-04-18 10:05:08
1 跟貼 1

Alpha世代的教育新邏輯：先有AI大腦，身體會慢慢長出來

芥末堆看教育 2026-04-16 09:35:15
0 跟貼 0
中國創造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
0 跟貼 0
攻防技術同源！在 C3 安全大會上，亞信要用 AI 去對抗 AI

雷科技 2026-04-18 22:26:37
0 跟貼 0
教龍蝦玩手機！打通GUI智能體訓練-評測-部署全流程，一站解決

量子位 2026-04-19 12:23:00
0 跟貼 0
支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
世界引擎：Post-Training開啟Physical AGI新紀元

機器之心Pro 2026-04-19 20:00:03
0 跟貼 0
從實驗室到城市道路：高德“途途”亮相人形機器人“半馬”，揭開阿里具身智能全棧野心

每日經濟新聞 2026-04-19 20:15:04
5 跟貼 5
零門檻AI創作平臺“靈珠”開啟第一次內測

鈦媒體APP 2026-04-20 09:15:06
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
加一行代碼，不放回充電槍收費加倍，下回就老實了！

凌霄淺談生活 2026-04-19 09:48:04
0 跟貼 0
中國張雪機車逆襲，規則能否阻擋熱血？

老涺學科普 2026-04-19 08:25:59
1 跟貼 1
編程智能體的隱藏bug，被上交IPADS團隊用數學邏輯給揪出來了

DeepTech深科技 2026-04-18 11:18:39
0 跟貼 0
性能真的不重要了嗎？Jeff Dean給出反常答案

新智元 2025-12-28 17:20:51
0 跟貼 0
12萬噸不是吹？中國航母四號艦輪廓曝光，改寫海戰規則！

二叔胡侃 2026-04-18 20:07:30
1 跟貼 1
印度油輪在霍爾木茲遭炮擊船員喊話伊朗海軍錄音公布

紅星新聞 2026-04-19 17:03:18
14895 跟貼 14895
買房邏輯已變，我們如何應對？

搞笑枇杷 2026-04-20 02:44:58
0 跟貼 0
三層防御仍然不夠，一條PR標題就能偷走你的API密鑰：AI Agent安全裂痕再現

鈦媒體APP 2026-04-18 10:44:12
0 跟貼 0
龍蝦之戰進入深水區，產品完成度是下一個賽點

鈦媒體APP 2026-04-18 08:48:14
0 跟貼 0
為什么沒人敢招惹以色列？答案很簡單，這四重壁壘給了他們底氣！

無悔的燦爛人生 2026-04-17 20:09:07
0 跟貼 0
Cell：鄧宏魁院士團隊發現，p53是人類細胞化學重編程的保護因子

生物世界 2026-04-18 09:09:54
0 跟貼 0
河北家長醒醒！教育廳“白名單”背后的故事！

真語方策 2026-04-19 16:48:22
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
美國警察實拍，六車道沒一輛敢開過去，真正的規則威懾力！

晨曦看生活 2026-04-19 09:09:05
0 跟貼 0
《生命樹》為什么全網都在責怪白菊，難到沒人夸夸楊紫的演

麥芽是個小趴菜 2026-04-19 05:47:46
0 跟貼 0
先脫帽然后，再畫一條浪漫的曲線，獨屬中國人的浪漫！

趣萌生活館 2026-04-19 18:00:44
1 跟貼 1
川崎 H2R模型摩托

制造科技 2026-04-16 21:58:46
15 跟貼 15
美國曲線求和，根子在美軍登陸伊朗失敗了！

星火聊天下 2026-04-19 09:59:45
0 跟貼 0
程序員：好消息是我的代碼能跑了，壞消息是我跑不過我的代碼

重慶頭條官方 2026-04-19 20:24:03
0 跟貼 0
數學藝術作品賞析8：Benjamin Johnso的函數木雕

宇宙文明領路人 2026-04-15 21:03:05
0 跟貼 0
比賽提前結束，WSBK荷蘭站第二輪正賽張雪機車斬獲第七名

澎湃新聞 2026-04-19 20:28:26
4409 跟貼 4409
網購的2800多元垃圾桶退貨時被申通弄壞商家拒收后天貓極速退款變欠款網購退貨在途風險該誰擔

信網 2026-04-19 14:15:08
568 跟貼 568

智遠同學

暢銷書《復利思維》作者；精神生活與商業探索，關注科技人文、消費電商、品牌營銷、商業認知思維等方面。

678文章數 146關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

健康

手機

游戲

軍事航空

手機 / 數碼

房產 / 家居

模型不是壁壘，Harness 也不是

01

02

03

藍色起源一級火箭完美回收 客戶衛星未入軌

媒體：日本近期一系列危險動作挑釁中國 中國需警惕

媒體：日本近期一系列危險動作挑釁中國 中國需警惕

湖人1比0火箭：老詹比烏度卡像教練

何潤東漲粉百萬！內娛隔空掀桌第一人

月之暗面IPO迷局

29分鐘大定破萬 極氪8X為什么這么多人買？

態度原創

今年最流行的衣服竟然是它？高級又氣質！

干細胞抗衰4大誤區,90%的人都中招

紅米K100系列再次曝光：BOSE揚聲器+超強馬達，沖高不靠風扇！

《最后的生還者》前員工爆料：艾莉并非唯一免疫者！

特朗普:美艦向伊朗貨船開火炸出個洞

藍色起源一級火箭完美回收客戶衛星未入軌

媒體：日本近期一系列危險動作挑釁中國中國需警惕

媒體：日本近期一系列危險動作挑釁中國中國需警惕

29分鐘大定破萬極氪8X為什么這么多人買？