<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      模型不是壁壘,Harness 也不是

      0
      分享至

      先說明下,這篇文章有點費腦。

      適合對AI趨勢感興趣、想搞懂2026年開發(fā)者圈在吵什么的人,得稍微跟著動動腦筋。

      咱們從一個大家都有過的感受說起:用過 AI 寫代碼的人,多半經(jīng)歷過同一條情緒曲線:第一天覺得這玩意兒要革命,第三天開始罵街。

      它會跑偏、反復(fù)犯同一個錯、忘了你三分鐘前說的要求,甚至項目做到一半,就突然跟你說「大功告成」。

      大部分人的第一反應(yīng):這模型不行,換一個更強的;但 2026 年初,海外開發(fā)者社區(qū)突然認(rèn)為,也許問題在模型外面那一圈東西。

      他們給這圈東西起了個名字,叫 Harness。

      Harness本意是馬具,就是韁繩、馬鞍、嚼子、馬蹄鐵那一套,用來駕馭馬匹的裝備。用在 AI 這兒,意思也差不多。比如:管理大模型的運行環(huán)境、工具接口、驗證機制、反饋回路、約束規(guī)則等等。

      這個詞的走紅,有一條很清晰的時間線:

      2026年2月5日,HashiCorp聯(lián)合創(chuàng)始人Mitchell Hashimoto發(fā)了一篇博客。這人很厲害,做過Terraform,全球開發(fā)者都在用的基礎(chǔ)設(shè)施工具,在基礎(chǔ)設(shè)施圈子里算是教父級人物。

      他在博客里分享了自己用AI編程的經(jīng)歷,寫到第五步時說了一句話,大意是:Agent每次犯錯,別在提示詞里加一句「請你下次注意」,沒用。

      不如去改環(huán)境,寫一條規(guī)則、加一個腳本,讓它從結(jié)構(gòu)上就沒法再犯同樣的錯;他管這叫Engineer the Harness(去設(shè)計那套駕馭系統(tǒng))。

      六天后,OpenAI跟進了。2月11日,他們發(fā)了一篇實驗報告,標(biāo)題直接用了Harness Engineering。

      報告里說,三個工程師從空倉庫開始,五個月沒寫一行手動代碼,全靠OpenAI的編程Agent(Codex Agent生成),最后倉庫里攢了約一百萬行代碼,合并了1500個代碼合并請求,產(chǎn)品還有真實的日活用戶。

      這三個人五個月里沒干啥別的,就是設(shè)計讓Agent寫代碼的環(huán)境。

      之后,Martin Fowler站臺、LangChain(做AI應(yīng)用開發(fā)框架的公司)跟進,一個月之內(nèi),這個詞就從一篇個人博客,變成了開發(fā)者圈的黑話。

      那Harness具體能干嘛?直觀的理解就是:讓Agent干不了壞事、記得住東西、做完有檢查、搞砸能回滾。

      比如:約束這件事,OpenAI的實驗里,工程師要求代碼必須遵守分層架構(gòu),每個模塊只能引用相鄰層。注意,這不是在提示詞里寫一句「請遵守分層架構(gòu)」,那沒用,Agent下一秒就忘。

      他們把這條規(guī)則寫成了CI流水線里的自動化代碼檢查,Agent敢違反,代碼合并請求直接過不了。一條程序化的規(guī)則,比提示詞里一萬句叮囑都管用。

      再比如記憶,大模型天生只有一種記憶,就是上下文窗口,滿了前面的內(nèi)容就被擠掉。OpenAI的做法是在倉庫里維護一套結(jié)構(gòu)化文檔,設(shè)計規(guī)范、架構(gòu)決策、執(zhí)行計劃全放里面,Agent隨時能查。

      說白了,別指望金魚能記住事兒,你得在魚缸外面貼滿便簽。

      最有意思的是驗證。Agent做完一件事,你問它「做得怎么樣」,它幾乎永遠會說「我做得很好」,這不是Anthropic的段子,是真的。

      Agent評估自己的產(chǎn)出,總是盲目自信,哪怕在人看來質(zhì)量很一般。怎么辦?

      Anthropic的解法有點像生成對抗網(wǎng)絡(luò)(一種讓兩個AI互相博弈的技術(shù)):做事的和評判的分開,一個Agent寫,另一個專門挑毛病,選手和裁判不能是同一個人。

      還有糾錯。Anthropic在做長時間運行的Agent時發(fā)現(xiàn),Agent跑一半掉進死胡同是常事,硬做只會越錯越遠。他們的做法簡單粗暴但有效:

      每次改動都走Git,卡住了就用Git回滾到上一個干凈狀態(tài),然后直接換一個新Agent接手,只給它一張交接單,寫清楚前面做了什么、接下來該做什么。

      不指望金魚能自我修復(fù),直接換一條新的,再塞給它一張紙條,這些加起來,就是Harness。

      聽起來好像也沒什么了不起,無非是規(guī)則、文檔、測試、回滾,都是軟件工程里早就有的東西。

      但看一個數(shù)字你就懂了:LangChain用同一個模型,提示詞一個字沒改,只調(diào)整了外面那一圈,換了工具定義、改了上下文管理、加了錯誤恢復(fù)循環(huán)。

      結(jié)果,在主流的編程能力基準(zhǔn)測試TerminalBench 2.0里,得分從52.8%漲到66.5%,排名從30名開外沖進前5。馬沒換,就換了套馬具,這個數(shù)字比任何解釋都有說服力。

      概念火了之后,開發(fā)者社區(qū)迅速分成兩派,吵得挺兇的。

      一派覺得 Harness 被吹過頭了。好玩的是,這派最猛的代言人,來自 Anthropic 自己家。

      Boris Cherny,Claude Code 的創(chuàng)造者,就是那個目前市面上最火的 AI 編程工具,他做的,他在AI 工程圈很有影響力的播客社區(qū)的討論里,說了一段讓對面很不舒服的話,大意是:

      Claude Code 的所有秘訣都在模型本身,它是模型上最薄的一層包裝,我們不可能做得比這更精簡了。

      你品品,一幫人在喊「Harness就是一切」,結(jié)果做出最成功的Agent產(chǎn)品之一的人告訴你,他的產(chǎn)品基本沒有Harness,這多少有點打臉。

      OpenAI的Noam Brown更直接,他說在推理模型上搭腳手架,很多時候都是添亂;模型的推理能力一直在飛速進步,你今天費半天勁搭的編排邏輯,過幾個月新模型出來,就成了絆腳石。

      獨立測試也在幫這派說話:

      專門做AI能力評估的機構(gòu)METR做了嚴(yán)格對比,結(jié)論是Claude Code和Codex,并沒有顯著贏過一個基礎(chǔ)腳手架。

      Scale AI的SWE-Atlas測試結(jié)論更扎心,你換哪個Harness框架,差距基本在誤差范圍內(nèi),說白了,折騰半天跟沒折騰一樣。

      聽到這,你可能會想,得,Harness就是個營銷概念吧?

      別急,還有更離譜的實驗。安全研究員Can Boluk做了個叫Hashline的實驗,他沒碰模型、沒改提示詞,就改了一件事,Agent編輯代碼的格式。

      怎么改的?他給每行代碼加了2到3個字符的哈希標(biāo)識,Agent改代碼時不用復(fù)述整行,只需要說「把2:f1那行換成這個」就行。

      就這一個小改動,一個模型的編程得分從6.7%漲到了68.3%,模型權(quán)重一個字節(jié)沒動過。你說Harness有沒有用?

      另一家做AI應(yīng)用框架的公司LlamaIndex,創(chuàng)始人直接喊口號:模型的駕馭系統(tǒng)就是一切。他說自己一個下午優(yōu)化Harness,15個大模型的編碼能力全漲了。

      這派還有一張最硬的商業(yè)牌,Cursor。

      這家公司沒有自己的基礎(chǔ)模型,底層用Anthropic和OpenAI的能力,相當(dāng)于用別人的馬,但它靠模型上面那一層Harness,2025年底估值到了293億美元,2026年3月在談500億,年化收入突破20億美元,超過半數(shù)財富500強都在用來。

      它的護城河在哪?在馬具。

      所以到底誰對?我覺得他們在說不同層面的東西,你把兩邊的論據(jù)攤開看,會發(fā)現(xiàn)一個很有意思的事情。

      Boris Cherny 說 Claude Code 是「最薄的包裝」,這確實沒撒謊。Claude Code 的產(chǎn)品架構(gòu)就是簡單,沒有什么花哨的多步編排邏輯。

      但你去看Boris Cherny自己怎么用Claude Code,就不一樣了:他日常同時開10到15個Claude Code會話,5個在終端里跑,5到10個在瀏覽器里,還有幾個在手機上。

      他用自動化鉤子,每次保存代碼后自動格式化;用規(guī)劃模式,強制Agent先出方案再動手,方案沒批準(zhǔn)就不能寫一行代碼;甚至用子Agent做代碼審查,讓Agent檢查Agent的活;還把Agent接上瀏覽器自動化工具,讓它自己打開瀏覽器跑測試,看看寫的東西能不能用。

      他自己都說:給模型一種驗證自身工作的方式,質(zhì)量能提升兩到三倍。你說這不是Harness?

      說白了,Boris Cherny說的「薄」,是產(chǎn)品架構(gòu)層面的薄;而對面說的「厚」,是工程實踐層面的厚。

      產(chǎn)品可以很薄,實際用時,必須在模型周圍建立規(guī)則、驗證、反饋循環(huán),它才能在真實項目里不翻車,這兩件事一點都不矛盾。

      就像賽車手說「我的車底盤結(jié)構(gòu)很簡單」,但每次上賽道前,都要花三個小時調(diào)懸掛、調(diào)胎壓、調(diào)剎車平衡。

      其實爭論「模型重要還是Harness重要」,本身就有點無聊,就像爭論發(fā)動機重要還是底盤重要一樣,開過車的人都不會問這種問題。

      但是,等一下,如果 Harness 真有那么重要,有一件事就說不通了:為什么做得最好的那些團隊,反而一直在拆掉自己搭的 Harness?

      Manus 你應(yīng)該聽過。

      他們半年重寫了五次Harness,每次都是砍功能,用通用的Shell執(zhí)行,替換掉復(fù)雜的工具定義;用結(jié)構(gòu)化的交接文件,替換掉管理型Agent,越做越簡單。

      Next.js背后的公司,在他們的v0產(chǎn)品里刪掉了80%的Agent工具,效果反而更好;Anthropic自己也在干這事,Boris Cherny說Claude Code的代碼每三到四周就重寫一次。

      為什么要重寫?

      因為新版本模型出來后,上一版Harness里的很多邏輯,已經(jīng)被模型內(nèi)化了,那些代碼就成了多余的,不切掉反而礙事。

      這就和前面說的「Harness就是一切」矛盾了。如果它是壁壘,為什么大家都在拆?因為Harness本身,根本不是壁壘。

      Anthropic的研究員Nicholas Carlini,用Claude的上一代旗艦?zāi)P蚈pus 4.5時,做出了一個能用的編譯器;后來換成Opus 4.6,同樣的任務(wù),產(chǎn)出能編譯Linux內(nèi)核了。

      關(guān)鍵是,每升一級模型,他都得重新設(shè)計Harness。

      因為模型變強了,舊Harness里那些「保護性」的邏輯,就變成了約束,限制了新模型本來能自主完成的事。他反復(fù)強調(diào):設(shè)計Harness時,得站在Claude的角度想。

      這揭示了一個不太舒服的真相:

      今天精心設(shè)計的Harness,大概率會被下一代模型「吃掉」;今天你需要規(guī)則防止Agent搞亂架構(gòu),明天新模型可能天生就知道不該這么做;今天你得用專門的評審Agent檢查質(zhì)量,后天模型自己的自我評估可能就靠譜了。

      反過來也成立。

      LangChain在調(diào)Harness的過程中,積累了大量執(zhí)行軌跡數(shù)據(jù):哪些路徑成功、哪些模式失敗、工具調(diào)用的序列是什么、Agent卡在哪一步、為什么卡住?

      這些數(shù)據(jù)很有價值,能反饋回模型訓(xùn)練,讓下一代模型更適配這個工作環(huán)境;LangChain自己也說:模型和Harness,正在共同進化。

      所以真正的情況是:

      模型在吃Harness,Harness也在喂模型,它們像一條咬住自己尾巴的蛇,誰也停不下來。

      真正壁壘在于蛇轉(zhuǎn)動的速度,誰能更快發(fā)現(xiàn)Agent的失敗模式,把它編碼進環(huán)境,再用環(huán)境跑出來的數(shù)據(jù)喂給下一代模型,讓這個飛輪再轉(zhuǎn)一圈,誰就贏了。

      Cursor 值那么多錢,因為幾百萬開發(fā)者每天在上面寫代碼,每一次使用都在給這個飛輪加燃料,它積累的不是 Harness,是飛輪的轉(zhuǎn)速。

      說到底,所有人都在爭「馬重要還是馬具重要」,但真正跑在前面的人,早就不關(guān)心這個了;他們關(guān)心,換馬具的速度有多快,以及換下來的舊馬具里攢下的經(jīng)驗,能不能讓馬跑得更快。

      這條蛇還在轉(zhuǎn),而且越轉(zhuǎn)越快。嗯,整個事情就是這樣;就在我寫完這篇文章的時候,Anthropic 昨天把 Harness 做成產(chǎn)品發(fā)布了出來。

      責(zé)任編輯 | 張博然


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      失業(yè)后在小縣城的兩年發(fā)現(xiàn),打麻將和性生活才是普通人底色!

      失業(yè)后在小縣城的兩年發(fā)現(xiàn),打麻將和性生活才是普通人底色!

      黯泉
      2026-04-01 17:44:20
      我國肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

      我國肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

      岐黃傳人孫大夫
      2026-04-12 06:30:03
      2026年五一放假時間出爐:2個好消息,3個壞消息,2點要準(zhǔn)備

      2026年五一放假時間出爐:2個好消息,3個壞消息,2點要準(zhǔn)備

      小談食刻美食
      2026-04-22 18:11:25
      段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

      段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

      蹲坑看世界
      2026-04-22 15:18:22
      “找到一個媳婦算你牛”,農(nóng)村家長曬7兒1女,被群嘲后看清現(xiàn)實

      “找到一個媳婦算你牛”,農(nóng)村家長曬7兒1女,被群嘲后看清現(xiàn)實

      妍妍教育日記
      2026-04-20 19:42:54
      突破臺灣問題紅線!李在明徹底暴露?中方絕不慣著,王毅推遲訪韓

      突破臺灣問題紅線!李在明徹底暴露?中方絕不慣著,王毅推遲訪韓

      有牙的兔紙
      2026-04-23 01:45:38
      從1600元跌破500元!“藥中茅臺”片仔癀暴跌6成,囤貨者血本無歸

      從1600元跌破500元!“藥中茅臺”片仔癀暴跌6成,囤貨者血本無歸

      青眼財經(jīng)
      2026-04-22 21:05:49
      2-0!申花輕取海牛,球場發(fā)生搞笑一幕,特謝拉褲子差點被扯下

      2-0!申花輕取海牛,球場發(fā)生搞笑一幕,特謝拉褲子差點被扯下

      汪星人喲
      2026-04-22 22:00:34
      老輩風(fēng)水講究:久不聯(lián)系的熟人,帶這3樣?xùn)|西登門,要警惕

      老輩風(fēng)水講究:久不聯(lián)系的熟人,帶這3樣?xùn)|西登門,要警惕

      一根香煙的少女
      2026-03-18 13:21:11
      河北一轎車斑馬線撞飛2人后掉頭再次沖撞傷者,周邊商家:肇事司機未逃離當(dāng)場被控制

      河北一轎車斑馬線撞飛2人后掉頭再次沖撞傷者,周邊商家:肇事司機未逃離當(dāng)場被控制

      極目新聞
      2026-04-22 15:36:21
      新加坡寶爸爆料:在當(dāng)鋪花$35800買勞力士手表送兒子,當(dāng)場崩潰..

      新加坡寶爸爆料:在當(dāng)鋪花$35800買勞力士手表送兒子,當(dāng)場崩潰..

      新加坡萬事通
      2026-04-22 20:55:03
      長治31歲研究生萬達墜亡,誘因曝光,全網(wǎng)破防淚目

      長治31歲研究生萬達墜亡,誘因曝光,全網(wǎng)破防淚目

      洞見小能手
      2026-04-23 00:30:03
      打完伊朗,再閃擊土耳其?美智庫發(fā)出戰(zhàn)爭警告,盧卡申科判斷沒錯

      打完伊朗,再閃擊土耳其?美智庫發(fā)出戰(zhàn)爭警告,盧卡申科判斷沒錯

      影孖看世界
      2026-04-22 23:24:13
      浪胃仙整容失敗!在昆明被偶遇,真人又壯又老,差點認(rèn)不出是他

      浪胃仙整容失敗!在昆明被偶遇,真人又壯又老,差點認(rèn)不出是他

      青橘罐頭
      2026-04-22 19:34:39
      900萬套房子空著沒人要,東京房價一億還要搶,日本房產(chǎn)太擰巴!

      900萬套房子空著沒人要,東京房價一億還要搶,日本房產(chǎn)太擰巴!

      時評人李文君
      2026-04-21 20:01:44
      1979年打越南,高層其實吵翻了天?葉劍英粟裕為何反對出兵?

      1979年打越南,高層其實吵翻了天?葉劍英粟裕為何反對出兵?

      勇哥讀史
      2026-04-21 07:52:13
      美國2026年第一季度汽車銷量排行榜!

      美國2026年第一季度汽車銷量排行榜!

      極速車情speed
      2026-04-22 17:53:47
      特朗普吹噓:若越南戰(zhàn)爭時期我是美國總統(tǒng),美國則會在短時間內(nèi)贏得勝利

      特朗普吹噓:若越南戰(zhàn)爭時期我是美國總統(tǒng),美國則會在短時間內(nèi)贏得勝利

      瀟湘晨報
      2026-04-22 11:19:19
      曼城后防崩盤時,兩個年輕人怎么接住的

      曼城后防崩盤時,兩個年輕人怎么接住的

      綠茵狂熱者
      2026-04-22 16:14:28
      當(dāng)初逼學(xué)校簽“動物保護條約”的大學(xué)生,如今成了受害者

      當(dāng)初逼學(xué)校簽“動物保護條約”的大學(xué)生,如今成了受害者

      虔青
      2026-04-22 09:06:11
      2026-04-23 03:28:49
      環(huán)球老虎財經(jīng)
      環(huán)球老虎財經(jīng)
      全球財經(jīng)資訊的中文分析平臺
      18109文章數(shù) 56525關(guān)注度
      往期回顧 全部

      科技要聞

      對話梅濤:沒有視頻底座,具身智能走不遠

      頭條要聞

      伊朗:特朗普“又說謊了”

      頭條要聞

      伊朗:特朗普“又說謊了”

      體育要聞

      網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

      娛樂要聞

      蜜雪冰城泰國代言人 被扒出辱華黑歷史

      財經(jīng)要聞

      醫(yī)院專家號"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

      汽車要聞

      純電續(xù)航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

      態(tài)度原創(chuàng)

      本地
      親子
      教育
      藝術(shù)
      軍事航空

      本地新聞

      春色滿城關(guān)不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

      親子要聞

      媽媽看不到的時候,孩子能拒絕才真的放心!

      教育要聞

      3分鐘學(xué)會一個雅思7分句/段(第340期)

      藝術(shù)要聞

      看!這些美女的眼神能讓你心醉神迷!

      軍事要聞

      特朗普宣布延長停火 伊朗表態(tài)

      無障礙瀏覽 進入關(guān)懷版