<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<pre id="een3m"><fieldset id="een3m"></fieldset></pre>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Harness要不要做？斯坦福的回答是：讓AI自己做

2026-04-01 12:17:23　來源: 硅星GenAI

上海舉報

0

分享至

作者｜黃小藝
郵箱｜ huangxiaoyi@pingwest.com

同一個模型，換一套Harness，編程基準分就翻倍了，行業為此吵了兩個月，現在斯坦福說：不用吵了。

Harness火了，但也吵起來了

2026年開年最熱的AI工程概念，就是Harness。

它指的是模型之外的一切——prompt模板、上下文管理、檢索策略、多步推理編排、工具調用邏輯。一句話概括：你怎么調用模型，和模型本身同樣重要，甚至更重要。

OpenAI Codex團隊5個月寫了100萬行Agent代碼后，得出的最大教訓是“Agent不難，Harness才難”；SWE-Bench Mobile論文中，同一個Claude Opus 4.5在不同Harness下成功率2%對12%，差了6倍；LangChain 的編碼 Agent 在 Terminal Bench 2.0 上，通過僅優化 Harness 而不修改底層模型，得分從 52.8% 提升至 66.5%，排名從第 30 躍升至第 5。

數據足夠有說服力。Harness這個概念迅速從學術圈破圈，成了產業界的高頻詞。

但一個概念一旦火了，爭議就跟著來了。給這股Harness熱潑冷水的，比如OpenAI的Noam Brown，說Harness本質是拐杖，模型終將超越它——推理模型出來后，大量精心設計的Agentic系統一夜淘汰就是明證；Claude Code團隊也說，“所有秘密武器在模型本身，追求最薄的包裝”。

Anthropic的實踐還提供了一個微妙的視角。他們先為Opus 4.5做了一套相當厚重的Harness方案——GAN式對抗架構、三Agent分工、sprint合約；但Opus 4.6出來后，Harness直接做了減法：去掉sprint分解、整體簡化，從6小時$200降到3.8小時$125。性能更好，成本更低。

這套操作被稱為Build to Delete——Harness的厚度取決于模型當前的能力邊界，模型變強了，對應Harness就該被剝離。

所以爭論的本質是什么？不是Harness重不重要，因為數據已經回答了，而是Harness不是一個靜態的東西——它需要隨模型迭代、隨任務變化、隨能力邊界移動而持續演化。

斯坦福的Yoonho Lee團隊和MIT的Omar Khattab看到了這個矛盾，然后給出了一個沒想到的回答：

“別爭了。讓AI自己來做自己的Harness。”

Meta-Harness：一個“反智”的暴力方案

論文全稱是 Meta-Harness: End-to-End Optimization of Model Harnesses，作者包括Yoonho Lee、Chelsea Finn（Stanford）、Omar Khattab（MIT，DSPy框架的創造者）等人。

核心思路的“反智”在于：讓一個足夠強的coding Agent自己一輪輪不斷優化Harness來適配模型，過程中不壓縮任何東西，全存下來，自己去翻閱、分析、總結，然后寫出更好的Harness框架。

具體來說，每輪迭代產生的所有內容——候選Harness的完整源代碼、逐樣本執行軌跡、評分結果——全部以文件形式保存在一個結構化目錄中。沒有數據庫，沒有向量檢索，就是最樸素的文件和文件夾。

然后，一個coding Agent被放進這個系統，任務只有一個：“基于之前所有嘗試的經驗，寫一個更好的Harness。”

外層循環極其簡潔：生成候選 → 評估 → 保存完整結果 → Agent分析所有歷史 → 生成新候選 → 重復。沒有花哨的搜索算法，沒有進化策略，沒有梯度近似。搜索的全部“智能”來自Agent自身的代碼理解和推理能力。

為什么現有方法不夠

這個方案看起來樸素，但它解決了一個此前所有自動優化方法都沒解決的問題：信息保留。

過去涌現的文本優化器——Google的OPRO、TextGrad、DeepMind的AlphaEvolve——有一個共同的致命缺陷：對歷史反饋的壓縮太激進了。有些方法完全沒有記憶，每輪從零開始；有些只保留一個標量評分（比如，“準確率62%”）；有些把執行過程壓縮成簡短摘要。

這就好比讓一個工程師debug復雜系統，但只告訴他“上一版代碼得了62分”——沒有日志、沒有堆棧跟蹤、沒有錯誤樣例。他怎么知道該改什么？

Meta-Harness的做法恰好相反。每輪評估能產生1000萬tokens的診斷信息——包括每個樣本的輸入、模型輸出、正確答案、中間推理步驟等完整執行軌跡。

Agent不是被喂了一段摘要，而是真的在“做研究”——自主決定讀哪些文件。論文統計，Agent每輪中位數讀取82個文件。它會看之前表現最好和最差的Harness源碼，抽查特定樣本的執行軌跡，發現“這類樣本模型總是把A類判成B類”，對比兩個Harness的差異，推斷哪個設計決策導致了性能變化。

這個過程，和一個優秀工程師做實驗分析的workflow幾乎一模一樣——只不過讀文件速度快幾百倍，而且永遠不會累。

為什么現在才可行

論文作者特別指出了一個時機問題：Meta-Harness在2026年初才變得可行。原因很簡單——它完全依賴Coding Agent在過去一年的質變式能力提升。兩年前的Agent根本無法在包含數百個文件的目錄中自主導航、做有意義的分析、并寫出能跑通的代碼。今天可以了。

這不只是一個方法論的突破，更是一個時機的故事。Agent能力的提升，讓一種原本“想法對但執行不了”的方案突然變成了現實。

三個戰場，三種碾壓

理論再漂亮，得拿數據說話。Meta-Harness在三個差異巨大的任務上做了驗證。

戰場一：文本分類——4次迭代抵別人40次

文本分類實驗中，Meta-Harness拿下“48.6%準確率”，比此前最強手工基線ACE高出7.7個百分點（ACE為40.9%）。更值得注意的是效率：上下文token用量11.4K，ACE需要50.8K——少了將近4倍。效果更好，成本更低。

收斂速度同樣驚人：僅需4次評估迭代，就能匹配需要40次評估的競品方法。Agent每輪從完整軌跡中提取的信息密度，遠超那些只能看到分數或摘要的優化器。

論文還做了分布外泛化測試——將在5個數據集上搜索到的最優Harness直接遷移到9個未見數據集，結果同樣優于ACE。這說明Meta-Harness找到的不是針對特定數據集的trick，而是更好的框架設計。

戰場二：數學推理——自動發現人類沒想到的路由策略

IMO難度的檢索增強數學推理任務上，Meta-Harness自動發現了一個“4路路由BM25檢索策略”——系統學會將數學題分為組合、幾何、數論和默認四個類別，對每個類別使用差異化的檢索參數。這種精細化路由設計，沒有任何人類工程師事先指定過。

遷移能力同樣值得關注：用GPT-OSS-20B搜索到的最優Harness，零樣本遷移到5個未見推理模型均有提升。這意味著好的框架設計對不同模型都有效——Harness優化和模型選擇是正交的兩個維度。換言之，你在Harness工程上的投入不會因為換了模型就打水漂。

戰場三：編程Agent——超越人類Harness方案

在 Claude Haiku 4.5組別中，Meta-Harness 確實以 37.6% 拿到了組別第一，超越了所有已知的手工 Harness（如 Goose 和官方的 Claude Code）；在 Claude Opus 4.6組別中，Meta-Harness 以 76.4% 拿到組別第二。

Meta-Harness在這個任務上還自主發現了一個關鍵trick——“Environment Bootstrapping”（環境自舉/引導）：在Agent執行任務前，先自動運行shell命令收集沙箱環境快照（OS版本、已安裝軟件包、目錄結構等），注入初始prompt。

這消除了Agent通常需要的2到4輪環境探索——不用再浪費推理步驟去看看目錄里有什么。對token預算有限的編程Agent來說，省下這幾輪等于直接提升了有效推理能力。沒有人事先告訴系統要做這個優化，它是Meta-Harness在搜索過程中自己發現的。

消融實驗：信息量就是關鍵杠桿

論文中給出了三種信息保留策略的對比，結果一目了然：

- 僅保留分數 → 中位準確率 34.6%

- 分數 + 摘要 → 34.9%

- 完整軌跡（Meta-Harness） → 50.0%

完整軌跡帶來15個百分點的提升，而摘要幾乎沒有幫助——甚至有時有害，因為壓縮會丟掉看似瑣碎但至關重要的診斷細節。

這對整個“AI優化AI”領域是一個值得反復咀嚼的結論：當Agent足夠強大時，人為的預處理和壓縮不是在幫忙，是在添亂。把原始信息全部交給Agent，讓它自己決定看什么、忽略什么，效果遠比人類代勞好得多。

同一個Bitter Lesson，兩種解讀

最后，讓我們回到那場行業爭論——把Meta-Harness放進去，事情變得非常有趣。

業界將Noam Brown的觀點歸入Bitter Lesson 陣營，因為提到Harness是拐杖：AI研究反復證明，依賴人類領域知識的精心設計終將被暴力計算碾平，所以別在框架工程上浪費時間，把賭注押在模型能力的持續增長上。

Meta-Harness用的也是Bitter Lesson：AI研究反復證明，通用搜索擊敗精心手工設計——所以不要手工設計Harness，讓AI用通用搜索自己找最優解。它沒有否認Harness重要，也沒有否認模型會持續變強。它說的是：既然手工Harness終將被淘汰，那就讓AI來接管。

簡單來說，Noam Brown的版本是“別費勁做Harness了”，Meta-Harness的版本是“別費勁手做Harness了”。

Meta-Harness實質上重新定義了這場爭論的坐標系。Model和Harness不是非此即彼的選擇。當Harness優化本身被自動化后，兩條路線自然收斂——模型變強了，Meta-Harness搜出的最優Harness也會跟著變薄。Anthropic手動執行的Build to Delete，在這套框架下會自動發生。

這件事本身就是Bitter Lesson說的那種“更大的計算”——那種總會贏的力量。

論文團隊在最后提出了一個更遠的方向：Harness與模型權重的協同進化。今天模型訓練和框架設計還是兩個獨立過程。但如果Harness能被自動優化，未來的模型訓練如何把Harness納入優化循環？

巧的是，前阿里Qwen技術負責人林俊旸最近也在說類似的事。他在離職后發布的長文 "From Reasoning Thinking to Agentic Thinking" 里，把Harness的角色推到了更細分的位置——不只是推理時的運行框架，更應該是訓練時的核心基礎設施。Agent在什么樣的Harness環境里訓練，決定了它能學到什么。

現在，斯坦福已經讓AI接管了推理時的Harness，那林俊旸瞄準的是訓練時Harness呢？

這里有個耐人尋味的區別：推理時的Harness，目標明確，跑分見高下，AI比人快；訓練時的Harness，定義的是模型在這個環境里訓完之后，整體能力有沒有變強，這是一個長程、稀疏、很難歸因的過程——這一層的搭建，恐怕還得是人來做。

方向有了，誰先動手？2026年下半年的牌桌上，可能又多一道新題了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Elephant走紅：AI開始為“Token浪費”算細賬

華爾街見聞官方 2026-04-17 16:51:57
0 跟貼 0
單任務狂飆16小時！模型+Harness雙輪驅動，金融Agent跑通了

新智元 2026-04-17 21:12:05
3 跟貼 3

Agent的苦澀覺醒：智能正從語言走向經驗

華爾街見聞官方 2026-03-02 09:43:30
8 跟貼 8

π0.7來了！涌現出組合泛化、跨本體遷移能力，VLA又行了？

機器之心Pro 2026-04-17 18:23:23
0 跟貼 0
讓離線強化學習從「局部描摹」變「全局布局」丨ICLR'26

量子位 2026-04-06 13:33:32
0 跟貼 0

谷歌創始人布林：當年發完Transformer論文，我們太不當回事了

機器之心Pro 2025-12-15 10:18:00
0 跟貼 0

Claude Design連夜突襲，Figma市值瞬間蒸發！或搶走全球UI設計師飯碗

新智元 2026-04-18 12:55:26
0 跟貼 0
無錫機器人交警上路執勤當地交管：試點投入兩臺，身高1.75米，單次充滿電可工作5小時

紅星新聞 2026-04-17 17:07:58
2374 跟貼 2374

真正值錢的 AI，都長在業務里

虎嗅APP 2026-04-17 21:07:32
0 跟貼 0
3409億！全球最高估值AI編程工具誕生，黃仁勛投了

智東西 2026-04-18 14:36:09
0 跟貼 0
Anthropic聯創公開勸退套路碼農！94%編程將被接管，去學點哲學吧

新智元 2026-04-18 12:54:18
0 跟貼 0
20人，4個月，干出270億獨角獸

智東西 2026-04-18 14:36:09
0 跟貼 0
具身數據才是最大「金礦」，數據云商城來了：全球首個、百億級

機器之心Pro 2026-04-18 12:41:20
0 跟貼 0
黎以兩國代表合影轟動中東系43年來首次官方代表會面

紅星新聞 2026-04-17 17:17:23
8981 跟貼 8981
編程智能體的隱藏bug，被上交IPADS團隊用數學邏輯給揪出來了

DeepTech深科技 2026-04-18 11:18:39
0 跟貼 0
大S心聲揭秘：邏輯清晰背后的真實訴求

千山暮雪h 2026-04-18 00:59:01
3 跟貼 3
川崎 H2R模型摩托

制造科技 2026-04-16 21:58:46
12 跟貼 12
龍蝦之戰進入深水區，產品完成度是下一個賽點

鈦媒體APP 2026-04-18 08:48:14
0 跟貼 0
剛火就翻車，Hermes Agent被質疑抄襲中國團隊

虎嗅APP 2026-04-17 06:38:34
12 跟貼 12
張雪員工分享820RR靜態細節，太專業了！想買的心已經按耐不住了

大財新鮮事 2026-04-14 01:38:15
0 跟貼 0
解放軍護衛艦與外艦纏斗20小時主炮上彈強硬驅離

上觀新聞 2026-04-18 12:26:59
388 跟貼 388
三層防御仍然不夠，一條PR標題就能偷走你的API密鑰：AI Agent安全裂痕再現

鈦媒體APP 2026-04-18 10:44:12
0 跟貼 0
實戰才是試金石：許昕戳破日本天才神話，青訓算法難敵臨場智慧

智商已欠費啦 2026-04-17 08:10:03
1 跟貼 1
加州大學把市場部搬進攝影棚：體育賺錢的新公式

體育硬核說 2026-04-16 10:16:56
0 跟貼 0
叫板Meta：開云集團聯手谷歌計劃2027年推出Gucci高端智能眼鏡

環球網資訊 2026-04-17 14:15:26
1 跟貼 1
東莞理工學院一學生因在學生社區送外賣被點名通報批評，校方回應

齊魯壹點 2026-04-17 22:11:29
942 跟貼 942
AI諂媚可能讓人陷入妄想癥

量子位 2026-04-08 12:28:40
0 跟貼 0
Harness，何嘗不是馬應龍

賽博禪心 2026-04-16 21:08:37
0 跟貼 0
廣東深圳一小學老師批改作業崩潰大哭：不怪孩子學得慢，只是心里太著急，“情緒只是一時的，愛沒有減少”

大風新聞 2026-04-18 10:33:11
18 跟貼 18
真正會辦事的人，基本上運用的都是這五種思維邏輯，對照一下自己

學習經營管理 2026-04-18 13:03:07
0 跟貼 0
男子爬上泰山“五岳獨尊”石刻拍照，景區：將核查其身份進行處理

揚子晚報 2026-04-17 12:09:40
1288 跟貼 1288
被噪音逼到失眠崩潰，男子在自制隔音艙里一住就是5年，2020年，他憑借建筑專業知識自制了第一個隔音艙，目前已接到100多個訂單

觀威海 2026-04-17 18:12:06
93 跟貼 93
剛剛，梁文鋒被曝史上首次融資！DeepSeek V4徹底擺脫英偉達

新智元 2026-04-18 09:30:05
1 跟貼 1
公司中層可能即將消失

劉潤 2026-04-18 11:21:36
0 跟貼 0
組裝V8汽車發動機模型

制造科技 2026-04-16 13:26:17
0 跟貼 0
大哥健身房里猛練2小時，結果剛出門腿一軟，直接上演“平地摔”

星視頻 2026-04-17 18:41:46
392 跟貼 392
小鵬GX靜態體驗：被“大灣區攬勝”外號吸引，實車到底值不值？

只懂車 2026-04-15 17:43:01
0 跟貼 0
一臺18比例模型可以做到多精細這臺車發動機是最大亮點

一笑到底 2026-04-14 11:50:36
1 跟貼 1
北大團隊提出CPL++框架，實現視覺定位模型的自知之明和自我糾錯

機器之心Pro 2026-04-16 18:50:51
0 跟貼 0
WTI原油期貨跌幅擴大至14%，報81.387美元/桶

每日經濟新聞 2026-04-17 22:42:38
776 跟貼 776

深圳一員工拿到月薪4.5萬元工作后，因前公司不肯開離職證明錯過機會，法院：前司賠1.4萬元

深圳一員工拿到月薪4.5萬元工作后，因前公司不肯開離職證明錯過機會，法院：前司賠1.4萬元

環球網資訊

2026-04-17 19:00:07

WSBK荷蘭站兩個中國品牌同場競速，張雪廠隊53號獲排位賽第二，張雪：希望正賽再奪冠，但要理性看待

WSBK荷蘭站兩個中國品牌同場競速，張雪廠隊53號獲排位賽第二，張雪：希望正賽再奪冠，但要理性看待

極目新聞

2026-04-17 23:38:43

許家印家族奢靡無度堪比帝王

超先聲

2026-04-16 16:36:35

西雙版納潑水節電車被潑冒煙后續！剛買才3個月，車里老人被澆透

西雙版納潑水節電車被潑冒煙后續！剛買才3個月，車里老人被澆透

派大星紀錄片

2026-04-17 16:17:37

140年來最強厄爾尼諾正在醞釀？地球或今年沖擊高溫極限？國家氣候中心回應

140年來最強厄爾尼諾正在醞釀？地球或今年沖擊高溫極限？國家氣候中心回應

澎湃新聞

2026-04-18 11:03:07

男子因噪音過敏住5年隔音艙：自己設計，已接上百個訂單，幫噪音受困者找回睡眠

男子因噪音過敏住5年隔音艙：自己設計，已接上百個訂單，幫噪音受困者找回睡眠

半島官網

2026-04-16 11:20:50

許家印不是在宴請何小鵬，他是在演示什么叫權力

許家印不是在宴請何小鵬，他是在演示什么叫權力

超先聲

2026-04-18 09:48:51

鋁企突發爆炸事故！已致19死17傷！

鋁企突發爆炸事故！已致19死17傷！

新浪財經

2026-04-18 13:52:44

英法德“反骨”暴露無遺，把邀請函發給中國，卻將美國排除在外

英法德“反骨”暴露無遺，把邀請函發給中國，卻將美國排除在外

忠于法紀

2026-04-18 11:39:40

朱迅抗癌20年首曝真相：7次手術，每天只吃七分飽，堅決不碰燙食

朱迅抗癌20年首曝真相：7次手術，每天只吃七分飽，堅決不碰燙食

觀魚聽雨

2026-04-17 22:29:40

美媒：以總理對特朗普“禁止”轟炸黎巴嫩帖文感震驚

美媒：以總理對特朗普“禁止”轟炸黎巴嫩帖文感震驚

新華社

2026-04-18 11:53:02

印度虧慘了！花80 億買全套中國設備，運回國內后直接落灰開不了

印度虧慘了！花80 億買全套中國設備，運回國內后直接落灰開不了

杰絲聊古今

2026-04-18 11:39:25

四川雅安一商戶在公廁沖洗冷凍肉？官方通報：情況屬實，涉事商戶停業整頓

四川雅安一商戶在公廁沖洗冷凍肉？官方通報：情況屬實，涉事商戶停業整頓

界面新聞

2026-04-18 14:06:56

太陽最強大腿！杰倫格林兩戰轟71分創神跡：一數據歷史第一

太陽最強大腿！杰倫格林兩戰轟71分創神跡：一數據歷史第一

Emily說個球

2026-04-18 13:03:06

剛剛，誕生一項新吉尼斯紀錄！13315.04㎡，世界最大零食店在長沙！

剛剛，誕生一項新吉尼斯紀錄！13315.04㎡，世界最大零食店在長沙！

瀟湘晨報

2026-04-17 13:55:31

連休8天！浙江最新放假通知

新浪財經

2026-04-18 13:06:36

生涯第七次無緣季后賽！庫里場下不停搖頭顯沮喪膝傷反復僅17分

生涯第七次無緣季后賽！庫里場下不停搖頭顯沮喪膝傷反復僅17分

顏小白的籃球夢

2026-04-18 12:56:46

華誼虧損超82億，不放棄事業不整容的羅海瓊，才是最清醒的老板娘

華誼虧損超82億，不放棄事業不整容的羅海瓊，才是最清醒的老板娘

一盅情懷

2026-04-18 08:08:54

悲哀！幾個女同事想郊游沒人愿去，吐槽現在男生太精，不好拿捏了

悲哀！幾個女同事想郊游沒人愿去，吐槽現在男生太精，不好拿捏了

火山詩話

2026-04-18 07:26:36

湖人棄將19+6斷登全美熱搜！多次生斷庫里致湖媒后悔年薪僅234萬

湖人棄將19+6斷登全美熱搜！多次生斷庫里致湖媒后悔年薪僅234萬

顏小白的籃球夢

2026-04-18 13:23:57

比一部分人更先進入GenAl。

270文章數 36關注度

往期回顧全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

牛彈琴：特朗普迎來最興奮的一天三個細節信息量很大

頭條要聞

牛彈琴：特朗普迎來最興奮的一天三個細節信息量很大

體育要聞

時隔25年重返英超！沒有人再嘲笑他了

娛樂要聞

《穿普拉達的女王2》疑似辱華?

財經要聞

"影子萬科"2.0：管理層如何吸血萬物云？

汽車要聞

奇瑞威麟R08 PRO正式上市售價14.48萬元起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

旅游

數碼

公開課

軍事航空

家居要聞

法式線條時光靜淌

智能舒適簡約風尚
簡而不減暖居之道
現代融合自然靈動

旅游要聞

別再只去烏鎮了！上海這條1800年老街，趁沒火趕緊去

數碼要聞

消息稱AMD贏得Anthropic大單，MI450 GPU部署應對AI算力短缺

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

軍事要聞

解放軍護衛艦與外艦纏斗20小時細節披露

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<track id="zancz"><p id="zancz"><strong id="zancz"></strong></p></track>