<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Harness要不要做?斯坦福的回答是:讓AI自己做

      0
      分享至


      作者 | 黃小藝
      郵箱 | huangxiaoyi@pingwest.com

      同一個模型,換一套Harness,編程基準分就翻倍了,行業為此吵了兩個月,現在斯坦福說:不用吵了。

      Harness火了,但也吵起來了

      2026年開年最熱的AI工程概念,就是Harness。

      它指的是模型之外的一切——prompt模板、上下文管理、檢索策略、多步推理編排、工具調用邏輯。一句話概括:你怎么調用模型,和模型本身同樣重要,甚至更重要。

      OpenAI Codex團隊5個月寫了100萬行Agent代碼后,得出的最大教訓是“Agent不難,Harness才難”;SWE-Bench Mobile論文中,同一個Claude Opus 4.5在不同Harness下成功率2%對12%,差了6倍;LangChain 的編碼 Agent 在 Terminal Bench 2.0 上,通過僅優化 Harness 而不修改底層模型,得分從 52.8% 提升至 66.5%,排名從第 30 躍升至第 5。

      數據足夠有說服力。Harness這個概念迅速從學術圈破圈,成了產業界的高頻詞。

      但一個概念一旦火了,爭議就跟著來了。給這股Harness熱潑冷水的,比如OpenAI的Noam Brown,說Harness本質是拐杖,模型終將超越它——推理模型出來后,大量精心設計的Agentic系統一夜淘汰就是明證;Claude Code團隊也說,“所有秘密武器在模型本身,追求最薄的包裝”。

      Anthropic的實踐還提供了一個微妙的視角。他們先為Opus 4.5做了一套相當厚重的Harness方案——GAN式對抗架構、三Agent分工、sprint合約;但Opus 4.6出來后,Harness直接做了減法:去掉sprint分解、整體簡化,從6小時$200降到3.8小時$125。性能更好,成本更低。

      這套操作被稱為Build to Delete——Harness的厚度取決于模型當前的能力邊界,模型變強了,對應Harness就該被剝離。

      所以爭論的本質是什么?不是Harness重不重要,因為數據已經回答了,而是Harness不是一個靜態的東西——它需要隨模型迭代、隨任務變化、隨能力邊界移動而持續演化。

      斯坦福的Yoonho Lee團隊和MIT的Omar Khattab看到了這個矛盾,然后給出了一個沒想到的回答:

      “別爭了。讓AI自己來做自己的Harness。”

      Meta-Harness:一個“反智”的暴力方案

      論文全稱是 Meta-Harness: End-to-End Optimization of Model Harnesses,作者包括Yoonho Lee、Chelsea Finn(Stanford)、Omar Khattab(MIT,DSPy框架的創造者)等人。

      核心思路的“反智”在于:讓一個足夠強的coding Agent自己一輪輪不斷優化Harness來適配模型,過程中不壓縮任何東西,全存下來,自己去翻閱、分析、總結,然后寫出更好的Harness框架。


      具體來說,每輪迭代產生的所有內容——候選Harness的完整源代碼、逐樣本執行軌跡、評分結果——全部以文件形式保存在一個結構化目錄中。沒有數據庫,沒有向量檢索,就是最樸素的文件和文件夾。

      然后,一個coding Agent被放進這個系統,任務只有一個:“基于之前所有嘗試的經驗,寫一個更好的Harness。”

      外層循環極其簡潔:生成候選 → 評估 → 保存完整結果 → Agent分析所有歷史 → 生成新候選 → 重復。沒有花哨的搜索算法,沒有進化策略,沒有梯度近似。搜索的全部“智能”來自Agent自身的代碼理解和推理能力。

      為什么現有方法不夠

      這個方案看起來樸素,但它解決了一個此前所有自動優化方法都沒解決的問題:信息保留。

      過去涌現的文本優化器——Google的OPRO、TextGrad、DeepMind的AlphaEvolve——有一個共同的致命缺陷:對歷史反饋的壓縮太激進了。有些方法完全沒有記憶,每輪從零開始;有些只保留一個標量評分(比如,“準確率62%”);有些把執行過程壓縮成簡短摘要。

      這就好比讓一個工程師debug復雜系統,但只告訴他“上一版代碼得了62分”——沒有日志、沒有堆棧跟蹤、沒有錯誤樣例。他怎么知道該改什么?

      Meta-Harness的做法恰好相反。每輪評估能產生1000萬tokens的診斷信息——包括每個樣本的輸入、模型輸出、正確答案、中間推理步驟等完整執行軌跡。

      Agent不是被喂了一段摘要,而是真的在“做研究”——自主決定讀哪些文件。論文統計,Agent每輪中位數讀取82個文件。它會看之前表現最好和最差的Harness源碼,抽查特定樣本的執行軌跡,發現“這類樣本模型總是把A類判成B類”,對比兩個Harness的差異,推斷哪個設計決策導致了性能變化。

      這個過程,和一個優秀工程師做實驗分析的workflow幾乎一模一樣——只不過讀文件速度快幾百倍,而且永遠不會累。

      為什么現在才可行

      論文作者特別指出了一個時機問題:Meta-Harness在2026年初才變得可行。原因很簡單——它完全依賴Coding Agent在過去一年的質變式能力提升。兩年前的Agent根本無法在包含數百個文件的目錄中自主導航、做有意義的分析、并寫出能跑通的代碼。今天可以了。

      這不只是一個方法論的突破,更是一個時機的故事。Agent能力的提升,讓一種原本“想法對但執行不了”的方案突然變成了現實。

      三個戰場,三種碾壓

      理論再漂亮,得拿數據說話。Meta-Harness在三個差異巨大的任務上做了驗證。


      戰場一:文本分類——4次迭代抵別人40次

      文本分類實驗中,Meta-Harness拿下“48.6%準確率”,比此前最強手工基線ACE高出7.7個百分點(ACE為40.9%)。更值得注意的是效率:上下文token用量11.4K,ACE需要50.8K——少了將近4倍。效果更好,成本更低。

      收斂速度同樣驚人:僅需4次評估迭代,就能匹配需要40次評估的競品方法。Agent每輪從完整軌跡中提取的信息密度,遠超那些只能看到分數或摘要的優化器。

      論文還做了分布外泛化測試——將在5個數據集上搜索到的最優Harness直接遷移到9個未見數據集,結果同樣優于ACE。這說明Meta-Harness找到的不是針對特定數據集的trick,而是更好的框架設計。

      戰場二:數學推理——自動發現人類沒想到的路由策略

      IMO難度的檢索增強數學推理任務上,Meta-Harness自動發現了一個“4路路由BM25檢索策略”——系統學會將數學題分為組合、幾何、數論和默認四個類別,對每個類別使用差異化的檢索參數。這種精細化路由設計,沒有任何人類工程師事先指定過。


      遷移能力同樣值得關注:用GPT-OSS-20B搜索到的最優Harness,零樣本遷移到5個未見推理模型均有提升。這意味著好的框架設計對不同模型都有效——Harness優化和模型選擇是正交的兩個維度。換言之,你在Harness工程上的投入不會因為換了模型就打水漂。

      戰場三:編程Agent——超越人類Harness方案

      Claude Haiku 4.5組別中,Meta-Harness 確實以 37.6% 拿到了組別第一,超越了所有已知的手工 Harness(如 Goose 和官方的 Claude Code);在 Claude Opus 4.6組別中,Meta-Harness 以 76.4% 拿到組別第二

      Meta-Harness在這個任務上還自主發現了一個關鍵trick——“Environment Bootstrapping”(環境自舉/引導):在Agent執行任務前,先自動運行shell命令收集沙箱環境快照(OS版本、已安裝軟件包、目錄結構等),注入初始prompt。

      這消除了Agent通常需要的2到4輪環境探索——不用再浪費推理步驟去看看目錄里有什么。對token預算有限的編程Agent來說,省下這幾輪等于直接提升了有效推理能力。沒有人事先告訴系統要做這個優化,它是Meta-Harness在搜索過程中自己發現的。

      消融實驗:信息量就是關鍵杠桿

      論文中給出了三種信息保留策略的對比,結果一目了然:


      - 僅保留分數 → 中位準確率 34.6%

      - 分數 + 摘要 → 34.9%

      - 完整軌跡(Meta-Harness) → 50.0%

      完整軌跡帶來15個百分點的提升,而摘要幾乎沒有幫助——甚至有時有害,因為壓縮會丟掉看似瑣碎但至關重要的診斷細節。

      這對整個“AI優化AI”領域是一個值得反復咀嚼的結論:當Agent足夠強大時,人為的預處理和壓縮不是在幫忙,是在添亂。把原始信息全部交給Agent,讓它自己決定看什么、忽略什么,效果遠比人類代勞好得多。

      同一個Bitter Lesson,兩種解讀

      最后,讓我們回到那場行業爭論——把Meta-Harness放進去,事情變得非常有趣。

      業界將Noam Brown的觀點歸入Bitter Lesson 陣營,因為提到Harness是拐杖:AI研究反復證明,依賴人類領域知識的精心設計終將被暴力計算碾平,所以別在框架工程上浪費時間,把賭注押在模型能力的持續增長上。

      Meta-Harness用的也是Bitter Lesson:AI研究反復證明,通用搜索擊敗精心手工設計——所以不要手工設計Harness,讓AI用通用搜索自己找最優解。它沒有否認Harness重要,也沒有否認模型會持續變強。它說的是:既然手工Harness終將被淘汰,那就讓AI來接管。

      簡單來說,Noam Brown的版本是“別費勁做Harness了”,Meta-Harness的版本是“別費勁手做Harness了”。

      Meta-Harness實質上重新定義了這場爭論的坐標系。Model和Harness不是非此即彼的選擇。當Harness優化本身被自動化后,兩條路線自然收斂——模型變強了,Meta-Harness搜出的最優Harness也會跟著變薄。Anthropic手動執行的Build to Delete,在這套框架下會自動發生。

      這件事本身就是Bitter Lesson說的那種“更大的計算”——那種總會贏的力量。

      論文團隊在最后提出了一個更遠的方向:Harness與模型權重的協同進化。今天模型訓練和框架設計還是兩個獨立過程。但如果Harness能被自動優化,未來的模型訓練如何把Harness納入優化循環?

      巧的是,前阿里Qwen技術負責人林俊旸最近也在說類似的事。他在離職后發布的長文 "From Reasoning Thinking to Agentic Thinking" 里,把Harness的角色推到了更細分的位置——不只是推理時的運行框架,更應該是訓練時的核心基礎設施。Agent在什么樣的Harness環境里訓練,決定了它能學到什么。

      現在,斯坦福已經讓AI接管了推理時的Harness,那林俊旸瞄準的是訓練時Harness呢?

      這里有個耐人尋味的區別:推理時的Harness,目標明確,跑分見高下,AI比人快;訓練時的Harness,定義的是模型在這個環境里訓完之后,整體能力有沒有變強,這是一個長程、稀疏、很難歸因的過程——這一層的搭建,恐怕還得是人來做。

      方向有了,誰先動手?2026年下半年的牌桌上,可能又多一道新題了。


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      深圳一員工拿到月薪4.5萬元工作后,因前公司不肯開離職證明錯過機會,法院:前司賠1.4萬元

      深圳一員工拿到月薪4.5萬元工作后,因前公司不肯開離職證明錯過機會,法院:前司賠1.4萬元

      環球網資訊
      2026-04-17 19:00:07
      WSBK荷蘭站兩個中國品牌同場競速,張雪廠隊53號獲排位賽第二,張雪:希望正賽再奪冠,但要理性看待

      WSBK荷蘭站兩個中國品牌同場競速,張雪廠隊53號獲排位賽第二,張雪:希望正賽再奪冠,但要理性看待

      極目新聞
      2026-04-17 23:38:43
      許家印家族奢靡無度堪比帝王

      許家印家族奢靡無度堪比帝王

      超先聲
      2026-04-16 16:36:35
      西雙版納潑水節電車被潑冒煙后續!剛買才3個月,車里老人被澆透

      西雙版納潑水節電車被潑冒煙后續!剛買才3個月,車里老人被澆透

      派大星紀錄片
      2026-04-17 16:17:37
      140年來最強厄爾尼諾正在醞釀?地球或今年沖擊高溫極限?國家氣候中心回應

      140年來最強厄爾尼諾正在醞釀?地球或今年沖擊高溫極限?國家氣候中心回應

      澎湃新聞
      2026-04-18 11:03:07
      男子因噪音過敏住5年隔音艙:自己設計,已接上百個訂單,幫噪音受困者找回睡眠

      男子因噪音過敏住5年隔音艙:自己設計,已接上百個訂單,幫噪音受困者找回睡眠

      半島官網
      2026-04-16 11:20:50
      許家印不是在宴請何小鵬,他是在演示什么叫權力

      許家印不是在宴請何小鵬,他是在演示什么叫權力

      超先聲
      2026-04-18 09:48:51
      鋁企突發爆炸事故!已致19死17傷!

      鋁企突發爆炸事故!已致19死17傷!

      新浪財經
      2026-04-18 13:52:44
      英法德“反骨”暴露無遺,把邀請函發給中國,卻將美國排除在外

      英法德“反骨”暴露無遺,把邀請函發給中國,卻將美國排除在外

      忠于法紀
      2026-04-18 11:39:40
      朱迅抗癌20年首曝真相:7次手術,每天只吃七分飽,堅決不碰燙食

      朱迅抗癌20年首曝真相:7次手術,每天只吃七分飽,堅決不碰燙食

      觀魚聽雨
      2026-04-17 22:29:40
      美媒:以總理對特朗普“禁止”轟炸黎巴嫩帖文感震驚

      美媒:以總理對特朗普“禁止”轟炸黎巴嫩帖文感震驚

      新華社
      2026-04-18 11:53:02
      印度虧慘了!花80 億買全套中國設備,運回國內后直接落灰開不了

      印度虧慘了!花80 億買全套中國設備,運回國內后直接落灰開不了

      杰絲聊古今
      2026-04-18 11:39:25
      四川雅安一商戶在公廁沖洗冷凍肉?官方通報:情況屬實,涉事商戶停業整頓

      四川雅安一商戶在公廁沖洗冷凍肉?官方通報:情況屬實,涉事商戶停業整頓

      界面新聞
      2026-04-18 14:06:56
      太陽最強大腿!杰倫格林兩戰轟71分創神跡:一數據歷史第一

      太陽最強大腿!杰倫格林兩戰轟71分創神跡:一數據歷史第一

      Emily說個球
      2026-04-18 13:03:06
      剛剛,誕生一項新吉尼斯紀錄!13315.04㎡,世界最大零食店在長沙!

      剛剛,誕生一項新吉尼斯紀錄!13315.04㎡,世界最大零食店在長沙!

      瀟湘晨報
      2026-04-17 13:55:31
      連休8天!浙江最新放假通知

      連休8天!浙江最新放假通知

      新浪財經
      2026-04-18 13:06:36
      生涯第七次無緣季后賽!庫里場下不停搖頭顯沮喪 膝傷反復僅17分

      生涯第七次無緣季后賽!庫里場下不停搖頭顯沮喪 膝傷反復僅17分

      顏小白的籃球夢
      2026-04-18 12:56:46
      華誼虧損超82億,不放棄事業不整容的羅海瓊,才是最清醒的老板娘

      華誼虧損超82億,不放棄事業不整容的羅海瓊,才是最清醒的老板娘

      一盅情懷
      2026-04-18 08:08:54
      悲哀!幾個女同事想郊游沒人愿去,吐槽現在男生太精,不好拿捏了

      悲哀!幾個女同事想郊游沒人愿去,吐槽現在男生太精,不好拿捏了

      火山詩話
      2026-04-18 07:26:36
      湖人棄將19+6斷登全美熱搜!多次生斷庫里致湖媒后悔 年薪僅234萬

      湖人棄將19+6斷登全美熱搜!多次生斷庫里致湖媒后悔 年薪僅234萬

      顏小白的籃球夢
      2026-04-18 13:23:57
      2026-04-18 15:32:49
      硅星GenAI incentive-icons
      硅星GenAI
      比一部分人更先進入GenAl。
      270文章數 36關注度
      往期回顧 全部

      科技要聞

      傳Meta下月擬裁8000 大舉清退人力為AI騰位

      頭條要聞

      牛彈琴:特朗普迎來最興奮的一天 三個細節信息量很大

      頭條要聞

      牛彈琴:特朗普迎來最興奮的一天 三個細節信息量很大

      體育要聞

      時隔25年重返英超!沒有人再嘲笑他了

      娛樂要聞

      《穿普拉達的女王2》疑似辱華?

      財經要聞

      "影子萬科"2.0:管理層如何吸血萬物云?

      汽車要聞

      奇瑞威麟R08 PRO正式上市 售價14.48萬元起

      態度原創

      家居
      旅游
      數碼
      公開課
      軍事航空

      家居要聞

      法式線條 時光靜淌

      旅游要聞

      別再只去烏鎮了!上海這條1800年老街,趁沒火趕緊去

      數碼要聞

      消息稱AMD贏得Anthropic大單,MI450 GPU部署應對AI算力短缺

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      解放軍護衛艦與外艦纏斗20小時 細節披露

      無障礙瀏覽 進入關懷版