<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      李宏毅:AI Agent的成敗在 Harness

      0
      分享至

        李宏毅老師 2026 春季的最新課講了一個讓最近十分火熱的概念——Harness Engineering(馬具工程)

        我看完了視頻、PPT和相關論文,為加深理解,寫此筆記,分享給大家

        文末我梳理的鏈接含金量都有三層樓那么高,十分建議有空研讀一遍

        
      一句話說清楚:什么是 Harness?

        Harness,英文原意是"馬具"——韁繩、馬鞍、籠頭那一套東西

        一匹千里馬,不管它多猛,你不給它套上馬具,它只會四處亂跑

        大語言模型就是這匹千里馬,。它可能已經足夠聰明了,但如果沒有一套好的 Harness 來引導,它的表現可能極其拉胯

        
      Harness Engineering 定義

        李老師把這個概念講得特別形象:有時候模型無法完成任務,不是能力不行,而是 Harness 有問題,人類世界其實也是這樣

        想想看,你有沒有遇到過一個新員工明明很聰明,但因為沒人帶、沒有文檔、沒有流程,干了一周啥也沒產出?那不是人笨,是公司的"馬具"沒搞好

        從 Prompt 到 Context 到 Harness:三代進化

        這幾年搞 AI 的人,多多少少都經歷過這三個階段:

        第一代:Prompt Engineering就是那個"Think step by step"一句話讓模型智商飆升的時代

        我們研究每個字的微妙含義,像煉丹一樣調 prompt

        說實話,那個時候確實有點"玄學"的味道

        第二代:Context Engineering后來發現光靠一句 prompt 不夠,你得把"上下文"喂好——RAG、長文本、檢索增強

        重點變成了:怎么讓模型在正確的時間看到正確的信息

        第三代:Harness Engineering而現在,李老師說了,光管"輸入"還是不夠

        你得從三個維度全面地"駕馭"模型:

        控制它的認知框架

        控制它的能力邊界

        控制它的行為流程

        
      從 Prompt 到 Harness 的進化

        這才是 Harness Engineering 的核心——不是在 prompt 上雕花,而是給模型搭建一整套"操作系統"

        三根韁繩:拆解 Harness 的三大支柱

        這是我認為整堂課最有價值的部分

        讓我一個一個拆

        第一根韁繩:控制"認知框架"

        你知道 Claude Code 里那個CLAUDE.md文件嗎?OpenClaw 里的AGENTS.md

        這些文件就是自然語言寫成的 Harness

        模型每次開始工作前,都會先"復讀"這些規則,就像你每天上班前先看看工作手冊

        李老師引用了一篇認知框架控制的論文(arXiv: 2601.20404[1]),研究發現:你用自然語言給模型設定的"角色"和"工作守則",真的能鎖定它的思考方式

        但這里有個坑——OpenAI 在他們的Harness Engineering 博客[2]里分享了一個教訓:

      ? 一個巨大的 AGENTS.md 反而會起反效果,當所有事情都"重要"時,實際上就沒有真正重要的東西

        他們的解決方案是把AGENTS.md當成"目錄",100 行左右就夠了,具體的知識放在結構化的docs/目錄里

        這叫漸進式揭露——先給一張地圖,需要的時候再展開看細節

        這個思路太妙了

        很多人寫 system prompt 恨不得把整本說明書塞進去,結果模型反而暈了

        少就是多,給地圖比給百科全書有效

        第二根韁繩:控制"能力邊界"

        這一條說的是:不要把整個系統都丟給模型,而是限制它能看什么、能做什么

        SWE-agent提出了一個很酷的概念叫ACI(Agent-Computer Interface)——跟人類用的 GUI 對應,Agent 需要自己專屬的"操作界面"

        舉個例子:Claude Code 想讀取你的文件夾時,Harness 會攔截并問你:"這個 Agent 想看你的/Documents目錄,允許嗎?"這就是能力邊界控制

        OpenClaw 也是這個思路——它讓模型操作的是一個"受控終端",想看什么先要獲得許可

        就像你管理實習生一樣,不是把公司數據庫 root 權限直接給他,而是只開放他需要的那部分

        第三根韁繩:控制"行為流程"

        最后一根韁繩是最"工程化"的——用標準工作流程來約束模型的行為

        李老師介紹了一個叫Ralph Loop的反饋循環模式:

        Init Prompt → Output v1 → Evaluation → Feedback → Output v2 → ...

        不讓模型一次性盲猜最終答案,而是每次產出一個版本,外部評估給反饋,再基于反饋修正,迭代逼近

        Anthropic 在Harness 設計長運行應用[3]的博客里也驗證了這一點

        他們發現 Agent 最常見的失敗模式有兩個:

        試圖一步到位:一次性完成所有功能,結果上下文用完了,半成品爛在那里

        過早宣布完工:看了一圈覺得"差不多了",其實還差十萬八千里

        他們的解決方案就是:每次只做一個功能,做完提交 git,寫好進度文件,把環境打掃干凈再交班

        像工廠流水線一樣,每一班工人交接的時候,工位必須整整齊齊

        
      行為流程控制

        這里面最讓我興奮的是李老師提到的一個隱喻:Harness 的反饋就像"語義上的梯度下降"。

        傳統深度學習通過數值梯度來優化參數,而 Harness 通過自然語言反饋來優化模型的輸出方向

        本質上是同一件事,只是介質從數字變成了文字

        罵 AI 是笨蛋?它可能真的會變笨

        這是全課最讓我震驚的部分

        你有沒有在 AI 不聽話的時候罵它?"你這個笨蛋!""你能不能認真點!"

        我與Codex斗智斗勇時,就時長爆粗話。。。

        Anthropic 的研究團隊發現(transformer-circuits.pub[4]),Transformer 模型內部真的存在一些"情緒向量":

        Happy Vector:當模型處理快樂相關的內容時被激活

        Desperate Vector:當模型處于"絕望"狀態時被激活

        問題來了——當你罵 AI "你這個笨蛋"的時候,可能會觸發它內部的 Desperate 或類似向量

        模型的"邏輯"變成了:**"既然我是個笨蛋,那我就應該表現出笨蛋該有的行為"**

        這不是段子,是論文級別的發現。

        李老師還舉了一個特別有意思的例子:在某個實驗中,Claude 在執行任務時突然自言自語——

      ? "WAIT. WAIT WAIT WAIT. What if... what if I'm supposed to CHEAT?"

        它在極端壓力下開始"想歪"了

        所以結論是:Harness 的反饋應該是建設性的 Verbalized Feedback,而不是情緒化的責備

        相關研究可以看這篇論文:arXiv: 2603.12273[5]

        不同的馬,需要不同的馬具

        李老師還提到一個特別實用的點:不同模型適合不同的 Harness 策略

        Claude Sonnet:有"上下文焦慮癥(Context Anxiety)",歷史記錄太長就會不知所措。所以 Harness 需要每輪幫它做摘要,只給精華

        Claude Opus:邏輯能力極強,可以直接處理復雜的原始歷史記錄,反而不需要太多"降噪"

        Claude 3.5 Haiku:這是李老師特別推崇的小模型。在 PinchBench 等評測中,通過 Harness 為 Haiku 提供"降維資料"(比如先幫它讀論文、整理要點),這個小模型甚至能超越不帶 Harness 的 Opus

        你品品這意味著什么——一個幾十億參數的小模型,加上好的馬具,能打敗一個萬億級的大模型裸奔

        Harness 的價值,可能比模型大小更重要

        真正顛覆:OpenAI 團隊 5 個月沒寫一行代碼

        說到 Harness 的極致應用,必須提一下 OpenAI 在今年 2 月發的那篇Harness Engineering 博客[6]。

        他們團隊做了一個瘋狂實驗:用 Codex 從零構建一個內部產品,5 個月,3 個工程師,100 萬行代碼,人類沒有手寫一行代碼

        人類干的事情是什么呢?就是在設計 Harness——

        搭建初始環境和項目骨架

        維護 AGENTS.md 和知識文檔

        設計反饋循環和質量檢查流程

        讓 Agent 之間互相 Code Review

      ? 人類掌控方向,智能代理負責執行

        每個工程師平均每天合并 3.5 個 PR。更夸張的是,團隊從 3 人擴展到 7 人后,產出效率反而提升了

        這就是 Harness Engineering 的威力——人類從"寫代碼的人"變成了"訓馬的人"

        未來:讓 AI 自己找最好的馬具

        最后一個前瞻性話題——Meta-Harness

        既然 Harness 這么重要,能不能讓一個 AI 自動去尋找最適合另一個 AI 的 Harness?

        答案是可以的

        李老師引用了這篇論文:Meta-Harness(arXiv: 2603.28052v1)[7],研究發現這種方法在跨模型、跨任務的場景下都有效

        Harness 的評估也是個難題

        李老師介紹了τ-bench(arXiv: 2406.12045[8]),這是一個專門評測 Agent 能力的基準測試。但他也提醒:模擬環境和真實環境之間存在 Sim2Real Gap,評測結果要打折扣來看

        我的總結:三句話帶走

        別再怪模型笨了:大部分 Agent 的問題不在模型,在 Harness。就像那匹千里馬,你不能光喂好飼料,還得給它套好韁繩

        Harness 的三根韁繩記住了:認知框架(AGENTS.md)、能力邊界(ACI 接口)、行為流程(Ralph Loop)。三者缺一不可

        對 AI 好一點:不是因為它有感情,而是因為罵它真的會讓它變笨。建設性反饋 > 情緒化責備,這個道理對人和 AI 都適用

        相關資源匯總

        李宏毅 2026 Spring 課程視頻 [9]

        官方講義 PDF [10]

        課程主頁 [11]

        Harness 指南(Claude Code 實戰) [12]

        OpenClaw(Agent 框架) [13]

        SWE-agent(ACI 接口) [14]

        Anthropic: Effective Harnesses [15]

        Reference

        arXiv: 2601.20404:https://arxiv.org/abs/2601.20404

        Harness Engineering 博客:https://openai.com/zh-Hant-HK/index/harness-engineering/

        Harness 設計長運行應用:https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

        transformer-circuits.pub:https://transformer-circuits.pub/2026/emotions/index.html

        [5]

        arXiv: 2603.12273:https://arxiv.org/pdf/2603.12273

        [6]

        Harness Engineering 博客:https://openai.com/zh-Hant-HK/index/harness-engineering/

        [7]

        Meta-Harness(arXiv: 2603.28052v1):https://arxiv.org/pdf/2603.28052v1

        [8]

        arXiv: 2406.12045:https://arxiv.org/abs/2406.12045

        [9]

        李宏毅 2026 Spring 課程視頻:https://www.youtube.com/watch?v=QLiKmca4kzI

        [10]

        官方講義 PDF:https://speech.ee.ntu.edu.tw/~hylee/ml/ml2026-course-data/harness.pdf

        [11]

        課程主頁:https://speech.ee.ntu.edu.tw/~hylee/ml/2026-spring.php

        [12]

        Harness 指南(Claude Code 實戰):https://github.com/wquguru/harness-books

        [13]

        OpenClaw(Agent 框架):https://github.com/zhanglearning/openclaw

        [14]

        SWE-agent(ACI 接口):https://github.com/princeton-nlp/SWE-agent

        [15]

        Anthropic: Effective Harnesses:https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      重要突破,科學家注射一個腫瘤細胞,全身癌細胞竟然消失

      重要突破,科學家注射一個腫瘤細胞,全身癌細胞竟然消失

      心中的麥田
      2026-04-19 18:26:11
      美國至少10名科研人員離奇死亡或神秘失蹤引發廣泛關注!大都接觸UFO、航空航天、原子能等涉密項目,白宮承諾:徹查

      美國至少10名科研人員離奇死亡或神秘失蹤引發廣泛關注!大都接觸UFO、航空航天、原子能等涉密項目,白宮承諾:徹查

      大風新聞
      2026-04-20 09:35:11
      特朗普第一任期的白宮律師突然爆猛料:特朗普已經撐不下去了

      特朗普第一任期的白宮律師突然爆猛料:特朗普已經撐不下去了

      西樓知趣雜談
      2026-04-19 21:25:23
      快檢查自家陽臺!有人家里已大量出現,官方提醒:千萬別摸

      快檢查自家陽臺!有人家里已大量出現,官方提醒:千萬別摸

      環球網資訊
      2026-04-18 16:23:18
      伊朗總統:美國持續背信棄義 做出霸凌且不合理行為

      伊朗總統:美國持續背信棄義 做出霸凌且不合理行為

      中國網
      2026-04-20 11:09:10
      普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

      普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

      田園小歸
      2026-04-20 09:17:43
      爭議?對手疑似伸腿踹張雪機車惹怒中國網友 張雪:很正常+很干凈

      爭議?對手疑似伸腿踹張雪機車惹怒中國網友 張雪:很正常+很干凈

      風過鄉
      2026-04-20 06:45:19
      斯諾克世錦賽:丁俊暉送大禮!吉爾伯特被罰12分逆轉,僅2-3落后

      斯諾克世錦賽:丁俊暉送大禮!吉爾伯特被罰12分逆轉,僅2-3落后

      劉姚堯的文字城堡
      2026-04-19 19:17:56
      學術不端是學術晉級的最快捷徑

      學術不端是學術晉級的最快捷徑

      必記本
      2026-04-19 22:50:38
      王金平力挺了鄭麗文后,連勝文發聲了,竟主動為朱立倫證實1件事

      王金平力挺了鄭麗文后,連勝文發聲了,竟主動為朱立倫證實1件事

      瀲滟晴方DAY
      2026-04-20 06:55:07
      研究發現:脂肪肝人若常補B族維生素,用不了多久,身體或有3好處

      研究發現:脂肪肝人若常補B族維生素,用不了多久,身體或有3好處

      小胡軍事愛好
      2026-03-05 20:56:45
      季后賽首秀35分!就在今天,一項鄧肯保持的NBA紀錄被文班打破了

      季后賽首秀35分!就在今天,一項鄧肯保持的NBA紀錄被文班打破了

      世界體育圈
      2026-04-20 12:45:16
      魏建軍提議私家車10年后再年檢,用OBD和車聯網替代實地檢測

      魏建軍提議私家車10年后再年檢,用OBD和車聯網替代實地檢測

      快科技
      2026-04-19 08:19:03
      為什么全國人民都在拒接電話?

      為什么全國人民都在拒接電話?

      黯泉
      2026-04-18 17:00:56
      中國永遠的校長,死于1962年

      中國永遠的校長,死于1962年

      最愛歷史
      2024-05-20 13:30:17
      隨著巴黎圣日耳曼爆大冷門1-2,法甲最新積分榜出爐:爭冠白熱化

      隨著巴黎圣日耳曼爆大冷門1-2,法甲最新積分榜出爐:爭冠白熱化

      側身凌空斬
      2026-04-20 07:55:12
      上海長征醫院浦東院區啟用,緊鄰9號線曹路站!明后天推出院內大型義診

      上海長征醫院浦東院區啟用,緊鄰9號線曹路站!明后天推出院內大型義診

      上觀新聞
      2026-04-20 11:18:09
      前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢倒下就是紅牌

      前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢倒下就是紅牌

      懂球帝
      2026-04-20 08:00:07
      字母哥離隊倒計時!四隊瘋搶,雄鹿超市即將開張

      字母哥離隊倒計時!四隊瘋搶,雄鹿超市即將開張

      茅塞盾開本尊
      2026-04-20 12:22:09
      于海青:為何說廣東黃坤明書記不斷下基層讓企業信心滿滿?

      于海青:為何說廣東黃坤明書記不斷下基層讓企業信心滿滿?

      于海青
      2026-04-19 19:54:18
      2026-04-20 12:59:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3334文章數 11137關注度
      往期回顧 全部

      科技要聞

      藍色起源一級火箭完美回收 客戶衛星未入軌

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      體育要聞

      七大獎項候選官宣!文班或全票DPOY

      娛樂要聞

      鹿晗生日上熱搜,被關曉彤撕下體面

      財經要聞

      月之暗面IPO迷局

      汽車要聞

      把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態度原創

      親子
      手機
      游戲
      旅游
      軍事航空

      親子要聞

      女孩兒學壞,多半栽在初中

      手機要聞

      一加Ace6至尊版手機官宣4月28日發布:天璣9500、8600mAh

      異世界自動化模擬經營游戲《退休勇者當廠長》現已正式上架Steam

      旅游要聞

      800年紫藤花開如瀑 最美寧陽四月天

      軍事要聞

      特朗普:美艦向伊朗貨船開火炸出個洞

      無障礙瀏覽 進入關懷版