2026年2月,OpenAI 在官方博客發表了一篇名為《Harness Engineering: Leveraging Codex in an Agent-First World》的文章。核心內容只有一件事:一個三人工程師小組,用五個月時間,完全依靠 AI Agent 交付了約 100 萬行代碼、1500 個 Pull Request,全程沒有任何人手動寫過一行代碼。
![]()
數字本身并不稀奇,真正值得關注的是這件事發生的時間節點,以及它背后折射出來的工程范式轉變。
三個人,五個月,一個不成文的規定
2025年8月,OpenAI 內部一個三人小組承接了一個新產品開發任務。他們給自己設了一條規則:所有代碼必須由 Codex AI Agent 生成,人類工程師不動鍵盤寫代碼。
五個月后,產品上線。代碼庫約 100 萬行,人均每天合并 3.5 個 Pull Request。Martin Fowler 在評價這項實驗時說:“Harness Engineering 包含了上下文工程、架構約束和垃圾回收,是對 AI 賦能軟件開發的一種有價值的框架性闡述。”
這個實驗之所以值得關注,不是因為它證明了 AI 能寫代碼——這一點早已無需證明——而是因為它回答了一個更具體的問題:當 AI 真的可以承擔大部分編碼工作時,工程師究竟該做什么?
“駕馭”是什么意思
Harness,在英文里本義是馬具、挽具——不是讓你騎馬,而是讓馬老老實實拉車。OpenAI 用這個詞,是在描述一種特定的工程師角色:不再生產代碼,而是設計一個讓 AI 能把事做對的環境。
這和“Prompt Engineering”有本質區別。寫提示詞是告訴 AI 怎么做這件事;Harness Engineering 是提前把“這件事的上下文、約束和驗證方式”設計成 AI 可以理解的結構,讓它在這個環境里自主運行。
三人團隊的核心實踐可以拆成幾個具體動作:
他們寫了一份叫 AGENTS.md 的文檔,只有 100 行。這不是使用手冊,而是索引——里面存的是架構圖、設計規范和執行計劃的入口,類似代碼庫的 README,但服務對象是 Agent 而不是人類。規則很嚴格:關鍵知識只能活在代碼庫里,禁止散落在 Slack 消息或口口相傳的討論里。
他們給 Agent 裝上了眼睛。通過集成 Chrome DevTools,Agent 可以自己截圖驗證 UI 渲染結果,不需要人類反復確認頁面對不對。Agent 寫完代碼、運行測試、看截圖、發現問題、自己修,形成一個閉環。
他們刻意選擇“無聊”的技術棧。這條實踐看起來反直覺,但邏輯很清晰:訓練數據里出現越多的庫和框架,Codex 對它的理解就越準確,出錯率越低。用冷門的新庫,等于讓 AI 在沒有地圖的地方開車。
還有一個被他們稱為“垃圾回收”的機制:后臺運行一個周期性 Agent,定期掃描代碼庫里的技術債——過時的依賴、被注釋的死代碼、違反架構約束的模塊——自動提交修復 PR。人類工程師不需要主動觸發這件事,它就在那里自動跑著。
Cursor 的對照實驗
幾乎在同一時期,Cursor 團隊做了一個更極端的實驗:用數百個 Agent 并行運行整整一周,從零開始用 Rust 寫一個瀏覽器引擎,最終產出超過 100 萬行代碼。
這個實驗一開始并不順利。第一版架構讓所有 Agent 地位平等,通過共享狀態文件協調工作。結果 20 個 Agent 的吞吐量退化到相當于 1 至 3 個 Agent。原因是典型的“風險厭惡”:在沒有明確分工的情況下,每個 Agent 都傾向于只做安全的小修改,真正復雜的任務沒有人敢碰。
后來他們試過流水線(Planner-Executor-Worker-Judge),又試過讓 Executor 同時承擔規劃職能——每次都有改進,也有新的瓶頸。最終跑通的方案是“遞歸 Planner 加獨立 Worker”:根 Planner 持有全局視野,當任務可以繼續分解時遞歸生成子 Planner;每個 Worker 只接觸自己負責的那份代碼副本,互不感知,完成后提交交接報告。
Cursor 自己總結這個實驗的核心發現時說:高吞吐量 Agent 開發需要接受“不完美但快速迭代”的哲學,而不是追求一次性完美。允許一個穩定的低錯誤率,讓后續 Agent 快速修復,反而比強制 100% 正確率更有效。
兩個團隊,兩套實驗,在同一個時間節點獨立得出了基本相同的結論:人類工程師的核心價值,正在從寫代碼轉向設計 AI 的工作環境。
爆火的“龍蝦”成為這套方法論最佳實例
Harness Engineering 發布的兩周前,另一件事剛剛發生。
奧地利開發者 Peter Steinberger 在2025年11月某個周末寫了一段腳本,讓 Claude 通過 WhatsApp 控制電腦。這個項目最初叫 Clawdbot,發布當天在 Hacker News 上走紅,隨即遭到 Anthropic 的商標律師函(“Clawd”與 Anthropic 產品名“Claude”沖突)。幾小時內改名 Moltbot,Twitter 賬號立即被加密貨幣騙子搶注。三天內第三次定名 OpenClaw,同步完成商標檢索和 34 個安全加固提交。
這場品牌危機意外帶來了更大的曝光。2026年1月底,OpenClaw 的 GitHub Stars 突破 20 萬,成為有記錄以來增長最快的開源 AI Agent。對比:Linux 達到 10 萬 Star 用了 12 年,React 用了 8 年。
Steinberger 后來在博客里寫,OpenClaw 的核心使命是“讓我媽媽這樣的普通用戶也能用上 AI Agent”。它的架構設計和 Harness Engineering 的底層邏輯高度吻合:不是構建一個復雜的 AI 模型,而是設計一套讓人類能夠安全、靈活駕馭 Agent 的接入層——標準化的技能接口、細粒度的權限控制、本地化部署支持。
2026年2月15日,Sam Altman 宣布 Steinberger 加入 OpenAI,負責“下一代個人智能體”研發。項目本身移交獨立基金會,MIT 協議不變,OpenAI 作為贊助方。Steinberger 寫道,加入 OpenAI 是實現這個愿景的“最快路徑”,而且他本質上是一個建造者,不是一個想經營大公司的人。
一個月后的 GTC 大會,NVIDIA CEO 黃仁勛在主會場演講中將 OpenClaw 與 Linux、Kubernetes 并列,發布基于它的企業級安全層 NemoClaw——運行在 OpenClaw 之下,提供內核級沙箱、進程外策略引擎和隱私路由三項能力。目標是讓企業能在自有硬件上安全部署 Agent,同時滿足數據主權要求。
TechCrunch 的標題直接點破了這件事的邏輯:“NVIDIA 的版本能解決 OpenClaw 最大的問題:安全。”
Harness Engineering 談的是工程師如何“駕馭”AI;NemoClaw 回答的是企業如何把這套駕馭建立在可信的基礎設施上。兩件事拼在一起,完整描述了 2026 年上半年硅谷 AI 工程實踐的演變方向。
一個悖論
這套方法論的傳播速度很快,質疑也隨之而來。
Anthropic 做了一項調查,數據顯示 Harness Engineering 風格的工作方式讓工程師生產力提升了 50%。但調查同時發現了一個問題:工程師依賴 AI Agent 的時間越長,獨立判斷 AI 輸出質量的能力就越弱。換句話說,你駕馭得越熟練,你對“馬”的理解反而越模糊。
OpenClaw 社區自己也給這個隱憂提供了具體注腳。CVE-2026-25253 漏洞讓約 4 萬臺 OpenClaw 實例暴露于遠程代碼執行風險;ClawHub 技能平臺遭遇惡意投毒(ClawHavoc事件),Bitdefender 和微軟相繼發出警告,稱不應直接在企業工作站上運行未經審查的 OpenClaw Agent。
“駕馭”并不只是效率問題,也是對風險的感知與控制能力。真正的問題或許不是這套方法論是否有效,而是當工程師越來越擅長設計 AI 的工作環境,卻越來越難以直接審計 AI 的工作結果,這中間的那段信任,究竟該落在哪里。
這個問題,Harness Engineering 的博文里沒有答案,OpenClaw 的代碼庫里也沒有。
參考來源:
https://openai.com/index/harness-engineering/
https://cursor.com/blog/self-driving-codebases
https://steipete.me/posts/2026/openclaw
https://techcrunch.com/2026/03/16/nvidias-version-of-openclaw-could-solve-its-biggest-problem-security/
https://investor.nvidia.com/news/press-release-details/2026/NVIDIA-Announces-NemoClaw-for-the-OpenClaw-Community/default.aspx
https://www.cnbc.com/2026/02/15/openclaw-creator-peter-steinberger-joining-openai-altman-says.html
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.