網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

全行業(yè)都狂卷 Harness，Anthropic 還在加碼，Codex 負(fù)責(zé)人卻說(shuō)它正在退場(chǎng)

2026-03-30 18:36:23　來(lái)源: InfoQ

北京舉報(bào)

分享至

整理｜冬梅

編輯｜Tina

今年年初，OpenAI 的架構(gòu)師 Bill Chen 和 Brian Fioca 在一期演講里詳細(xì)介紹了 Codex 構(gòu)建過(guò)程中克服的挑戰(zhàn)，以及 Coding Agent 本身一些新興的使用模式。談及 Coding Agent 的構(gòu)成時(shí)介紹其由三部分組成：用戶界面、模型和Harness。

用戶界面顯而易見(jiàn)，可能是命令行工具，也可能是集成開(kāi)發(fā)環(huán)境，或者是云端或后臺(tái) Agent。模型也很直白，比如 OpenAI 的 GPT-5.1 系列模型或其他一些供應(yīng)商的模型。至于 Harness，這是一個(gè)稍微復(fù)雜一點(diǎn)的部分，它直接與模型交互，最簡(jiǎn)化地說(shuō)，可以將其看作是由一系列提示和工具組合而成的核心 Agent 循環(huán)，它為模型提供輸入和輸出。

Harness 是模型的接口層，它是模型與用戶、代碼之間進(jìn)行交互的媒介。它包括了模型需要的所有組件，以便在多輪對(duì)話中進(jìn)行工作，調(diào)用工具，并最終為你編寫(xiě)代碼，解讀用戶的需求。對(duì)一些產(chǎn)品來(lái)說(shuō)，Harness 可能是其中的關(guān)鍵部分。

Anthropic 前幾日也發(fā)布了一篇博客文章，名為《Harness design for long-running application development》（長(zhǎng)時(shí)運(yùn)行應(yīng)用開(kāi)發(fā)的 Harness Design），文中提到Harness指的是一種支撐復(fù)雜 AI 智能體（Agent）運(yùn)行的外部框架、控制結(jié)構(gòu)與編排系統(tǒng)。它不是單一的算法，而是一整套工程化的“腳手架”，用于管理和放大 AI 的能力。

它是 Prompt Engineering（提示詞工程）之上的更高級(jí)抽象。Prompt 決定了單次對(duì)話的質(zhì)量，而 Harness 決定了多輪、多智能體、長(zhǎng)時(shí)任務(wù)的執(zhí)行流程和可靠性。

Harness 的核心作用是解決 AI 在完成復(fù)雜、耗時(shí)任務(wù)時(shí)的“失控”問(wèn)題（Go off the rails），通過(guò)外部控制機(jī)制彌補(bǔ)模型內(nèi)在的缺陷（如上下文焦慮、自我美化）。

無(wú)論是 OpenAI 還是 Anthropic，都明確認(rèn)定 Harness 是 Coding Agent 落地的關(guān)鍵，但兩家頂級(jí)巨頭的分歧在于，該把 Harness 做強(qiáng)做厚，還是做薄做輕？

Harness 該做大還是縮小？

行業(yè)內(nèi)部也似乎正在形成一種新的共識(shí)：決定 AI 編程上限的，不再是模型本身的單次生成能力，而是 Harness Engineering。

在 Anthropic 最近的工程文章展示了他們對(duì) Long-running Agent（長(zhǎng)時(shí)運(yùn)行智能體）的深度探索。為了解決 AI 在長(zhǎng)時(shí)間任務(wù)中“脫軌”的問(wèn)題，他們構(gòu)建了一套極其嚴(yán)密的 Harness：

結(jié)構(gòu)化交接（Structured Handoff）：強(qiáng)制 AI 在上下文耗盡前生成“進(jìn)度文件”，將狀態(tài)外置。
多智能體協(xié)作：引入 Planner（規(guī)劃器）、Generator（生成器）、Evaluator（評(píng)估器）分工。
上下文重置機(jī)制：為了避免“上下文焦慮”，直接清空對(duì)話歷史，僅保留結(jié)構(gòu)化產(chǎn)物，給新智能體一張“白板”。

這種思路的本質(zhì)是“把 Harness 做強(qiáng)、做厚”。他們認(rèn)為，只要框架足夠健壯，就能撐起最復(fù)雜的任務(wù)。

但近日，OpenAI Codex 開(kāi)源負(fù)責(zé)人 Michael Bolin 做客了一檔訪談欄目，釋放出了與 Anthropic 把 Harness 做厚做強(qiáng)相反的信號(hào)。

這場(chǎng)對(duì)話圍繞“AI 編碼時(shí)代，真正改變軟件開(kāi)發(fā)范式的究竟是“大模型本身”，還是圍繞模型構(gòu)建的 harness？”這一話題展開(kāi)。

在訪談中，Michael 認(rèn)為，Harness 不應(yīng)該無(wú)限膨脹。

Michael 根據(jù) Codex 的構(gòu)建理念闡述了一個(gè)他們看到的重要趨勢(shì)：理想狀態(tài)下，harness 應(yīng)該“盡可能小”，而模型應(yīng)“盡可能強(qiáng)”。Codex 的設(shè)計(jì)理念就是減少工具數(shù)量、避免過(guò)度干預(yù)，讓模型在更接近真實(shí)計(jì)算環(huán)境（如終端）的空間中自主探索解決路徑。這種“AGI 導(dǎo)向”的思路，本質(zhì)上是在減少人為規(guī)則對(duì)模型的束縛，把更多決策權(quán)交還給模型本身。但 Michael 也提到，在這一過(guò)程中，安全（security）和隔離（sandboxing）成為不可妥協(xié)的底線，也是 harness 不可替代的核心職責(zé)。

Codex 的理念更傾向于“把 Harness 做薄、做輕”，具體表現(xiàn)在以下幾點(diǎn)：

最小化工具依賴：甚至刻意減少專用工具，轉(zhuǎn)而讓模型直接使用通用的終端（Terminal）。
環(huán)境而非框架：Harness 僅提供必要的沙箱（Sandbox）安全環(huán)境和基礎(chǔ)接口，不做過(guò)多的流程控制。
能力回歸模型：探索、決策和執(zhí)行的邏輯，盡量交給模型自身去學(xué)習(xí)，而不是由外部的編排框架硬編碼。

這種思路擔(dān)心的是，過(guò)于復(fù)雜的 Harness 反而會(huì)把模型“教傻”，或者產(chǎn)生沉重的工程負(fù)擔(dān)，拖慢迭代速度。

OpenAI 和 Anthropic 的兩種路徑選擇給 AI 從業(yè)者帶來(lái)一個(gè)必須要思考的問(wèn)題：Harness，到底是 AI Coding 的終局，還是一個(gè)正在被快速放大的中間態(tài)？

因?yàn)檫@個(gè)問(wèn)題的答案決定了未來(lái)的產(chǎn)品形態(tài)：

如果 Harness 是終局：那么未來(lái)的競(jìng)爭(zhēng)將是“框架之戰(zhàn)”。誰(shuí)擁有最強(qiáng)健、最通用的 Harness（如 Anthropic 展示的多智能體架構(gòu)），誰(shuí)就能統(tǒng)治開(kāi)發(fā)流程。AI 編程將演變?yōu)椤跋到y(tǒng)工程 + AI”。

如果 Harness 是中間態(tài)：那么現(xiàn)在的復(fù)雜框架只是為了彌補(bǔ)當(dāng)前模型的短板。隨著模型能力的指數(shù)級(jí)提升（如更強(qiáng)的記憶、更長(zhǎng)的上下文、更好的推理），這些復(fù)雜的外部編排最終會(huì)被模型內(nèi)化。屆時(shí)，Harness 將退化為一個(gè)簡(jiǎn)單的運(yùn)行環(huán)境（Sandbox），而核心競(jìng)爭(zhēng)力將再次回歸到基座模型的能力本身。

Michael Bolin 并非傳統(tǒng)意義上的“AI 從業(yè)者”。在加入 OpenAI 之前，他曾長(zhǎng)期任職于 Google 和 Meta，參與構(gòu)建開(kāi)發(fā)者工具與基礎(chǔ)設(shè)施，主導(dǎo)或參與過(guò) Buck、Nuclide、DotSlash 等項(xiàng)目。

對(duì)話內(nèi)容經(jīng)由 InfoQ 翻譯及整理，略有刪減：

關(guān)于 AI 編碼與 Harness Engineering

主持人：今天很高興邀請(qǐng)到 Michael Bolin。他是 Codex 的負(fù)責(zé)人。人們通常認(rèn)為，AI 編碼的核心就是“模型寫(xiě)代碼”。但很多在構(gòu)建智能體的團(tuán)隊(duì)認(rèn)為，真正的變化在于圍繞模型設(shè)計(jì)環(huán)境。你更認(rèn)同哪一種？

Michael：模型當(dāng)然會(huì)主導(dǎo)整體體驗(yàn)。但我們發(fā)現(xiàn)，在 Harness 這一層仍然有很大的創(chuàng)新空間。這不僅僅是一個(gè)研究問(wèn)題。對(duì)我們團(tuán)隊(duì)來(lái)說(shuō)，關(guān)鍵在于工程與研究之間的協(xié)同——共同開(kāi)發(fā)智能體，確保 harness 能夠讓智能體發(fā)揮最佳能力。同時(shí)，還要為智能體提供合適的工具，要確保智能體使用的這些工具，在訓(xùn)練階段就已經(jīng)被模型“見(jiàn)過(guò)并練習(xí)過(guò)”，這樣在真實(shí)產(chǎn)品環(huán)境中調(diào)用這些工具時(shí)，模型不會(huì)“陌生”或“出錯(cuò)”。

主持人：我們來(lái)定義一下 harness，以及它為什么變得如此重要。

Michael：harness 有時(shí)也被稱為 Agent loop——它負(fù)責(zé)調(diào)用模型、采樣，并提供上下文：我想做什么、有哪些工具可用、下一步該做什么。然后模型返回響應(yīng)——通常是一個(gè)工具調(diào)用，比如“我想用這些參數(shù)調(diào)用這個(gè)工具，請(qǐng)告訴我返回結(jié)果”。

有些工具很簡(jiǎn)單，比如運(yùn)行一個(gè)可執(zhí)行文件并返回 stdout 和退出碼。我們也做了很多更復(fù)雜的工具實(shí)驗(yàn)，比如控制機(jī)器、控制用戶的筆記本，更像是一個(gè)交互式終端，而不是簡(jiǎn)單的命令執(zhí)行。也可以進(jìn)行網(wǎng)絡(luò)搜索等操作。

對(duì)于 Codex 來(lái)說(shuō)，因?yàn)樗且粋€(gè)編碼 Agent，而我們非常重視安全和沙箱機(jī)制，因此 harness 的核心工作之一就是從模型獲取 shell 命令或計(jì)算機(jī)操作指令，并確保它們?cè)谏诚渲袌?zhí)行，或者遵循用戶設(shè)定的策略。這部分其實(shí)非常復(fù)雜。關(guān)鍵是既要釋放模型的全部能力，又要確保在用戶機(jī)器上的安全運(yùn)行。

主持人：在開(kāi)源 Codex 時(shí)，你們是如何處理安全問(wèn)題的？

Michael：這些實(shí)現(xiàn)其實(shí)都可以在我們的代碼庫(kù)中看到。我們針對(duì)不同的操作系統(tǒng)做了不同的處理：在 macOS 上，我們使用了一種叫做 Seatbelt 的技術(shù)。在 Linux 上，我們使用了一系列庫(kù)——包括 Bubblewrap、seccomp 和 Landlock。在 Windows 上，我們實(shí)際上構(gòu)建了自己的沙箱。其中一些組件，比如 Seatbelt，是 macOS 的一部分，所以它們不在開(kāi)源代碼庫(kù)里——我們就是這么稱呼的。但我們的 Windows 沙箱代碼在開(kāi)源代碼庫(kù)里。我們會(huì)協(xié)調(diào)所有這些調(diào)用，確保它們以適當(dāng)?shù)姆绞酵ㄟ^(guò)沙箱，以適應(yīng)不同的工具調(diào)用。

主持人：所以當(dāng)別人 fork Codex 時(shí)，這些安全規(guī)則也都包含在里面了嗎？

Michael：是的，不過(guò)這里要區(qū)分“security”和“safety”。我剛才說(shuō)的更多是 security，比如你可以運(yùn)行工具，但只能訪問(wèn)特定文件夾。而行業(yè)里說(shuō)的 safety，更多發(fā)生在后端——即模型本身是否會(huì)提出合適的工具調(diào)用。從 harness 的角度來(lái)看，它更像是在執(zhí)行命令，而哪些命令是安全的，是由模型決定的。

所以，如果你 fork Codex 并繼續(xù)使用我們的模型，那么你也繼承了這部分安全性。但如果你換了別的模型，情況就不一定了。

Codex 是如何發(fā)展的？

主持人：自從你們推出 Codex 以來(lái)，它的發(fā)展情況如何？

Michael：反響非常好，使用量相比年初增長(zhǎng)了大約五倍。我們?cè)?2025 年 4 月作為 o3 和 o4 mini 發(fā)布的一部分推出，當(dāng)時(shí)模型在工具調(diào)用和指令執(zhí)行方面還不夠理想。到了 8 月 GPT-5 發(fā)布后，我們更新了 CLI，這是一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn)。之后我們推出了 VS Code 插件，用戶增長(zhǎng)非常快，甚至超過(guò)了 CLI。再后來(lái)是今年年初推出的應(yīng)用，也迅速流行起來(lái)。我認(rèn)為它在很多方面都是真正意義上的首創(chuàng)。

主持人：在你看來(lái)，這個(gè)應(yīng)用的創(chuàng)新點(diǎn)是什么？

Michael：開(kāi)發(fā)者歷來(lái)大部分時(shí)間都花在集成開(kāi)發(fā)環(huán)境（IDE）中，。這些都是顯而易見(jiàn)、順理成章的選擇。

開(kāi)發(fā)者通常在 IDE 中工作，所以我們進(jìn)入 VS Code、JetBrains、Xcode 是很自然的。借助 Codex 應(yīng)用，我們實(shí)際上建立了一個(gè)全新的界面。我把它看作“任務(wù)控制中心”，可以同時(shí)管理多個(gè)對(duì)話。同時(shí)它保留了 IDE 的核心能力，比如查看 diff、使用 Command-J 快捷鍵打開(kāi)終端，而無(wú)需切換到其他窗口。它真正打破了你必須始終將所有代碼都放在眼前的固有觀念。對(duì)很多人來(lái)說(shuō)，能夠同時(shí)組織和協(xié)作多個(gè) Agent 更有價(jià)值。這正是我們努力實(shí)現(xiàn)的核心功能。

編碼代理如何改變開(kāi)發(fā)者的工作流程

主持人：像 Codex 這樣的編碼代理，會(huì)如何改變開(kāi)發(fā)者的日常工作？

Michael：最大的變化是吞吐量。你可以并行推進(jìn)很多任務(wù)。當(dāng)然，這帶來(lái)了一些上下文切換，并不是所有人都喜歡，但如果掌握得好，效率會(huì)非常高。

我個(gè)人維護(hù)著大約五個(gè) Codex 代碼庫(kù)的副本，經(jīng)常在它們之間切換。有時(shí)候，我只是在做其他事情的時(shí)候注意到一些小問(wèn)題，然后快速修復(fù)一下。而有時(shí)候，我需要花一整天的時(shí)間，在會(huì)議間隙處理 Codex 的一個(gè)重大變更。很多人即使只有五分鐘的會(huì)議間隙，也會(huì)發(fā)一條消息，只是為了推動(dòng)某個(gè)任務(wù)朝著另一個(gè)方向發(fā)展。

第二點(diǎn)是，人們正在花更多時(shí)間研究如何優(yōu)化這個(gè)工作流程。相對(duì)而言，這一切都非常新穎。我應(yīng)該把一直在做的事情變成一項(xiàng)可復(fù)用的技能嗎？我應(yīng)該把這項(xiàng)技能分享給我的團(tuán)隊(duì)成員嗎？?jī)?yōu)秀的開(kāi)發(fā)者總是會(huì)努力優(yōu)化他們的內(nèi)部循環(huán)（Inner loop），但這是一個(gè)全新的內(nèi)部循環(huán)，每個(gè)人都還在摸索中。

第三件備受關(guān)注的事情是代碼審查。代碼審查的數(shù)量顯著增加，但 Codex 本身也承擔(dān)了大量的代碼審查工作，這節(jié)省了大量時(shí)間。如何最大限度地利用這些資源仍然是一個(gè)不斷探索的問(wèn)題。

主持人：你在最初開(kāi)發(fā) Codex 時(shí)，有沒(méi)有遇到什么意想不到的事情？

Michael Bolin：我最大的感受是技術(shù)發(fā)展太快了。Codex 成立至今還不到一年，考慮到這段時(shí)間發(fā)生的巨大變化，這真是令人驚嘆。

我們?cè)?2025 年 4 月發(fā)布時(shí)，那是 o3 和 o4 發(fā)布計(jì)劃的一部分。當(dāng)時(shí)我們使用了推理模型，但工具調(diào)用和指令執(zhí)行方面還沒(méi)有達(dá)到我們預(yù)期的效果。看到這方面隨著時(shí)間的推移而不斷改進(jìn)，真是令人欣慰。

早期最令人興奮的事情之一就是讓 Codex 自己編寫(xiě)更多代碼——親眼見(jiàn)證這個(gè)過(guò)程。比如 agents.md 逐漸成為標(biāo)準(zhǔn)，搭建起框架，讓你能夠構(gòu)建出優(yōu)化自身工作流程的工具。這帶來(lái)了一種指數(shù)級(jí)的飛躍，既令人興奮又充滿樂(lè)趣。看到同事們真正理解 Codex 并把更多工作轉(zhuǎn)移到 Codex 上——這真是太棒了。

智能體時(shí)代的代碼庫(kù)

主持人：當(dāng)代碼庫(kù)是由智能體而不是人類來(lái)閱讀時(shí)，它應(yīng)該是什么樣？

Michael：整個(gè)智能體編碼之旅中一個(gè)有趣的現(xiàn)象是，軟件開(kāi)發(fā)中一些長(zhǎng)期以來(lái)被認(rèn)為是最佳實(shí)踐的做法，我們卻從未真正實(shí)踐過(guò)。文檔就是一個(gè)例子，測(cè)試驅(qū)動(dòng)開(kāi)發(fā)也是如此。人們并非完全忽視它們，但總覺(jué)得得不償失。而現(xiàn)在，在智能體優(yōu)先的世界里，這些變得非常有價(jià)值。人們幾乎是在重新發(fā)現(xiàn)它們，并且真心實(shí)意地重視它們。

例如，想想 agents.md 文件，我們寫(xiě)在里面的所有內(nèi)容，我認(rèn)為也同樣適用于新加入團(tuán)隊(duì)的人——他們需要知道的一切，所有最佳實(shí)踐。把這些內(nèi)容寫(xiě)下來(lái)，既方便了智能體，也方便了你的隊(duì)友，這實(shí)際上是一種解脫。

也就是說(shuō)，在 Codex 上，我們自認(rèn)為已經(jīng)接受了通用人工智能（AGI）的理念——這意味著智能體應(yīng)該真正自主決定做什么，而不是我們不斷地向它灌輸指令。與其編寫(xiě)一份與源代碼并行運(yùn)行、容易導(dǎo)致重復(fù)或不一致的文檔，我們不如讓智能體花時(shí)間閱讀代碼并形成自己的判斷。我們會(huì)嘗試在 agents.md 文件中添加一些它無(wú)法從代碼中快速獲取的信息，例如：如何運(yùn)行測(cè)試，或者哪些測(cè)試比哪些測(cè)試更重要。但我們盡量避免過(guò)度干預(yù)，而是讓智能體自行決定最佳的執(zhí)行路徑。

主持人：你認(rèn)為在不久的將來(lái)，agents.md 會(huì)由智能體自己寫(xiě)嗎？

Michael：很多人已經(jīng)這么做了，比如在指令中加入“完成后更新 agents.md”。我們團(tuán)隊(duì)沒(méi)有強(qiáng)制這樣做，但這是常見(jiàn)做法。

Michael：現(xiàn)在確實(shí)有不少人這么做。我看到很多開(kāi)發(fā)者會(huì)在自己的提示說(shuō)明里加上一條類似的要求：任務(wù)完成后，順便更新agents.md文件，把過(guò)程中值得記錄的內(nèi)容補(bǔ)充進(jìn)去——包括那些不那么顯而易見(jiàn)的信息，或者是在和 Codex 協(xié)作開(kāi)發(fā)時(shí)逐漸發(fā)現(xiàn)的經(jīng)驗(yàn)。

不過(guò)在我們團(tuán)隊(duì)內(nèi)部，這還沒(méi)有成為一項(xiàng)通用規(guī)范。你如果去看代碼庫(kù)的歷史記錄，也能發(fā)現(xiàn)我們并沒(méi)有系統(tǒng)性地這么做，但在社區(qū)里，這種方式已經(jīng)比較常見(jiàn)了。

另外，學(xué)界也開(kāi)始討論一個(gè)問(wèn)題：到底應(yīng)該給智能體提供多少信息才合適。我個(gè)人覺(jué)得，這很大程度上取決于具體的智能體能力。

在 Codex 的實(shí)踐中，我們采取的是一種相對(duì)克制的方式——不會(huì)寫(xiě)成幾十頁(yè)的詳細(xì)說(shuō)明，而是只保留一些關(guān)鍵要點(diǎn)，讓智能體自己去理解和發(fā)揮。

Codex 不生成“垃圾”

主持人：Context Engineering 似乎是這個(gè)過(guò)程中越來(lái)越重要的部分。對(duì)于智能體來(lái)說(shuō)，會(huì)不會(huì)出現(xiàn)“上下文過(guò)多”的問(wèn)題？

Michael：從我的經(jīng)驗(yàn)而非研究角度來(lái)看：對(duì)于中等規(guī)模的任務(wù)，我通常會(huì)描述一段代碼，然后讓 Codex 熟悉這部分代碼。有時(shí)，如果我認(rèn)為有幫助，我會(huì)提供明確的文件指針，但通常我不會(huì)——它自己就能很好地搜索代碼庫(kù)。

有一件容易被忽視但卻至關(guān)重要的事情：確保文件和文件夾命名規(guī)范。這本身就是一種良好的習(xí)慣，當(dāng) Agent 程序搜索代碼時(shí)，這一點(diǎn)顯得更加重要。

大部分上下文信息將來(lái)自 agents.md 文件、我編寫(xiě)的提示以及一些文件引用。我還授予了 Codex 訪問(wèn) GitHub 的權(quán)限，這樣它就可以查看類似這樣的信息：例如，這個(gè)拉取請(qǐng)求中也出現(xiàn)了類似的問(wèn)題，它不僅可以看到代碼，還可以看到圍繞該拉取請(qǐng)求的討論。但再次強(qiáng)調(diào)，這更多的是為了讓 Codex 了解它有哪些選擇——就像是給它提供了工具箱里的工具一樣——而不是規(guī)定它應(yīng)該如何解決問(wèn)題。這是一個(gè)很好的模型，所以它在這方面做得很好。

主持人：聽(tīng)起來(lái)這種工作方式會(huì)促使你采用更嚴(yán)格的架構(gòu)。是這樣嗎？

Michael：當(dāng)然。Codex 會(huì)遵循它在代碼庫(kù)中發(fā)現(xiàn)的模式。如果你一開(kāi)始就擁有良好的架構(gòu)，它就會(huì)遵循它、維護(hù)它，并強(qiáng)制執(zhí)行你設(shè)定的不變式——從長(zhǎng)遠(yuǎn)來(lái)看，你就會(huì)處于有利地位。當(dāng)然，這對(duì)人類開(kāi)發(fā)者來(lái)說(shuō)也是如此。只是現(xiàn)在的變化速度要快得多，所以如果你有這些標(biāo)準(zhǔn)，你就能更深刻地感受到它們帶來(lái)的好處。

主持人：你是否仍然看到模型和編碼代理中存在大量缺陷？你是如何應(yīng)對(duì)的？

Michael：說(shuō)實(shí)話，我覺(jué)得 Codex 里并沒(méi)有真正稱得上“糟糕”的東西。我更多地看到的是，這些模型喜歡編寫(xiě)代碼。所以有時(shí)候正確的做法是刪除代碼，你可能需要更明確地說(shuō)明這一點(diǎn)。但這其實(shí)算不上糟糕——更像是：你在這個(gè)文件里添加了 500 行代碼，也許你應(yīng)該新建一個(gè)文件。這些都更容易解決。

更常見(jiàn)的情況是，Codex 掌握了我尚未接觸過(guò)的習(xí)語(yǔ)或語(yǔ)言特征，并加以運(yùn)用。我因此學(xué)到了新東西。這才是 Codex 帶給我驚喜的更多方式——而不是敷衍了事。

模型與 Harness Engineering，
誰(shuí)更重要？

主持人：你剛才描述的是，Codex 剛起步的時(shí)候，模型還不完善。現(xiàn)在模型已經(jīng)成熟很多，應(yīng)用本身也吸引了更廣泛的用戶群體。但我想問(wèn)的是，模型與 Harness Engineering 誰(shuí)更強(qiáng)大？Harness Engineering 是否會(huì)在某個(gè)階段不再僅僅是一個(gè)封裝層，而成為一個(gè)更重要的環(huán)境？或者說(shuō)，模型始終占據(jù)主導(dǎo)地位？模型和 harness engineering，在你看來(lái)哪個(gè)更重要？

Michael Bolin：我明白你的意思，你是想問(wèn)，有沒(méi)有可能出現(xiàn)一種情況，Harness Engineering 逐漸消失，不再發(fā)揮太大作用？

在我看來(lái)這并非不可能。在很多方面，我們都在努力讓 harness 盡可能小巧、盡可能輕量級(jí)。與其他一些智能體相比，Codex 的一個(gè)顯著特點(diǎn)是，我們盡量減少智能體擁有的工具。例如，例如 Codex 的工具非常少，沒(méi)有專門的讀文件工具，而是讓它使用終端命令。這與我之前提到的“AGI 理念”相呼應(yīng)：我們給予它廣闊的探索空間，讓它自行找到最佳的運(yùn)行路徑。

唯一的例外是安全——沙箱是必須的。沙箱機(jī)制是防止 Codex 不受控制運(yùn)行的重要保障。有時(shí)，人們會(huì)耍點(diǎn)小聰明，試圖通過(guò)控制代理來(lái)操控上下文窗口。但作為 Codex 的作者，我們想說(shuō)：“收起你的小聰明，我比你懂得多。” 但我們盡量克制。如果 Codex 即將運(yùn)行一個(gè)會(huì)輸出 1GB 數(shù)據(jù)的工具，我們的想法是：先讓 Codex 將數(shù)據(jù)寫(xiě)入文件，然后再用 grep 命令搜索，但要讓它自由選擇如何解決問(wèn)題。

主持人：你認(rèn)為有可能將所有這些安全規(guī)則、沙盒機(jī)制都編碼進(jìn)去嗎？還是應(yīng)該始終有人參與其中？

Michael：就我們關(guān)注的編碼任務(wù)而言，我認(rèn)為沙盒機(jī)制確實(shí)是取代人工干預(yù)的主要方法，至少對(duì)我們大部分的工作來(lái)說(shuō)是這樣。你遇到一個(gè)問(wèn)題，把它交給 Codex，它會(huì)在一個(gè)受特定方式約束的沙盒環(huán)境中運(yùn)行，讓它在這個(gè)空間內(nèi)探索，就能找到最佳解決方案——尤其是在大規(guī)模應(yīng)用的情況下。我同時(shí)運(yùn)行著五個(gè) Codex 的克隆版本。如果我必須每隔幾分鐘就干預(yù)這五個(gè)版本，那會(huì)從根本上限制它們的吞吐量。

這些糾正措施應(yīng)該更多地在訓(xùn)練階段進(jìn)行，然后在推理階段發(fā)揮作用，而不是需要人為干預(yù)。

主持人：所以能力更多會(huì)在模型里，而不是 harness？

Michael Bolin：是的，模型更重要。但 harness 的可靠性仍然非常重要。如果 harness 崩潰，一切就結(jié)束了。隨著我們不可避免地邁向多智能體和子智能體架構(gòu)——更多智能體在不同機(jī)器間通信——harness 不再僅僅是單臺(tái)機(jī)器上的單個(gè)進(jìn)程，而變成了一個(gè)智能體網(wǎng)絡(luò)。我預(yù)計(jì)未來(lái)會(huì)有很多更有趣的工作要做。我的職業(yè)生涯大部分時(shí)間都在為開(kāi)發(fā)者編寫(xiě)工具；現(xiàn)在我正在為智能體編寫(xiě)更多工具。智能體也可以編寫(xiě)自己的工具，但正如我所說(shuō)，我們更傾向于使用少量但功能強(qiáng)大的工具，讓智能體能夠充分探索各種可能性——我們將繼續(xù)嘗試，找到最合適的工具組合。

未來(lái) Agent 的發(fā)展方向

主持人：你認(rèn)為智能體編碼的基礎(chǔ)組件有哪些？

Michael：我覺(jué)得我們已經(jīng)看到了很多組成部分。比如我稱之為 shell 工具或終端工具的東西，它讓模型能夠像人一樣使用計(jì)算機(jī)終端，而不僅僅是直接執(zhí)行命令。它還包括處理流式輸出并高效利用這些輸出等功能。

記憶是另一個(gè)重要領(lǐng)域。過(guò)去，每次發(fā)起對(duì)話都是從零開(kāi)始——這就是為什么會(huì)有 agents.md 以及各種上下文填充機(jī)制，以便快速將信息導(dǎo)入模型。如果你查看代碼庫(kù)，會(huì)發(fā)現(xiàn)很多關(guān)于記憶的實(shí)驗(yàn)。

此外，不同類型的上下文連接器（context connectors）也正在發(fā)生很多變化。最初，我們專注于本地計(jì)算機(jī)上的計(jì)算機(jī)任務(wù)，但現(xiàn)在它也涵蓋了更廣泛的工作——例如代表您發(fā)送電子郵件、創(chuàng)建文檔以及在 Web 瀏覽器中執(zhí)行操作。

此外，還有標(biāo)準(zhǔn)的 LLM 基礎(chǔ)設(shè)施：一般來(lái)說(shuō)，更大的上下文窗口是好事；當(dāng)達(dá)到限制時(shí)如何壓縮內(nèi)容；所有這些都在積極探索中，并有助于提升整體代理體驗(yàn)。

https://www.youtube.com/watch?v=6BAqgT3qe98

https://www.infoq.cn/article/HFewc09HcZ1IaDyFj8D0

https://www.youtube.com/watch?v=wVl6ZjELpBk

https://www.anthropic.com/engineering/harness-design-long-running-apps

聲明：本文為 InfoQ 整理，不代表平臺(tái)觀點(diǎn)，未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

QCon 全球軟件開(kāi)發(fā)大會(huì)·2026 北京站將于 4 月 16 日 -18 日正式舉辦。本屆大會(huì)以“Agentic AI 時(shí)代的軟件工程重塑”為主題，聚焦 100+ 重磅議題，匯聚來(lái)自阿里、騰訊、字節(jié)跳動(dòng)、小米、百度等一線科技企業(yè)與創(chuàng)新團(tuán)隊(duì)的技術(shù)專家，圍繞 AI 工程化、系統(tǒng)架構(gòu)與研發(fā)模式演進(jìn)展開(kāi)深入探討。更多詳情可掃碼或聯(lián)系票務(wù)經(jīng)理 18514549229 進(jìn)行咨詢。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.