<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      全行業(yè)都狂卷 Harness,Anthropic 還在加碼,Codex 負(fù)責(zé)人卻說(shuō)它正在退場(chǎng)

      0
      分享至


      整理|冬梅

      編輯|Tina

      今年年初,OpenAI 的架構(gòu)師 Bill Chen 和 Brian Fioca 在一期演講里詳細(xì)介紹了 Codex 構(gòu)建過(guò)程中克服的挑戰(zhàn),以及 Coding Agent 本身一些新興的使用模式。談及 Coding Agent 的構(gòu)成時(shí)介紹其由三部分組成:用戶界面、模型和Harness

      用戶界面顯而易見(jiàn),可能是命令行工具,也可能是集成開(kāi)發(fā)環(huán)境,或者是云端或后臺(tái) Agent。模型也很直白,比如 OpenAI 的 GPT-5.1 系列模型或其他一些供應(yīng)商的模型。至于 Harness,這是一個(gè)稍微復(fù)雜一點(diǎn)的部分,它直接與模型交互,最簡(jiǎn)化地說(shuō),可以將其看作是由一系列提示和工具組合而成的核心 Agent 循環(huán),它為模型提供輸入和輸出。


      Harness 是模型的接口層,它是模型與用戶、代碼之間進(jìn)行交互的媒介。它包括了模型需要的所有組件,以便在多輪對(duì)話中進(jìn)行工作,調(diào)用工具,并最終為你編寫(xiě)代碼,解讀用戶的需求。對(duì)一些產(chǎn)品來(lái)說(shuō),Harness 可能是其中的關(guān)鍵部分。

      Anthropic 前幾日也發(fā)布了一篇博客文章,名為《Harness design for long-running application development》(長(zhǎng)時(shí)運(yùn)行應(yīng)用開(kāi)發(fā)的 Harness Design),文中提到Harness指的是一種支撐復(fù)雜 AI 智能體(Agent)運(yùn)行的外部框架、控制結(jié)構(gòu)與編排系統(tǒng)。它不是單一的算法,而是一整套工程化的“腳手架”,用于管理和放大 AI 的能力

      它是 Prompt Engineering(提示詞工程)之上的更高級(jí)抽象。Prompt 決定了單次對(duì)話的質(zhì)量,而 Harness 決定了多輪、多智能體、長(zhǎng)時(shí)任務(wù)的執(zhí)行流程和可靠性。

      Harness 的核心作用是解決 AI 在完成復(fù)雜、耗時(shí)任務(wù)時(shí)的“失控”問(wèn)題(Go off the rails),通過(guò)外部控制機(jī)制彌補(bǔ)模型內(nèi)在的缺陷(如上下文焦慮、自我美化)。

      無(wú)論是 OpenAI 還是 Anthropic,都明確認(rèn)定 Harness 是 Coding Agent 落地的關(guān)鍵,但兩家頂級(jí)巨頭的分歧在于,該把 Harness 做強(qiáng)做厚,還是做薄做輕?

      Harness 該做大還是縮小?

      行業(yè)內(nèi)部也似乎正在形成一種新的共識(shí):決定 AI 編程上限的,不再是模型本身的單次生成能力,而是 Harness Engineering。

      在 Anthropic 最近的工程文章展示了他們對(duì) Long-running Agent(長(zhǎng)時(shí)運(yùn)行智能體) 的深度探索。為了解決 AI 在長(zhǎng)時(shí)間任務(wù)中“脫軌”的問(wèn)題,他們構(gòu)建了一套極其嚴(yán)密的 Harness:

      • 結(jié)構(gòu)化交接(Structured Handoff): 強(qiáng)制 AI 在上下文耗盡前生成“進(jìn)度文件”,將狀態(tài)外置。

      • 多智能體協(xié)作: 引入 Planner(規(guī)劃器)、Generator(生成器)、Evaluator(評(píng)估器)分工。

      • 上下文重置機(jī)制: 為了避免“上下文焦慮”,直接清空對(duì)話歷史,僅保留結(jié)構(gòu)化產(chǎn)物,給新智能體一張“白板”。

      這種思路的本質(zhì)是“把 Harness 做強(qiáng)、做厚”。他們認(rèn)為,只要框架足夠健壯,就能撐起最復(fù)雜的任務(wù)。

      但近日,OpenAI Codex 開(kāi)源負(fù)責(zé)人 Michael Bolin 做客了一檔訪談欄目,釋放出了與 Anthropic 把 Harness 做厚做強(qiáng)相反的信號(hào)。

      這場(chǎng)對(duì)話圍繞“AI 編碼時(shí)代,真正改變軟件開(kāi)發(fā)范式的究竟是“大模型本身”,還是圍繞模型構(gòu)建的 harness?”這一話題展開(kāi)。

      在訪談中,Michael 認(rèn)為,Harness 不應(yīng)該無(wú)限膨脹。

      Michael 根據(jù) Codex 的構(gòu)建理念闡述了一個(gè)他們看到的重要趨勢(shì):理想狀態(tài)下,harness 應(yīng)該“盡可能小”,而模型應(yīng)“盡可能強(qiáng)”。Codex 的設(shè)計(jì)理念就是減少工具數(shù)量、避免過(guò)度干預(yù),讓模型在更接近真實(shí)計(jì)算環(huán)境(如終端)的空間中自主探索解決路徑。這種“AGI 導(dǎo)向”的思路,本質(zhì)上是在減少人為規(guī)則對(duì)模型的束縛,把更多決策權(quán)交還給模型本身。但 Michael 也提到,在這一過(guò)程中,安全(security)和隔離(sandboxing)成為不可妥協(xié)的底線,也是 harness 不可替代的核心職責(zé)。

      Codex 的理念更傾向于“把 Harness 做薄、做輕”,具體表現(xiàn)在以下幾點(diǎn)

      • 最小化工具依賴:甚至刻意減少專用工具,轉(zhuǎn)而讓模型直接使用通用的終端(Terminal)。

      • 環(huán)境而非框架:Harness 僅提供必要的沙箱(Sandbox)安全環(huán)境和基礎(chǔ)接口,不做過(guò)多的流程控制。

      • 能力回歸模型:探索、決策和執(zhí)行的邏輯,盡量交給模型自身去學(xué)習(xí),而不是由外部的編排框架硬編碼。

      這種思路擔(dān)心的是,過(guò)于復(fù)雜的 Harness 反而會(huì)把模型“教傻”,或者產(chǎn)生沉重的工程負(fù)擔(dān),拖慢迭代速度。

      OpenAI 和 Anthropic 的兩種路徑選擇給 AI 從業(yè)者帶來(lái)一個(gè)必須要思考的問(wèn)題:Harness,到底是 AI Coding 的終局,還是一個(gè)正在被快速放大的中間態(tài)?

      因?yàn)檫@個(gè)問(wèn)題的答案決定了未來(lái)的產(chǎn)品形態(tài):

      如果 Harness 是終局:那么未來(lái)的競(jìng)爭(zhēng)將是“框架之戰(zhàn)”。誰(shuí)擁有最強(qiáng)健、最通用的 Harness(如 Anthropic 展示的多智能體架構(gòu)),誰(shuí)就能統(tǒng)治開(kāi)發(fā)流程。AI 編程將演變?yōu)椤跋到y(tǒng)工程 + AI”。

      如果 Harness 是中間態(tài):那么現(xiàn)在的復(fù)雜框架只是為了彌補(bǔ)當(dāng)前模型的短板。隨著模型能力的指數(shù)級(jí)提升(如更強(qiáng)的記憶、更長(zhǎng)的上下文、更好的推理),這些復(fù)雜的外部編排最終會(huì)被模型內(nèi)化。屆時(shí),Harness 將退化為一個(gè)簡(jiǎn)單的運(yùn)行環(huán)境(Sandbox),而核心競(jìng)爭(zhēng)力將再次回歸到基座模型的能力本身。

      Michael Bolin 并非傳統(tǒng)意義上的“AI 從業(yè)者”。在加入 OpenAI 之前,他曾長(zhǎng)期任職于 Google 和 Meta,參與構(gòu)建開(kāi)發(fā)者工具與基礎(chǔ)設(shè)施,主導(dǎo)或參與過(guò) Buck、Nuclide、DotSlash 等項(xiàng)目。

      對(duì)話內(nèi)容經(jīng)由 InfoQ 翻譯及整理,略有刪減:


      關(guān)于 AI 編碼與 Harness Engineering

      主持人:今天很高興邀請(qǐng)到 Michael Bolin。他是 Codex 的負(fù)責(zé)人。人們通常認(rèn)為,AI 編碼的核心就是“模型寫(xiě)代碼”。但很多在構(gòu)建智能體的團(tuán)隊(duì)認(rèn)為,真正的變化在于圍繞模型設(shè)計(jì)環(huán)境。你更認(rèn)同哪一種?

      Michael:模型當(dāng)然會(huì)主導(dǎo)整體體驗(yàn)。但我們發(fā)現(xiàn),在 Harness 這一層仍然有很大的創(chuàng)新空間。這不僅僅是一個(gè)研究問(wèn)題。對(duì)我們團(tuán)隊(duì)來(lái)說(shuō),關(guān)鍵在于工程與研究之間的協(xié)同——共同開(kāi)發(fā)智能體,確保 harness 能夠讓智能體發(fā)揮最佳能力。同時(shí),還要為智能體提供合適的工具,要確保智能體使用的這些工具,在訓(xùn)練階段就已經(jīng)被模型“見(jiàn)過(guò)并練習(xí)過(guò)”,這樣在真實(shí)產(chǎn)品環(huán)境中調(diào)用這些工具時(shí),模型不會(huì)“陌生”或“出錯(cuò)”。

      主持人:我們來(lái)定義一下 harness,以及它為什么變得如此重要。

      Michael:harness 有時(shí)也被稱為 Agent loop——它負(fù)責(zé)調(diào)用模型、采樣,并提供上下文:我想做什么、有哪些工具可用、下一步該做什么。然后模型返回響應(yīng)——通常是一個(gè)工具調(diào)用,比如“我想用這些參數(shù)調(diào)用這個(gè)工具,請(qǐng)告訴我返回結(jié)果”。

      有些工具很簡(jiǎn)單,比如運(yùn)行一個(gè)可執(zhí)行文件并返回 stdout 和退出碼。我們也做了很多更復(fù)雜的工具實(shí)驗(yàn),比如控制機(jī)器、控制用戶的筆記本,更像是一個(gè)交互式終端,而不是簡(jiǎn)單的命令執(zhí)行。也可以進(jìn)行網(wǎng)絡(luò)搜索等操作。

      對(duì)于 Codex 來(lái)說(shuō),因?yàn)樗且粋€(gè)編碼 Agent,而我們非常重視安全和沙箱機(jī)制,因此 harness 的核心工作之一就是從模型獲取 shell 命令或計(jì)算機(jī)操作指令,并確保它們?cè)谏诚渲袌?zhí)行,或者遵循用戶設(shè)定的策略。這部分其實(shí)非常復(fù)雜。關(guān)鍵是既要釋放模型的全部能力,又要確保在用戶機(jī)器上的安全運(yùn)行。

      主持人:在開(kāi)源 Codex 時(shí),你們是如何處理安全問(wèn)題的?

      Michael:這些實(shí)現(xiàn)其實(shí)都可以在我們的代碼庫(kù)中看到。我們針對(duì)不同的操作系統(tǒng)做了不同的處理:在 macOS 上,我們使用了一種叫做 Seatbelt 的技術(shù)。在 Linux 上,我們使用了一系列庫(kù)——包括 Bubblewrap、seccomp 和 Landlock。在 Windows 上,我們實(shí)際上構(gòu)建了自己的沙箱。其中一些組件,比如 Seatbelt,是 macOS 的一部分,所以它們不在開(kāi)源代碼庫(kù)里——我們就是這么稱呼的。但我們的 Windows 沙箱代碼在開(kāi)源代碼庫(kù)里。我們會(huì)協(xié)調(diào)所有這些調(diào)用,確保它們以適當(dāng)?shù)姆绞酵ㄟ^(guò)沙箱,以適應(yīng)不同的工具調(diào)用。

      主持人:所以當(dāng)別人 fork Codex 時(shí),這些安全規(guī)則也都包含在里面了嗎?

      Michael:是的,不過(guò)這里要區(qū)分“security”和“safety”。我剛才說(shuō)的更多是 security,比如你可以運(yùn)行工具,但只能訪問(wèn)特定文件夾。而行業(yè)里說(shuō)的 safety,更多發(fā)生在后端——即模型本身是否會(huì)提出合適的工具調(diào)用。從 harness 的角度來(lái)看,它更像是在執(zhí)行命令,而哪些命令是安全的,是由模型決定的。

      所以,如果你 fork Codex 并繼續(xù)使用我們的模型,那么你也繼承了這部分安全性。但如果你換了別的模型,情況就不一定了。

      Codex 是如何發(fā)展的?

      主持人:自從你們推出 Codex 以來(lái),它的發(fā)展情況如何?

      Michael:反響非常好,使用量相比年初增長(zhǎng)了大約五倍。我們?cè)?2025 年 4 月作為 o3 和 o4 mini 發(fā)布的一部分推出,當(dāng)時(shí)模型在工具調(diào)用和指令執(zhí)行方面還不夠理想。到了 8 月 GPT-5 發(fā)布后,我們更新了 CLI,這是一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn)。之后我們推出了 VS Code 插件,用戶增長(zhǎng)非常快,甚至超過(guò)了 CLI。再后來(lái)是今年年初推出的應(yīng)用,也迅速流行起來(lái)。我認(rèn)為它在很多方面都是真正意義上的首創(chuàng)。

      主持人:在你看來(lái),這個(gè)應(yīng)用的創(chuàng)新點(diǎn)是什么?

      Michael:開(kāi)發(fā)者歷來(lái)大部分時(shí)間都花在集成開(kāi)發(fā)環(huán)境(IDE)中,。這些都是顯而易見(jiàn)、順理成章的選擇。

      開(kāi)發(fā)者通常在 IDE 中工作,所以我們進(jìn)入 VS Code、JetBrains、Xcode 是很自然的。借助 Codex 應(yīng)用,我們實(shí)際上建立了一個(gè)全新的界面。我把它看作“任務(wù)控制中心”,可以同時(shí)管理多個(gè)對(duì)話。同時(shí)它保留了 IDE 的核心能力,比如查看 diff、使用 Command-J 快捷鍵打開(kāi)終端,而無(wú)需切換到其他窗口。它真正打破了你必須始終將所有代碼都放在眼前的固有觀念。對(duì)很多人來(lái)說(shuō),能夠同時(shí)組織和協(xié)作多個(gè) Agent 更有價(jià)值。這正是我們努力實(shí)現(xiàn)的核心功能。

      編碼代理如何改變開(kāi)發(fā)者的工作流程

      主持人:像 Codex 這樣的編碼代理,會(huì)如何改變開(kāi)發(fā)者的日常工作?

      Michael:最大的變化是吞吐量。你可以并行推進(jìn)很多任務(wù)。當(dāng)然,這帶來(lái)了一些上下文切換,并不是所有人都喜歡,但如果掌握得好,效率會(huì)非常高。

      我個(gè)人維護(hù)著大約五個(gè) Codex 代碼庫(kù)的副本,經(jīng)常在它們之間切換。有時(shí)候,我只是在做其他事情的時(shí)候注意到一些小問(wèn)題,然后快速修復(fù)一下。而有時(shí)候,我需要花一整天的時(shí)間,在會(huì)議間隙處理 Codex 的一個(gè)重大變更。很多人即使只有五分鐘的會(huì)議間隙,也會(huì)發(fā)一條消息,只是為了推動(dòng)某個(gè)任務(wù)朝著另一個(gè)方向發(fā)展。

      第二點(diǎn)是,人們正在花更多時(shí)間研究如何優(yōu)化這個(gè)工作流程。相對(duì)而言,這一切都非常新穎。我應(yīng)該把一直在做的事情變成一項(xiàng)可復(fù)用的技能嗎?我應(yīng)該把這項(xiàng)技能分享給我的團(tuán)隊(duì)成員嗎??jī)?yōu)秀的開(kāi)發(fā)者總是會(huì)努力優(yōu)化他們的內(nèi)部循環(huán)(Inner loop),但這是一個(gè)全新的內(nèi)部循環(huán),每個(gè)人都還在摸索中。

      第三件備受關(guān)注的事情是代碼審查。代碼審查的數(shù)量顯著增加,但 Codex 本身也承擔(dān)了大量的代碼審查工作,這節(jié)省了大量時(shí)間。如何最大限度地利用這些資源仍然是一個(gè)不斷探索的問(wèn)題。

      主持人:你在最初開(kāi)發(fā) Codex 時(shí),有沒(méi)有遇到什么意想不到的事情?

      Michael Bolin:我最大的感受是技術(shù)發(fā)展太快了。Codex 成立至今還不到一年,考慮到這段時(shí)間發(fā)生的巨大變化,這真是令人驚嘆。

      我們?cè)?2025 年 4 月發(fā)布時(shí),那是 o3 和 o4 發(fā)布計(jì)劃的一部分。當(dāng)時(shí)我們使用了推理模型,但工具調(diào)用和指令執(zhí)行方面還沒(méi)有達(dá)到我們預(yù)期的效果。看到這方面隨著時(shí)間的推移而不斷改進(jìn),真是令人欣慰。

      早期最令人興奮的事情之一就是讓 Codex 自己編寫(xiě)更多代碼——親眼見(jiàn)證這個(gè)過(guò)程。比如 agents.md 逐漸成為標(biāo)準(zhǔn),搭建起框架,讓你能夠構(gòu)建出優(yōu)化自身工作流程的工具。這帶來(lái)了一種指數(shù)級(jí)的飛躍,既令人興奮又充滿樂(lè)趣。看到同事們真正理解 Codex 并把更多工作轉(zhuǎn)移到 Codex 上——這真是太棒了。

      智能體時(shí)代的代碼庫(kù)

      主持人:當(dāng)代碼庫(kù)是由智能體而不是人類來(lái)閱讀時(shí),它應(yīng)該是什么樣?

      Michael:整個(gè)智能體編碼之旅中一個(gè)有趣的現(xiàn)象是,軟件開(kāi)發(fā)中一些長(zhǎng)期以來(lái)被認(rèn)為是最佳實(shí)踐的做法,我們卻從未真正實(shí)踐過(guò)。文檔就是一個(gè)例子,測(cè)試驅(qū)動(dòng)開(kāi)發(fā)也是如此。人們并非完全忽視它們,但總覺(jué)得得不償失。而現(xiàn)在,在智能體優(yōu)先的世界里,這些變得非常有價(jià)值。人們幾乎是在重新發(fā)現(xiàn)它們,并且真心實(shí)意地重視它們。

      例如,想想 agents.md 文件,我們寫(xiě)在里面的所有內(nèi)容,我認(rèn)為也同樣適用于新加入團(tuán)隊(duì)的人——他們需要知道的一切,所有最佳實(shí)踐。把這些內(nèi)容寫(xiě)下來(lái),既方便了智能體,也方便了你的隊(duì)友,這實(shí)際上是一種解脫。

      也就是說(shuō),在 Codex 上,我們自認(rèn)為已經(jīng)接受了通用人工智能(AGI)的理念——這意味著智能體應(yīng)該真正自主決定做什么,而不是我們不斷地向它灌輸指令。與其編寫(xiě)一份與源代碼并行運(yùn)行、容易導(dǎo)致重復(fù)或不一致的文檔,我們不如讓智能體花時(shí)間閱讀代碼并形成自己的判斷。我們會(huì)嘗試在 agents.md 文件中添加一些它無(wú)法從代碼中快速獲取的信息,例如:如何運(yùn)行測(cè)試,或者哪些測(cè)試比哪些測(cè)試更重要。但我們盡量避免過(guò)度干預(yù),而是讓智能體自行決定最佳的執(zhí)行路徑。

      主持人:你認(rèn)為在不久的將來(lái),agents.md 會(huì)由智能體自己寫(xiě)嗎?

      Michael:很多人已經(jīng)這么做了,比如在指令中加入“完成后更新 agents.md”。我們團(tuán)隊(duì)沒(méi)有強(qiáng)制這樣做,但這是常見(jiàn)做法。

      Michael:現(xiàn)在確實(shí)有不少人這么做。我看到很多開(kāi)發(fā)者會(huì)在自己的提示說(shuō)明里加上一條類似的要求:任務(wù)完成后,順便更新agents.md文件,把過(guò)程中值得記錄的內(nèi)容補(bǔ)充進(jìn)去——包括那些不那么顯而易見(jiàn)的信息,或者是在和 Codex 協(xié)作開(kāi)發(fā)時(shí)逐漸發(fā)現(xiàn)的經(jīng)驗(yàn)。

      不過(guò)在我們團(tuán)隊(duì)內(nèi)部,這還沒(méi)有成為一項(xiàng)通用規(guī)范。你如果去看代碼庫(kù)的歷史記錄,也能發(fā)現(xiàn)我們并沒(méi)有系統(tǒng)性地這么做,但在社區(qū)里,這種方式已經(jīng)比較常見(jiàn)了。

      另外,學(xué)界也開(kāi)始討論一個(gè)問(wèn)題:到底應(yīng)該給智能體提供多少信息才合適。我個(gè)人覺(jué)得,這很大程度上取決于具體的智能體能力。

      在 Codex 的實(shí)踐中,我們采取的是一種相對(duì)克制的方式——不會(huì)寫(xiě)成幾十頁(yè)的詳細(xì)說(shuō)明,而是只保留一些關(guān)鍵要點(diǎn),讓智能體自己去理解和發(fā)揮。

      Codex 不生成“垃圾”

      主持人:Context Engineering 似乎是這個(gè)過(guò)程中越來(lái)越重要的部分。對(duì)于智能體來(lái)說(shuō),會(huì)不會(huì)出現(xiàn)“上下文過(guò)多”的問(wèn)題?

      Michael:從我的經(jīng)驗(yàn)而非研究角度來(lái)看:對(duì)于中等規(guī)模的任務(wù),我通常會(huì)描述一段代碼,然后讓 Codex 熟悉這部分代碼。有時(shí),如果我認(rèn)為有幫助,我會(huì)提供明確的文件指針,但通常我不會(huì)——它自己就能很好地搜索代碼庫(kù)。

      有一件容易被忽視但卻至關(guān)重要的事情:確保文件和文件夾命名規(guī)范。這本身就是一種良好的習(xí)慣,當(dāng) Agent 程序搜索代碼時(shí),這一點(diǎn)顯得更加重要。

      大部分上下文信息將來(lái)自 agents.md 文件、我編寫(xiě)的提示以及一些文件引用。我還授予了 Codex 訪問(wèn) GitHub 的權(quán)限,這樣它就可以查看類似這樣的信息:例如,這個(gè)拉取請(qǐng)求中也出現(xiàn)了類似的問(wèn)題,它不僅可以看到代碼,還可以看到圍繞該拉取請(qǐng)求的討論。但再次強(qiáng)調(diào),這更多的是為了讓 Codex 了解它有哪些選擇——就像是給它提供了工具箱里的工具一樣——而不是規(guī)定它應(yīng)該如何解決問(wèn)題。這是一個(gè)很好的模型,所以它在這方面做得很好。

      主持人:聽(tīng)起來(lái)這種工作方式會(huì)促使你采用更嚴(yán)格的架構(gòu)。是這樣嗎?

      Michael:當(dāng)然。Codex 會(huì)遵循它在代碼庫(kù)中發(fā)現(xiàn)的模式。如果你一開(kāi)始就擁有良好的架構(gòu),它就會(huì)遵循它、維護(hù)它,并強(qiáng)制執(zhí)行你設(shè)定的不變式——從長(zhǎng)遠(yuǎn)來(lái)看,你就會(huì)處于有利地位。當(dāng)然,這對(duì)人類開(kāi)發(fā)者來(lái)說(shuō)也是如此。只是現(xiàn)在的變化速度要快得多,所以如果你有這些標(biāo)準(zhǔn),你就能更深刻地感受到它們帶來(lái)的好處。

      主持人:你是否仍然看到模型和編碼代理中存在大量缺陷?你是如何應(yīng)對(duì)的?

      Michael:說(shuō)實(shí)話,我覺(jué)得 Codex 里并沒(méi)有真正稱得上“糟糕”的東西。我更多地看到的是,這些模型喜歡編寫(xiě)代碼。所以有時(shí)候正確的做法是刪除代碼,你可能需要更明確地說(shuō)明這一點(diǎn)。但這其實(shí)算不上糟糕——更像是:你在這個(gè)文件里添加了 500 行代碼,也許你應(yīng)該新建一個(gè)文件。這些都更容易解決。

      更常見(jiàn)的情況是,Codex 掌握了我尚未接觸過(guò)的習(xí)語(yǔ)或語(yǔ)言特征,并加以運(yùn)用。我因此學(xué)到了新東西。這才是 Codex 帶給我驚喜的更多方式——而不是敷衍了事。

      模型與 Harness Engineering,
      誰(shuí)更重要?

      主持人:你剛才描述的是,Codex 剛起步的時(shí)候,模型還不完善。現(xiàn)在模型已經(jīng)成熟很多,應(yīng)用本身也吸引了更廣泛的用戶群體。但我想問(wèn)的是,模型與 Harness Engineering 誰(shuí)更強(qiáng)大?Harness Engineering 是否會(huì)在某個(gè)階段不再僅僅是一個(gè)封裝層,而成為一個(gè)更重要的環(huán)境?或者說(shuō),模型始終占據(jù)主導(dǎo)地位?模型和 harness engineering,在你看來(lái)哪個(gè)更重要?

      Michael Bolin:我明白你的意思,你是想問(wèn),有沒(méi)有可能出現(xiàn)一種情況,Harness Engineering 逐漸消失,不再發(fā)揮太大作用?

      在我看來(lái)這并非不可能。在很多方面,我們都在努力讓 harness 盡可能小巧、盡可能輕量級(jí)。與其他一些智能體相比,Codex 的一個(gè)顯著特點(diǎn)是,我們盡量減少智能體擁有的工具。例如,例如 Codex 的工具非常少,沒(méi)有專門的讀文件工具,而是讓它使用終端命令。這與我之前提到的“AGI 理念”相呼應(yīng):我們給予它廣闊的探索空間,讓它自行找到最佳的運(yùn)行路徑。

      唯一的例外是安全——沙箱是必須的。沙箱機(jī)制是防止 Codex 不受控制運(yùn)行的重要保障。有時(shí),人們會(huì)耍點(diǎn)小聰明,試圖通過(guò)控制代理來(lái)操控上下文窗口。但作為 Codex 的作者,我們想說(shuō):“收起你的小聰明,我比你懂得多。” 但我們盡量克制。如果 Codex 即將運(yùn)行一個(gè)會(huì)輸出 1GB 數(shù)據(jù)的工具,我們的想法是:先讓 Codex 將數(shù)據(jù)寫(xiě)入文件,然后再用 grep 命令搜索,但要讓它自由選擇如何解決問(wèn)題。

      主持人:你認(rèn)為有可能將所有這些安全規(guī)則、沙盒機(jī)制都編碼進(jìn)去嗎?還是應(yīng)該始終有人參與其中?

      Michael:就我們關(guān)注的編碼任務(wù)而言,我認(rèn)為沙盒機(jī)制確實(shí)是取代人工干預(yù)的主要方法,至少對(duì)我們大部分的工作來(lái)說(shuō)是這樣。你遇到一個(gè)問(wèn)題,把它交給 Codex,它會(huì)在一個(gè)受特定方式約束的沙盒環(huán)境中運(yùn)行,讓它在這個(gè)空間內(nèi)探索,就能找到最佳解決方案——尤其是在大規(guī)模應(yīng)用的情況下。我同時(shí)運(yùn)行著五個(gè) Codex 的克隆版本。如果我必須每隔幾分鐘就干預(yù)這五個(gè)版本,那會(huì)從根本上限制它們的吞吐量。

      這些糾正措施應(yīng)該更多地在訓(xùn)練階段進(jìn)行,然后在推理階段發(fā)揮作用,而不是需要人為干預(yù)。

      主持人:所以能力更多會(huì)在模型里,而不是 harness?

      Michael Bolin:是的,模型更重要。但 harness 的可靠性仍然非常重要。如果 harness 崩潰,一切就結(jié)束了。隨著我們不可避免地邁向多智能體和子智能體架構(gòu)——更多智能體在不同機(jī)器間通信——harness 不再僅僅是單臺(tái)機(jī)器上的單個(gè)進(jìn)程,而變成了一個(gè)智能體網(wǎng)絡(luò)。我預(yù)計(jì)未來(lái)會(huì)有很多更有趣的工作要做。我的職業(yè)生涯大部分時(shí)間都在為開(kāi)發(fā)者編寫(xiě)工具;現(xiàn)在我正在為智能體編寫(xiě)更多工具。智能體也可以編寫(xiě)自己的工具,但正如我所說(shuō),我們更傾向于使用少量但功能強(qiáng)大的工具,讓智能體能夠充分探索各種可能性——我們將繼續(xù)嘗試,找到最合適的工具組合。

      未來(lái) Agent 的發(fā)展方向

      主持人:你認(rèn)為智能體編碼的基礎(chǔ)組件有哪些?

      Michael:我覺(jué)得我們已經(jīng)看到了很多組成部分。比如我稱之為 shell 工具或終端工具的東西,它讓模型能夠像人一樣使用計(jì)算機(jī)終端,而不僅僅是直接執(zhí)行命令。它還包括處理流式輸出并高效利用這些輸出等功能。

      記憶是另一個(gè)重要領(lǐng)域。過(guò)去,每次發(fā)起對(duì)話都是從零開(kāi)始——這就是為什么會(huì)有 agents.md 以及各種上下文填充機(jī)制,以便快速將信息導(dǎo)入模型。如果你查看代碼庫(kù),會(huì)發(fā)現(xiàn)很多關(guān)于記憶的實(shí)驗(yàn)。

      此外,不同類型的上下文連接器(context connectors)也正在發(fā)生很多變化。最初,我們專注于本地計(jì)算機(jī)上的計(jì)算機(jī)任務(wù),但現(xiàn)在它也涵蓋了更廣泛的工作——例如代表您發(fā)送電子郵件、創(chuàng)建文檔以及在 Web 瀏覽器中執(zhí)行操作。

      此外,還有標(biāo)準(zhǔn)的 LLM 基礎(chǔ)設(shè)施:一般來(lái)說(shuō),更大的上下文窗口是好事;當(dāng)達(dá)到限制時(shí)如何壓縮內(nèi)容;所有這些都在積極探索中,并有助于提升整體代理體驗(yàn)。

      https://www.youtube.com/watch?v=6BAqgT3qe98

      https://www.infoq.cn/article/HFewc09HcZ1IaDyFj8D0

      https://www.youtube.com/watch?v=wVl6ZjELpBk

      https://www.anthropic.com/engineering/harness-design-long-running-apps

      聲明:本文為 InfoQ 整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

      會(huì)議推薦

      QCon 全球軟件開(kāi)發(fā)大會(huì)·2026 北京站將于 4 月 16 日 -18 日正式舉辦。本屆大會(huì)以“Agentic AI 時(shí)代的軟件工程重塑”為主題,聚焦 100+ 重磅議題,匯聚來(lái)自阿里、騰訊、字節(jié)跳動(dòng)、小米、百度等一線科技企業(yè)與創(chuàng)新團(tuán)隊(duì)的技術(shù)專家,圍繞 AI 工程化、系統(tǒng)架構(gòu)與研發(fā)模式演進(jìn)展開(kāi)深入探討。更多詳情可掃碼或聯(lián)系票務(wù)經(jīng)理 18514549229 進(jìn)行咨詢。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      一條帖子爆火,眾多上海人淚目!差頭爺叔的“老派服務(wù)”,每一個(gè)細(xì)節(jié)都充滿上海溫度;是你記憶里“城市名片”的樣子嗎?

      一條帖子爆火,眾多上海人淚目!差頭爺叔的“老派服務(wù)”,每一個(gè)細(xì)節(jié)都充滿上海溫度;是你記憶里“城市名片”的樣子嗎?

      新民晚報(bào)
      2026-04-10 22:13:23
      詹姆斯生涯助攻數(shù)來(lái)到11998記,距離歷史第三的基德還有93次

      詹姆斯生涯助攻數(shù)來(lái)到11998記,距離歷史第三的基德還有93次

      林子說(shuō)事
      2026-04-10 17:25:32
      格列茲曼含淚告別馬競(jìng):10年紅白生涯終章,35歲法國(guó)傳奇歐冠謝幕

      格列茲曼含淚告別馬競(jìng):10年紅白生涯終章,35歲法國(guó)傳奇歐冠謝幕

      里芃芃體育
      2026-04-11 00:10:06
      6個(gè)進(jìn)球全是烏龍!10歲孩子為何踢假球?賽制安排不合理引發(fā)亂象

      6個(gè)進(jìn)球全是烏龍!10歲孩子為何踢假球?賽制安排不合理引發(fā)亂象

      中國(guó)足球的那些事兒
      2026-04-10 13:16:45
      佩斯科夫:俄總統(tǒng)代表正在訪美,就恢復(fù)雙方經(jīng)濟(jì)合作保持接觸

      佩斯科夫:俄總統(tǒng)代表正在訪美,就恢復(fù)雙方經(jīng)濟(jì)合作保持接觸

      界面新聞
      2026-04-10 18:46:50
      美國(guó)議員自曝患癌:壽命或只剩3個(gè)月,現(xiàn)在最放不下三個(gè)孩子

      美國(guó)議員自曝患癌:壽命或只剩3個(gè)月,現(xiàn)在最放不下三個(gè)孩子

      芭比衣櫥
      2026-04-10 18:10:39
      租電42萬(wàn)起!全新蔚來(lái)ES9開(kāi)售:中國(guó)科技含量最高的SUV來(lái)了

      租電42萬(wàn)起!全新蔚來(lái)ES9開(kāi)售:中國(guó)科技含量最高的SUV來(lái)了

      快科技
      2026-04-09 21:57:37
      中國(guó)股市炒股其實(shí)很簡(jiǎn)單:10萬(wàn)本金死守"713戰(zhàn)法",賺到盆滿缽滿

      中國(guó)股市炒股其實(shí)很簡(jiǎn)單:10萬(wàn)本金死守"713戰(zhàn)法",賺到盆滿缽滿

      股經(jīng)縱橫談
      2025-11-08 21:25:28
      扛不住了?巴拿馬總統(tǒng)突然發(fā)聲,對(duì)中國(guó)說(shuō)了句讓所有人意外的話

      扛不住了?巴拿馬總統(tǒng)突然發(fā)聲,對(duì)中國(guó)說(shuō)了句讓所有人意外的話

      肖茲探秘說(shuō)
      2026-04-11 00:21:22
      特朗普宣布:美軍“將繼續(xù)駐扎在伊朗境內(nèi)及周邊”,美伊達(dá)成共識(shí),伊朗將絕無(wú)核武器,霍爾木茲海峽必須保持開(kāi)放,或由美伊“合資經(jīng)營(yíng)”

      特朗普宣布:美軍“將繼續(xù)駐扎在伊朗境內(nèi)及周邊”,美伊達(dá)成共識(shí),伊朗將絕無(wú)核武器,霍爾木茲海峽必須保持開(kāi)放,或由美伊“合資經(jīng)營(yíng)”

      每日經(jīng)濟(jì)新聞
      2026-04-09 14:19:51
      中國(guó)造不出光刻機(jī)?中科大副院長(zhǎng):美國(guó)造不出,中國(guó)永遠(yuǎn)都不可能

      中國(guó)造不出光刻機(jī)?中科大副院長(zhǎng):美國(guó)造不出,中國(guó)永遠(yuǎn)都不可能

      小蘭聊歷史
      2026-03-21 18:17:07
      丁俊暉深夜回信戳中萬(wàn)人淚點(diǎn):8歲拿球桿那天就把命交給這張球桌

      丁俊暉深夜回信戳中萬(wàn)人淚點(diǎn):8歲拿球桿那天就把命交給這張球桌

      林子說(shuō)事
      2026-04-10 12:34:19
      64勝聯(lián)盟第一,MVP卻看對(duì)手臉色?亞歷山大:我不甘心

      64勝聯(lián)盟第一,MVP卻看對(duì)手臉色?亞歷山大:我不甘心

      林子說(shuō)事
      2026-04-10 10:40:25
      拜登兒子約戰(zhàn)特朗普兒子

      拜登兒子約戰(zhàn)特朗普兒子

      第一財(cái)經(jīng)資訊
      2026-04-10 11:15:16
      去年還選美國(guó),今年?yáng)|南亞卻倒向中國(guó),只因特朗普干了件“好事”

      去年還選美國(guó),今年?yáng)|南亞卻倒向中國(guó),只因特朗普干了件“好事”

      新浪財(cái)經(jīng)
      2026-04-11 00:32:45
      連上5次春晚,私下和恩師同居多年,懷孕后被騙流產(chǎn),現(xiàn)57歲單身

      連上5次春晚,私下和恩師同居多年,懷孕后被騙流產(chǎn),現(xiàn)57歲單身

      探源歷史
      2026-04-11 00:16:25
      《夜王》三級(jí)加長(zhǎng)版將推出!30分鐘被刪片段曝光!還有新角色重見(jiàn)天日

      《夜王》三級(jí)加長(zhǎng)版將推出!30分鐘被刪片段曝光!還有新角色重見(jiàn)天日

      我愛(ài)追港劇
      2026-04-10 12:13:41
      今年或有超強(qiáng)臺(tái)風(fēng)正面襲擊!廣東最新預(yù)測(cè)→

      今年或有超強(qiáng)臺(tái)風(fēng)正面襲擊!廣東最新預(yù)測(cè)→

      蓬江發(fā)布
      2026-04-10 17:50:02
      楊麗萍“專屬男舞伴”墜樓自殺,跳得果決,和楊麗萍關(guān)系非同一般

      楊麗萍“專屬男舞伴”墜樓自殺,跳得果決,和楊麗萍關(guān)系非同一般

      一盅情懷
      2026-04-03 07:49:11
      瓜迪奧拉放話:阿爾瓦雷斯是非賣品,然后4500萬(wàn)賣了

      瓜迪奧拉放話:阿爾瓦雷斯是非賣品,然后4500萬(wàn)賣了

      綠茵狂熱者
      2026-04-10 11:59:50
      2026-04-11 01:15:00
      InfoQ incentive-icons
      InfoQ
      有內(nèi)容的技術(shù)社區(qū)媒體
      12275文章數(shù) 51840關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

      頭條要聞

      73歲騎友抄近路摔倒身亡 女兒:賠償問(wèn)題無(wú)法達(dá)成共識(shí)

      頭條要聞

      73歲騎友抄近路摔倒身亡 女兒:賠償問(wèn)題無(wú)法達(dá)成共識(shí)

      體育要聞

      17歲賺了一百萬(wàn)美元,25歲被CBA裁員

      娛樂(lè)要聞

      黃景瑜王玉雯否認(rèn)戀情!聚會(huì)細(xì)節(jié)被扒

      財(cái)經(jīng)要聞

      李強(qiáng)主持召開(kāi)經(jīng)濟(jì)形勢(shì)專家和企業(yè)家座談會(huì)

      汽車要聞

      搭載第二代刀片電池及閃充技術(shù) 騰勢(shì)N8L閃充版預(yù)售35萬(wàn)起

      態(tài)度原創(chuàng)

      本地
      親子
      藝術(shù)
      家居
      公開(kāi)課

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

      親子要聞

      武漢兒童配眼鏡推薦,別再一著急就買,家長(zhǎng)先把這5件事弄明白

      藝術(shù)要聞

      深圳頂級(jí)海景地段,為啥留下一排“幽靈別墅群”?真相成謎!

      家居要聞

      復(fù)古風(fēng)格 自然簡(jiǎn)約

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版