![]()
最近我在這里比較沉默,因為我正埋頭于最新項目。智能體工程已經發展得如此出色,現在幾乎100%的代碼都由它完成。然而我看到很多人仍在試圖解決問題時制造各種復雜的把戲,而不是實實在在地把事情搞定。
這篇文章的靈感部分來自昨晚在倫敦 Claude 代碼匿名會[1]上的交流,部分因為自從我上次更新工作流程以來 AI 技術已發展了一年[2] 。是時候做個階段性總結了。
所有基礎理念仍然適用,因此我不會再贅述上下文管理這類基礎內容。入門指南請參閱我的 《最優 AI 工作流程》文章[3] 。
上下文與技術棧
我目前獨立開發的項目包括:一個約 30 萬行代碼的 TypeScript React 應用、Chrome 擴展程序、命令行工具、基于 Tauri 的客戶端應用,以及使用 Expo 開發的移動應用。網站托管在 Vercel 上,提交 PR 后約 2 分鐘即可測試新版本。其他應用(如客戶端等)尚未實現自動化部署。
駕馭與總體方法
我已完全改用codex命令行工具作為日常主力。通常在 3x3 終端網格中并行運行 3-8 個實例,多數位于同一目錄[4] ,部分實驗會放在獨立文件夾。嘗試過工作樹和 PR 方案,但最終總是回歸這個最高效的配置。
我的代理程序能自主完成 git 原子提交[5] 。為保持提交歷史整潔,我對代理配置文件[6]進行了大量迭代優化。這使得 git 操作更精準,確保每個代理僅提交其實際修改的文件。
沒錯,claude 支持鉤子而 codex 暫未實現,但模型足夠智能,當它們決意行動時任何鉤子都攔不住[7] 。
過去我常被嘲笑稱為廢話生成器[8] ,很高興看到并行代理逐漸成為主流[9] 。
模型選擇器
我幾乎都用 gpt-5-codex 的中等設置來構建所有內容。它在智能與速度間取得了完美平衡,并能自動調節思考深度。我發現過度糾結這些設置并不會帶來實質性提升,不用考慮_超頻思考_的感覺真好。
影響范圍
工作時,我總會考慮"爆炸半徑"這個概念——雖然這個詞不是我發明的,但我特別喜歡它。當我構思一個改動時,我能較準確地預估所需時間及影響范圍。我可以向代碼庫投擲許多"小手雷",或是扔一顆"胖子原子彈"配幾顆小炸彈。但如果同時引爆多個大當量炸彈,就無法實現隔離提交,出問題時回滾也會困難得多。
這也是我監控智能體時的黃金準則。當某項操作耗時超出預期,我只需按下 ESC 鍵詢問"當前狀態"獲取進度更新,然后要么引導模型找到正確方向,要么中止或繼續任務。別擔心中途打斷模型——文件修改是原子級的,它們非常擅長從中斷處繼續工作。
當不確定改動影響時,我會用"先給我幾個備選方案再修改"來評估風險。
為什么不使用工作樹?
我運行一個開發服務器,隨著項目演進,我會點擊測試多個變更。為每個變更創建分支/樹會顯著拖慢速度,而啟動多個開發服務器很快就會變得煩人。另外我的 Twitter OAuth 有域名回調限制,只能注冊部分域名。
Claude Code 怎么樣?
我曾經很喜歡 Claude Code,但現在完全無法忍受了( 盡管 codex 是它的粉絲[10] )。它的語言風格、那些絕對正確的[11]說辭、在測試失敗時還宣稱 100%生產就緒——我實在受夠了。Codex 更像是個內向的工程師,埋頭苦干就能完成任務。它在開始工作前會讀取更多文件,所以即使簡單提示通常也能準確實現我的需求。
我的時間線上普遍認為 codex 才是[12]正確選擇[13] 。
Codex 的其他優勢
~23 萬可用上下文 vs Claude 的 15.6 萬。雖然 Sonnet 有 100 萬上下文(如果你運氣好或支付 API 費用),但實際上 Claude 在耗盡上下文之前就會變得非常不靠譜,所以這并不現實可用。
更高效的 token 使用。不知道 OpenAI 做了什么不同,但我的上下文填充速度比 Claude Code 慢得多。以前用 Claude 時經常看到"Compacting..."提示,而在 Codex 中我很少能超出上下文限制。
消息隊列。Codex 支持 消息排隊 [14] 功能。Claude 原本也有此特性,但幾個月前他們將其改為消息"引導"模型模式。若想引導 Codex,我只需按 ESC 鍵加回車發送新消息。同時保留兩種操作方式顯然更優。我經常將相關功能任務排入隊列,它能穩定可靠地逐一處理。
速度OpenAI 用 Rust 重寫了 Codex,效果顯著。它快得驚人。使用 Claude Code 時我經常遇到數秒卡頓,進程內存占用會暴漲到 GB 級別。還有終端閃爍問題,特別是在 Ghostty 上使用時。Codex 完全沒有這些問題,感覺極其輕量快速。
語言體驗這對我的心理健康影響重大 [15] 。我曾無數次對著 Claude 怒吼,卻很少對 Codex 發脾氣。即便 Codex 是個更差的模型,單憑這點我也會用它。如果你同時使用兩者幾周就會明白。
不會到處生成隨機 markdown 文件 [16] 。 懂的都懂 [17] 。
在我看來,終端用戶和模型公司之間其實沒有太多中間地帶。訂閱模式目前給我帶來了最劃算的交易——我現有 4 個 OpenAI 訂閱和 1 個 Anthropic 訂閱,每月總成本約 1 千美元就能獲得近乎無限的 token 額度。如果改用 API 調用,費用可能會高出 10 倍。別太糾結這個數字,我用過 ccusage 等 token 統計工具,計算并不精確,但即便只有 5 倍差價也絕對超值。
雖然我喜歡 amp 或 Factory 這類工具,但我不認為它們能長期存活。無論是 Codex 還是 Claude Code,每個版本都在進步,最終都會趨同于相似的理念和功能集。某些工具可能在待辦清單、流程引導或開發者體驗上暫時領先,但我不認為它們能真正撼動大型 AI 公司的競爭優勢。
amp 已不再將 GPT-5 作為核心驅動,現在稱其為 ["預言機"](https://ampcode.com/news/gpt-5-oracle ""預言機"")。而我主要使用 Codex,基本上一直與這個更智能的預言機模型協同工作。 確實存在基準測試[18] ,但考慮到使用數據的偏差,我并不完全信任這些測試結果。Codex 帶給我的效果遠優于 amp。不過必須稱贊他們的會話共享功能,確實推動了一些有趣的創新理念。
Factory 的表現未能說服我。他們的宣傳視頻有些尷尬,雖然在我的時間線上看到不少好評,但目前還不支持圖片處理(尚未實現),而且存在標志性的閃爍問題[19] 。
Cursor...如果你仍親自編寫代碼,它的標簽補全模型確實是行業標桿。我主要使用 VS Code,但很欣賞他們在瀏覽器自動化和計劃模式等功能上的創新。雖然嘗試過 GPT-5-Pro,但 Cursor 仍然存在五月份就讓我困擾的那些 bug[20]。聽說正在修復中,所以它仍保留在我的程序塢里。
像 Auggie 這樣的項目在我的時間線上只是曇花一現,之后就再無人提及。說到底它們要么基于 GPT-5 要么基于 Sonnet,都是可替代品。RAG 對 Sonnet 或許有幫助,但 GPT-5 的搜索能力已經強大到無需為代碼單獨建立向量索引。
最有潛力的候選者是 opencode 和 crush,尤其是與開源模型結合使用時。你完全可以把 OpenAI 或 Anthropic 的訂閱賬號接入它們( 多虧了巧妙的 hax 技術[21] ),但這么做是否被允許存疑,而且用性能較弱的框架來運行專為 Codex 或 Claude Code 優化的模型意義何在。
那么 $openmodel 呢?
我持續關注著中國的開源模型,它們追趕速度之快令人印象深刻。GLM 4.6 和 Kimi K2.1 都是強勁競爭者,正逐步接近 Sonnet 3.7 的水平,不過我不建議將它們作為主力工具[22]使用。
基準測試只能說明部分情況。在我看來,代理工程在五月份 Sonnet 4.0 發布時實現了從"這很糟糕"到"這很棒"的跨越,而 gpt-5-codex 的出現則讓我們迎來了從"很棒"到"令人驚嘆"的更大飛躍。
計劃模式與方法
基準測試所忽略的是模型+框架在接收提示時采取的策略。codex 會謹慎得多,它會仔細閱讀你代碼庫中的更多文件后才決定如何行動。 當你提出愚蠢請求時,它的拒絕態度會更堅決。[23]Claude/其他代理則急切得多,總是急于嘗試_某些方案_ 。通過計劃模式和嚴格的架構文檔可以緩解這個問題,但對我而言這就像在修補一個故障系統。
我現在很少對 codex 使用大型計劃文件。codex 甚至沒有專門的計劃模式——但它如此擅長遵循提示,我只需寫下"我們來討論"或"給我幾個選項",它就會耐心等待直到我批準。不需要任何框架偽裝。直接對話即可。
但 Claude Code 現在擁有插件[24] 功能
你聽到遠處那聲嘆息了嗎?那是我發出的。簡直是一派胡言。這次真的讓我對 Anthropic 的關注點感到失望。他們試圖修補模型中的低效問題。沒錯,為特定任務維護優質文檔是個好主意。我自己就用 markdown 格式在文檔文件夾里保存了大量實用文檔。
但是但是子代理啊!!!1!
不過關于這套子代理的把戲必須說幾句。今年五月這還叫子任務,主要是當模型不需要完整文本時,將任務拆分到獨立上下文的一種方式——本質上是實現并行化或減少上下文浪費(比如處理嘈雜的構建腳本)。后來他們重新包裝升級為子代理概念,讓你能帶著指令集漂亮地打包分派任務。
實際用例毫無變化。別人用子代理實現的功能,我通常用分屏就能搞定。想研究什么?開個新終端面板操作,然后粘貼到另一個面板就行。這樣我能完全掌控和觀察自己設計的上下文,不像子代理那樣難以查看、引導或控制返回內容。
我們還得談談 Anthropic 在博客中推薦的子代理。看看這個 ["AI 工程師"代理](https://github.com/wshobson/agents/blob/main/plugins/llm-application-dev/agents/ai-engineer.md ""AI 工程師"代理") ,簡直就是一堆廢話的大雜燴——提到 GPT-4o 和 o1 進行集成,整體看起來就像自動生成的文字亂燉,試圖強行合理化。里面沒有任何實質內容能讓你的代理成為更好的"AI 工程師"。
這到底是什么意思?如果你想獲得更好的輸出,告訴模型"你是專門從事生產級 LLM 應用的 AI 工程師"并不會改變什么。給它文檔、示例和注意事項才有幫助。我敢打賭,讓代理"搜索 AI 代理構建最佳實踐"并加載一些網站,效果都比這堆垃圾強。你甚至可以說這種廢話是上下文毒藥[25] 。
我的提示詞編寫方式
當初使用 Claude 時,我常常編寫(當然不是我會說[26] )非常詳盡的提示詞,因為這個模型提供的上下文越多就越"懂我"。雖然這對任何模型都適用,但我發現使用 Codex 時提示詞變得極其簡短,往往只需 1-2 句話外加一張圖片[27] 。這個模型在理解代碼庫方面表現出色,總能準確領會我的意圖。我甚至有時會回歸純文本輸入,因為 Codex 只需極少上下文就能理解。
添加圖片是個絕妙的技巧,能為模型提供更多上下文——它特別擅長精準識別你展示的內容,能快速找到字符串進行匹配并直達你提及的位置。我至少有50%的提示詞都包含截圖,雖然很少添加標注(這樣效果更好但速度較慢)。把截圖拖進終端只需兩秒鐘。
具備語義校正功能的 Wispr Flow[28] 仍是王者。
基于網頁的智能體
最近我又重新測試了幾款網頁智能體:Devin、Cursor 和 Codex。谷歌的 Jules 界面不錯但配置過程令人抓狂,而 Gemini 2.5 已不再是優質模型。或許等 Gemini 3 Pro[29] 發布后會有轉機。唯一堅持使用的是 Codex 網頁版,雖然配置繁瑣且存在故障——目前終端無法正常加載[30] ,但我用舊版環境成功運行了它,代價是預熱時間變長。
我將 Codex web 用作短期問題追蹤器。每當外出時有靈感,我就通過 iOS 應用記錄一行文字,稍后在 Mac 上回顧。當然,我完全可以用手機做更多事甚至審閱合并,但我選擇不這么做。我的工作已經足夠令人沉迷,所以在外面或見朋友時,我不想被進一步牽扯。說這話的我可是花了近兩個月開發手機編程工具的人[31] 。
Codex web 原本不計入使用限額,但這樣的日子已所剩無幾[32] 。
智能體演進之路
聊聊這些工具吧。Conductor[33]、Terragon[34]、Sculptor[35] 還有上千種同類。有些是興趣項目,有些則浸沒在風投資金里。我試過太多,沒一個能留下來。在我看來,它們都在圍繞當前低效打轉,推崇的并非最優工作流。更何況多數工具隱藏終端界面,不完整顯示模型輸出內容。
大多數只是 Anthropic SDK 的淺層封裝加上工作樹管理,毫無技術壁壘。我甚至懷疑你是否真的需要在手機上更方便地編寫代理代碼。這些工具對我而言的小用途,codex web 已完全覆蓋。
不過我確實注意到這個現象:幾乎每個工程師都會經歷自己造輪子的階段,主要是因為這很有趣,而且現在做起來容易多了。還有什么比(我們認為)能讓造更多工具變得更簡單的工具更值得構建的呢?
但 Claude Code 支持后臺任務!
確實。codex 目前缺少 claude 具備的一些花哨功能,最令人頭疼的是缺少后臺任務管理。雖然應該設置超時機制,但我確實多次遇到它因永不結束的 cli 任務而卡住的情況,比如啟動開發服務器或陷入死鎖的測試。
這就是我轉回使用 claude 的原因之一,但由于該模型在其他方面表現太過幼稚,我現在改用 `tmux`[36]。這是個能在后臺運行 CLI 持久會話的老工具,而且模型本身具備豐富的世界知識,你只需"通過 tmux 運行"即可。完全不需要那些自定義代理的做作把戲。
那 MCPs 呢?
關于 MCPs 已有大量討論。在我看來,大多數 MCPs 不過是市場部門用來打勾炫耀的噱頭。幾乎所有的 MCPs 都應該用 CLI 實現——說這話的我自己就寫過 5 個 MCPs[37]。
我只需通過名稱引用 CLI 工具,完全不需要在代理配置文件中添加任何說明。首次調用時,代理會嘗試執行 $randomcrap 命令,CLI 會自動顯示幫助菜單,此時上下文已完整掌握該工具的使用方法,后續調用就能順暢工作。與持續消耗上下文資源的 MCPs
參考資料
倫敦 Claude 代碼匿名會: https://x.com/christianklotz/status/1977866496001867925
自從我上次更新工作流程以來 AI 技術已發展了一年: https://x.com/pmddomingos/status/1976399060052607469
《最優 AI 工作流程》文章: https://steipete.me/posts/2025/optimal-ai-development-workflow
位于同一目錄: https://x.com/steipete/status/1977771686176174352
[5]
原子提交: https://x.com/steipete/status/1977498385172050258
[6]
代理配置文件: https://gist.github.com/steipete/d3b9db3fa8eb1d1a692b7656217d8655
[7]
任何鉤子都攔不住: https://x.com/steipete/status/1977119589860601950
[8]
廢話生成器: https://x.com/weberwongwong/status/1975749583079694398
[9]
逐漸成為主流: https://x.com/steipete/status/1976353767705457005
[10]
盡管 codex 是它的粉絲: https://x.com/steipete/status/1977072732136521836
[11]
絕對正確的: https://x.com/vtahowe/status/1976709116425871772
[12]
codex 才是: https://x.com/s_streichsbier/status/1974334735829905648
[13]
正確選擇: https://x.com/kimmonismus/status/1976404152541680038
[14]
消息排隊: https://x.com/steipete/status/1978099041884897517
[15]
這對我的心理健康影響重大: https://x.com/steipete/status/1975297275242160395
[16]
不會到處生成隨機 markdown 文件: https://x.com/steipete/status/1977466373363437914
[17]
懂的都懂: https://x.com/deepfates/status/1975604489634914326
確實存在基準測試: https://x.com/btibor91/status/1976299256383250780
標志性的閃爍問題: https://x.com/badlogicgames/status/1977103325192667323
Cursor 仍然存在五月份就讓我困擾的那些 bug: https://x.com/steipete/status/1976226900516209035
[21]
多虧了巧妙的 hax 技術: https://x.com/steipete/status/1977286197375647870
[22]
主力工具: https://x.com/imfeat7/status/1977246145278583258
[23]
當你提出愚蠢請求時,它的拒絕態度會更堅決。: https://x.com/thsottiaux/status/1975565380388299112
[24]
插件: https://www.anthropic.com/news/claude-code-plugins
[25]
上下文毒藥: https://x.com/IanIsSoAwesome/status/1976662563699245358
[26]
我會說: https://x.com/steipete/status/1978104202820812905
[27]
一張圖片: https://x.com/steipete/status/1977175451408990379
[28]
Wispr Flow: https://wisprflow.ai/
[29]
Gemini 3 Pro: https://x.com/cannn064/status/1973415142302830878
[30]
無法正常加載: https://x.com/steipete/status/1974798735055192524
[31]
花了近兩個月開發手機編程工具的人: https://steipete.me/posts/2025/vibetunnel-first-anniversary
[32]
這樣的日子已所剩無幾: https://x.com/steipete/status/1976292221390553236
[33]
Conductor: https://conductor.build/
[34]
Terragon: https://www.terragonlabs.com/
[35]
Sculptor: https://x.com/steipete/status/1973132707707113691
[36]
tmux: https://x.com/steipete/status/1977745596380279006
[37]
自己就寫過 5 個 MCPs: https://github.com/steipete/claude-code-mcp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.