網易首頁 > 網易號 > 正文申請入駐

Codex不打算讓Claude Code好過

2026-03-14 11:23:54　來源: 硅星人

北京舉報

分享至

作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

2月6日，OpenAI總裁Greg Brockman在X上公開發了一條面向全公司工程團隊的帖子，設了一個deadline：到3月31日，任何技術任務，工程師的第一工具應該是agent，而不是編輯器或終端。

這是OpenAI對自己下的動員令。

如果只看這句話，你可能會覺得又是一條硅谷式的愿景聲明。但接下來六周發生的事情表明，Brockman不是在喊口號。OpenAI的Coding Agent平臺Codex，正在經歷一輪罕見的產品沖刺，密度之高，節奏之快，甚至讓一些長期關注AI編碼工具的開發者開始重新審視自己的工具鏈。

與此同時，Codex在程序員群體中的熱度和口碑也在肉眼可見地上升。

一切動作都指向“狙擊”Anthropic 如日中天的Claude Code。

六周的瘋狂迭代

拉一下時間線就能感受到這個節奏。

2月2日，Codex桌面App發布（macOS），OpenAI同時宣布向ChatGPT免費和Go用戶開放Codex，所有付費用戶的速率限制翻倍。

2月5日，GPT-5.3-Codex發布，OpenAI稱它為"第一個幫助創造了自身的模型"。同一天，Anthropic發布Claude Opus 4.6。

2月12日，Codex-Spark發布，與AI推理硬件公司Cerebras合作，推理速度超過每秒1000 tokens。OpenAI的說法是，“當模型能力越來越強，交互速度就成了明確的瓶頸。”

2月14日，OpenClaw創始人Peter Steinberger宣布加入OpenAI。據Pragmatic Engineer報道，Steinberger用Codex編寫了OpenClaw的全部代碼，偏好長時間運行的agentic loop。Sam Altman在X上稱他為“天才”，說他將“推動下一代personal agents”。

3月4日，Codex桌面App登陸Windows。

3月5日，GPT-5.4發布，是OpenAI第一個同時具備reasoning、coding和原生computer use能力的通用模型，在Codex和API中支持100萬token上下文。

3月6日，Codex Security進入research preview。這是OpenAI推出的應用安全代理，前身為內測階段的Aardvark，能夠分析代碼倉庫、構建項目級威脅模型、在沙盒中驗證漏洞并提出修復建議。過去30天的beta測試中，它掃描了超過120萬次commits，發現792個critical級別漏洞和超過10000個高危問題，覆蓋OpenSSH、GnuTLS、Chromium等重量級開源項目。誤報率降低超過50%，噪音降低84%。

使用數據也在同步攀升。Sam Altman在X上確認，Codex的周活用戶自年初以來增長超過三倍；Codex團隊負責人Thibault Sottiaux（Tibo）告訴Pragmatic Engineer的Gergely Orosz，1月以來它的使用量增長了5倍，周活開發者超過100萬。Tibo還在播客中提到，Super Bowl周日播出的Codex廣告讓系統幾乎立即承受了巨大負載。

六周，七次重大產品動作，這成了OpenAI在產品上最激進的沖刺之一。

要理解這個節奏，一方面要看供給側的變化。GPT-5系列模型的agent能力在過去幾個月出現了質的飛躍，從上下文窗口、工具調用到長時間自主執行，模型本身的能力到了一個可以支撐Coding Agent這個產品形態的臨界點。

另一方面，需求側的信號同樣強烈。據SemiAnalysis報道，Anthropic的Claude Code已經做出25億美元的年化收入，占其企業收入的一半以上。Claude Code用真金白銀證明了Coding Agent可以成為AI公司的核心收入引擎。對于估值據報已達數千億美元的OpenAI來說，放棄這個賽道不是一個現實的選項。

根據SemiAnalysis的預測AnthropicARR增速一度超過OpenAI

時間點上的貼身肉搏也值得注意。GPT-5.3-Codex和Claude Opus 4.6在2月5日同一天發布。Codex Security和Claude Code Security幾乎同期推出。這種節奏本身就是信號，兩家公司正在把Coding Agent平臺視為正面戰場。

開發者開始從Claude Code的單一模式變成混合模式

在很長一段時間，Anthropic旗下的Claude Code看起來似乎已經沒有了對手，用戶對它的依賴變得越來越重。而OpenAI顯然不想讓Anthropic 這么舒服。在Codex的一通激進沖刺后，開發者社區的反應也開始發生一些變化。

過去一個月，Reddit和Hacker News上關于Codex和Claude Code的討論，出現頻率最高的詞不是更好或替代，而是stacking。也就是說，越來越多的開發者不是在兩者之間選擇，而是同時使用。

Calvin French-Owen是一個典型案例。他是Segment聯合創始人，曾在OpenAI參與Codex web產品的發布，同時也是Claude Code的深度用戶。他在今年2月寫的一篇博客里說，自己選擇工具的核心標準是“我有多少時間，以及我想讓它多自主地跑”。

他的日常工作流是用Claude Code做規劃、編排終端和管理git操作，然后切到Codex做實際編碼。他說Opus在跨上下文窗口的工作中效率更高，會同時啟動多個子代理并行探索代碼庫；而Codex在長時間自主編碼任務上更穩定。

Reddit上也出現了更具體的分工模式。有開發者詳細描述了一個五段式workflow，先讓Claude Code出計劃，再讓Codex review計劃，然后由Claude實施，最后交給Codex做code review和QA迭代。還有人直接把Claude Code和Codex串成了一個CLI bridge，因為手動在兩者之間復制粘貼太累了。

一篇社區分析總結了500多條Reddit評論后的結論，Claude Code在一組小樣本盲測中勝率達到67%，質量更高；但Codex 20美元的套餐能編碼一整天不斷，而Claude Code同價位十幾個prompt就用完了。“Claude Code質量更高但用不完，Codex稍弱但全天能用”，這是2026年3月開發者社區最真實的共識。

在Cursor官方的benchmark中，GPT系列整體領先其他模型。

開發者社區還流傳著一個比喻來描述兩者的氣質差異，Claude像美國人，適合做充滿創造力的探索和頭腦風暴，Codex像德國人，代表極致的效率和專注執行。“它就像一條咬住骨頭不放的狗，非常固執，會一直嘗試直到解決問題。”

當然也有反面聲音。Hacker News上有開發者說Codex對自己來說“每一項都比Claude Code差”，尤其是code review會制造看似合理但實際不存在的問題，他最后只把Codex用來復核Claude的產出。

但大方向已經很明確了，社區討論正在從哪個更好就用哪個，變成兩個都用，各占一個工位。

比的不再是benchmark，是誰是更實用的產品

只看模型benchmark，你不太容易理解Codex為什么起勢。在SWE-Bench這類編碼評測上，Claude Opus 4.6仍然領先。真正讓Codex拉開差異的地方在別處，OpenAI正在圍繞它構建一整套工程系統。

Orosz今年2月發表了一篇對Codex團隊的深度報道。其中最引人注目的事實是，Codex超過90%的代碼是由Codex自己編寫的。Anthropic方面也有類似的說法，Claude Code的創建者Boris Cherny告訴Orosz，Claude Code的數據大致相當。

當然，這里的90%需要打個折扣理解，在一個成熟項目中，樣板代碼、測試用例、常規重構占了大量行數，核心架構決策仍然由人來做。但兩家AI實驗室都在用自己的coding 工具來編寫自己的coding 工具，這種自舉本身就說明了這些工具已經深度嵌入了日常工程流程。

Codex 的基本工作原理

Codex團隊在工程組織層面走得更遠。Orosz的報道描述了一種新的工作方式，Codex團隊的典型工程師同時運行4到8個并行agent，分別處理feature開發、code review、安全審計、代碼庫理解、bug修復等任務。工程師的角色正在從寫代碼的人變成管理agent的人。

技術選型上，Codex CLI選擇了Rust（Claude Code使用的是TypeScript）。團隊負責人Tibo給出的理由不僅是性能和正確性，還有工程文化，選擇Rust是為了給團隊設定一個高工程標準，同時減少對npm依賴生態的依賴。他們甚至招募了Rust終端UI庫Ratatui的維護者全職加入團隊。

更值得關注的是分層代碼審查機制。Codex團隊訓練了一個定制的code review模型，據Tibo說約9/10的評論能指出有效問題。審查分兩層，非關鍵代碼在AI review后可以直接merge，核心agent代碼和開源組件仍然要求強制人工審查。這套機制的意義在于，審查本身開始分層了。

還有兩個細節能說明Codex正在從工具走向系統。Codex可以運行自己的完整測試套件來測試自身；團隊還設置了夜間巡檢，讓Codex自動掃描代碼庫并生成待審修復建議，工程師每天早上進公司時就有一批修復等著review。

一家名為Wonderful的AI開發公司的首席架構師在今年3月寫了一篇文章，描述了他們四個月前禁止手動coding后的經驗。他對兩個工具的定位是，Codex是坐在房間后面戴耳機的工程師，默默讀完你整個代碼庫15分鐘才寫第一行代碼，Claude則更有產品感，更擅長判斷什么感覺對。他們把Codex用于低延遲系統工作、實時語音管線、性能敏感代碼，Claude則用于UI和前端。

從coding工具到Agent平臺

拉遠來看，Codex六周沖刺的方向指向一個更大的野心。

Peter Steinberger的加入是一個人事信號。他日常同時并行5到10個agent，加入OpenAI后的方向是下一代personal agents，不是coding工具。OpenAI正在用Codex作為agent戰略的入口。

Codex Security則是另一個方向的延伸。當Codex從幫你寫代碼走向幫你審計安全，它的定位就已經變了。

GPT-5.4進一步加速了這個轉變。作為OpenAI第一個具備原生computer use能力的通用模型，它在Codex中不僅能寫代碼，還能操作電腦、跨應用執行工作流。配合正在成型的插件/skills生態系統和企業級權限管理，Codex的輪廓越來越像一個AI原生的開發平臺。

Codex團隊在Every的播客中透露了他們眼中的下一個瓶頸，就是代碼審查。

模型生成代碼的速度已經遠超人類review的速度，驗證產出的正確性成了最緊迫的問題。他們已經在嘗試讓模型通過重現用戶操作路徑來“證明”修復有效，而不是讓人類逐行讀代碼。

這些野心和Claude Code已經越來越清楚的發展方向有很多重合，在從Claude Code那里迅速搶走了一些用戶和使用場景之后，Codex的勢頭正在起來。回到Greg Brockman 2月6日的那條帖子。他設的deadline是3月31日，目前距離deadline還有兩周多，而從過去六周的節奏來看，Codex的沖刺還遠沒有結束。

OpenAI把曾經在模型上呈現出的狠勁兒和卷王的氣質，都放到了Codex上，接下來它和Claude code之間短兵相接的故事，會更精彩了。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.