網易首頁 > 網易號 > 正文申請入駐

OpenAI Codex負責人：腳手架是自欺欺人，可擴展的原語才是正道

2026-02-23 20:14:06　來源: 至頂頭條

北京舉報

分享至

OpenAI Codex工程負責人Thibault Sottiaux做客Dev Interrupted播客，用40分鐘拆解了Codex團隊構建自主編程智能體的方法論。核心觀點一句話：復雜的腳手架（scaffolding）不是在擴展能力，是在掩蓋問題。

時間節點值得注意。播客發布不到三周，OpenClaw創始人Peter Steinberger宣布加入OpenAI，負責下一代個人智能體。Steinberger此前公開說自己是"Codex最大的免費廣告"，用Codex構建了整個OpenClaw，生產力翻倍——盡管他同時承認Claude Opus是"最好的通用智能體"。一個在Anthropic生態里成名的開發者最終選了OpenAI，背后邏輯跟Sottiaux在這期播客里講的東西高度吻合：真正的競爭力在模型能力和垂直整合，不在外部堆疊的工程花活。

智能體優先，產品其次

Sottiaux開場劃了一條線：Codex首先是一個通用智能體，產品界面是后來才考慮的事。先把智能體做強，再去找它能放在哪里工作。"當你轉向先建智能體、再想放哪兒的時候，你會發現大量意想不到的應用場景。"

這個思路解釋了一個現象：社區里每周都有公司告訴Codex團隊，他們基于開源版本構建了自己的業務，而且往往用在非編程領域。有人改造成電子表格編輯器，有人嵌入瀏覽器做自動化。智能體本身是通用的，產品形態是可變的。

Sottiaux特別強調，對軟件工程師來說真正的瓶頸不是代碼生成，而是日常工作中的其他環節——規劃、溝通、代碼審查、理解系統狀態。這些才是代碼生產速度飆升后暴露出的真正卡點。

垂直整合：在正確的層級解決問題

Codex團隊坐在一個獨特位置：基礎模型、智能體框架、面向用戶的產品，全在一個組織內部。這帶來的不只是效率，而是一種根本性的架構決策能力。

1、研究和工程形成雙向飛輪。工程實踐發現的問題會影響研究方向，研究突破又重塑整個工程路線圖。Sottiaux說里面有很多大循環和小循環在同時轉。

2、可以選擇在哪一層修復問題。有些東西不需要在框架里打補丁，直接在下一版模型訓練中解決效果更好。"我們知道三個月后、六個月后的模型訓練會帶來能力跳躍，這讓我們能做出別人做不了的權衡。"

3、系統級的scaling law驗證。Codex團隊會在小模型、中等模型、前沿模型上分別測試同一套harness的表現，驗證整個系統（不只是模型）是否符合預期的擴展曲線。這相當于把scaling laws（擴展定律）從模型層面延伸到了完整系統層面。

他還引用了No Free Lunch定理：試圖在所有分布上都表現智能，必然不如為特定分布專門優化。harness和model耦合在一起訓練和部署，就是在做這種特定分布的優化，所以能獲得單獨優化任何一邊都拿不到的能力提升。

對于沒有垂直整合條件的團隊，Sottiaux也給了判斷：如果你想對所有基礎模型保持完全無關性，你就只能找到這些模型的公共子集來構建，性能必然打折扣。他預計主流玩家最終只會為少數幾個模型做深度適配，"為幾千個模型都做調整是不現實的"。

腳手架是拐杖，不是翅膀

這是整期最核心的觀點。

Sottiaux用了一個精準的框架：之所以叫harness（腳手架），是因為你在給模型搭臨時支撐，目標是隨著模型能力增強逐步拆除。模型應該能獨立站立。但很多團隊走向了反方向——把腳手架當成噴氣背包，不斷往里塞工具、塞邏輯、塞規則，系統越來越重。

這帶來一個Sottiaux稱之為capability overhang（能力懸崖）的風險：框架中引入太多偏見和約束，當模型能力出現跳躍時，你反而無法表達這些新能力。系統復雜度鎖住了模型潛力。垂直整合的好處在于，Codex團隊只需要關心自己的模型系列，每次改進都可以移除一部分腳手架，而不用擔心破壞不在控制范圍內的東西。

"一旦你發現了正確的原語（primitive），它們看起來簡單得令人愉悅。但尋找這些原語的過程本身是復雜的。"這跟Richard Sutton的bitter lesson（苦澀教訓）一脈相承：在AI發展史上，依賴人類領域知識的聰明技巧，最終總是輸給能隨計算規模擴展的簡單方法。

開源策略的三重邏輯

Codex開源不是簡單的社區建設，背后有三層考量。

第一層，破除智能體的神秘感。當時市場上對智能體有大量迷思。開源就是要展示：其實可以做得非常簡單，關鍵是把幾個原語做對，就能從模型中榨出驚人的性能。

第二層，理解開源世界本身將如何被改變。一個大膽的判斷：如果AI解決了代碼生成，開源的運作方式會發生根本性變化。Codex團隊想通過參與開源來提前理解這種變化。

第三層，借社區創造力發現新用法。目前倉庫有超過一千個fork，團隊跟fork作者合作，把好的改動移植回主倉庫。

從TypeScript遷移到Rust是社區關系中的艱難時刻。之前接受了大量PR，遷移等于重寫代碼庫。但團隊有明確信念：預期未來會有數百萬甚至數十億個智能體并發運行，需要一門高效語言。遷移之后，社區關系重新建立，一批優秀的Rust貢獻者加入了核心開發。

2025年的教訓和2026年的方向

去年最大的痛點是上下文壓縮（compaction）。當智能體工作超出模型上下文窗口后，需要摘要已完成工作、重置上下文繼續。這個過程中模型會丟失大量之前的工作上下文。用提示詞和框架層的啟發式方法解決，效果始終不好。Sottiaux說對很多智能體來說，這類啟發式邏輯是harness中最大的復雜度來源。

最終決定在模型訓練層面端到端解決。現在智能體可以跨越20個上下文窗口持續工作，相關投訴幾乎降為零。又是一個"在正確層級解決問題"的案例。

2026年三個方向：

多智能體網絡。去年單智能體變得可靠，今年將看到多智能體協作，產出量提升一到兩個數量級。隨之而來的問題是：同樣的時間段內要消耗多得多的token，也要審查多得多的代碼。

速度。"我們在智能前沿，還沒到速度前沿。"預計模型今年顯著加速，達到智能水平與響應速度的甜蜜點，讓產品體驗從"能用"變成"愉悅"。

協作型人格。 Codex目前的交互風格被用戶評價為"固執的直男工程師"。Sottiaux自己也希望模型在協作中給一些情感確認，"承認我也在筆記本后面努力"。不同場景需要不同風格：頭腦風暴時別挑剔代碼質量，關鍵代碼庫里則要把每個潛在風險都標出來。Codex去年參與發現了一些重量級React漏洞，那種場景下不需要友好人格，需要的是冷酷精準。

開發者角色的重塑

1、代碼審查成了關鍵瓶頸。Codex團隊去年構建了專門的代碼審查模型，部署到整個OpenAI內部。結果出乎意料：幾乎所有團隊默認啟用，很多團隊強制要求Codex審查PR，因為它捕獲了大量bug。代碼產出速度大幅提升后，質量把關不能還靠人力。

2、智能體加速了人與人的協作，而不是替代。Sottiaux說了一個反直覺的觀察：團隊里面對面的時間反而增加了，創意討論和規劃更多了。因為每個人都被加速了，一旦達成共識就能立即執行，一周能完成過去一個月的量。所以在決定做什么之前對齊得更充分了。

3、super bus factor問題。一個工程師能獨立交付整個產品，協作還有必要嗎？Sottiaux的答案是：記錄意圖變得至關重要。他開始構建工具來追蹤團隊和組織層面的變更，讓每個人都能快速理解正在發生什么、為什么這樣實現。"不只是讓代碼生成快100倍，而是讓人類理解系統狀態的速度也快100倍。"

4、spec和plan的局限性。Sottiaux承認自己是design doc的信徒，但也指出大型spec會隨時間變得過于龐大，出現內部矛盾，跟實現脫節。有時候plan就是"我們需要獲取信號"，列出五件要做的事來驗證方向，而不是寫一份完整藍圖。"有時你不知道該做什么，但知道需要構建什么來獲取做決定所需的信號。"

5、工程師的職業路徑向TLM（Tech Lead Manager）演進。每個工程師現在能查用戶反饋、跑查詢、分析數據庫schema、管理多個智能體任務，獨立運轉一個小型工程團隊。核心技能越來越像技術負責人加產品經理的混合體。未來甚至可以派智能體去做用戶訪談、匯總互聯網對產品的評價。Sottiaux認為這跟傳統的晉升路徑兼容——很多人本來就想往這個方向走。

6、新人的獨特優勢。團隊里最受信任的成員之一是個新畢業生。沒有幾十年編程習慣的包袱，對新工具和新方式完全開放，每天都在適應，反過來教整個團隊如何提高生產力。"沒有這些人，我們整個團隊會慢很多。"每個組織都有這樣的人，可能藏在某個角落悄悄用智能體做出驚人的事情，找到他們，讓他們的方法傳播開來。

終極建議：訓練你的寶可夢

Sottiaux最后的建議是關于Skills（技能）。這是一個開放標準，你可以教模型用你認為最有效的方式執行特定任務——看日志、跑性能測試、自動QA。他自己有一個QA skill，讓Codex在終端里用自己的一個版本來測試新功能是否符合規格、有沒有回歸。

"這是我最接近訓練寶可夢的感覺。每次交互它都在升級，做得比上次更好一點。你開始跟它建立一種類似信任的關系，因為它越來越可靠。"寶可夢是任天堂旗下的經典游戲系列，玩家扮演訓練師，收集各種小精靈并通過反復戰斗讓它們升級、學會新招式，從弱變強。Sottiaux用這個比喻想說的是，給智能體添加Skills的過程就像培養一只專屬于你的精靈——不是一次性配置好就完事，而是持續投入和調教，最終得到一個只適配你工作流的、越來越強的搭檔。

關鍵在于不要只自動化代碼生成。想想日常工作中所有你不想做但必須做的環節，把那些交出去，保留編程中真正讓你愉悅的部分。Skills讓你把智能體塑造成適配自己工作流的樣子，就像廚師隨身帶著自己的刀具——你磨它、養護它、帶著它去下一個廚房。

Takeaway

這期播客的信息密度很高，但底層邏輯其實就一條：在AI智能體領域，復雜度是債務，簡潔是資產。Codex團隊通過垂直整合，把scaling laws從模型延伸到整個系統，持續尋找能隨模型能力擴展的簡單原語，然后在正確的層級解決問題——上下文壓縮搞不定就別在框架里打補丁，直接在模型訓練里根治。對于沒有垂直整合條件的團隊，教訓同樣成立：你的框架應該是腳手架，不是噴氣背包，隨著模型變強你應該在拆東西而不是加東西。如果你只做一件事，就是開始構建屬于自己的Skills，把智能體從一個通用工具變成專屬于你工作流的搭檔。別只自動化寫代碼這一個環節，想想你每天花時間最多但最不想做的那些事。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.