OpenAI Codex工程負責人Thibault Sottiaux做客Dev Interrupted播客,用40分鐘拆解了Codex團隊構建自主編程智能體的方法論。核心觀點一句話:復雜的腳手架(scaffolding)不是在擴展能力,是在掩蓋問題。
![]()
時間節點值得注意。播客發布不到三周,OpenClaw創始人Peter Steinberger宣布加入OpenAI,負責下一代個人智能體。Steinberger此前公開說自己是"Codex最大的免費廣告",用Codex構建了整個OpenClaw,生產力翻倍——盡管他同時承認Claude Opus是"最好的通用智能體"。一個在Anthropic生態里成名的開發者最終選了OpenAI,背后邏輯跟Sottiaux在這期播客里講的東西高度吻合:真正的競爭力在模型能力和垂直整合,不在外部堆疊的工程花活。
智能體優先,產品其次
Sottiaux開場劃了一條線:Codex首先是一個通用智能體,產品界面是后來才考慮的事。先把智能體做強,再去找它能放在哪里工作。"當你轉向先建智能體、再想放哪兒的時候,你會發現大量意想不到的應用場景。"
這個思路解釋了一個現象:社區里每周都有公司告訴Codex團隊,他們基于開源版本構建了自己的業務,而且往往用在非編程領域。有人改造成電子表格編輯器,有人嵌入瀏覽器做自動化。智能體本身是通用的,產品形態是可變的。
Sottiaux特別強調,對軟件工程師來說真正的瓶頸不是代碼生成,而是日常工作中的其他環節——規劃、溝通、代碼審查、理解系統狀態。這些才是代碼生產速度飆升后暴露出的真正卡點。
垂直整合:在正確的層級解決問題
Codex團隊坐在一個獨特位置:基礎模型、智能體框架、面向用戶的產品,全在一個組織內部。這帶來的不只是效率,而是一種根本性的架構決策能力。
1、研究和工程形成雙向飛輪。工程實踐發現的問題會影響研究方向,研究突破又重塑整個工程路線圖。Sottiaux說里面有很多大循環和小循環在同時轉。
2、可以選擇在哪一層修復問題。有些東西不需要在框架里打補丁,直接在下一版模型訓練中解決效果更好。"我們知道三個月后、六個月后的模型訓練會帶來能力跳躍,這讓我們能做出別人做不了的權衡。"
3、系統級的scaling law驗證。Codex團隊會在小模型、中等模型、前沿模型上分別測試同一套harness的表現,驗證整個系統(不只是模型)是否符合預期的擴展曲線。這相當于把scaling laws(擴展定律)從模型層面延伸到了完整系統層面。
他還引用了No Free Lunch定理:試圖在所有分布上都表現智能,必然不如為特定分布專門優化。harness和model耦合在一起訓練和部署,就是在做這種特定分布的優化,所以能獲得單獨優化任何一邊都拿不到的能力提升。
對于沒有垂直整合條件的團隊,Sottiaux也給了判斷:如果你想對所有基礎模型保持完全無關性,你就只能找到這些模型的公共子集來構建,性能必然打折扣。他預計主流玩家最終只會為少數幾個模型做深度適配,"為幾千個模型都做調整是不現實的"。
腳手架是拐杖,不是翅膀
這是整期最核心的觀點。
Sottiaux用了一個精準的框架:之所以叫harness(腳手架),是因為你在給模型搭臨時支撐,目標是隨著模型能力增強逐步拆除。模型應該能獨立站立。但很多團隊走向了反方向——把腳手架當成噴氣背包,不斷往里塞工具、塞邏輯、塞規則,系統越來越重。
這帶來一個Sottiaux稱之為capability overhang(能力懸崖)的風險:框架中引入太多偏見和約束,當模型能力出現跳躍時,你反而無法表達這些新能力。系統復雜度鎖住了模型潛力。垂直整合的好處在于,Codex團隊只需要關心自己的模型系列,每次改進都可以移除一部分腳手架,而不用擔心破壞不在控制范圍內的東西。
"一旦你發現了正確的原語(primitive),它們看起來簡單得令人愉悅。但尋找這些原語的過程本身是復雜的。"這跟Richard Sutton的bitter lesson(苦澀教訓)一脈相承:在AI發展史上,依賴人類領域知識的聰明技巧,最終總是輸給能隨計算規模擴展的簡單方法。
開源策略的三重邏輯
Codex開源不是簡單的社區建設,背后有三層考量。
第一層,破除智能體的神秘感。當時市場上對智能體有大量迷思。開源就是要展示:其實可以做得非常簡單,關鍵是把幾個原語做對,就能從模型中榨出驚人的性能。
第二層,理解開源世界本身將如何被改變。一個大膽的判斷:如果AI解決了代碼生成,開源的運作方式會發生根本性變化。Codex團隊想通過參與開源來提前理解這種變化。
第三層,借社區創造力發現新用法。目前倉庫有超過一千個fork,團隊跟fork作者合作,把好的改動移植回主倉庫。
從TypeScript遷移到Rust是社區關系中的艱難時刻。之前接受了大量PR,遷移等于重寫代碼庫。但團隊有明確信念:預期未來會有數百萬甚至數十億個智能體并發運行,需要一門高效語言。遷移之后,社區關系重新建立,一批優秀的Rust貢獻者加入了核心開發。
2025年的教訓和2026年的方向
去年最大的痛點是上下文壓縮(compaction)。當智能體工作超出模型上下文窗口后,需要摘要已完成工作、重置上下文繼續。這個過程中模型會丟失大量之前的工作上下文。用提示詞和框架層的啟發式方法解決,效果始終不好。Sottiaux說對很多智能體來說,這類啟發式邏輯是harness中最大的復雜度來源。
最終決定在模型訓練層面端到端解決。現在智能體可以跨越20個上下文窗口持續工作,相關投訴幾乎降為零。又是一個"在正確層級解決問題"的案例。
2026年三個方向:
多智能體網絡。去年單智能體變得可靠,今年將看到多智能體協作,產出量提升一到兩個數量級。隨之而來的問題是:同樣的時間段內要消耗多得多的token,也要審查多得多的代碼。
速度。"我們在智能前沿,還沒到速度前沿。"預計模型今年顯著加速,達到智能水平與響應速度的甜蜜點,讓產品體驗從"能用"變成"愉悅"。
協作型人格。 Codex目前的交互風格被用戶評價為"固執的直男工程師"。Sottiaux自己也希望模型在協作中給一些情感確認,"承認我也在筆記本后面努力"。不同場景需要不同風格:頭腦風暴時別挑剔代碼質量,關鍵代碼庫里則要把每個潛在風險都標出來。Codex去年參與發現了一些重量級React漏洞,那種場景下不需要友好人格,需要的是冷酷精準。
開發者角色的重塑
1、代碼審查成了關鍵瓶頸。Codex團隊去年構建了專門的代碼審查模型,部署到整個OpenAI內部。結果出乎意料:幾乎所有團隊默認啟用,很多團隊強制要求Codex審查PR,因為它捕獲了大量bug。代碼產出速度大幅提升后,質量把關不能還靠人力。
2、智能體加速了人與人的協作,而不是替代。Sottiaux說了一個反直覺的觀察:團隊里面對面的時間反而增加了,創意討論和規劃更多了。因為每個人都被加速了,一旦達成共識就能立即執行,一周能完成過去一個月的量。所以在決定做什么之前對齊得更充分了。
3、super bus factor問題。一個工程師能獨立交付整個產品,協作還有必要嗎?Sottiaux的答案是:記錄意圖變得至關重要。他開始構建工具來追蹤團隊和組織層面的變更,讓每個人都能快速理解正在發生什么、為什么這樣實現。"不只是讓代碼生成快100倍,而是讓人類理解系統狀態的速度也快100倍。"
4、spec和plan的局限性。Sottiaux承認自己是design doc的信徒,但也指出大型spec會隨時間變得過于龐大,出現內部矛盾,跟實現脫節。有時候plan就是"我們需要獲取信號",列出五件要做的事來驗證方向,而不是寫一份完整藍圖。"有時你不知道該做什么,但知道需要構建什么來獲取做決定所需的信號。"
5、工程師的職業路徑向TLM(Tech Lead Manager)演進。每個工程師現在能查用戶反饋、跑查詢、分析數據庫schema、管理多個智能體任務,獨立運轉一個小型工程團隊。核心技能越來越像技術負責人加產品經理的混合體。未來甚至可以派智能體去做用戶訪談、匯總互聯網對產品的評價。Sottiaux認為這跟傳統的晉升路徑兼容——很多人本來就想往這個方向走。
6、新人的獨特優勢。團隊里最受信任的成員之一是個新畢業生。沒有幾十年編程習慣的包袱,對新工具和新方式完全開放,每天都在適應,反過來教整個團隊如何提高生產力。"沒有這些人,我們整個團隊會慢很多。"每個組織都有這樣的人,可能藏在某個角落悄悄用智能體做出驚人的事情,找到他們,讓他們的方法傳播開來。
終極建議:訓練你的寶可夢
Sottiaux最后的建議是關于Skills(技能)。這是一個開放標準,你可以教模型用你認為最有效的方式執行特定任務——看日志、跑性能測試、自動QA。他自己有一個QA skill,讓Codex在終端里用自己的一個版本來測試新功能是否符合規格、有沒有回歸。
"這是我最接近訓練寶可夢的感覺。每次交互它都在升級,做得比上次更好一點。你開始跟它建立一種類似信任的關系,因為它越來越可靠。"寶可夢是任天堂旗下的經典游戲系列,玩家扮演訓練師,收集各種小精靈并通過反復戰斗讓它們升級、學會新招式,從弱變強。Sottiaux用這個比喻想說的是,給智能體添加Skills的過程就像培養一只專屬于你的精靈——不是一次性配置好就完事,而是持續投入和調教,最終得到一個只適配你工作流的、越來越強的搭檔。
關鍵在于不要只自動化代碼生成。想想日常工作中所有你不想做但必須做的環節,把那些交出去,保留編程中真正讓你愉悅的部分。Skills讓你把智能體塑造成適配自己工作流的樣子,就像廚師隨身帶著自己的刀具——你磨它、養護它、帶著它去下一個廚房。
Takeaway
這期播客的信息密度很高,但底層邏輯其實就一條:在AI智能體領域,復雜度是債務,簡潔是資產。Codex團隊通過垂直整合,把scaling laws從模型延伸到整個系統,持續尋找能隨模型能力擴展的簡單原語,然后在正確的層級解決問題——上下文壓縮搞不定就別在框架里打補丁,直接在模型訓練里根治。對于沒有垂直整合條件的團隊,教訓同樣成立:你的框架應該是腳手架,不是噴氣背包,隨著模型變強你應該在拆東西而不是加東西。如果你只做一件事,就是開始構建屬于自己的Skills,把智能體從一個通用工具變成專屬于你工作流的搭檔。別只自動化寫代碼這一個環節,想想你每天花時間最多但最不想做的那些事。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.