網易首頁 > 網易號 > 正文申請入駐

僅4人28天！OpenAI首曝Sora內幕：85%代碼竟由AI完成

2025-12-15 11:19:56　來源: 新智元

北京舉報

分享至

新智元報道

編輯：好困桃子

【新智元導讀】OpenAI爆款APP，只動用了四員悍將。他們在短短28天內，完成了從0搭建安卓版Sora。這背后，竟是AI完成了85%的編碼。

4人28天手搓Sora APP，約85%代碼竟是AI寫的！

10月初，OpenAI重磅發布迭代后Sora 2，以及首個AI視頻應用Sora APP。

直到11月，安卓版Sora一經上線，就登上了谷歌Play Store榜首。

安卓用戶在24h內，生成了超100萬條視頻

時隔兩個月，OpenAI團隊揭秘這款爆火應用（首個安卓版），如何構建的背后故事。

讓人意外的是，這款APP僅在28天內完成，背后最大功臣便是AI智能體——Codex。

從10月8日到11月5日，4人工程團隊與Codex協作，消耗約50億Token，就把Sora Android推向全球。

盡管應用規模雖大，卻實現了99.9%無崩潰率。

而且，他們還使用的是GPT-5.1-Codex模型的早期版本。

發布僅5個月的時間，Codex已經承包了OpenAI內部每周70%的PR了。

擁抱「布魯克斯定律」：保持靈活，唯快不破

當Sora在iOS上發布時，用戶量直接原地爆炸。

相比之下，安卓當時只有一個簡陋的內部原型，而在Google Play上預注冊的用戶卻在越堆越多。

面對這種高壓、火燒眉毛的發布任務，通常的反應就是瘋狂堆人、加流程。

像這種規模和質量的生產級應用，通常得一大幫工程師干好幾個月，而且還會被各種協調工作拖慢進度。

美國計算機架構師Fred Brooks曾有一句名言，「向一個已經延期的軟件項目增加人手，只會讓它延得更厲害」。

換句話說，想要快速交付一個復雜項目時，堆人往往增加了溝通成本、任務碎片化和集成難度，反而會降低效率。

為此，OpenAI組建了一支只有四名工程師的「精銳小隊」——全員配備Codex，極大地把每個人的戰斗力拉滿。

靠著這種打法，在18天內就向員工發布了Sora Android的內部構建版本，僅僅10天后就向公眾正式發布。

AI迭代AI，自我進化

在OpenAI內部，絕大部分工程師都在用Codex，即開源版CLI。

Codex產品負責人Alexander Embiricos透露，「它會監控自己的訓練過程，并處理用戶反饋，「決定」下一步該做什么。

Codex正在給自己的訓練運行編寫大量的研究測試框架（research harness），OpenAI甚至在嘗試讓Codex去監控自己的訓練過程。

這種「套娃」式的開發模式，可以讓Codex自我迭代。

這種用工具造更好工具的遞歸循環，在計算歷史上其實由來已久。

1960年代，工程師們在紙上手工設計了第一批集成電路，然后根據圖紙造出了物理芯片。

接著，這些芯片又驅動了運行第一批電子設計自動化（EDA）軟件的電腦，而這些軟件反過來又讓工程師能設計出人類手繪根本搞不定的復雜電路。

現代處理器包含數十億個晶體管，這種排列模式之所以能存在，全靠軟件。

OpenAI用Codex來造Codex似乎也是這個路子：每一代工具創造的能力，都會反哺到下一代中。

這個系統能自主運行許多進程，處理反饋，衍生并管理子進程，還能生成最終發布在實際產品里的代碼。

OpenAI員工管它叫「隊友」，并且用諸如Linear、Slack等工具來給它派活兒。

Codex處理的任務，到底算不算真正的「決策」？

但無可否認的是，這里形成了一個半自主的反饋循環：

Codex在人類的指導下寫代碼，這些代碼變成了Codex的一部分，結果就是下一個版本的Codex會寫出不一樣的代碼。

一位剛入職的「高級工程師」

為了理解工程師是如何跟Codex配合的，需得先知道它哪里強、哪里需要人帶。

把它當成一個「剛入職的高級工程師」是個很好的切入點。

這個定位，意味著工程師可以把更多時間花在指揮和Review代碼上，而不是自己在那兒敲代碼。

與「氛圍編程」不同的是，讓Codex編碼屬于「Vibe engineering」（氛圍流工程）的領域。

前者是指，開發者不怎么細看就直接接受AI生成的代碼，而后者是AI研究員Simon Willison提出的概念，指人類仍保持在循環中。

一般來說，讓Codex干活/制定計劃，再一起討論，迭代計劃，這樣開發者就和模型保持在一個「循環」里，還能仔細審查代碼。

Codex需要指導的地方

目前，Codex還不擅長推斷未知的事。

比如，個人喜歡的架構模式、產品策略、真實用戶行為，以及內部的潛規則或捷徑。

同樣，Codex也看不到App實際跑起來的樣子：

它沒法在真機上打開Sora，感覺不到滾動條是不是不絲滑，或者察覺到某個交互流程很別扭。

這些體驗層面的活兒，只能靠OpenAI團隊自己來。

每一個實例都需要「入職培訓」。給出上下文，明確目標、約束條件，以及明確的規矩，對于讓Codex把活兒干漂亮至關重要。

還有，Codex在深層架構判斷上也容易跑偏：如果放任不管，它可能會搞出一個多余的ViewModel，實際上團隊只想擴展現有的那個；或者把本該屬于Repository層的邏輯硬塞進UI層。

它的本能是把功能跑通就行，而不是優先考慮長期的代碼整潔度。

OpenAI發現，在整個代碼庫里到處放大量的AGENT.md文件非常有用。

這能讓工程師在不同的會話里，輕松復用相同的指導和最佳實踐。

舉個例子，為了確保Codex按照風格指南寫代碼，OpenAI團隊在頂層的AGENTS.md里加了這么一段：

- **Always run** `./gradlew detektFix` (or for the affected modules) **before committing**. CI will fail if formatting or detekt issues are present.

Codex擅長的地方

接下來，再來看看Codex最擅長什么？

秒懂大型代碼庫：Codex精通所有主流編程語言，不需要搞復雜的抽象，就能輕松地在不同平臺間復用相同的概念。
測試覆蓋率：Codex對寫單元測試有著獨特的熱情，能覆蓋各種邊緣情況。雖說不是每個測試都很深，但這廣撒網的覆蓋率對防止Bug回歸特別有用。
響應反饋：同樣，Codex很聽勸。當CI掛了的時候，可以直接把日志甩給它（粘貼到prompt里），讓它給個修復方案。
大規模并行、用完即棄：大多數人根本沒試探過并行會話數量的極限。開發者可以并行測試好幾個想法，把代碼當成一次性用品，不行就扔。
提供新視角：在設計討論中，團隊會把Codex當成一個生成式工具，用它來挖掘潛在的故障點，或者發現解決問題的新路子。比如，在設計視頻播放器內存優化時，Codex翻遍了多個SDK，提出了一些團隊根本沒時間去細究的方案。Codex調研出的這些見解，對于將最終App內存占用降到最低簡直價值連城。
騰出手做高杠桿工作：實際上，團隊最后花在Review和指揮代碼上的時間，比自己寫的時間還要多。話雖如此，Codex在代碼審查（Code Review）方面也很牛，經常能在合并代碼前就揪出Bug，提高了可靠性。

一旦摸清了Codex的能力，團隊的工作模式就變得很直接了。

在模式清晰、范圍明確的地方，讓Codex去干那些繁重的苦力活；而團隊則專注于架構、用戶體驗、系統性變更和把控最終質量。

立規矩，手動打地基

為了用好Codex并確保出活穩健、好維護，關鍵在于，開發者要親自把控系統的設計和關鍵權衡。

這包括定好App的架構、模塊化、依賴注入和導航；甚至身份驗證和基礎網絡流程也是自己搞定的。

對于一個估算有85%的代碼都是Codex寫的項目來說，一個精心規劃的地基避免了昂貴的返工和重構。

OpenAI團隊表示，「這絕對是我們做過的最正確的決定之一」。

一定要形成這樣一個思路——

不是為了盡快搞個「能跑的東西」，而是要搞個「懂規矩的東西」。

寫代碼有很多種「正確」的方式：

不需要告訴Codex具體每一步怎么做；
但需要向Codex展示什么是「正確」的。

一旦定好了起點和團隊喜歡的構建方式，Codex就可以開工了。

為了看看會發生什么，OpenAI團隊確實試過直接給Prompt：

照著iOS代碼構建Sora Android App。開始干。

結果，很快就翻車了。

雖然Codex寫出來的東西技術上能跑，但產品體驗完全不達標。

而且如果不懂端點、數據和用戶流，Codex這種「一錘子買賣」（Zero-shot）寫出來的代碼根本不可靠。哪怕不用 AI，一次性合并幾千行代碼也是作死。

OpenAI的假設是，如果給Codex一個寫滿好范例的沙盒，它就能如魚得水；事實證明，他們是對的。

光禿禿地讓Codex「做個設置頁面」基本不靠譜。

但如果你讓它「參考你剛才看到的那個頁面的架構和模式，做個設置頁面」，效果就好太多了。

人類做結構性的決策并定下硬性規矩；Codex負責在這個框架里填充大量的代碼。

先規劃，再編碼

為了最大化Codex的潛力，團隊下一步是搞清楚——怎么讓Codex長時間在無人監督的狀態下干活。

為此，4人團隊改了工作流。

對于任何稍微復雜點的改動，先讓Codex幫理清系統和代碼是怎么運作的。

比如，讓它讀一組相關文件，總結這個功能是怎么跑的；比如數據怎么從API流經Repository層、ViewModel，最后到UI，然后人工糾正或細化它的理解。

這就像帶一個能力很強的新隊友一樣，團隊會跟Codex一起制定一個扎實的實施計劃。

這個計劃通常像一份微型設計文檔，指明哪些文件要改，要引入什么新狀態，邏輯該怎么走。

只有到了這一步，團隊才讓Codex開始執行計劃，一步步來。

此處，有個非常實用的小技巧：

對于那種超長任務，當上下文窗口快爆了的時候，他們會讓Codex把計劃保存到一個文件里，這樣就能在不同的會話里延續同樣的指導思路。

這個額外的規劃循環證明，磨刀不誤砍柴工。

團隊可以放心地讓Codex長時間「無人監督」地跑，這也讓Code Review變得更容易，因為可以對照計劃來檢查實現，而不是一臉懵逼地看Diff。

而且萬一出問題了，可以先調試計劃，再調試代碼。

多AI并行，分布式工程

在項目最忙的時候，OpenAI團隊經常并行跑著好幾個Codex會話。

一個在做播放功能，另一個在做搜索，另一個在處理錯誤，有時候還有一個在寫測試或重構。

這感覺不像是用工具，更像是「管團隊」。每個會話都會定期匯報進度。

一個可能會說，「我已經規劃好這個模塊了；這是我的建議」，而另一個會為一個新功能甩出一個巨大的Diff。

每一個都需要關注、反饋和Review。

這跟做一個帶著好幾個新人的Tech Lead簡直一模一樣，大家都在推進，大家都需要指導。

結果就是形成了一種協作流。Codex這種暴力的編碼能力，把團隊從大量的手工打字中解放出來了。

因此，他們有更多的時間思考架構，仔細讀PR，測試App。

Codex不會有上下文切換的瓶頸，但開發者有。開發工作流，從寫代碼變成了做決定、給反饋和集成變更。

這就是「布魯克斯的定律」以一種新方式應驗的地方。

你不能簡單地增加Codex會話就指望速度線性提升，就像你不能往項目里無限加人一樣。

每一雙額外的「手」，哪怕是虛擬的，都會增加協調成本。

Codex：跨平臺超能力

OpenAI這一項目起步時有一個巨大的先發優勢：Sora已經在iOS上發布了。

他們經常把Codex指向iOS和后端代碼庫，幫它理解關鍵需求和約束。

在整個項目過程中，OpenAI開玩笑說「重新發明了跨平臺框架，忘掉React Native或Flutter，跨平臺的未來就是 Codex」。

這句玩笑背后有兩個原則：

1. 邏輯是可移植的

無論代碼是用Swift還是Kotlin寫的，底層的應用邏輯——數據模型、網絡調用、驗證規則、業務邏輯——都是一樣的。Codex非常擅長讀取Swift實現并生成語義一致的Kotlin代碼。

2. 具體示例提供強大的上下文

一個全新的Codex會話，如果能看到「這就是它在iOS上究竟是怎么跑的」以及「這是Android的架構」，那效率遠比光聽自然語言描述要高得多。

基于這些原則，團隊把iOS、后端和Android倉庫都放到了同一個環境中。

給Codex一個這樣的Prompt：

閱讀iOS代碼里的這些模型和端點，然后出一個計劃，用現有的API Client和模型類在Android上實現同樣的行為。

此處，也有一個實用的小技巧：

在~/.codex/AGENTS.md里詳細寫明本地倉庫在哪兒以及里面有啥。這能讓Codex更容易地找到和跳轉到相關代碼。

更廣泛的經驗是，對于Codex來說，上下文就是一切。

當Codex理解了功能在iOS里是怎么跑的，再結合對Android App結構的理解，就能獲得非常好的結果。

一場復盤，開發者「超能力」覺醒

28天沖刺結束時，用Codex已成為OpenAI默認的開發閉環——理解代碼、規劃變更、實現功能、Review輸出。

顯然，AI輔助開發并沒有降低工程的嚴謹性，反而提升了它。

Codex團隊設計師Ed Bayes描述了，這個工具如何改變了自己的工作流。

如今，Codex已與項目管理工具Linear、以及通訊平臺Slack打通，團隊成員可以直接把編程任務派給AI智能體。

他表示，「你可以把Codex拉進來，基本上可以直接給Codex指派 issue。Codex簡直就是你工作區里的一個隊友」。

這種集成意味著，當有人在Slack里發反饋時，可以直接@Codex讓它修bug；它還會提一個PR，團隊成員可以在同一個帖子里審查代碼并進行迭代。

「它基本上就是在模擬這種同事關系，不管你在哪工作它都在」。

盡管Codex能力很強，但它的目標是立刻從A到B。這就是為什么離了人，AI輔助編程就玩不轉。

明日軟件工程師的「超能力」，將是深刻的系統理解能力，以及在長時間跨度上與AI協作的能力。

現在，Codex讓開發者能專注于軟件工程最有意義的部分，回歸他們熱愛這門手藝的初心。

一旦Codex在一個上下文豐富的環境中配置好，懂你的目標和你喜歡的構建方式，任何團隊都能讓戰斗力翻倍。

這一次，OpenAI的發布復盤不是一個萬能藥方，也不敢說已經徹底搞懂了AI輔助開發。

但他們希望，能以自己的經驗啟發更多的開發者，讓 Codex更好地為人們所用。

參考資料：

https://arstechnica.com/ai/2025/12/how-openai-is-using-gpt-5-codex-to-improve-the-ai-tool-itself/

https://openai.com/index/shipping-sora-for-android-with-codex/

秒追ASI

?點贊、轉發、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.