![]()
智東西
作者 陳駿達
編輯 心緣
智東西2月6日報道,今天,就在Claude發布Opus 4.6后的幾分鐘,OpenAI也推出了自家的最新編程模型:GPT-5.3-Codex。OpenAI號稱,這是世界上最強大的智能體(Agentic)編程模型。
GPT-5.3-Codex在SWE-Bench Pro和Terminal-Bench 2.0這兩個編程基準測試中拿到了SOTA,并在OSWorld和GDPval等智能體能力和真實世界任務測評中,較GPT-5.2-Codex實現一定提升。在Terminal-Bench 2.0上,GPT-5.3-Codex的得分比Claude Opus 4.6高了11.9%。
![]()
不過,OpenAI參加的基準測試數量更少,也基本沒有和Claude Opus 4.6重疊的,得分只能作為參考。
為演示其編程能力,OpenAI曬出了一個由GPT-5.3-Codex打造的賽車游戲。這個游戲里有多輛賽車同時開展比拼,還配備了8張地圖,甚至還能用空格鍵使用道具,就是畫風確實有些簡陋。我們也簡單試玩了一下這個游戲,完成度還挺高的。
![]()
體驗鏈接:
https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html
OpenAI還透露,GPT-5.3-Codex是OpenAI首個在自我創建過程中發揮關鍵作用的模型。GPT-5.3-Codex的早期版本,被Codex團隊用來調試模型訓練、管理部署、診斷測試結果和評估,加速了模型的開發。
GPT-5.3-Codex其實就是GPT-5.2-Codex和GPT-5.2的結合體,具備前者的編程能力和后者的推理能力和專業知識儲備,且速度也提升了25%。
這意味著GPT-5.3-Codex不僅可以用于編程,也可用于軟件工程里的所有其他工作,比如調試、部署、監控、測試、指標分析等。你還可以用GPT-5.3-Codex來做PPT、Excel、Word等等,從OpenAI分享的案例來看效果還不錯。
![]()
▲GPT-5.3-Codex打造的PPT(圖源:OpenAI)
與GPT-5.3-Codex同期發布的,還有OpenAI的最新的企業級智能體平臺Frontier,具備共享上下文、在反饋中學習、持續改進等能力,并支持設定清晰的權限與邊界。
![]()
▲Frontier打造的Agent(圖源:OpenAI)
目前,GPT-5.3-Codex已向付費ChatGPT用戶開放,可在Codex應用、CLI、IDE插件和Web中使用。API訪問仍需等待后續更新。Frontier現階段僅面向有限客戶,未來幾個月將有更廣泛的可用性。
不過,在這波發布中,與隔壁的Claude Opus 4.6相比,GPT-5.3-Codex和Frontier在討論熱度上明顯遜色一籌,發布模型的推文轉贊評數量都只有Claude Opus 4.6的不到一半,評論區中也能看到不少質疑聲。
![]()
關心編程能力的用戶認為GPT-5.3-Codex在實際使用體驗和安全性上和Claude Opus 4.6仍有差距,而將OpenAI模型用于寫作等其他場景的用戶,則認為OpenAI不再重視他們。這顯示出OpenAI在編程等市場的產品號召力和社區影響力上,以及如何平衡自家的ToC和ToB業務上,仍有很長的路要走。
一、能在數百萬token代碼庫修Bug,還會給人類主動匯報工作
OpenAI稱,在GPT-5.3-Codex的幫助下,其編程工具Codex將不再只是一個“會寫和審代碼的智能體”,而是會進化為一個幾乎可以完成開發者和專業人士在計算機上能做的所有事情的智能體。
在Web開發方面,OpenAI讓GPT-5.3-Codex打造了兩個游戲,一個是此前我們看到賽車游戲,另一個則是一個潛水游戲,游戲機制類似《潛水員戴夫》。
![]()
不過,光是打造這樣一個游戲其實對如今的前沿編程模型來說已經不難了。OpenAI還分享,在發出“修復這個 bug”、“改進游戲”等通用后續提示詞的情況下,GPT-5.3-Codex可以在數百萬token的過程中自主迭代這些游戲。
GPT-5.3-Codex在理解日常網站構建意圖方面明顯優于GPT-5.2-Codex。對于簡單或描述不充分的提示,它會默認生成功能更完整、默認設置更合理的網站。
例如,在構建一項名為“Quiet KPI”的服務的網站首頁時,GPT-5.3-Codex可以自動將年付方案展示為折扣后的月價,還會自動生成包含三條不同用戶評價的輪播組件,而不是僅呈現單條內容。整體頁面因此顯得更加完整、更加接近可直接上線的產品。
![]()
程序員、設計師、產品經理和數據科學家的工作遠不止寫代碼。GPT-5.3-Codex從設計之初就支持整個軟件生命周期中的工作,包括調試、部署、監控、編寫PRD、編輯文檔、用戶研究、測試、指標分析、以及更多專業工作。
![]()
在使用類似GDPval的自定義技能后,GPT-5.3-Codex在GDPval(一個衡量44種職業中明確知識型任務的評估)上達到了與GPT-5.2相當的水平。
在考察模型計算機使用能力的OSWorld-Verified中,人類平均得分約為72%,而GPT-5.3-Codex達到了64.7%。GPT-5.3-Codex在該評測中表現顯著優于以往的GPT模型。
隨著GPT-5.3-Codex的發布,Codex還提供了一個新的設置選項“工作中可引導”。開啟后,GPT-5.3-Codex會在工作過程中頻繁更新關鍵決策和進展,支持實時對話、提問、討論方案,并在執行期間持續解釋其思路并提供反饋。這讓人類用戶可以更高效地指揮和監督多個Agent。
OpenAI稱,得益于基礎設施和推理棧的改進,Codex用戶的GPT-5.3-Codex整體速度提升了25%。該模型開發過程中,OpenAI與英偉達展開了合作,基于GB200 NVL72系統設計、訓練和部署。
二、推出企業級智能體平臺,惠普、Uber已經用上了
在智能體平臺方面,OpenAI今天發布的Frontier,要做的是幫助企業構建、部署并管理真正能干活的智能體。
OpenAI認為,當前企業在推進AI應用時面臨嚴重的數據與系統碎片化挑戰。智能體雖然被廣泛部署,卻因缺乏跨系統的全局視野和上下文而難以發揮實效,導致模型能力與實際部署之間存在巨大的“機會鴻溝”。
要打造能干活的智能體,OpenAI的思路是賦予智能體與人類在工作中所需的同款能力。Frontier像培養人類員工一樣,為AI同事提供系統化的“入職”支持。
比如,Frontier會讓智能體理解跨系統的業務流程、獲取執行任務所需的工具與權限、學會判斷工作質量,并在明確的安全邊界內運作。該平臺可與現有系統和數據集成,支持智能體通過多種界面融入工作。
![]()
Frontier的核心能力包括連接企業內部數據與應用,構建統一的業務語義層;提供開放的智能體執行環境,支持規劃、操作與學習;內置評估優化機制,使AI能持續從經驗中提升質量;同時確保企業級安全治理,為每個智能體設定身份、權限與防護邊界。
為了讓企業更方便地管理智能體,Frontier提供了概覽界面,在這里可以看到活躍的智能體數量,這些智能體完成了多少任務,又用掉了多少額度。
![]()
此外,OpenAI還會派駐工程師與客戶團隊協作,將實踐經驗與研究反饋相結合,加速落地進程。已有不少大型企業客戶采用了Frontier,比如惠普、Intuit、甲骨文、State Farm、賽默飛(Thermo Fisher)、Uber等等。
結語:OpenAI押注“AI勞動力”
這次發布中,OpenAI將其主要精力都放在了AI的生產力與落地能力上。無論是GPT-5.3-Codex在編程、軟件工程全流程和計算機使用能力上的強化,還是Frontier試圖為企業補齊“能干活的智能體”這一關鍵拼圖,都指向同一個方向,也就是讓AI真正走進生產環境,成為可以被管理、被信任、被規模化使用的勞動力。
如何在持續加碼企業級智能體和生產力場景的同時,維持開發者與普通用戶的信任感與參與感,如何在ToB的長期布局與ToC的廣泛影響力之間找到平衡,或許將成為OpenAI接下來一段時間里必須回答的關鍵問題。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.