網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-5.3上線Codex！OpenAI回應(yīng)Claude新模型只用了15分鐘

2026-02-06 10:43:56　來源: 量子位

北京舉報(bào)

分享至

Jay 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

火星撞地球，新模型大戰(zhàn)！

Claude Opus 4.6發(fā)布僅僅15分鐘，OpenAI也甩出了自己最新最強(qiáng)編程模型——

GPT-5.3-Codex。

最直觀的感受是，這個(gè)新模型終于有點(diǎn)美學(xué)品味了。

官方展示了兩個(gè)Demo：一個(gè)賽車游戲、一個(gè)潛水游戲。還蠻有風(fēng)格的。

據(jù)說，GPT-5.3-Codex在幾乎沒有人工干預(yù)的情況下，持續(xù)迭代這些游戲，累計(jì)消耗了數(shù)百萬token

在網(wǎng)頁開發(fā)上，除了UI更好看，對(duì)「意圖」的理解也更強(qiáng)了。

即便Prompt給得不清楚，它也能自動(dòng)補(bǔ)全邏輯，生成一個(gè)功能齊全的網(wǎng)站。

就這些Demo來看，設(shè)計(jì)感確實(shí)比之前強(qiáng)了一截。

Computer use能力同樣拉滿，現(xiàn)在已經(jīng)能用來幫金融從業(yè)者直接做PPT。

其他職場工作也能覆蓋，尤其是在專業(yè)知識(shí)密集型任務(wù)上，寫文檔、做電子表格都沒什么問題。

硬實(shí)力方面，官方給出的亮點(diǎn)如下：

更聰明：SWE-Bench Pro 57%，TerminalBench 2.0 76%，OSWorld 64%。
更可控：支持任務(wù)進(jìn)行中的實(shí)時(shí)引導(dǎo)，可隨時(shí)調(diào)整方向并獲取更新。
更快速：完成相同任務(wù)時(shí)，所需token不到5.2-Codex的一半，單token速度提升超過25%。
更Agent：不只是更會(huì)寫代碼，計(jì)算機(jī)操作同樣很強(qiáng)。

直接看這張對(duì)比表會(huì)更直觀，幾乎每一個(gè)維度，都比上一代有明顯提升。

網(wǎng)友直呼過于刺激，昨天OpenAI剛被Anthropic拿廣告狙了一槍，今天就對(duì)轟了回來。

一天之內(nèi)，兩個(gè)重量級(jí)編程模型

評(píng)論區(qū)也迅速分成了Anthropic派和OpenAI派。

下面來看看，這場奧特曼主動(dòng)挑起的AI coding大戰(zhàn)，OpenAI到底表現(xiàn)如何？

GPT 5.3 Codex

大家最關(guān)心的，當(dāng)然還是編程能力。

OpenAI表示，GPT-5.3-Codex在SWE-Bench Pro上實(shí)現(xiàn)了SOTA。

這是一個(gè)專為真實(shí)世界軟件工程設(shè)計(jì)的測試，覆蓋四種編程語言，整體難度更高、任務(wù)更豐富，也更貼近真實(shí)生產(chǎn)場景。

同時(shí)，GPT-5.3-Codex在Terminal-Bench 2.0上的表現(xiàn)也有明顯提升。

更關(guān)鍵的是效率。在拿下這些成績的同時(shí)，GPT-5.3-Codex使用的token數(shù)量少于任何以往模型

除了編程能力，新一代Codex的另一個(gè)重點(diǎn)是Computer use

OSWorld是一項(xiàng)面向智能體的計(jì)算機(jī)使用基準(zhǔn)測試，要求模型在可視化的桌面計(jì)算機(jī)環(huán)境中完成各類生產(chǎn)力任務(wù)。

結(jié)果顯示，GPT-5.3-Codex在計(jì)算機(jī)使用能力上，明顯強(qiáng)于此前的GPT模型。

綜上，GPT-5.3-Codex不是一次單點(diǎn)模型能力突破，更像是基于智能體的全方位發(fā)展，編碼、前端開發(fā)、計(jì)算機(jī)操作全都有提升

更有意思的是，這次GPT-5.3-Codex直接參與了自己的訓(xùn)練過程

OpenAI表示，這是他們首個(gè)參與「自我加速」的模型。Codex團(tuán)隊(duì)在研發(fā)過程中使用其早期版本，來調(diào)試自身訓(xùn)練流程、管理部署，并評(píng)估測試結(jié)果。

官方也給出了一些具體例子。

訓(xùn)練階段，研究團(tuán)隊(duì)使用Codex監(jiān)控和調(diào)試訓(xùn)練任務(wù)，幫助在整個(gè)訓(xùn)練過程中追蹤模型行為變化，對(duì)交互進(jìn)行深入分析，并提出改進(jìn)方案。

數(shù)據(jù)分析方面，一位數(shù)據(jù)科學(xué)家與GPT-5.3-Codex協(xié)作，構(gòu)建了新的數(shù)據(jù)管道，并以遠(yuǎn)超傳統(tǒng)儀表盤工具的方式對(duì)結(jié)果進(jìn)行了可視化。

隨后，研究人員與Codex一起分析這些結(jié)果，模型在不到三分鐘內(nèi)，就從數(shù)千個(gè)數(shù)據(jù)點(diǎn)中提煉出了關(guān)鍵洞見。

工程團(tuán)隊(duì)則借助Codex優(yōu)化和適配GPT-5.3-Codex的測試與運(yùn)行框架。

當(dāng)開始出現(xiàn)影響用戶體驗(yàn)的異常邊緣案例時(shí)，團(tuán)隊(duì)成員通過Codex定位到了上下文渲染相關(guān)的缺陷，并進(jìn)一步追溯到了緩存命中率偏低的原因。

Two More Things

與Anthropic的巔峰對(duì)決的確相當(dāng)精彩，但OpenAI其實(shí)還有兩個(gè)值得關(guān)注的大動(dòng)作。

1、Frontier：一個(gè)幫助企業(yè)打造「AI同事」的平臺(tái)

這是OpenAI一項(xiàng)相當(dāng)重磅的ToB業(yè)務(wù)，目標(biāo)很明確：讓Agent真正進(jìn)入公司工作流。

具體實(shí)現(xiàn)方式，包括共享上下文、上手式的入職引導(dǎo)、帶反饋的實(shí)踐學(xué)習(xí)，以及清晰的權(quán)限與邊界。

據(jù)悉，HP、Intuit、Oracle、State Farm、Thermo Fisher和Uber等知名企業(yè)，已經(jīng)早早采用了Frontier。

2、AI4S：OpenAI和Ginkgo聯(lián)手，用GPT-5把蛋白質(zhì)合成成本打下來了40%

這是一家做合成生物學(xué)的實(shí)驗(yàn)室型公司，他們將GPT-5接入一座自主實(shí)驗(yàn)室，讓模型可以提出實(shí)驗(yàn)方案、規(guī)模化執(zhí)行實(shí)驗(yàn)、從結(jié)果中學(xué)習(xí)，并決定下一步該嘗試什么，完整跑通了一個(gè)閉環(huán)。

2026年，或許是AI4S加速演進(jìn)的一年。

不過，在OpenAI忙著和Anthropic對(duì)狙，網(wǎng)友們被一系列新動(dòng)態(tài)弄的眼花繚亂的同時(shí)，評(píng)論區(qū)也有另一種聲音。

把4o還給我！！

直到現(xiàn)在，奧特曼依然沒有回應(yīng)4o被徹底下架這件事。

或許，真的是和Anthropic打得太忙了。

[1]https://openai.com/index/introducing-gpt-5-3-codex/
[2]https://openai.com/index/introducing-openai-frontier/
[3] https://x.com/i/trending/2019496485793198148

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.