Jay 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
火星撞地球,新模型大戰(zhàn)!
Claude Opus 4.6發(fā)布僅僅15分鐘,OpenAI也甩出了自己最新最強(qiáng)編程模型——
GPT-5.3-Codex。
![]()
最直觀的感受是,這個(gè)新模型終于有點(diǎn)美學(xué)品味了。
官方展示了兩個(gè)Demo:一個(gè)賽車游戲、一個(gè)潛水游戲。還蠻有風(fēng)格的。
![]()
據(jù)說,GPT-5.3-Codex在幾乎沒有人工干預(yù)的情況下,持續(xù)迭代這些游戲,累計(jì)消耗了數(shù)百萬token
在網(wǎng)頁開發(fā)上,除了UI更好看,對(duì)「意圖」的理解也更強(qiáng)了。
即便Prompt給得不清楚,它也能自動(dòng)補(bǔ)全邏輯,生成一個(gè)功能齊全的網(wǎng)站。
![]()
就這些Demo來看,設(shè)計(jì)感確實(shí)比之前強(qiáng)了一截。
Computer use能力同樣拉滿,現(xiàn)在已經(jīng)能用來幫金融從業(yè)者直接做PPT。
![]()
其他職場工作也能覆蓋,尤其是在專業(yè)知識(shí)密集型任務(wù)上,寫文檔、做電子表格都沒什么問題。
![]()
硬實(shí)力方面,官方給出的亮點(diǎn)如下:
- 更聰明:SWE-Bench Pro 57%,TerminalBench 2.0 76%,OSWorld 64%。
- 更可控:支持任務(wù)進(jìn)行中的實(shí)時(shí)引導(dǎo),可隨時(shí)調(diào)整方向并獲取更新。
- 更快速:完成相同任務(wù)時(shí),所需token不到5.2-Codex的一半,單token速度提升超過25%。
- 更Agent:不只是更會(huì)寫代碼,計(jì)算機(jī)操作同樣很強(qiáng)。
直接看這張對(duì)比表會(huì)更直觀,幾乎每一個(gè)維度,都比上一代有明顯提升。
![]()
網(wǎng)友直呼過于刺激,昨天OpenAI剛被Anthropic拿廣告狙了一槍,今天就對(duì)轟了回來。
一天之內(nèi),兩個(gè)重量級(jí)編程模型
![]()
評(píng)論區(qū)也迅速分成了Anthropic派和OpenAI派。
![]()
![]()
下面來看看,這場奧特曼主動(dòng)挑起的AI coding大戰(zhàn),OpenAI到底表現(xiàn)如何?
GPT 5.3 Codex
大家最關(guān)心的,當(dāng)然還是編程能力。
OpenAI表示,GPT-5.3-Codex在SWE-Bench Pro上實(shí)現(xiàn)了SOTA。
這是一個(gè)專為真實(shí)世界軟件工程設(shè)計(jì)的測試,覆蓋四種編程語言,整體難度更高、任務(wù)更豐富,也更貼近真實(shí)生產(chǎn)場景。
![]()
同時(shí),GPT-5.3-Codex在Terminal-Bench 2.0上的表現(xiàn)也有明顯提升。
![]()
更關(guān)鍵的是效率。在拿下這些成績的同時(shí),GPT-5.3-Codex使用的token數(shù)量少于任何以往模型
除了編程能力,新一代Codex的另一個(gè)重點(diǎn)是Computer use
OSWorld是一項(xiàng)面向智能體的計(jì)算機(jī)使用基準(zhǔn)測試,要求模型在可視化的桌面計(jì)算機(jī)環(huán)境中完成各類生產(chǎn)力任務(wù)。
結(jié)果顯示,GPT-5.3-Codex在計(jì)算機(jī)使用能力上,明顯強(qiáng)于此前的GPT模型。
![]()
綜上,GPT-5.3-Codex不是一次單點(diǎn)模型能力突破,更像是基于智能體的全方位發(fā)展,編碼、前端開發(fā)、計(jì)算機(jī)操作全都有提升
更有意思的是,這次GPT-5.3-Codex直接參與了自己的訓(xùn)練過程
OpenAI表示,這是他們首個(gè)參與「自我加速」的模型。Codex團(tuán)隊(duì)在研發(fā)過程中使用其早期版本,來調(diào)試自身訓(xùn)練流程、管理部署,并評(píng)估測試結(jié)果。
官方也給出了一些具體例子。
訓(xùn)練階段,研究團(tuán)隊(duì)使用Codex監(jiān)控和調(diào)試訓(xùn)練任務(wù),幫助在整個(gè)訓(xùn)練過程中追蹤模型行為變化,對(duì)交互進(jìn)行深入分析,并提出改進(jìn)方案。
數(shù)據(jù)分析方面,一位數(shù)據(jù)科學(xué)家與GPT-5.3-Codex協(xié)作,構(gòu)建了新的數(shù)據(jù)管道,并以遠(yuǎn)超傳統(tǒng)儀表盤工具的方式對(duì)結(jié)果進(jìn)行了可視化。
隨后,研究人員與Codex一起分析這些結(jié)果,模型在不到三分鐘內(nèi),就從數(shù)千個(gè)數(shù)據(jù)點(diǎn)中提煉出了關(guān)鍵洞見。
工程團(tuán)隊(duì)則借助Codex優(yōu)化和適配GPT-5.3-Codex的測試與運(yùn)行框架。
當(dāng)開始出現(xiàn)影響用戶體驗(yàn)的異常邊緣案例時(shí),團(tuán)隊(duì)成員通過Codex定位到了上下文渲染相關(guān)的缺陷,并進(jìn)一步追溯到了緩存命中率偏低的原因。
Two More Things
與Anthropic的巔峰對(duì)決的確相當(dāng)精彩,但OpenAI其實(shí)還有兩個(gè)值得關(guān)注的大動(dòng)作。
1、Frontier:一個(gè)幫助企業(yè)打造「AI同事」的平臺(tái)
![]()
這是OpenAI一項(xiàng)相當(dāng)重磅的ToB業(yè)務(wù),目標(biāo)很明確:讓Agent真正進(jìn)入公司工作流。
具體實(shí)現(xiàn)方式,包括共享上下文、上手式的入職引導(dǎo)、帶反饋的實(shí)踐學(xué)習(xí),以及清晰的權(quán)限與邊界。
據(jù)悉,HP、Intuit、Oracle、State Farm、Thermo Fisher和Uber等知名企業(yè),已經(jīng)早早采用了Frontier。
2、AI4S:OpenAI和Ginkgo聯(lián)手,用GPT-5把蛋白質(zhì)合成成本打下來了40%
![]()
這是一家做合成生物學(xué)的實(shí)驗(yàn)室型公司,他們將GPT-5接入一座自主實(shí)驗(yàn)室,讓模型可以提出實(shí)驗(yàn)方案、規(guī)模化執(zhí)行實(shí)驗(yàn)、從結(jié)果中學(xué)習(xí),并決定下一步該嘗試什么,完整跑通了一個(gè)閉環(huán)。
2026年,或許是AI4S加速演進(jìn)的一年。
不過,在OpenAI忙著和Anthropic對(duì)狙,網(wǎng)友們被一系列新動(dòng)態(tài)弄的眼花繚亂的同時(shí),評(píng)論區(qū)也有另一種聲音。
- 把4o還給我!!
![]()
直到現(xiàn)在,奧特曼依然沒有回應(yīng)4o被徹底下架這件事。
或許,真的是和Anthropic打得太忙了。
![]()
[1]https://openai.com/index/introducing-gpt-5-3-codex/
[2]https://openai.com/index/introducing-openai-frontier/
[3] https://x.com/i/trending/2019496485793198148
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.