網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Claude Opus 4.6和GPT 5.3 Codex同時(shí)更新，這波貪了，應(yīng)該留到春晚再看的

2026-02-06 05:58:53　來源: 卡爾的AI沃茨

北京舉報(bào)

分享至

AI圈迎來了新年的第一個(gè)雙響炮啊，

Anthropic剛發(fā)了Claude Opus 4.6，OpenAI也發(fā)了GPT?5.3-Codex，在Codex app里已經(jīng)能用了。我這稿子寫一半直接重新寫啊。馬上來看看這兩模型的評(píng)分，它們強(qiáng)化了那些點(diǎn)，以及除了模型本身，還帶來了什么更新。

先看跑分。

Anthropic是第一次給Opus系列模型上100萬tokens的上下文窗口，在MRCRv2八針1M （大海撈針）測試?yán)铮萐onnet 4.5高了57個(gè)點(diǎn)，我第一反應(yīng)就是我一定要在clawdbot體驗(yàn)一把Opus 4.6。

除了記憶好，Opus 4.6在GDPval-AA（44個(gè)不同崗位的知識(shí)工作任務(wù)）上也超了GPT5.2 200多分，感覺Cowork又可以升級(jí)一波了。

隔壁的GPT?5.3-Codex定位是個(gè)編程模型，融合了GPT-5.2-Codex的編碼性能和GPT-5.2的推理能力及專業(yè)知識(shí)，速度提升了 25%（codex有救了），離譜的是OSWorld-Verified（視覺桌面操作）上提升了快30個(gè)點(diǎn)，

夯爆了。

我仔細(xì)對(duì)比了一下兩張官方表，發(fā)現(xiàn)它們重合的數(shù)據(jù)集只有一個(gè)，Terminal-Bench 2.0，是在終端命令行里進(jìn)行編程的測試。光看這個(gè)評(píng)分，GPT-5.3-Codex可以說是把Claude Opus 4.6給拉爆了，高了12個(gè)點(diǎn)。

其他展示出來的數(shù)據(jù)不能直接拿來硬比，

SWE-Bench（Agent編程）數(shù)據(jù)集人OpenAI用的是Pro版本，包含了四種語言。Claude Opus 4.6測評(píng)的SWE-Bench Verified只測試Python。

OpenAI測試OSWorld-Verified比Claude Opus 4.6測的OSWorld測評(píng)出來的分?jǐn)?shù)會(huì)更加可信，因?yàn)閂erified修復(fù)了300多個(gè)數(shù)據(jù)問題。

還是來看看它們單個(gè)都更新了啥，

Claude Opus 4.6還在高難度Agent 搜索（DeepSearchQA / BrowseComp）上單 Agent比GPT-5.2 Pro多6個(gè)點(diǎn)，在多學(xué)科推理（Humanity's Last Exam / ARC AGI 2）上，同樣是工具配置拉滿的狀態(tài)下，比GPT5.2Pro多了3個(gè)點(diǎn)。

GPT-5.3-Codex有個(gè)指標(biāo)高到離譜，

OSWorld-Verified（視覺桌面操作），

用人話說就是讓AI看截圖換成各種電腦任務(wù)，人類基準(zhǔn)是72%，GPT-5.2-Codex是38.2%，GPT-5.2是37.9%，

融合這個(gè)兩個(gè)模型的優(yōu)勢(shì)的GPT-5.3-Codex直接干到64.7%，跟這個(gè)比起來，其他的SWE-Bench Pro（Agent編程），Cybersecurity Capture The Flag Challenges（Agent安全攻防）和SWE-Lancer IC Diamond（修bug賺100萬挑戰(zhàn)）的5，6個(gè)點(diǎn)的提升都是常規(guī)操作了。

再來看看應(yīng)用案例。

Anthropic這次都沒有放出Claude Opus 4.6跑的case，而且選擇把自家產(chǎn)品線更新了，

Claude Code新功能agent teams（智能體團(tuán)隊(duì)），可以讓多個(gè)Agent并行工作，適合用在像大規(guī)模代碼檢查之類可以被拆成很多個(gè)獨(dú)立子任務(wù)的場景。

Claude in Excel也更新了，更新了規(guī)劃模式，還能給亂七八糟的非結(jié)構(gòu)化數(shù)據(jù)，自動(dòng)做一個(gè)合適的表格結(jié)構(gòu)。

還給PPT新出了 research preview，Claude能識(shí)別公司品牌的ppt模版，保證布局，字體，顏色都不會(huì)變，能針對(duì)單張幻燈片簡化文本和添加圖表，也可以一次性生成10張幻燈片再微調(diào)。

OpenAI把更多時(shí)間放在showcase上，

他們放了兩個(gè)用GPT-5.3-Codex構(gòu)建的新游戲，但沒有像GPT-5.2-Codex那樣把完整提示語放出來。

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

兩個(gè)游戲我都完整打了一把，這個(gè)賽車真的不是抄馬里奧賽車的嗎，道具箱里還有泡泡和香蕉。

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html

潛水我也玩了，本來是想當(dāng)個(gè)超人，一口氣潛到最底的，但是潛到一半就體驗(yàn)到為什么神秘園會(huì)說，那些專業(yè)人士潛進(jìn)去就出不來了。。。

他們還放出來一個(gè)我覺得很蠢的網(wǎng)頁case，理由是GPT-5.3-Codex做這個(gè)價(jià)格頁面的時(shí)候，會(huì)把年費(fèi)展示成打個(gè)折的月費(fèi)，而不是總金額。。。

奧特曼沒活了可以去咬個(gè)打火機(jī)

關(guān)于API和定價(jià)，Anthropic這次給API加了Adaptive thinking（自適應(yīng)思考），由Claude 來判斷什么時(shí)候打開thinking模式。

還有四檔Effort（努力程度）可選，默認(rèn)是high（高），還有l(wèi)ow（低），medium（中）和max（最大）。

還有一個(gè)beta功能，當(dāng)長期對(duì)話或者Agent任務(wù)快到打到上下文上限的時(shí)候，會(huì)自動(dòng)把上下文壓縮成摘要，用摘要替換上下文。價(jià)格我做成表格了，

GPT-5.3-Codex還沒有API，不過在app，CLI，IDE插件and網(wǎng)頁版都能用了，上線就全量，這很不openai。

說句題外話，api形式的gpt4o一周后就沒了，這波屬于是時(shí)代的眼淚了。

最后說說安全。

這次兩家都花了不小的篇幅來談安全問題。我們還是用人話來解讀一下。

Anthropic上來先亮了個(gè)圖，說這次升級(jí)沒有影響我們模型的安全性，這段時(shí)間我們做了兩件事。

第一件事，努力搞清楚模型腦子里到底在想什么。

他們?cè)谧鲆环N可解釋性的新方法，目標(biāo)是讓研究人員能看見模型為什么會(huì)在某些情況下給出某種回答。這樣做的好處是，很多問題在標(biāo)準(zhǔn)測評(píng)里不一定暴露，但當(dāng)你能追到原因，就更容易提前發(fā)現(xiàn)風(fēng)險(xiǎn)，比如模型在某些邊緣場景會(huì)突然變得很會(huì)誤導(dǎo)人。

第二件事，在模型擅長的領(lǐng)域加了更嚴(yán)的防護(hù)。

他們發(fā)現(xiàn) Opus 4.6 在網(wǎng)絡(luò)安全上能力更強(qiáng)，能修bug，也能拿去攻擊。所以他們做了六個(gè)新的網(wǎng)絡(luò)安全探針，用來檢測模型有沒有在輸出可能被濫用的內(nèi)容。

隔壁OpenAI在安全上也下了苦功夫，

他們現(xiàn)在給開源項(xiàng)目免費(fèi)做體驗(yàn)，把一些熟悉的壞套路整理成話術(shù)識(shí)別規(guī)則，當(dāng)我們給gpt發(fā)的問題跟某個(gè)套路很像的時(shí)候，模型就會(huì)自動(dòng)降低問答的詳細(xì)程度。

這次模型更新后，

明顯感覺我的預(yù)期值變高了，以前更新模型我通常還會(huì)去測一下文本，代碼，3D的表現(xiàn)，

但現(xiàn)在隨著Claude Code，Cowork，Clawdbot三連擊，我對(duì)于模型的表現(xiàn)處于薛定諤的貓狀態(tài)。

太簡單的測起來沒意思，

我們現(xiàn)在用Claude Code加一些模型，

也能夠做到這樣的上限。

太復(fù)雜的，我想以Agent的形式，

放到我們已有的工作流里長時(shí)間來評(píng)估它的差異。

說不定后面模型的更新會(huì)成為一種日常的迭代，

發(fā)布會(huì)也不開了，

開始卷Agent形態(tài)了，

我就一個(gè)愿望，

別光跟整理桌面較勁了，

我桌面都快沒文件了。

@ 作者 / 卡爾

最后，感謝你看到這里如果喜歡這篇文章，不妨順手給我們點(diǎn)贊｜在看｜轉(zhuǎn)發(fā)｜評(píng)論

如果想要第一時(shí)間收到推送，不妨給我個(gè)星標(biāo)

如果你有更有趣的玩法，歡迎在評(píng)論區(qū)和我聊聊

更多的內(nèi)容正在不斷填坑中……

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.