<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Claude Opus 4.6和GPT 5.3 Codex同時更新,這波貪了,應(yīng)該留到春晚再看的

      0
      分享至

      AI圈迎來了新年的第一個雙響炮啊,

      Anthropic剛發(fā)了Claude Opus 4.6,OpenAI也發(fā)了GPT?5.3-Codex,在Codex app里已經(jīng)能用了。我這稿子寫一半直接重新寫啊。馬上來看看這兩模型的評分,它們強化了那些點,以及除了模型本身,還帶來了什么更新。

      先看跑分。

      Anthropic是第一次給Opus系列模型上100萬tokens的上下文窗口,在MRCRv2八針1M (大海撈針)測試?yán)?,比Sonnet 4.5高了57個點,我第一反應(yīng)就是我一定要在clawdbot體驗一把Opus 4.6。

      除了記憶好,Opus 4.6在GDPval-AA(44個不同崗位的知識工作任務(wù))上也超了GPT5.2 200多分,感覺Cowork又可以升級一波了。


      隔壁的GPT?5.3-Codex定位是個編程模型,融合了GPT-5.2-Codex的編碼性能和GPT-5.2的推理能力及專業(yè)知識,速度提升了 25%(codex有救了),離譜的是OSWorld-Verified(視覺桌面操作)上提升了快30個點,

      夯爆了。


      我仔細(xì)對比了一下兩張官方表,發(fā)現(xiàn)它們重合的數(shù)據(jù)集只有一個,Terminal-Bench 2.0,是在終端命令行里進(jìn)行編程的測試。光看這個評分,GPT-5.3-Codex可以說是把Claude Opus 4.6給拉爆了,高了12個點。

      其他展示出來的數(shù)據(jù)不能直接拿來硬比,

      SWE-Bench(Agent編程)數(shù)據(jù)集人OpenAI用的是Pro版本,包含了四種語言。Claude Opus 4.6測評的SWE-Bench Verified只測試Python。

      OpenAI測試OSWorld-Verified比Claude Opus 4.6測的OSWorld測評出來的分?jǐn)?shù)會更加可信,因為Verified修復(fù)了300多個數(shù)據(jù)問題。

      還是來看看它們單個都更新了啥,

      Claude Opus 4.6還在高難度Agent 搜索(DeepSearchQA / BrowseComp)上單 Agent比GPT-5.2 Pro多6個點,在多學(xué)科推理(Humanity's Last Exam / ARC AGI 2)上,同樣是工具配置拉滿的狀態(tài)下,比GPT5.2Pro多了3個點。



      GPT-5.3-Codex有個指標(biāo)高到離譜,

      OSWorld-Verified(視覺桌面操作),

      用人話說就是讓AI看截圖換成各種電腦任務(wù),人類基準(zhǔn)是72%,GPT-5.2-Codex是38.2%,GPT-5.2是37.9%,

      融合這個兩個模型的優(yōu)勢的GPT-5.3-Codex直接干到64.7%,跟這個比起來,其他的SWE-Bench Pro(Agent編程),Cybersecurity Capture The Flag Challenges(Agent安全攻防)和SWE-Lancer IC Diamond(修bug賺100萬挑戰(zhàn))的5,6個點的提升都是常規(guī)操作了。


      再來看看應(yīng)用案例。

      Anthropic這次都沒有放出Claude Opus 4.6跑的case,而且選擇把自家產(chǎn)品線更新了,

      Claude Code新功能agent teams(智能體團(tuán)隊),可以讓多個Agent并行工作,適合用在像大規(guī)模代碼檢查之類可以被拆成很多個獨立子任務(wù)的場景。

      Claude in Excel也更新了,更新了規(guī)劃模式,還能給亂七八糟的非結(jié)構(gòu)化數(shù)據(jù),自動做一個合適的表格結(jié)構(gòu)。

      還給PPT新出了 research preview,Claude能識別公司品牌的ppt模版,保證布局,字體,顏色都不會變,能針對單張幻燈片簡化文本和添加圖表,也可以一次性生成10張幻燈片再微調(diào)。


      OpenAI把更多時間放在showcase上,

      他們放了兩個用GPT-5.3-Codex構(gòu)建的新游戲,但沒有像GPT-5.2-Codex那樣把完整提示語放出來。

      https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

      兩個游戲我都完整打了一把,這個賽車真的不是抄馬里奧賽車的嗎,道具箱里還有泡泡和香蕉。

      https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html

      潛水我也玩了,本來是想當(dāng)個超人,一口氣潛到最底的,但是潛到一半就體驗到為什么神秘園會說,那些專業(yè)人士潛進(jìn)去就出不來了。。。

      他們還放出來一個我覺得很蠢的網(wǎng)頁case,理由是GPT-5.3-Codex做這個價格頁面的時候,會把年費展示成打個折的月費,而不是總金額。。。

      奧特曼沒活了可以去咬個打火機

      關(guān)于API和定價,Anthropic這次給API加了Adaptive thinking(自適應(yīng)思考),由Claude 來判斷什么時候打開thinking模式。

      還有四檔Effort(努力程度)可選,默認(rèn)是high(高),還有l(wèi)ow(低),medium(中)和max(最大)。

      還有一個beta功能,當(dāng)長期對話或者Agent任務(wù)快到打到上下文上限的時候,會自動把上下文壓縮成摘要,用摘要替換上下文。價格我做成表格了,


      GPT-5.3-Codex還沒有API,不過在app,CLI,IDE插件and網(wǎng)頁版都能用了,上線就全量,這很不openai。

      說句題外話,api形式的gpt4o一周后就沒了,這波屬于是時代的眼淚了。


      最后說說安全。

      這次兩家都花了不小的篇幅來談安全問題。我們還是用人話來解讀一下。


      Anthropic上來先亮了個圖,說這次升級沒有影響我們模型的安全性,這段時間我們做了兩件事。

      第一件事,努力搞清楚模型腦子里到底在想什么。

      他們在做一種可解釋性的新方法,目標(biāo)是讓研究人員能看見模型為什么會在某些情況下給出某種回答。這樣做的好處是,很多問題在標(biāo)準(zhǔn)測評里不一定暴露,但當(dāng)你能追到原因,就更容易提前發(fā)現(xiàn)風(fēng)險,比如模型在某些邊緣場景會突然變得很會誤導(dǎo)人。

      第二件事,在模型擅長的領(lǐng)域加了更嚴(yán)的防護(hù)。

      他們發(fā)現(xiàn) Opus 4.6 在網(wǎng)絡(luò)安全上能力更強,能修bug,也能拿去攻擊。所以他們做了六個新的網(wǎng)絡(luò)安全探針,用來檢測模型有沒有在輸出可能被濫用的內(nèi)容。

      隔壁OpenAI在安全上也下了苦功夫,

      他們現(xiàn)在給開源項目免費做體驗,把一些熟悉的壞套路整理成話術(shù)識別規(guī)則,當(dāng)我們給gpt發(fā)的問題跟某個套路很像的時候,模型就會自動降低問答的詳細(xì)程度。

      這次模型更新后,

      明顯感覺我的預(yù)期值變高了,以前更新模型我通常還會去測一下文本,代碼,3D的表現(xiàn),

      但現(xiàn)在隨著Claude Code,Cowork,Clawdbot三連擊,我對于模型的表現(xiàn)處于薛定諤的貓狀態(tài)。

      太簡單的測起來沒意思,

      我們現(xiàn)在用Claude Code加一些模型,

      也能夠做到這樣的上限。

      太復(fù)雜的,我想以Agent的形式,

      放到我們已有的工作流里長時間來評估它的差異。

      說不定后面模型的更新會成為一種日常的迭代,

      發(fā)布會也不開了,

      開始卷Agent形態(tài)了,

      我就一個愿望,

      別光跟整理桌面較勁了,

      我桌面都快沒文件了。

      @ 作者 / 卡爾

      最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉(zhuǎn)發(fā)|評論

      如果想要第一時間收到推送,不妨給我個星標(biāo)

      如果你有更有趣的玩法,歡迎在評論區(qū)和我聊聊

      更多的內(nèi)容正在不斷填坑中……


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      華為正式官宣:2月26日,新機全球發(fā)布!

      華為正式官宣:2月26日,新機全球發(fā)布!

      科技堡壘
      2026-02-25 13:18:13
      預(yù)測升到13億!《鏢人》逆襲續(xù)訂第二部,吳京還有3部大片待上映

      預(yù)測升到13億!《鏢人》逆襲續(xù)訂第二部,吳京還有3部大片待上映

      得得電影
      2026-02-24 17:11:06
      西湖大學(xué)打了誰的臉?外籍學(xué)生學(xué)費35萬一年,國內(nèi)學(xué)生僅6千元

      西湖大學(xué)打了誰的臉?外籍學(xué)生學(xué)費35萬一年,國內(nèi)學(xué)生僅6千元

      流史歲月
      2026-02-26 14:12:41
      一車四人遇車禍 達(dá)州一釣魚博主向網(wǎng)友求助捐款 相關(guān)部門:事故還在調(diào)查中

      一車四人遇車禍 達(dá)州一釣魚博主向網(wǎng)友求助捐款 相關(guān)部門:事故還在調(diào)查中

      紅星新聞
      2026-02-26 16:49:20
      6.84,人民幣漲瘋了!

      6.84,人民幣漲瘋了!

      暴財經(jīng)
      2026-02-26 11:46:19
      褚時健到2002年才明白,原來當(dāng)年是得罪了惹不起的那幾位

      褚時健到2002年才明白,原來當(dāng)年是得罪了惹不起的那幾位

      阿柒的訊
      2026-02-24 15:07:34
      沒想到,春晚結(jié)束僅1周,央媒發(fā)文銳評王菲,狠狠替她出了口惡氣

      沒想到,春晚結(jié)束僅1周,央媒發(fā)文銳評王菲,狠狠替她出了口惡氣

      讓生活充滿溫暖
      2026-02-25 10:07:35
      中戲的招生丑聞,徹底震驚了整個藝術(shù)圈!

      中戲的招生丑聞,徹底震驚了整個藝術(shù)圈!

      南權(quán)先生
      2026-02-24 15:52:36
      女生會考驗?zāi)愕恼\意嗎?

      女生會考驗?zāi)愕恼\意嗎?

      賴煥慶
      2026-02-24 13:58:44
      360元一斤的“天價”草莓引熱議,企業(yè)宣稱灌溉一次需用800斤牛奶兌水?專家:就是營銷噱頭

      360元一斤的“天價”草莓引熱議,企業(yè)宣稱灌溉一次需用800斤牛奶兌水?專家:就是營銷噱頭

      封面新聞
      2026-02-26 01:37:14
      皇太極的變態(tài)嗜好:把妻子賞給下人,坐月子、兒子為王皆不能幸免

      皇太極的變態(tài)嗜好:把妻子賞給下人,坐月子、兒子為王皆不能幸免

      老謝談史
      2026-02-26 02:06:26
      牛?。×焊ダ?!2025屆最準(zhǔn)新秀誕生

      牛??!力壓弗拉格!2025屆最準(zhǔn)新秀誕生

      籃球?qū)崙?zhàn)寶典
      2026-02-26 16:24:07
      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      南權(quán)先生
      2026-02-12 15:38:28
      威爾士公開賽1/8決賽過往交手:趙心童vs賓漢姆6-6 張安達(dá)vs希金斯1-0

      威爾士公開賽1/8決賽過往交手:趙心童vs賓漢姆6-6 張安達(dá)vs希金斯1-0

      寶哥精彩賽事
      2026-02-26 14:35:01
      四川26歲男子離世:初三去奶奶墳前,遺體距家不遠(yuǎn),手機留著遺言

      四川26歲男子離世:初三去奶奶墳前,遺體距家不遠(yuǎn),手機留著遺言

      原廣工業(yè)
      2026-02-25 19:47:39
      韓寒官宣《飛馳人生4》,黃景瑜:養(yǎng)老保險有了

      韓寒官宣《飛馳人生4》,黃景瑜:養(yǎng)老保險有了

      大象新聞
      2026-02-25 15:18:58
      就在今晚,中國男籃vs日本生死戰(zhàn) 曝胡明軒落選真相,日本放豪言

      就在今晚,中國男籃vs日本生死戰(zhàn) 曝胡明軒落選真相,日本放豪言

      大秦壁虎白話體育
      2026-02-26 07:37:27
      從寒武紀(jì)到東方財富:A股陰跌里,股民硬扛幾多寂寞?

      從寒武紀(jì)到東方財富:A股陰跌里,股民硬扛幾多寂寞?

      慧眼看世界哈哈
      2026-02-26 09:40:41
      汪東興活到了2015年,他對當(dāng)下中國有何看法?他心里確實有些成見

      汪東興活到了2015年,他對當(dāng)下中國有何看法?他心里確實有些成見

      明月清風(fēng)閣
      2026-02-19 07:25:09
      美軍最高將領(lǐng)當(dāng)面警告特朗普:不能對伊朗開戰(zhàn)!開戰(zhàn)彈藥告急、盟友全跑光

      美軍最高將領(lǐng)當(dāng)面警告特朗普:不能對伊朗開戰(zhàn)!開戰(zhàn)彈藥告急、盟友全跑光

      林子說事
      2026-02-26 16:26:38
      2026-02-26 17:44:49
      卡爾的AI沃茨 incentive-icons
      卡爾的AI沃茨
      前大廠算法工程師,3家科技公司技術(shù)總監(jiān)|致力打造最系統(tǒng)的Al學(xué)習(xí)體系,讓1萬人通過Al提高生產(chǎn)力
      219文章數(shù) 101關(guān)注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達(dá)再次炸裂

      頭條要聞

      金與正"轉(zhuǎn)正"了 戴著黑白色發(fā)箍坐在候補委員的第一位

      頭條要聞

      金與正"轉(zhuǎn)正"了 戴著黑白色發(fā)箍坐在候補委員的第一位

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財經(jīng)要聞

      人民幣升破6.85,創(chuàng)3年新高

      汽車要聞

      別克君越/昂科威Plus直降5000元 限時優(yōu)惠價15.49萬起

      態(tài)度原創(chuàng)

      本地
      房產(chǎn)
      親子
      時尚
      公開課

      本地新聞

      津南好·四時總相宜

      房產(chǎn)要聞

      2.2萬/m2起!三亞主城性價比標(biāo)桿 海墾·桃花源實景現(xiàn)房春節(jié)被瘋搶

      親子要聞

      出庫量超過1600萬單,秋田滿滿已成為兩千萬中國家庭的共同選擇

      無論幾歲,好心態(tài)萬歲!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版