<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Claude Opus 4.6和GPT 5.3 Codex同時(shí)更新,這波貪了,應(yīng)該留到春晚再看的

      0
      分享至

      AI圈迎來了新年的第一個(gè)雙響炮啊,

      Anthropic剛發(fā)了Claude Opus 4.6,OpenAI也發(fā)了GPT?5.3-Codex,在Codex app里已經(jīng)能用了。我這稿子寫一半直接重新寫啊。馬上來看看這兩模型的評(píng)分,它們強(qiáng)化了那些點(diǎn),以及除了模型本身,還帶來了什么更新。

      先看跑分。

      Anthropic是第一次給Opus系列模型上100萬tokens的上下文窗口,在MRCRv2八針1M (大海撈針)測試?yán)铮萐onnet 4.5高了57個(gè)點(diǎn),我第一反應(yīng)就是我一定要在clawdbot體驗(yàn)一把Opus 4.6。

      除了記憶好,Opus 4.6在GDPval-AA(44個(gè)不同崗位的知識(shí)工作任務(wù))上也超了GPT5.2 200多分,感覺Cowork又可以升級(jí)一波了。


      隔壁的GPT?5.3-Codex定位是個(gè)編程模型,融合了GPT-5.2-Codex的編碼性能和GPT-5.2的推理能力及專業(yè)知識(shí),速度提升了 25%(codex有救了),離譜的是OSWorld-Verified(視覺桌面操作)上提升了快30個(gè)點(diǎn),

      夯爆了。


      我仔細(xì)對(duì)比了一下兩張官方表,發(fā)現(xiàn)它們重合的數(shù)據(jù)集只有一個(gè),Terminal-Bench 2.0,是在終端命令行里進(jìn)行編程的測試。光看這個(gè)評(píng)分,GPT-5.3-Codex可以說是把Claude Opus 4.6給拉爆了,高了12個(gè)點(diǎn)。

      其他展示出來的數(shù)據(jù)不能直接拿來硬比,

      SWE-Bench(Agent編程)數(shù)據(jù)集人OpenAI用的是Pro版本,包含了四種語言。Claude Opus 4.6測評(píng)的SWE-Bench Verified只測試Python。

      OpenAI測試OSWorld-Verified比Claude Opus 4.6測的OSWorld測評(píng)出來的分?jǐn)?shù)會(huì)更加可信,因?yàn)閂erified修復(fù)了300多個(gè)數(shù)據(jù)問題。

      還是來看看它們單個(gè)都更新了啥,

      Claude Opus 4.6還在高難度Agent 搜索(DeepSearchQA / BrowseComp)上單 Agent比GPT-5.2 Pro多6個(gè)點(diǎn),在多學(xué)科推理(Humanity's Last Exam / ARC AGI 2)上,同樣是工具配置拉滿的狀態(tài)下,比GPT5.2Pro多了3個(gè)點(diǎn)。



      GPT-5.3-Codex有個(gè)指標(biāo)高到離譜,

      OSWorld-Verified(視覺桌面操作),

      用人話說就是讓AI看截圖換成各種電腦任務(wù),人類基準(zhǔn)是72%,GPT-5.2-Codex是38.2%,GPT-5.2是37.9%,

      融合這個(gè)兩個(gè)模型的優(yōu)勢(shì)的GPT-5.3-Codex直接干到64.7%,跟這個(gè)比起來,其他的SWE-Bench Pro(Agent編程),Cybersecurity Capture The Flag Challenges(Agent安全攻防)和SWE-Lancer IC Diamond(修bug賺100萬挑戰(zhàn))的5,6個(gè)點(diǎn)的提升都是常規(guī)操作了。


      再來看看應(yīng)用案例。

      Anthropic這次都沒有放出Claude Opus 4.6跑的case,而且選擇把自家產(chǎn)品線更新了,

      Claude Code新功能agent teams(智能體團(tuán)隊(duì)),可以讓多個(gè)Agent并行工作,適合用在像大規(guī)模代碼檢查之類可以被拆成很多個(gè)獨(dú)立子任務(wù)的場景。

      Claude in Excel也更新了,更新了規(guī)劃模式,還能給亂七八糟的非結(jié)構(gòu)化數(shù)據(jù),自動(dòng)做一個(gè)合適的表格結(jié)構(gòu)。

      還給PPT新出了 research preview,Claude能識(shí)別公司品牌的ppt模版,保證布局,字體,顏色都不會(huì)變,能針對(duì)單張幻燈片簡化文本和添加圖表,也可以一次性生成10張幻燈片再微調(diào)。


      OpenAI把更多時(shí)間放在showcase上,

      他們放了兩個(gè)用GPT-5.3-Codex構(gòu)建的新游戲,但沒有像GPT-5.2-Codex那樣把完整提示語放出來。

      https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

      兩個(gè)游戲我都完整打了一把,這個(gè)賽車真的不是抄馬里奧賽車的嗎,道具箱里還有泡泡和香蕉。

      https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html

      潛水我也玩了,本來是想當(dāng)個(gè)超人,一口氣潛到最底的,但是潛到一半就體驗(yàn)到為什么神秘園會(huì)說,那些專業(yè)人士潛進(jìn)去就出不來了。。。

      他們還放出來一個(gè)我覺得很蠢的網(wǎng)頁case,理由是GPT-5.3-Codex做這個(gè)價(jià)格頁面的時(shí)候,會(huì)把年費(fèi)展示成打個(gè)折的月費(fèi),而不是總金額。。。

      奧特曼沒活了可以去咬個(gè)打火機(jī)

      關(guān)于API和定價(jià),Anthropic這次給API加了Adaptive thinking(自適應(yīng)思考),由Claude 來判斷什么時(shí)候打開thinking模式。

      還有四檔Effort(努力程度)可選,默認(rèn)是high(高),還有l(wèi)ow(低),medium(中)和max(最大)。

      還有一個(gè)beta功能,當(dāng)長期對(duì)話或者Agent任務(wù)快到打到上下文上限的時(shí)候,會(huì)自動(dòng)把上下文壓縮成摘要,用摘要替換上下文。價(jià)格我做成表格了,


      GPT-5.3-Codex還沒有API,不過在app,CLI,IDE插件and網(wǎng)頁版都能用了,上線就全量,這很不openai。

      說句題外話,api形式的gpt4o一周后就沒了,這波屬于是時(shí)代的眼淚了。


      最后說說安全。

      這次兩家都花了不小的篇幅來談安全問題。我們還是用人話來解讀一下。


      Anthropic上來先亮了個(gè)圖,說這次升級(jí)沒有影響我們模型的安全性,這段時(shí)間我們做了兩件事。

      第一件事,努力搞清楚模型腦子里到底在想什么。

      他們?cè)谧鲆环N可解釋性的新方法,目標(biāo)是讓研究人員能看見模型為什么會(huì)在某些情況下給出某種回答。這樣做的好處是,很多問題在標(biāo)準(zhǔn)測評(píng)里不一定暴露,但當(dāng)你能追到原因,就更容易提前發(fā)現(xiàn)風(fēng)險(xiǎn),比如模型在某些邊緣場景會(huì)突然變得很會(huì)誤導(dǎo)人。

      第二件事,在模型擅長的領(lǐng)域加了更嚴(yán)的防護(hù)。

      他們發(fā)現(xiàn) Opus 4.6 在網(wǎng)絡(luò)安全上能力更強(qiáng),能修bug,也能拿去攻擊。所以他們做了六個(gè)新的網(wǎng)絡(luò)安全探針,用來檢測模型有沒有在輸出可能被濫用的內(nèi)容。

      隔壁OpenAI在安全上也下了苦功夫,

      他們現(xiàn)在給開源項(xiàng)目免費(fèi)做體驗(yàn),把一些熟悉的壞套路整理成話術(shù)識(shí)別規(guī)則,當(dāng)我們給gpt發(fā)的問題跟某個(gè)套路很像的時(shí)候,模型就會(huì)自動(dòng)降低問答的詳細(xì)程度。

      這次模型更新后,

      明顯感覺我的預(yù)期值變高了,以前更新模型我通常還會(huì)去測一下文本,代碼,3D的表現(xiàn),

      但現(xiàn)在隨著Claude Code,Cowork,Clawdbot三連擊,我對(duì)于模型的表現(xiàn)處于薛定諤的貓狀態(tài)。

      太簡單的測起來沒意思,

      我們現(xiàn)在用Claude Code加一些模型,

      也能夠做到這樣的上限。

      太復(fù)雜的,我想以Agent的形式,

      放到我們已有的工作流里長時(shí)間來評(píng)估它的差異。

      說不定后面模型的更新會(huì)成為一種日常的迭代,

      發(fā)布會(huì)也不開了,

      開始卷Agent形態(tài)了,

      我就一個(gè)愿望,

      別光跟整理桌面較勁了,

      我桌面都快沒文件了。

      @ 作者 / 卡爾

      最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點(diǎn)贊|在看|轉(zhuǎn)發(fā)|評(píng)論

      如果想要第一時(shí)間收到推送,不妨給我個(gè)星標(biāo)

      如果你有更有趣的玩法,歡迎在評(píng)論區(qū)和我聊聊

      更多的內(nèi)容正在不斷填坑中……


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      冠心病去世的越來越多,建議:1不喝、2不碰、3堅(jiān)持,別大意了

      冠心病去世的越來越多,建議:1不喝、2不碰、3堅(jiān)持,別大意了

      芹姐說生活
      2026-04-20 16:10:12
      海嘯抵達(dá)日本!日媒:請(qǐng)回想2011年大地震,立即逃生!

      海嘯抵達(dá)日本!日媒:請(qǐng)回想2011年大地震,立即逃生!

      揚(yáng)子晚報(bào)
      2026-04-20 16:37:00
      雞排哥親戚全員上陣擺攤賣雞排,如今生意慘淡無人問津

      雞排哥親戚全員上陣擺攤賣雞排,如今生意慘淡無人問津

      映射生活的身影
      2026-04-21 10:34:26
      你不是在和一個(gè)Loser說話!黃仁勛回應(yīng)美國對(duì)中國禁售芯片情緒失控:太蠢了 完全是失敗心態(tài)

      你不是在和一個(gè)Loser說話!黃仁勛回應(yīng)美國對(duì)中國禁售芯片情緒失控:太蠢了 完全是失敗心態(tài)

      快科技
      2026-04-19 12:10:26
      世錦賽戰(zhàn)報(bào):六冠王7-10出局,16強(qiáng)決出7席中國3席!中國冠軍1-8

      世錦賽戰(zhàn)報(bào):六冠王7-10出局,16強(qiáng)決出7席中國3席!中國冠軍1-8

      求球不落諦
      2026-04-21 00:55:34
      我退伍后去女戰(zhàn)友家里開的工廠應(yīng)聘,她紅著臉說:你娶我好嗎?

      我退伍后去女戰(zhàn)友家里開的工廠應(yīng)聘,她紅著臉說:你娶我好嗎?

      千秋文化
      2026-04-18 19:07:07
      中方不伺候了!對(duì)荷光刻機(jī)優(yōu)待全部取消,450億芯片不做了!

      中方不伺候了!對(duì)荷光刻機(jī)優(yōu)待全部取消,450億芯片不做了!

      粵語音樂噴泉
      2026-04-21 00:55:28
      法國掠奪中國的十大代表文物(附高清大圖),未來能否歸還?

      法國掠奪中國的十大代表文物(附高清大圖),未來能否歸還?

      文史道
      2026-04-17 15:33:28
      美媒:中國在臺(tái)灣海峽部署航母,回應(yīng)日本驅(qū)逐艦的“挑釁”行為

      美媒:中國在臺(tái)灣海峽部署航母,回應(yīng)日本驅(qū)逐艦的“挑釁”行為

      零度Military
      2026-04-21 07:12:38
      蘇林回國火車剛開動(dòng)就變天?

      蘇林回國火車剛開動(dòng)就變天?

      果媽聊娛樂
      2026-04-20 10:17:41
      罕見!7.7級(jí)地震把半個(gè)日本都震醒了,日網(wǎng)民:快請(qǐng)發(fā)達(dá)中國救我

      罕見!7.7級(jí)地震把半個(gè)日本都震醒了,日網(wǎng)民:快請(qǐng)發(fā)達(dá)中國救我

      滄海一書客
      2026-04-21 03:00:52
      一場106-96讓京深兩隊(duì)狂喜,廣東隊(duì)因禍得福,名利雙收

      一場106-96讓京深兩隊(duì)狂喜,廣東隊(duì)因禍得福,名利雙收

      小徐講八卦
      2026-04-21 05:55:10
      美方敦促中國停止向俄羅斯提供軍民兩用物項(xiàng)等,中方駁斥:長期向戰(zhàn)場提供武器、試圖延長戰(zhàn)爭的是美國不是中國,再次敦促美方停止甩鍋推責(zé)

      美方敦促中國停止向俄羅斯提供軍民兩用物項(xiàng)等,中方駁斥:長期向戰(zhàn)場提供武器、試圖延長戰(zhàn)爭的是美國不是中國,再次敦促美方停止甩鍋推責(zé)

      極目新聞
      2026-04-21 08:35:27
      卡利巴夫抨擊伊朗強(qiáng)硬派,擔(dān)心自己被罷免,外長阿拉格奇被趕下臺(tái)

      卡利巴夫抨擊伊朗強(qiáng)硬派,擔(dān)心自己被罷免,外長阿拉格奇被趕下臺(tái)

      山河路口
      2026-04-20 21:44:07
      全球公認(rèn)最懶國家,當(dāng)?shù)厝藞?jiān)決反對(duì)獨(dú)立,每天好吃懶做全靠援助

      全球公認(rèn)最懶國家,當(dāng)?shù)厝藞?jiān)決反對(duì)獨(dú)立,每天好吃懶做全靠援助

      心中的麥田
      2026-04-17 18:03:56
      胡錫進(jìn)以安全代言沃爾沃,是整個(gè)社會(huì)的恥辱

      胡錫進(jìn)以安全代言沃爾沃,是整個(gè)社會(huì)的恥辱

      黔有虎
      2026-04-19 17:34:12
      一張封面讓以色列炸鍋,大使怒罵,雜志不道歉,最后視頻曝光

      一張封面讓以色列炸鍋,大使怒罵,雜志不道歉,最后視頻曝光

      海綿芝士局
      2026-04-20 16:17:16
      特朗普不喜歡北約,澤連斯基可喜歡北約了:要幫歐洲建自主反導(dǎo)系統(tǒng)

      特朗普不喜歡北約,澤連斯基可喜歡北約了:要幫歐洲建自主反導(dǎo)系統(tǒng)

      新民周刊
      2026-04-21 09:10:38
      《八千里路云和月》遭痛批,抗戰(zhàn)劇要的是接地氣,不是“接地府”

      《八千里路云和月》遭痛批,抗戰(zhàn)劇要的是接地氣,不是“接地府”

      星宿影視鴨
      2026-04-20 16:24:42
      湖人消息:東契奇復(fù)出時(shí)間曝光,悍將有望長期留隊(duì),G2出場更新

      湖人消息:東契奇復(fù)出時(shí)間曝光,悍將有望長期留隊(duì),G2出場更新

      冷月小風(fēng)風(fēng)
      2026-04-21 10:58:08
      2026-04-21 11:52:49
      卡爾的AI沃茨 incentive-icons
      卡爾的AI沃茨
      前大廠算法工程師,3家科技公司技術(shù)總監(jiān)|致力打造最系統(tǒng)的Al學(xué)習(xí)體系,讓1萬人通過Al提高生產(chǎn)力
      250文章數(shù) 126關(guān)注度
      往期回顧 全部

      科技要聞

      重磅官宣:庫克卸任,特努斯接任蘋果CEO

      頭條要聞

      7歲男孩高燒40℃渾身"黑化"面臨截肢 只因父母1個(gè)疏忽

      頭條要聞

      7歲男孩高燒40℃渾身"黑化"面臨截肢 只因父母1個(gè)疏忽

      體育要聞

      “被優(yōu)化”8年后,國乒方博決定換一條路重新上場

      娛樂要聞

      周潤發(fā)時(shí)隔16年再賣樓,變現(xiàn)數(shù)億資產(chǎn)

      財(cái)經(jīng)要聞

      減速機(jī)訂單已排到明年!

      汽車要聞

      把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態(tài)度原創(chuàng)

      本地
      時(shí)尚
      數(shù)碼
      公開課
      軍事航空

      本地新聞

      春色滿城關(guān)不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

      “爆冷”又如何?陳法拉的人生本就是一場逆襲大戲

      數(shù)碼要聞

      米家電飯煲內(nèi)膽開放單獨(dú)選購:不銹鋼/鈦復(fù)合膽可選,169元起

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:美艦向伊朗貨船開火炸出個(gè)洞

      無障礙瀏覽 進(jìn)入關(guān)懷版