<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      實測 GPT-5.3-Codex,OpenAI 史上第一個高危模型,連 API 都還不敢給我們

      0
      分享至

      今天凌晨發布的 GPT-5.3-Codex 可以說是 OpenAI 對這段時間來,各種本地 Agent 爆火的一記重拳回擊,當然主要是對 Anthropic 的反擊。

      配合 OpenAI 前幾天的發布的 Codex 桌面版應用,Skill、Cowork、Claude Code,甚至是 Openclaw,這些熱門工具能實現的功能,現在通過 Codex 的外殼 + GPT-5.3-Codex 模型能力,都能做到了。


      ▲ 在 Codex App 內可以直接選擇 GPT-5.3-Codex 模型,也能選擇深度思考的強度

      和之前介紹 Cowork 的能力一樣,我們也丟了一些類似的任務讓 Codex 來完成,像是直接處理本地文件、各種格式轉換、調用不同的 Skills 組合能力、做 Word/PPT/Excel、下載視頻、開發 App……

      GPT-5.3-Codex 的表現確實亮眼,相比較從頭開始安裝 Claude Code,對新人用戶來說,現在直接下載 Codex 會是一個更好的選擇。這也是未來模型廠商的一種趨勢,一開始大家都是從黑乎乎的命令行終端開始做本地 Agent,接著都慢慢回歸到可視化的友好界面。

      網上對 Codex 的評價在這幾天也有了不少逆轉,許多開發者從 Claude Code 轉向 Codex,一些在國內的獨立開發者也表示 Codex Plus 會員就可以用,而且還不會像 Claude 那般總是無情封號。


      奧特曼更是激動的宣布,Codex 的活躍用戶已經超過 100 萬。在模型更新博客,也是毫不掩飾和留有余地的夸贊,

      GPT-5.3-Codex 是我們第一個能夠自我構建的模型。通過使用 5.3-Codex,我們能夠以如此快的速度發布 5.3-Codex。

      跟 Claude 團隊用兩周的時間,使用 Claude Code,100% AI 代碼,搓出一個 Cowork 一樣;還有 OpenAI 去年年底發布的文章,「使用 Codex 在 28 天內構建 Android 版 Sora」,Agent 的時代真的來了。

      用 Codex 取代我的 ChatGPT 和 Claude Code

      和大多數的本地 Agent 一樣,無論是終端還是 Cowork,我們都是先選擇一個工作文件夾。在 Codex 中,我們可以創建多個 Project,選擇對應的文件夾,再進一步開始對話,Codex 把它們叫做 Threads 線程。

      先用最普遍和簡單的例子,我們添加了一個空的下載文件夾,然后點擊開始一個線程,選擇 GPT-5.3-Codex 模型;就像在 ChatGPT 里面對話一樣,輸入指令。

      要求它幫我們下載一個 X 視頻,Codex 會自動檢查可用的 Skills 來處理,接著通過 yt-dlp 工具進行下載,這個視頻有四個多小時長,Codex 會一直在對話框里自動更新下載進度。


      ▲GIF 圖經過加速處理

      視頻下載后,我們還可以要求它提取視頻的逐字稿,給我們一份雙語版本的文檔,最后讓它把整個流程打包為一個 Skill,方便下次使用。


      如果視頻中有一些比較有意思的片段,想要裁剪視頻,或者是把裁出來的視頻轉成 GIF 圖,在 Codex 里都能做到。

      例如,我們這里下載了一個視頻,然后要求它把視頻的 5s-25s 裁剪出來成為一個新的視頻;得益于 GPT-5.3-Codex 的 Token 快速處理,整個過程不需要很長時間,反而更多是取決于本地電腦的硬件解碼編碼能力。


      ▲ GIF 圖經過加速處理

      或者我們也可以直接要求它把視頻的前 5s 轉成一個 GIF 文件,并且確保大小在 10MB 以內,幀數可以自行調整,清晰度上將寬度控制在 640px。


      很快,我們就能得到對應的 GIF 文件。更極端一點,還能讓它把整個視頻轉成圖片,每秒 30 幀,每一幀就是一張圖。

      這些對本地文件的直接處理,和 GPT-5.3-Codex 在 Terminal-Bench-2 測試集上的優異表現,讓 Codex 基本上能滿足各種生產力工具、效率工具的功能實現。

      作為對比,同樣是剛剛發布的 Claude Opus 4.6 在 Terminal-Bench 2.0 上得分是 65.4%,GPT-5.3-Codex 是 77.3%。



      ▲ 圖片來源:https://x.com/neilsuperduper/status/2019486017703547309/

      例如在這個文件夾中,有多張圖片,我們首先是要求它根據圖片內容,對這些圖片文件進行重命名,并保持文件名不超過 20 個字母,不允許使用符號。


      ▲ GIF 圖經過加速

      自動修改完成后,我們還能要求他對這些圖片進行拼接,無論是垂直拼接還是水平,調用對應的工具,Codex 都可以做到。


      和 Claude Skills 一樣,Codex 也能安裝 Skills 市場上豐富的技能,并且在應用內,就已經提供了包括 pptx、xls、word、canvas、notion 在內的多款技能。


      回到基礎的編程能力,升級后的 GPT-5.3-Codex 表現也比 GPT-5.2 要好上不少。我們直接要求它寫一個「每日一詞」的 App。和在 ChatGPT 里面直接用 Canvas 給我們一個帶不走的網頁不同,Codex 能在本地從零開始,完成項目,然后使用 Vercel 或 Cloudflare 等 Skills 部署到網頁上。

      這里我們選擇的推理模式是 Extra High,超強推理模式,于是在每一步操作之前,GPT-5.3-Codex 都會詢問我下一步的操作選擇,這也和 Codex 內部能直接根據任務情況,調用不同 Skills 有關,其中的頭腦風暴 Skill,會自動進行不斷對話的模式。


      最后,它基本上還是完成了我一開始要求它完成的全部功能,并且還能進一步開發 macOS、iOS,和安卓版本。

      如果我們有現成的代碼項目,也可以選擇該項目文件夾,在 Codex 中打開,GPT-5.3-Codex 會分析項目存在的 Bug,并且修復它。



      在過去很長一段時間里,無論是工具還是模型,開發者的首選其實都是 Anthropic 的 Sonnet/Opus 模型和 Claude Code 工具。OpenAI 在編程、尤其是長代碼邏輯推理上的掉隊,曾讓不少開發者轉投陣營。

      GPT-5.3-Codex 的出現,就是為了終結這場爭論?,F在 GPT-5.3-Codex 在編程基準測試和實際表現上,不僅碾壓了自家的前代模型,也確實有把友商模型按在地上摩擦的前兆。它真正具備了編寫、測試和推理代碼的能力。

      做游戲項目,是這次模型介紹博客里,網站開發部分主要案例,我們也讓 GPT-5.3-Codex 做了一個簡單的物理彈球游戲,整體的效果雖然沒有達到我的期待,因為我在提示詞里面有說希望這是一個 RPG 的游戲,但 GPT-5.3-Codex 給我的界面還是過于簡陋了。不過,好在還是能玩。


      我們也在 X 上找到了一些用 GPT-5.3-Codex 做的小游戲,像這個類似超級瑪麗的收集金幣。


      ▲來源:https://x.com/Angaisb_/status/2019548783869325331

      強中更有強中手

      對 Anthropic 來說,OpenAI 今天玩的這些,可能會說,這都是我們玩剩下的。無論是代碼、或者 Agent 的能力,還是開始著手去做本地 Agent,從之前 Codex 的終端轉成現在的 macOS App。

      在技術的領域,OpenAI 仿佛都是跟著 Claude 的腳步在走,Claude 深耕代碼能力,OpenAI 搞了 Sora、日報、瀏覽器、ChatGPT agent,都沒什么水花,于是也在代碼上發力;Claude 一月初推出 Cowork,OpenAI 也緊接著在二月初發布 Codex App。


      就和今天的密集發布一樣,凌晨 1:45,Claude 官方發 X 推出 Claude Opus 4.6,緊接著就是 OpenAI 端上 GPT-5.3-Codex。兩款模型其實都是為了給 Agent 更強大的基座能力,以前是說代碼/vibe coding,但現在 Agent 能做好,基本上都是「寫代碼寫得好」。

      Opus 4.6 雖然在 SWE-Bench 上的表現甚至不如 Opus 4.5,并且 Terminal-Bench 2.0 上的成績也沒有 GPT-5.3-Codex 強,但是 Opus 破天荒地把上下文長度拉到了一百萬 token 的窗口。而且,這些 benchmark 的表現還沒有相差很多。

      Claude 說,我的 Sonnet 5 還沒上來,那才是真功夫。

      我們在網上也找了一些 Opus 4.6 最新的測試案例,有網友說 Claude 4.6 Opus 只是一次調用,就完全重構了他的整個代碼庫,將原來混亂的代碼「屎山」全部模塊化,并且沒有模型能像 Opus 這樣做到。


      還有網友拿 Opus 4.6 和 4.5 進行對比,讓兩個模型玩同一款經營游戲,看誰的賬戶等級、財富和裝備更高。測試博主提到,4.6 版本在初期制定戰略的時間更長,但是做出了更好的戰略決策,并且在最后確實做到了遙遙領先。



      還有網友也做了一個游戲,不過是一個寶可夢的克隆版。博主提到這是他用 AI 做出來的最酷的東西。他提到,Claude Opus 4.6 思考了 1 小時 30 分鐘,使用了 11 萬個 Token,并且只迭代了三次。


      ▲ https://x.com/chatgpt21/status/2019679978162634930

      在 CLaude 官方演示和早期用戶的反饋中,也提到了一個 Opus 表現優秀的案例。Opus 4.6 在一天內自主關閉了 13 個 issue,issue 即項目存在的待解決問題,并將另外 12 個 issue 準確分派給了正確的人類團隊成員。

      和 Kimi K2.5 的智能體蜂群一樣,Opus 4.6 也能管理一個 50 人規模組織的代碼庫。在 Claude Code 中,我們可以組建 Agent Teams,召喚出一整個隊伍的 AI,不再是一個 AI 在戰斗。這些AI 可以有的負責寫代碼,有的負責 Review,有的負責測試,它們之間自主協作。

      也有網友測試了 Claude Code 里面的 Agent 蜂群,提到啟用蜂群之后的 Opus 4.6,速度提升 2.5 倍,并且效果也更好。


      我們現在的狀態就跟這張圖片一樣,雖然一山比一山高,但都繞不出這個圈。前幾個月可能是 Gemini 賺走了風頭,一月份來,應該是 Claude,然后看樣子又要輪到 OpenAI,或者馬斯克的 Grok。


      好在這個輪回的過程中,作為用戶的我們,能明顯感覺到 AI 的能力一直在變強。

      GPT-5.3-Codex 的 API 還沒有開放,原因是模型太強了,會存在很大的風險,所以 OpenAI 還在考慮怎么安全地啟用 API。

      Claude Opus 4.6 已經可以在 Claude 通用聊天應用、Claude Code、API 多種方式使用,這兩個作為今年國外御三家首發的兩款模型,非常值得一試。


      未來,更好的服務 Agent,讓 Agent 為我們做事,還會是大模型更新的重點。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      山東小城建電網硬剛國家電網27年!年用電超紐約2倍,憑啥?

      山東小城建電網硬剛國家電網27年!年用電超紐約2倍,憑啥?

      丹妮觀
      2026-02-21 16:18:19
      京東和美團打架,打著打著,餓了么卻沒了。

      京東和美團打架,打著打著,餓了么卻沒了。

      流蘇晚晴
      2026-02-21 12:59:39
      擁堵預警!重慶返程車輛注意→

      擁堵預警!重慶返程車輛注意→

      上游新聞
      2026-02-22 12:53:18
      太平年:我們別被看似無辜的錢弘俶騙了,真正害死水丘公的正是他

      太平年:我們別被看似無辜的錢弘俶騙了,真正害死水丘公的正是他

      楊角風發作
      2026-02-21 16:28:00
      今晚9點,趙心童決戰50歲希金斯!賽前有4個利好,預示趙公子奪冠

      今晚9點,趙心童決戰50歲希金斯!賽前有4個利好,預示趙公子奪冠

      球場沒跑道
      2026-02-22 10:33:10
      早已殺青卻播出無望的7部劇,禁播理由個個離譜,尤其是最后一部

      早已殺青卻播出無望的7部劇,禁播理由個個離譜,尤其是最后一部

      小Q侃電影
      2026-02-21 22:05:04
      她是葉帥最后一任妻子,生下一雙兒女,現年96歲,孫女是知名歌星

      她是葉帥最后一任妻子,生下一雙兒女,現年96歲,孫女是知名歌星

      歷史龍元閣
      2026-01-10 08:55:08
      印度上將首次揭開加勒萬河谷慘敗內幕:最后時刻印軍已準備開槍。

      印度上將首次揭開加勒萬河谷慘敗內幕:最后時刻印軍已準備開槍。

      百態人間
      2026-02-06 15:34:59
      帶男閨蜜參加公司團建,沒想到是壓垮愛情的最后一根草

      帶男閨蜜參加公司團建,沒想到是壓垮愛情的最后一根草

      九哥哥車評
      2026-02-21 21:10:41
      王濛復出是情緒宣泄不必當真,曾短暫擔任教練組長但官方評價不高

      王濛復出是情緒宣泄不必當真,曾短暫擔任教練組長但官方評價不高

      楊華評論
      2026-02-21 22:48:40
      竇唯和王菲年輕時候的照片,你們從沒見過的照片

      竇唯和王菲年輕時候的照片,你們從沒見過的照片

      草莓解說體育
      2026-02-21 22:32:06
      劉濤意外登上熱搜,與媽祖換人事件對比鮮明,敬畏之心不可丟

      劉濤意外登上熱搜,與媽祖換人事件對比鮮明,敬畏之心不可丟

      然哥閑聊
      2026-02-22 09:48:32
      8連勝來了!趙心童背靠背進決賽,沖140萬冠軍獎金,手握3大優勢

      8連勝來了!趙心童背靠背進決賽,沖140萬冠軍獎金,手握3大優勢

      劉姚堯的文字城堡
      2026-02-22 07:49:21
      母親離世、妹妹未婚,撒貝寧的來時路不容易

      母親離世、妹妹未婚,撒貝寧的來時路不容易

      小熊侃史
      2026-02-22 11:51:20
      弘一法師:女人最大的悲哀,是一輩子都沒明白,三個簡單的道理!

      弘一法師:女人最大的悲哀,是一輩子都沒明白,三個簡單的道理!

      千秋文化
      2026-02-21 19:45:46
      52歲保姆:伺候一位特有錢的退休教授,每月6000元,可我卻想逃離

      52歲保姆:伺候一位特有錢的退休教授,每月6000元,可我卻想逃離

      人間百態大全
      2026-01-03 06:45:03
      女子8年拒絕8次男友求婚,男友無奈另娶她人,女友:憑什么?

      女子8年拒絕8次男友求婚,男友無奈另娶她人,女友:憑什么?

      小蔣愛嘮嗑
      2026-02-11 05:33:41
      14億人“生死”交給外資?若自來水和食鹽被控制,后果有多嚴重?

      14億人“生死”交給外資?若自來水和食鹽被控制,后果有多嚴重?

      云景侃記
      2026-02-04 22:34:38
      全球最“倒霉”夫妻,花費240萬買下“鬼屋”,沒水沒電沒網,94個房間全是垃圾,7年后突然火爆全網!

      全球最“倒霉”夫妻,花費240萬買下“鬼屋”,沒水沒電沒網,94個房間全是垃圾,7年后突然火爆全網!

      背包旅行
      2026-02-21 10:34:33
      不顧家人反對,執意要嫁撒貝寧的富二代李白,如今才知道她有多賺

      不顧家人反對,執意要嫁撒貝寧的富二代李白,如今才知道她有多賺

      素衣讀史
      2025-12-30 15:45:13
      2026-02-22 15:43:00
      愛范兒 incentive-icons
      愛范兒
      消費科技第一媒體
      38444文章數 2600949關注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發射超過10000顆衛星

      頭條要聞

      河北"釣帝"從感冒到離世僅5天 兒子:太快了 沒留遺言

      頭條要聞

      河北"釣帝"從感冒到離世僅5天 兒子:太快了 沒留遺言

      體育要聞

      75673人見證!邁阿密0-3:梅西孫興慜過招

      娛樂要聞

      裴世矩養侄為刃 看懂兩次放行裴行儼!

      財經要聞

      特朗普新加征關稅稅率從10%提升至15%

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      旅游
      時尚
      親子
      教育
      藝術

      旅游要聞

      哈爾濱冰雪大世界夢幻冰雪館開放

      50歲女性過冬穿搭:有大衣和羽絨服就夠了,簡約從容才是優雅

      親子要聞

      著名專家預言:試管嬰兒壽命僅40年,那首例試管嬰兒如今怎樣了?

      教育要聞

      今年高二下半學期,平時基礎六七十分,做英語高考卷子有用嗎?

      藝術要聞

      這本書法,80%的人無法讀懂!網友直言:看到第二字就傻眼!

      無障礙瀏覽 進入關懷版