<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      實測 GPT-5.3-Codex,OpenAI 史上第一個高危模型,連 API 都還不敢給我們

      0
      分享至

      今天凌晨發布的 GPT-5.3-Codex 可以說是 OpenAI 對這段時間來,各種本地 Agent 爆火的一記重拳回擊,當然主要是對 Anthropic 的反擊。

      配合 OpenAI 前幾天的發布的 Codex 桌面版應用,Skill、Cowork、Claude Code,甚至是 Openclaw,這些熱門工具能實現的功能,現在通過 Codex 的外殼 + GPT-5.3-Codex 模型能力,都能做到了。


      在 Codex App 內可以直接選擇 GPT-5.3-Codex 模型,也能選擇深度思考的強度

      和之前介紹 Cowork 的能力一樣,我們也丟了一些類似的任務讓 Codex 來完成,像是直接處理本地文件、各種格式轉換、調用不同的 Skills 組合能力、做 Word/PPT/Excel、下載視頻、開發 App……

      GPT-5.3-Codex 的表現確實亮眼,相比較從頭開始安裝 Claude Code,對新人用戶來說,現在直接下載 Codex 會是一個更好的選擇。

      這也是未來模型廠商的一種趨勢,一開始大家都是從黑乎乎的命令行終端開始做本地 Agent,接著都慢慢回歸到可視化的友好界面。

      網上對 Codex 的評價在這幾天也有了不少逆轉,許多開發者從 Claude Code 轉向 Codex,一些在國內的獨立開發者也表示 Codex Plus 會員就可以用,而且還不會像 Claude 那般總是無情封號。


      奧特曼更是激動的宣布,Codex 的活躍用戶已經超過 100 萬。在模型更新博客,也是毫不掩飾且留有余地的夸贊,

      GPT-5.3-Codex 是我們第一個能夠自我構建的模型。通過使用 5.3-Codex,我們能夠以如此快的速度發布 5.3-Codex。

      跟 Claude 團隊用兩周的時間,使用 Claude Code,100% AI 代碼,搓出一個 Cowork 一樣;還有 OpenAI 去年年底發布的文章,「使用 Codex 在 28 天內構建 Android 版 Sora」,Agent 的時代真的來了。

      用 Codex 取代我的 ChatGPT 和 Claude Code

      和大多數的本地 Agent 類似,無論是終端還是 Cowork,我們都是先選擇一個工作文件夾。在 Codex 中,我們可以創建多個 Project,選擇對應的文件夾,再進一步開始對話,Codex 把它們叫做 Threads 線程。

      先用最普遍和簡單的例子,我們添加了一個空的下載文件夾,然后點擊開始一個線程,選擇 GPT-5.3-Codex 模型;就像在 ChatGPT 里面對話一樣,輸入指令。

      要求它幫我們下載一個 X 視頻,Codex 會自動檢查可用的 Skills 來處理,接著通過 yt-dlp 工具進行下載,這個視頻有四個多小時長,Codex 會一直在對話框里自動更新下載進度。


      GIF 圖經過加速處理

      視頻下載后,我們還可以要求它提取視頻的逐字稿,給我們一份雙語版本的文檔,最后讓它把整個流程打包為一個 Skill,方便下次使用。


      如果視頻中有一些比較有意思的片段,想要裁剪視頻,或者是把裁出來的視頻轉成 GIF 圖,在 Codex 里都能做到。

      例如,我們這里下載了一個視頻,然后要求它把視頻的 5s-25s 裁剪出來成為一個新的視頻;得益于 GPT-5.3-Codex 的 Token 快速處理,整個過程不需要很長時間,反而更多是取決于本地電腦的硬件解碼編碼能力。


      GIF 圖經過加速處理

      或者我們也可以直接要求它把視頻的前 5s 轉成一個 GIF 文件,并且確保大小在 10MB 以內,幀數可以自行調整,清晰度上將寬度控制在 640px。

      很快,我們就能得到對應的 GIF 文件。更極端一點,還能讓它把整個視頻轉成圖片,每秒 30 幀,每一幀就是一張圖。


      這些對本地文件的直接處理,和 GPT-5.3-Codex 在 Terminal-Bench-2 測試集上的優異表現,讓 Codex 基本上能滿足各種生產力工具、效率工具的功能實現。

      作為對比,同樣是剛剛發布的 Claude Opus 4.6 在 Terminal-Bench 2.0 上得分是 65.4%,GPT-5.3-Codex 是 77.3%。



      上下滑動查看更多內容|圖片來源:

      https://x.com/neilsuperduper/status/2019486017703547309/

      例如在這個文件夾中,有多張圖片,我們首先是要求它根據圖片內容,對這些圖片文件進行重命名,并保持文件名不超過 20 個字母,不允許使用符號。


      GIF 圖經過加速

      自動修改完成后,我們還能要求他對這些圖片進行拼接,無論是垂直拼接還是水平,調用對應的工具,Codex 都可以做到。


      和 Claude Skills 一樣,Codex 也能安裝 Skills 市場上豐富的技能,并且在應用內,就已經提供了包括 pptx、xls、word、canvas、notion 在內的多款技能。


      回到基礎的編程能力,升級后的 GPT-5.3-Codex 表現也比 GPT-5.2 要好上不少。我們直接要求它寫一個「每日一詞」的 App。和在 ChatGPT 里面直接用 Canvas 給我們一個帶不走的網頁不同,Codex 能在本地從零開始,完成項目,然后使用 Vercel 或 Cloudflare 等 Skills 部署到網頁上。

      這里我們選擇的推理模式是 Extra High,超強推理模式,于是在每一步操作之前,GPT-5.3-Codex 都會詢問我下一步的操作選擇,這也和 Codex 內部能直接根據任務情況,調用不同 Skills 有關,其中的頭腦風暴 Skill,會自動進行不斷對話的模式。


      最后,它基本上還是完成了我一開始要求它完成的全部功能,并且還能進一步開發 macOS、iOS,和安卓版本。

      如果我們有現成的代碼項目,也可以選擇該項目文件夾,在 Codex 中打開,GPT-5.3-Codex 會分析項目存在的 Bug,并且修復它。



      在過去很長一段時間里,無論是工具還是模型,開發者的首選其實都是 Anthropic 的 Sonnet/Opus 模型和 Claude Code 工具。OpenAI 在編程、尤其是長代碼邏輯推理上的掉隊,曾讓不少開發者轉投陣營。

      GPT-5.3-Codex 的出現,就是為了終結這場爭論。現在 GPT-5.3-Codex 在編程基準測試和實際表現上,不僅碾壓了自家的前代模型,也確實有把友商模型按在地上摩擦的前兆。它真正具備了編寫、測試和推理代碼的能力。

      做游戲項目,是這次模型介紹博客里,網站開發部分主要案例,我們也讓 GPT-5.3-Codex 做了一個簡單的物理彈球游戲,整體的效果雖然沒有達到我的期待,因為我在提示詞里面有說希望這是一個 RPG 的游戲,但 GPT-5.3-Codex 給我的界面還是過于簡陋了。不過,好在還是能玩。


      我們也在 X 上找到了一些用 GPT-5.3-Codex 做的小游戲,像這個類似超級瑪麗的收集金幣。


      來源:https://x.com/Angaisb\_/status/2019548783869325331

      強中更有強中手

      對 Anthropic 來說,OpenAI 今天玩的這些,可能會說,這都是我們玩剩下的。無論是代碼、或者 Agent 的能力,還是開始著手去做本地 Agent,從之前 Codex 的終端轉成現在的 macOS App。

      在技術的領域,OpenAI 仿佛都是跟著 Claude 的腳步在走,Claude 深耕代碼能力,OpenAI 搞了 Sora、日報、瀏覽器、ChatGPT agent,都沒什么水花,于是也在代碼上發力;Claude 一月初推出 Cowork,OpenAI 也緊接著在二月初發布 Codex App。


      就和今天的密集發布一樣,凌晨 1:45,Claude 官方發 X 推出 Claude Opus 4.6,緊接著就是 OpenAI 端上 GPT-5.3-Codex。兩款模型其實都是為了給 Agent 更強大的基座能力,以前是說代碼/vibe coding,但現在 Agent 能做好,基本上都是「寫代碼寫得好」。

      Opus 4.6 雖然在 SWE-Bench 上的表現甚至不如 Opus 4.5,并且 Terminal-Bench 2.0 上的成績也沒有 GPT-5.3-Codex 強,但是 Opus 破天荒地把上下文長度拉到了一百萬 token 的窗口。而且,這些 benchmark 的表現還沒有相差很多。

      Claude 說,我的 Sonnet 5 還沒上來,那才是真功夫。

      我們在網上也找了一些 Opus 4.6 最新的測試案例,有網友說 Claude 4.6 Opus 只是一次調用,就完全重構了他的整個代碼庫,將原來混亂的代碼「屎山」全部模塊化,并且沒有模型能像 Opus 這樣做到。


      上下滑動查看更多內容

      還有網友拿 Opus 4.6 和 4.5 進行對比,讓兩個模型玩同一款經營游戲,看誰的賬戶等級、財富和裝備更高。測試博主提到,4.6 版本在初期制定戰略的時間更長,但是做出了更好的戰略決策,并且在最后確實做到了遙遙領先。



      還有網友也做了一個游戲,不過是一個寶可夢的克隆版。博主提到這是他用 AI 做出來的最酷的東西。他提到,Claude Opus 4.6 思考了 1 小時 30 分鐘,使用了 11 萬個 Token,并且只迭代了三次。

      https://x.com/chatgpt21/status/2019679978162634930

      在 CLaude 官方演示和早期用戶的反饋中,也提到了一個 Opus 表現優秀的案例。Opus 4.6 在一天內自主關閉了 13 個 issue,issue 即項目存在的待解決問題,并將另外 12 個 issue 準確分派給了正確的人類團隊成員。

      和 Kimi K2.5 的智能體蜂群一樣,Opus 4.6 也能管理一個 50 人規模組織的代碼庫。在 Claude Code 中,我們可以組建 Agent Teams,召喚出一整個隊伍的 AI,不再是一個 AI 在戰斗。這些AI 可以有的負責寫代碼,有的負責 Review,有的負責測試,它們之間自主協作。

      也有網友測試了 Claude Code 里面的 Agent 蜂群,提到啟用蜂群之后的 Opus 4.6,速度提升 2.5 倍,并且效果也更好。


      上下滑動查看更多內容

      我們現在的狀態就跟這張圖片一樣,雖然一山比一山高,但都繞不出這個圈。前幾個月可能是 Gemini 賺走了風頭,一月份來,應該是 Claude,然后看樣子又要輪到 OpenAI,或者馬斯克的 Grok。


      好在這個輪回的過程中,作為用戶的我們,能明顯感覺到 AI 的能力一直在變強。

      GPT-5.3-Codex 的 API 還沒有開放,原因是模型太強了,會存在很大的風險,所以 OpenAI 還在考慮怎么安全地啟用 API。

      Claude Opus 4.6 已經可以在 Claude 通用聊天應用、Claude Code、API 多種方式使用,這兩個作為今年國外御三家首發的兩款模型,非常值得一試。


      未來,更好的服務 Agent,讓 Agent 為我們做事,還會是大模型更新的重點。

      歡迎加入 APPSO AI 社群,一起暢聊 AI 產品,獲取,解鎖更多 AI 新知

      我們正在招募伙伴

      簡歷投遞郵箱hr@ifanr.com

      ?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      私交混亂陪睡上位,拍一部戲換一個伴侶,“真浪姐”小宋佳現形記

      私交混亂陪睡上位,拍一部戲換一個伴侶,“真浪姐”小宋佳現形記

      東方不敗然多多
      2026-02-22 22:58:19
      北京衛視首播!40集諜戰大作來襲,“諜戰教父”柳云龍重磅回歸

      北京衛視首播!40集諜戰大作來襲,“諜戰教父”柳云龍重磅回歸

      樂楓電影
      2026-02-23 14:32:34
      北京青年少了百萬,房價不漲了反而更慌了,有人開始重新算賬

      北京青年少了百萬,房價不漲了反而更慌了,有人開始重新算賬

      愛看劇的阿峰
      2026-02-24 00:12:53
      只落后中國1名!韓國隊開冬奧總結會 柳承敏狂批:這1點讓人羞愧

      只落后中國1名!韓國隊開冬奧總結會 柳承敏狂批:這1點讓人羞愧

      風過鄉
      2026-02-23 09:01:06
      羅馬諾:庫拉索主帥因家庭原因辭職,將不會率隊參加世界杯

      羅馬諾:庫拉索主帥因家庭原因辭職,將不會率隊參加世界杯

      懂球帝
      2026-02-23 19:28:10
      閆學晶事件愈演愈烈!姜昆借此隱身馮鞏卻遭了殃,原來他早有預示

      閆學晶事件愈演愈烈!姜昆借此隱身馮鞏卻遭了殃,原來他早有預示

      翰飛觀事
      2026-01-16 19:56:33
      金庸有部著作,主角一直打不過反派,結局還爛尾,卻深受讀者喜愛

      金庸有部著作,主角一直打不過反派,結局還爛尾,卻深受讀者喜愛

      金寶哥講故事
      2026-01-11 09:35:05
      2月23日俄烏:烏克蘭無人機再炸莫斯科

      2月23日俄烏:烏克蘭無人機再炸莫斯科

      山河路口
      2026-02-23 19:06:10
      視頻丨油田開發、并網發電 春節期間重大工程加速推進

      視頻丨油田開發、并網發電 春節期間重大工程加速推進

      北青網-北京青年報
      2026-02-23 11:50:05
      斬首毒梟后,墨西哥全境淪陷!15州暴亂,一場勝利為何變成災難

      斬首毒梟后,墨西哥全境淪陷!15州暴亂,一場勝利為何變成災難

      童童聊娛樂啊
      2026-02-23 22:31:03
      8個月前AI就知道他要殺人!ChatGPT員工爭論了很久,選擇沉默… 最后8個生命消失在這座小鎮....

      8個月前AI就知道他要殺人!ChatGPT員工爭論了很久,選擇沉默… 最后8個生命消失在這座小鎮....

      英國那些事兒
      2026-02-22 22:49:40
      2026年2月,建筑集團公司已經全面停工停產!

      2026年2月,建筑集團公司已經全面停工停產!

      巢客HOME
      2026-02-23 20:26:27
      隨著穆帥前東家爆大冷門1-1,土超最新積分榜出爐

      隨著穆帥前東家爆大冷門1-1,土超最新積分榜出爐

      側身凌空斬
      2026-02-24 07:08:00
      大年初二黃海斗法:解放軍用實力告訴美軍,這兒的規矩姓“中”

      大年初二黃海斗法:解放軍用實力告訴美軍,這兒的規矩姓“中”

      未來展望
      2026-02-21 14:42:14
      世界第2,中國第1!趙心童單賽季排名創紀錄,連超4大世界冠軍!

      世界第2,中國第1!趙心童單賽季排名創紀錄,連超4大世界冠軍!

      劉姚堯的文字城堡
      2026-02-23 09:32:38
      浙江杭州一家三口,11天自駕游2900公里:游7座城市:花費8000元

      浙江杭州一家三口,11天自駕游2900公里:游7座城市:花費8000元

      阿昌走遍中國
      2026-02-23 10:42:16
      騰訊關閉天美蒙特利爾工作室:成立5年沒推出過作品

      騰訊關閉天美蒙特利爾工作室:成立5年沒推出過作品

      3DM游戲
      2026-02-24 06:59:04
      挪威僅565萬人為何冬奧18金霸榜? 澳媒:他們不搞體育特種兵體制

      挪威僅565萬人為何冬奧18金霸榜? 澳媒:他們不搞體育特種兵體制

      勁爆體壇
      2026-02-23 12:02:06
      伊朗五大庫爾德武裝正式結盟,公開喊出推翻政權,地區風暴將至

      伊朗五大庫爾德武裝正式結盟,公開喊出推翻政權,地區風暴將至

      老馬拉車莫少裝
      2026-02-23 22:26:24
      李亞鵬年初六到陳光標家做客!為陳光標兒子送行,其妻子罕見露臉

      李亞鵬年初六到陳光標家做客!為陳光標兒子送行,其妻子罕見露臉

      無心小姐姐
      2026-02-23 06:31:12
      2026-02-24 08:39:00
      AppSo incentive-icons
      AppSo
      讓智能手機更好用的秘密
      6121文章數 26774關注度
      往期回顧 全部

      科技要聞

      AI顛覆發展最新犧牲品!IBM跳水重挫超13%

      頭條要聞

      牛彈琴:白宮突然發了張圖 傷害性不大侮辱性極強

      頭條要聞

      牛彈琴:白宮突然發了張圖 傷害性不大侮辱性極強

      體育要聞

      蘇翊鳴總結米蘭征程:我仍是那個熱愛單板滑雪的少年

      娛樂要聞

      那藝娜賬號被禁止關注,視頻已清空!

      財經要聞

      速覽!假期這些大事影響節后市場

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      房產
      旅游
      藝術
      時尚
      本地

      房產要聞

      窗前即地標!獨占三亞灣C位 自貿港總裁行宮亮相

      旅游要聞

      躋身春節熱門目的地,上海文旅市場的“開門紅”如何煉成?

      藝術要聞

      這幅草書作品引發熱議,10人中8人可能看不懂。

      今年春天一定要擁有的針織,這樣穿減齡又好看!

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      無障礙瀏覽 進入關懷版